# XML-Pipeline In der **XML-Pipeline** von Squeeze werden XML-Dokumente durch speziell angepasste Verarbeitungsstufen geführt, um den unterschiedlichen Anforderungen der Datenextraktion und Dokumentenkategorisierung gerecht zu werden.
Schritt | Aktuelle Pipeline |
---|---|
**Einganskanäle** | \- Alle Eingangskanäle prüfen die Dokumente auf ihre Validität in Bezug auf die EN16931-Spezifikationen. |
**Initialisierungs-Schritt** | \- Hochgeladene XML-Dateien werden in ein internes Standard-XML-Format (`intermediate.xml`) überführt. Eine PDF wird aus der `intermediate.xml` erzeugt. \- Je nach Kundenwunsch wird in diesem Schritt ein [KoSIT-Prüfbericht](https://docs.squeeze.one/link/500#bkmrk-pdf-pr%C3%BCfbericht-kosi "Einführung Digitale Formate: XML, XRechnung und ZUGFeRD in der Software Squeeze") erstellt. |
**Barcode- Extraktions-Schritt** | \- Viewer-Bilder auf Basis der PDF werden erstellt, gilt auch für ZUGFeRD und XRechnung |
**OCR-Schritt** | \- PDF-Dateien mit eingebetteten XML werden normal verarbeitet, um ein OCR-Ergebnis zu erstellen. \- Dieser Schritt wird für reine XML-Dateien übersprungen. |
**Klassifizierungs-Schritt** | \- Die Klassifizierung von XML-Dokumenten ist derzeit nicht möglich. Eine Fehler wird erzeugt, sobald das Dokument keine Dokumentenklasse nachweist |
**Extraktions-Schritt** | \- Übliche Extraktionsmechanismen werden ausgeführt oder übersprungen durch die Stapelklasseneigenschaft: `SkipXmlExtraction`. \- `intermediate.xml` wird genutzt, um Kreditor und Mandant der XML zu ermitteln. Die eigentliche XML-Extraktion basiert auf der `intermediate.xml`. |