XML-Pipeline

Einleitung

XML-Dateien in SQUEEZE mit einer anderen techischen Pipeline verarbeitet als PDFs oder einzelne Bilder. Das liegt daran, dass nicht alle Schritte der Standard-Pipeline wie z. B. Texterkennung sinnvoll anwendbar sind.

Stattdessen werden XML-Dateien in den hier erklärten Schritten verarbeitet.

XML-Pipeline

~~Importierte bzw. hochgeladene Dokumente durchlaufen diese Schritte:~~

~~ersten~~

~~Schritt,~~

~~dem~~

~~werden für PDF-Dateien mit einer eingebetteten XML weiterhin~~

~~Im Schritt~~

~~werden~~

~~Im Schritt~~

~~durchgeführt.undTabellengemappt~~

Schritt	Bisherige Pipeline	Neue Pipeline (ab Version X.X.X)
InitStep	- ~~werden hochgeladene~~Hochgeladene XML-~~Dateien,~~Dateien ~~die einer entsprechen,~~werden in ein internes Standard-XML-Format (`intermediate.xml`) überführt. ~~Die~~Eine ~~entstandene Datei ist die~~ ~~intermediate.xml~~ ~~für die~~ ~~intermediate.xml~~PDF wird ~~eine~~aus ~~PDF~~der `intermediate.xml` erzeugt.	- Prüfung, ob das ImDokument ~~Schritt~~XRechnung (CII, UBL) oder ZUGFeRD entspricht. Transformation und Erstellung eines Zwischenformats. Das Zwischenformat dient als Basis für spezifische Schema-Extraktion und PDF-Erstellung. Benutzerdefinierte XMLs: Prüfung auf Mapping.
BarcodeExtraction	- Viewer-Bilder auf Basis der PDF werden erstellt. ~~Davon~~Dieser ~~abgesehen,~~Schritt wird ~~dieser~~für XML-Dateien übersprungen.	Unverändert: Dieser Schritt wird für XML-Dateien weiterhin übersprungen.
Ocr	- PDF-Dateien mit ~~einer~~ eingebetteten XML werden normal verarbeitet, um ein OCR-Ergebnis zu erstellen. ~~Davon~~Dieser ~~abgesehen,~~Schritt wird ~~dieser~~für reine XML-Dateien übersprungen.	Unverändert: Dieser Schritt wird für reine XML-Dateien weiterhin übersprungen.
Classification	- ~~TODO:~~Die ~~Dokumentieren,~~Klassifizierung ~~dass~~von ~~das~~XML-Dokumenten ~~noch~~ist ~~gar~~derzeit nicht ~~geht~~ möglich. Eine Exception Imwird ~~Schritt~~geworfen, wenn der betroffene Code aufgerufen wird.	- Klassifikation durch Identifizieren des Mappings. Bei gefundenem Mapping: Informationen zur Dokumentenklasse werden genutzt, um die Klassifikation des Dokuments zu gestalten.
Extraction	- ~~werden übliche~~Übliche Extraktionsmechanismen ~~weiterhin~~werden ausgeführt oder übersprungen durch die Stapelklasseneigenschaft: `SkipXmlExtraction`. `intermediate.xml` wird ~~nach~~ ~~dem Übernehmen von vordefinierten Feldwerten und~~ ~~vor~~ ~~dem Ausführen von Lokatoren die~~ ~~intermediate.xml~~ ~~genutzt~~genutzt, um Kreditor und Mandant der XML zu ermitteln. ~~Dieses Verhalten ist Invoice-Spezifisch.~~ ~~wird nach dem Ausführen von Lokatoren und vor dem Ausführen der Autovalidierung die~~Die eigentliche XML-Extraktion basiert auf ~~Basis~~ der `intermediate.xml`.	- Extraktion ~~Hier~~basiert auf dem Mapping, nicht auf einem statischen Konstrukt. Änderungen an einem Mapping in der Administration wirken sich direkt aus. Bei ZUGFeRD oder XRechnung: Nutzung der `intermediate.xml` und festes System-Mapping, das nicht bearbeitet oder gelöscht werden ~~Felder~~kann.

~~Und~~

~~erneut~~

~~die~~

~~XML~~

XML-Pipeline

Einleitung

XML-Pipeline

Extraktion von XMLs

Rendering von XMLs