XML-Pipeline

In der XML-Pipeline von Squeeze werden XML-Dokumente durch speziell angepasste Verarbeitungsstufen geführt, um den unterschiedlichen Anforderungen der Datenextraktion und Dokumentenkategorisierung gerecht zu werden. Dieser Abschnitt beschreibt die verarbeiteten Schritte und die Unterschiede zwischen der bisherigen Pipeline und der neuen Pipeline, die ab Version X.X.X auch benutzerdefinierte XML-Strukturen unterstützt.ku

Schritt	Bisherige Pipeline	Neue Pipeline (ab Version X.X.X)
~~InitStep~~Einganskanäle	Alle Eingangskanäle prüfen die Dokumente auf ihre Validität in Bezug auf die EN16931-Spezifikationen.	Alle Eingangskanäle prüfen Dokumente auf Validität. Es wird geprüft, ob das Dokument den EN16931-Spezifikationen entspricht oder ob es einem benutzerdefinierten Mapping entspricht.
Initialisierungs-Schritt	- Hochgeladene XML-Dateien werden in ein internes Standard-XML-Format (`intermediate.xml`) überführt. Eine PDF wird aus der `intermediate.xml` erzeugt.	- Prüfung, ob das Dokument XRechnung (CII, UBL) oder ZUGFeRD entspricht. Transformation und Erstellung eines Zwischenformats. Das Zwischenformat dient als Basis für spezifische Schema-Extraktion und PDF-Erstellung. Benutzerdefinierte XMLs: Prüfung auf Mapping.
~~BarcodeExtraction~~Barcode- Extraktions-Schritt	- Viewer-Bilder auf Basis der PDF werden erstellt. Dieser Schritt wird für XML-Dateien übersprungen.	Unverändert: Dieser Schritt wird für XML-Dateien weiterhin übersprungen.
~~Ocr~~OCR-Schritt	- PDF-Dateien mit eingebetteten XML werden normal verarbeitet, um ein OCR-Ergebnis zu erstellen. Dieser Schritt wird für reine XML-Dateien übersprungen.	Unverändert: Dieser Schritt wird für reine XML-Dateien weiterhin übersprungen.
~~Classification~~Klassifizierungs-Schritt	- Die Klassifizierung von XML-Dokumenten ist derzeit nicht möglich. Eine Exception wird geworfen, wenn der betroffene Code aufgerufen wird.	- Klassifikation durch Identifizieren des Mappings. Bei gefundenem Mapping: Informationen zur Dokumentenklasse werden genutzt, um die Klassifikation des Dokuments zu gestalten.
Extraction	- Übliche Extraktionsmechanismen werden ausgeführt oder übersprungen durch die Stapelklasseneigenschaft: `SkipXmlExtraction`. `intermediate.xml` wird genutzt, um Kreditor und Mandant der XML zu ermitteln. Die eigentliche XML-Extraktion basiert auf der `intermediate.xml`.	- Extraktion basiert auf dem Mapping, nicht auf einem statischen Konstrukt. Änderungen an einem Mapping in der Administration wirken sich direkt aus. Bei ZUGFeRD oder XRechnung: Nutzung der `intermediate.xml` und festes System-Mapping, das nicht bearbeitet oder gelöscht werden kann.

Extraktion von XMLs

>In ~~TODO~~der XML-Pipeline von Squeeze erfolgt die XML-Extraktion als aller letzter Schritt vor der Autovalidierung/Validierung und hat dabei eine besondere Rolle: Sie überschreibt extrahierte Feldwerte aus den KI-Extraktionen und den Lokatoren-Ergebnissen. Die Extraktion von XML-Daten basiert auf dem Mapping, welches im Administrationsbereich angepasst werden kann. Alternativen werden gemäß der Definition im Mapping verarbeitet.

Falls ein Hauptwert in der XML nicht gefunden wird, wird die Alternative nicht als Hauptwert verwendet und bleibt stattdessen als Alternative erhalten. Dies gewährleistet, dass nur valide Hauptwerte zur weiteren Verarbeitung und Validierung herangezogen werden, während alternative Werte für eventuelle spätere Verwendungen oder Überprüfungen verfügbar

Rendering von XMLs

>Das ~~TODO~~XML-Rendering in Squeeze bezieht sich auf den Prozess der Erstellung von PDF-Dokumenten aus XML-Dateien. Dieser Prozess unterscheidet sich je nach Art des XML-Dokuments und umfasst spezifische Anforderungen für standardisierte und benutzerdefinierte XML-Formate.

Rendering von Spezifischen XML-Dokumenten

~~TODO:~~Für ~~Dokumentieren,~~standardisierte XML-Formate wie XRechnung und ZUGFeRD, die ~~XML-Verarbeitung~~den ~~allgemein~~Spezifikationen ~~geschieht~~EN16931 entsprechen, erfolgt das Rendering nach den folgenden Schritten:

~~TODO:~~Erstellung ~~Abgrenzung~~des zuZwischenformats: ~~ZUGFeRD?~~Im ~~Gibt~~InitStep dawird ~~schon~~aus ~~unterschiede~~der imXML-Datei ~~Core.~~ein Zwischenformat erstellt, das als Basis für das PDF-Rendering dient. Dieses Zwischenformat wird aus der intermediate.xml generiert, die die für die PDF-Erstellung benötigten Daten enthält.

~~TODO:~~PDF-Erzeugung: ~~Wie~~Basierend ~~spielt~~auf ~~dieses~~dem ~~Feature~~Zwischenformat ~~mit~~wird ~~Mail-Importen~~ein ~~zusammen?~~PDF-Dokument ~~Was~~erstellt, das die strukturierten Daten aus der XML übersichtlich darstellt. Dies ermöglicht die Generierung von PDFs, die den Anforderungen der jeweiligen Spezifikation entsprechen und für den Austausch und die Archivierung verwendet werden können.

Rendering von Nicht-Spezifischen XML-Dokumenten

Für benutzerdefinierte XML-Strukturen (Customized XMLs), die nicht den EN16931-Spezifikationen entsprechen, gibt es zuderzeit ~~beachten?~~folgende Vorgehensweise:

~~TODO:~~Prüfung ~~Die~~auf ~~Klassifizierung~~Mapping: Im InitStep wird geprüft, ob die benutzerdefinierte XML ein gültiges Mapping hat. Falls ein Mapping vorhanden ist, wird eine Platzhalter-PDF erstellt, die die Struktur und grundlegenden Informationen der XML dokumentiert, jedoch keine vollständige PDF-Generierung wie bei den standardisierten Formaten durchführt.

Platzhalter-PDF: Benutzerdefinierte XML-Dokumente, die ein Mapping aufweisen, erhalten eine Platzhalter-PDF, die grundlegende Informationen enthält, aber nicht die vollständige Detailtiefe wie bei standardisierten XMLs. Diese Platzhalter-PDF dient als temporäre Lösung, bis eine umfassendere Unterstützung für benutzerdefinierte XMLs implementiert wird.

Zukunftsausblick

In einer zukünftigen Version von ~~XML~~Squeeze ist ~~aktuell~~geplant, auch für XML-Dokumente, die nicht ~~möglich.~~den DaEN16931-Spezifikationen entsprechen, eine vollständige PDF-Erzeugung zu ermöglichen. Diese Weiterentwicklung wird ~~sogar~~es ~~eine~~erlauben, ~~Exception~~alle ~~geworfen,~~Arten ~~falls~~von ~~der~~XML-Dokumenten ~~betroffene Code aufgerufen wird. Zum einen fraglich ob wir das mal verbessern, zum anderen sollte das vermutlich besser dokumentiert sein.~~

~~Testcases:~~
~~- XML ohne Dokumentenklasse hochladen~~
~~- ZUGFeRD ohne Dokumentenklasse hochladen~~

~~TODO: In der Extraktion werden mit executeXRechnungInvoiceSolution Invoice-Spezifische Dinge erledigt, Lieferant~~einheitlich und ~~Kreditor~~umfassend zu ~~ermitteln.~~

~~Das~~rendern, ~~ist~~wodurch ~~keine~~die ~~saubere~~Integration ~~Trennung~~und Handhabung von ~~Core~~benutzerdefinierten ~~und~~XML-Formaten ~~Solution.~~weiter verbessert wird.