XML-Pipeline

Einleitung

InXML-Dateien in SQUEEZE mit einer anderen techischen Pipeline verarbeitet als PDFs oder einzelne Bilder. Das liegt daran, dass nicht alle Schritte der ~~XML-~~Standard-Pipeline ~~von~~wie ~~Squeeze~~z. B. Texterkennung sinnvoll anwendbar sind.

Stattdessen werden XML-~~Dokumente~~Dateien ~~durch speziell angepasste Verarbeitungsstufen geführt, um~~in den ~~unterschiedlichen~~hier ~~Anforderungen~~erklärten ~~der~~Schritten ~~Datenextraktion~~verarbeitet.

~~und~~

XML-Pipeline

~~Dokumentenkategorisierung~~

Importierte ~~gerecht~~bzw. zuhochgeladene ~~werden.~~Dokumente ~~Dieser~~durchlaufen ~~Abschnitt~~diese ~~beschreibt~~Schritte:

Im ersten Schritt, dem InitStep

werden hochgeladene XML-Dateien, die ~~verarbeiteten~~einem ~~Schritte und die Unterschiede zwischen der bisherigen Pipeline und der neuen Pipeline, die ab Version X.X.X auch benutzerdefinierte~~unterstütztem XML-~~Strukturen~~Schema ~~unterstützt.ku~~

BarcodeExtraction noch

durchgeführt.

~~Schritt~~	~~Bisherige Pipeline~~	~~Neue Pipeline (ab Version X.X.X)~~
~~Einganskanäle~~	~~Alle Eingangskanäle prüfen die Dokumente auf ihre Validität in Bezug auf die EN16931-Spezifikationen.~~	~~Alle Eingangskanäle prüfen Dokumente auf Validität. Es wird geprüft, ob das Dokument den EN16931-Spezifikationen entspricht oder ob es einem benutzerdefinierten Mapping entspricht.~~
~~Initialisierungs-Schritt~~	~~- Hochgeladene XML-Dateien werden~~entsprechen, in ein internes Standard-XML-Format (`überführt. Die entstandene Datei ist die intermediate.xml`) ~~überführt.~~ für ~~Eine~~die intermediate.xml wird eine PDF ~~wird~~erzeugt. ~~aus~~ ~~der~~ `intermediate.xml` Im ~~erzeugt.~~ Schritt	~~- Prüfung, ob das Dokument XRechnung (CII, UBL) oder ZUGFeRD entspricht. Transformation und Erstellung eines Zwischenformats. Das Zwischenformat dient als Basis~~ werden für ~~spezifische~~PDF-Dateien ~~Schema-Extraktion~~mit ~~und~~einer ~~PDF-Erstellung.~~eingebetteten ~~Benutzerdefinierte~~XML ~~XMLs: Prüfung auf Mapping.~~
~~Barcode- Extraktions-Schritt~~	-weiterhin Viewer-Bilder auf Basis der PDF ~~werden~~erstellt. ~~erstellt.~~ Davon ~~Dieser~~abgesehen, wird dieser Schritt ~~wird~~übersprungen. ~~für~~ ~~XML-Dateien~~ ~~übersprungen.~~	~~Unverändert: Dieser~~ Im Schritt ~~wird~~Ocr ~~für~~ ~~XML-Dateien weiterhin übersprungen.~~
~~OCR-Schritt~~	- werden PDF-Dateien mit einer eingebetteten XML ~~werden~~ normal verarbeitet, um ein OCR-Ergebnis zu erstellen. ~~Dieser~~ Davon abgesehen, wird dieser Schritt ~~wird~~übersprungen. ~~für~~ ~~reine~~ ~~XML-Dateien übersprungen.~~	~~Unverändert: Dieser~~ Im Schritt ~~wird~~Classification ~~für~~ ~~reine~~ TODO: ~~XML-Dateien~~Dokumentieren, ~~weiterhin~~dass ~~übersprungen.~~ das
~~Klassifizierungs-Schritt~~	~~- Die Klassifizierung von XML-Dokumenten ist derzeit~~gar nicht ~~möglich.~~geht ~~Eine~~ ~~Exception~~ ~~wird~~ Im ~~geworfen,~~Schritt ~~wenn der betroffene Code aufgerufen wird.~~	~~- Klassifikation durch Identifizieren des Mappings. Bei gefundenem Mapping: Informationen zur Dokumentenklasse werden genutzt, um die Klassifikation des Dokuments zu gestalten.~~
Extraction	werden ~~- Übliche~~übliche Extraktionsmechanismen ~~werden~~weiterhin ausgeführt oder übersprungen durch die Stapelklasseneigenschaft: `SkipXmlExtraction`. `wird nach dem Übernehmen von vordefinierten Feldwerten und vor dem Ausführen von Lokatoren die intermediate.xml` ~~wird genutzt,~~genutzt um Kreditor und Mandant der XML zu ermitteln. ~~Die~~Dieses Verhalten ist Invoice-Spezifisch. wird nach dem Ausführen von Lokatoren und vor dem Ausführen der Autovalidierung die eigentliche XML-Extraktion ~~basiert~~auf ~~auf~~Basis der `intermediate.xml`.	- Hier ~~Extraktion~~werden ~~basiert auf dem Mapping, nicht auf einem statischen Konstrukt. Änderungen an einem Mapping in der Administration wirken sich direkt aus. Bei ZUGFeRD oder XRechnung: Nutzung der~~ `intermediate.xml`Felder und ~~festes~~Tabellen ~~System-Mapping,~~gemappt ~~das~~ Und ~~nicht~~erneut ~~bearbeitet~~die ~~oder~~XML ~~gelöscht~~als ~~werden~~PDF ~~kann.~~ gerendert?!

Extraktion von XMLs

In> ~~der~~ ~~XML-Pipeline~~ von Squeeze erfolgt die XML-Extraktion als aller letzter Schritt vor der Autovalidierung/Validierung und hat dabei eine besondere Rolle: Sie überschreibt extrahierte Feldwerte aus den KI-Extraktionen und den Lokatoren-Ergebnissen. Die Extraktion von XML-Daten basiert auf dem Mapping, welches im Administrationsbereich angepasst werden kann. Alternativen werden gemäß der Definition im Mapping verarbeitet.

~~Falls ein Hauptwert in der XML nicht gefunden wird, wird die Alternative~~ ~~nicht~~ als Hauptwert verwendet und bleibt stattdessen als Alternative erhalten. Dies gewährleistet, dass nur valide Hauptwerte zur weiteren Verarbeitung und Validierung herangezogen werden, während alternative Werte für eventuelle spätere Verwendungen oder Überprüfungen verfügbarTODO

Rendering von XMLs

~~Das~~> ~~XML-Rendering~~ in Squeeze bezieht sich auf den Prozess der Erstellung von PDF-Dokumenten aus XML-Dateien. Dieser Prozess unterscheidet sich je nach Art des XML-Dokuments und umfasst spezifische Anforderungen für standardisierte und benutzerdefinierte XML-Formate.TODO

Rendering
TODO: von Spezifischen XML-Dokumenten

~~Für standardisierte XML-Formate~~Dokumentieren, wie ~~XRechnung und ZUGFeRD,~~ die ~~den~~XML-Verarbeitung ~~Spezifikationen~~allgemein ~~EN16931 entsprechen, erfolgt das Rendering nach den folgenden Schritten:~~geschieht

TODO:

Abgrenzung zu ZUGFeRD? Gibt da schon unterschiede im Core.

~~Erstellung~~TODO: ~~des~~Wie ~~Zwischenformats~~:spielt Imdieses ~~InitStep~~Feature ~~wird~~mit ~~aus~~Mail-Importen ~~der~~zusammen? ~~XML-Datei ein Zwischenformat erstellt, das als Basis für das PDF-Rendering dient. Dieses Zwischenformat wird aus der~~ intermediate.xml ~~generiert, die die für die PDF-Erstellung benötigten Daten enthält.~~

~~PDF-Erzeugung~~: Basierend auf dem Zwischenformat wird ein PDF-Dokument erstellt, das die strukturierten Daten aus der XML übersichtlich darstellt. Dies ermöglicht die Generierung von PDFs, die den Anforderungen der jeweiligen Spezifikation entsprechen und für den Austausch und die Archivierung verwendet werden können.

Rendering von Nicht-Spezifischen XML-Dokumenten

~~Für benutzerdefinierte XML-Strukturen (Customized XMLs), die nicht den EN16931-Spezifikationen entsprechen,~~Was gibt es ~~derzeit~~zu ~~folgende Vorgehensweise:~~beachten?

TODO:

Die
~~Prüfung~~Klassifizierung ~~auf~~von ~~Mapping~~:XML Imist ~~InitStep~~aktuell nicht möglich. Da wird ~~geprüft,~~sogar eine Exception geworfen, falls der betroffene Code aufgerufen wird. Zum einen fraglich ob ~~die~~wir ~~benutzerdefinierte~~das mal verbessern, zum anderen sollte das vermutlich besser dokumentiert sein.

Testcases:
- XML ~~ein~~ohne ~~gültiges~~Dokumentenklasse ~~Mapping~~hochladen
- ~~hat.~~ZUGFeRD ~~Falls~~ohne ~~ein~~Dokumentenklasse ~~Mapping~~hochladen
~~vorhanden~~
TODO: ~~ist,~~In ~~wird~~der ~~eine~~Extraktion ~~Platzhalter-PDF~~werden ~~erstellt,~~mit ~~die~~executeXRechnungInvoiceSolution ~~die~~Invoice-Spezifische ~~Struktur~~Dinge erledigt, Lieferant und ~~grundlegenden~~Kreditor ~~Informationen~~zu ~~der~~ermitteln.

Das ~~XML dokumentiert, jedoch~~ist keine ~~vollständige~~saubere ~~PDF-Generierung wie bei den standardisierten Formaten durchführt.~~

~~Platzhalter-PDF~~: Benutzerdefinierte XML-Dokumente, die ein Mapping aufweisen, erhalten eine Platzhalter-PDF, die grundlegende Informationen enthält, aber nicht die vollständige Detailtiefe wie bei standardisierten XMLs. Diese Platzhalter-PDF dient als temporäre Lösung, bis eine umfassendere Unterstützung für benutzerdefinierte XMLs implementiert wird.

Zukunftsausblick

~~In einer zukünftigen Version~~Trennung von Squeeze ist geplant, auch für XML-Dokumente, die nicht den EN16931-Spezifikationen entsprechen, eine vollständige PDF-Erzeugung zu ermöglichen. Diese Weiterentwicklung wird es erlauben, alle Arten von XML-Dokumenten einheitlichCore und ~~umfassend zu rendern, wodurch die Integration und Handhabung von benutzerdefinierten XML-Formaten weiter verbessert wird.~~Solution.

XML-Pipeline

Einleitung

XML-Pipeline

Extraktion von XMLs

Rendering von XMLs

RenderingTODO: von Spezifischen XML-Dokumenten

Rendering von Nicht-Spezifischen XML-Dokumenten

Zukunftsausblick

Rendering
TODO: von Spezifischen XML-Dokumenten