XML-Pipeline

In der XML-Pipeline von Squeeze werden XML-Dokumente durch speziell angepasste Verarbeitungsstufen geführt, um den unterschiedlichen Anforderungen der Datenextraktion und Dokumentenkategorisierung gerecht zu werden. Dieser Abschnitt beschreibt die verarbeiteten Schritte und die Unterschiede zwischen der bisherigen Pipeline (vor Squeeze 2.12) und der neuen ~~Pipeline,~~Pipeline ~~die~~ (ab ~~Version~~Squeeze ~~X.X.X auch benutzerdefinierte XML-Strukturen unterstützt.~~

2.12).

Schritt	Bisherige Pipeline	Neue Pipeline (ab Version 2.12.0)
Einganskanäle	- Alle Eingangskanäle prüfen die Dokumente auf ihre Validität in Bezug auf die EN16931-Spezifikationen.	- Alle Eingangskanäle prüfen Dokumente auf Validität. Es wird geprüft, ob das Dokument den EN16931-Spezifikationen entspricht oder ob es einem benutzerdefinierten Mapping entspricht. - Identifizierte Mapping-Metadaten werden im Dokument unter `/Work/additionalinfo.json` ~~gesichert:~~ gesichert
Initialisierungs-Schritt	- Hochgeladene XML-Dateien werden in ein internes Standard-XML-Format (`intermediate.xml`) überführt. Eine PDF wird aus der `intermediate.xml` erzeugt.	- Prüfung, ob das Dokument XRechnung (CII, UBL) oder ZUGFeRD entspricht. - Transformation und Erstellung eines Zwischenformats. Das Zwischenformat dient als Basis für spezifische Schema-Extraktion und PDF-Erstellung. - Benutzerdefinierte XMLs: Prüfung auf Mapping.
Barcode- Extraktions-Schritt	- Viewer-Bilder auf Basis der PDF werden erstellt. - Dieser Schritt wird für XML-Dateien übersprungen.	- Unverändert: Dieser Schritt wird für XML-Dateien weiterhin übersprungen.
OCR-Schritt	- PDF-Dateien mit eingebetteten XML werden normal verarbeitet, um ein OCR-Ergebnis zu erstellen. - Dieser Schritt wird für reine XML-Dateien übersprungen.	- Unverändert: Dieser Schritt wird für reine XML-Dateien weiterhin übersprungen.
Klassifizierungs-Schritt	- Die Klassifizierung von XML-Dokumenten ist derzeit nicht möglich. Eine ~~Exception~~Fehler wird ~~geworfen,~~erzeugt, wenn der betroffene Code aufgerufen wird.	- Klassifikation durch Identifizieren des Mappings. Bei gefundenem Mapping: Informationen zur Dokumentenklasse werden genutzt, um die Klassifikation des Dokuments zu gestalten.
Extraktions-Schritt	- Übliche Extraktionsmechanismen werden ausgeführt oder übersprungen durch die Stapelklasseneigenschaft: `SkipXmlExtraction`. - `intermediate.xml` wird genutzt, um Kreditor und Mandant der XML zu ermitteln. Die eigentliche XML-Extraktion basiert auf der `intermediate.xml`.	- Extraktion basiert auf dem Mapping, nicht auf einem statischen Konstrukt. Änderungen an einem Mapping in der Administration wirken sich direkt aus. - Bei ZUGFeRD oder XRechnung: Nutzung der `intermediate.xml` und festes System-Mapping, das nicht bearbeitet oder gelöscht werden kann.

Extraktion von XMLs

In der XML-Pipeline von Squeeze erfolgt die XML-Extraktion als aller letzter Schritt vor der Autovalidierung/Validierung und hat dabei eine besondere Rolle: Sie überschreibt extrahierte Feldwerte aus den KI-Extraktionen und den Lokatoren-Ergebnissen. Die Extraktion von XML-Daten basiert auf dem Mapping, welches im Administrationsbereich angepasst werden kann. Alternativen werden gemäß der Definition im Mapping verarbeitet.

Falls ein Hauptwert in der XML nicht gefunden wird, wird die Alternative nicht als Hauptwert verwendet und bleibt stattdessen als Alternative erhalten. Dies gewährleistet, dass nur valide Hauptwerte zur weiteren Verarbeitung und Validierung herangezogen werden, während alternative Werte für eventuelle spätere Verwendungen oder Überprüfungen verfügbar

Rendering von XMLs

Das XML-Rendering in Squeeze bezieht sich auf den Prozess der Erstellung von PDF-Dokumenten aus XML-Dateien. Dieser Prozess unterscheidet sich je nach Art des XML-Dokuments und umfasst spezifische Anforderungen für standardisierte und benutzerdefinierte XML-Formate.

Rendering von Spezifischen XML-Dokumenten

Für standardisierte XML-Formate wie XRechnung und ZUGFeRD, die den Spezifikationen EN16931 entsprechen, erfolgt das Rendering nach den folgenden Schritten:

Erstellung des Zwischenformats: Im InitStep wird aus der XML-Datei ein Zwischenformat erstellt, das als Basis für das PDF-Rendering dient. Dieses Zwischenformat wird aus der intermediate.xml generiert, die die für die PDF-Erstellung benötigten Daten enthält.
PDF-Erzeugung: Basierend auf dem Zwischenformat wird ein PDF-Dokument erstellt, das die strukturierten Daten aus der XML übersichtlich darstellt. Dies ermöglicht die Generierung von PDFs, die den Anforderungen der jeweiligen Spezifikation entsprechen und für den Austausch und die Archivierung verwendet werden können.

Rendering von Nicht-Spezifischen XML-Dokumenten

Für benutzerdefinierte XML-Strukturen (Customized XMLs), die nicht den EN16931-Spezifikationen entsprechen, gibt es derzeit folgende Vorgehensweise:

Prüfung auf Mapping: Im InitStep wird geprüft, ob die benutzerdefinierte XML ein gültiges Mapping hat. Falls ein Mapping vorhanden ist, wird eine Platzhalter-PDF erstellt, die die Struktur und grundlegenden Informationen der XML dokumentiert, jedoch keine vollständige PDF-Generierung wie bei den standardisierten Formaten durchführt.
Platzhalter-PDF: Benutzerdefinierte XML-Dokumente, die ein Mapping aufweisen, erhalten eine Platzhalter-PDF, die grundlegende Informationen enthält, aber nicht die vollständige Detailtiefe wie bei standardisierten XMLs. Diese Platzhalter-PDF dient als temporäre Lösung, bis eine umfassendere Unterstützung für benutzerdefinierte XMLs implementiert wird.

Zukunftsausblick

In einer zukünftigen Version von Squeeze ist geplant, auch für XML-Dokumente, die nicht den EN16931-Spezifikationen entsprechen, eine vollständige PDF-Erzeugung zu ermöglichen. Diese Weiterentwicklung wird es erlauben, alle Arten von XML-Dokumenten einheitlich und umfassend zu rendern, wodurch die Integration und Handhabung von benutzerdefinierten XML-Formaten weiter verbessert wird.