Skip to main content

XML-Pipeline

In der XML-Pipeline von Squeeze werden XML-Dokumente durch speziell angepasste Verarbeitungsstufen geführt, um den unterschiedlichen Anforderungen der Datenextraktion und Dokumentenkategorisierung gerecht zu werden. Dieser Abschnitt beschreibt die verarbeiteten Schritte und die Unterschiede zwischen der bisherigen Pipeline und der neuen Pipeline, die ab Version X.X.X auch benutzerdefinierte XML-Strukturen unterstützt.ku

 

Schritt Bisherige Pipeline Neue Pipeline (ab Version X.X.X)

InitStepEinganskanäle

Alle Eingangskanäle prüfen die Dokumente auf ihre Validität in Bezug auf die EN16931-Spezifikationen.

Alle Eingangskanäle prüfen Dokumente auf Validität. Es wird geprüft, ob das Dokument den EN16931-Spezifikationen entspricht oder ob es einem benutzerdefinierten Mapping entspricht.

Initialisierungs-Schritt

- Hochgeladene XML-Dateien werden in ein internes Standard-XML-Format (intermediate.xml) überführt. Eine PDF wird aus der intermediate.xml erzeugt.

- Prüfung, ob das Dokument XRechnung (CII, UBL) oder ZUGFeRD entspricht. Transformation und Erstellung eines Zwischenformats. Das Zwischenformat dient als Basis für spezifische Schema-Extraktion und PDF-Erstellung. Benutzerdefinierte XMLs: Prüfung auf Mapping.

BarcodeExtractionBarcode- Extraktions-Schritt

- Viewer-Bilder auf Basis der PDF werden erstellt. Dieser Schritt wird für XML-Dateien übersprungen.

Unverändert: Dieser Schritt wird für XML-Dateien weiterhin übersprungen.

OcrOCR-Schritt

- PDF-Dateien mit eingebetteten XML werden normal verarbeitet, um ein OCR-Ergebnis zu erstellen. Dieser Schritt wird für reine XML-Dateien übersprungen.

Unverändert: Dieser Schritt wird für reine XML-Dateien weiterhin übersprungen.

ClassificationKlassifizierungs-Schritt

- Die Klassifizierung von XML-Dokumenten ist derzeit nicht möglich. Eine Exception wird geworfen, wenn der betroffene Code aufgerufen wird.

- Klassifikation durch Identifizieren des Mappings. Bei gefundenem Mapping: Informationen zur Dokumentenklasse werden genutzt, um die Klassifikation des Dokuments zu gestalten.

Extraction

- Übliche Extraktionsmechanismen werden ausgeführt oder übersprungen durch die Stapelklasseneigenschaft: SkipXmlExtraction. intermediate.xml wird genutzt, um Kreditor und Mandant der XML zu ermitteln. Die eigentliche XML-Extraktion basiert auf der intermediate.xml.

- Extraktion basiert auf dem Mapping, nicht auf einem statischen Konstrukt. Änderungen an einem Mapping in der Administration wirken sich direkt aus. Bei ZUGFeRD oder XRechnung: Nutzung der intermediate.xml und festes System-Mapping, das nicht bearbeitet oder gelöscht werden kann.

Extraktion von XMLs

>In TODOder XML-Pipeline von Squeeze erfolgt die XML-Extraktion als aller letzter Schritt vor der Autovalidierung/Validierung und hat dabei eine besondere Rolle: Sie überschreibt extrahierte Feldwerte aus den KI-Extraktionen und den Lokatoren-Ergebnissen. Die Extraktion von XML-Daten basiert auf dem Mapping, welches im Administrationsbereich angepasst werden kann. Alternativen werden gemäß der Definition im Mapping verarbeitet.

Falls ein Hauptwert in der XML nicht gefunden wird, wird die Alternative nicht als Hauptwert verwendet und bleibt stattdessen als Alternative erhalten. Dies gewährleistet, dass nur valide Hauptwerte zur weiteren Verarbeitung und Validierung herangezogen werden, während alternative Werte für eventuelle spätere Verwendungen oder Überprüfungen verfügbar

Rendering von XMLs

>Das TODOXML-Rendering in Squeeze bezieht sich auf den Prozess der Erstellung von PDF-Dokumenten aus XML-Dateien. Dieser Prozess unterscheidet sich je nach Art des XML-Dokuments und umfasst spezifische Anforderungen für standardisierte und benutzerdefinierte XML-Formate.

Rendering von Spezifischen XML-Dokumenten

TODO:Für Dokumentieren,standardisierte XML-Formate wie XRechnung und ZUGFeRD, die XML-Verarbeitungden allgemeinSpezifikationen geschiehtEN16931 entsprechen, erfolgt das Rendering nach den folgenden Schritten:

  1. TODO:Erstellung Abgrenzungdes zuZwischenformats: ZUGFeRD?Im GibtInitStep dawird schonaus unterschiededer imXML-Datei Core.ein Zwischenformat erstellt, das als Basis für das PDF-Rendering dient. Dieses Zwischenformat wird aus der intermediate.xml generiert, die die für die PDF-Erstellung benötigten Daten enthält.

  2. TODO:PDF-Erzeugung: WieBasierend spieltauf diesesdem FeatureZwischenformat mitwird Mail-Importenein zusammen?PDF-Dokument Waserstellt, das die strukturierten Daten aus der XML übersichtlich darstellt. Dies ermöglicht die Generierung von PDFs, die den Anforderungen der jeweiligen Spezifikation entsprechen und für den Austausch und die Archivierung verwendet werden können.

Rendering von Nicht-Spezifischen XML-Dokumenten

Für benutzerdefinierte XML-Strukturen (Customized XMLs), die nicht den EN16931-Spezifikationen entsprechen, gibt es zuderzeit beachten?folgende Vorgehensweise:

  1. TODO:Prüfung Dieauf KlassifizierungMapping: Im InitStep wird geprüft, ob die benutzerdefinierte XML ein gültiges Mapping hat. Falls ein Mapping vorhanden ist, wird eine Platzhalter-PDF erstellt, die die Struktur und grundlegenden Informationen der XML dokumentiert, jedoch keine vollständige PDF-Generierung wie bei den standardisierten Formaten durchführt.

  2. Platzhalter-PDF: Benutzerdefinierte XML-Dokumente, die ein Mapping aufweisen, erhalten eine Platzhalter-PDF, die grundlegende Informationen enthält, aber nicht die vollständige Detailtiefe wie bei standardisierten XMLs. Diese Platzhalter-PDF dient als temporäre Lösung, bis eine umfassendere Unterstützung für benutzerdefinierte XMLs implementiert wird.

Zukunftsausblick

In einer zukünftigen Version von XMLSqueeze ist aktuellgeplant, auch für XML-Dokumente, die nicht möglich.den DaEN16931-Spezifikationen entsprechen, eine vollständige PDF-Erzeugung zu ermöglichen. Diese Weiterentwicklung wird sogares eineerlauben, Exceptionalle geworfen,Arten fallsvon derXML-Dokumenten betroffene Code aufgerufen wird. Zum einen fraglich ob wir das mal verbessern, zum anderen sollte das vermutlich besser dokumentiert sein.

Testcases:
- XML ohne Dokumentenklasse hochladen
- ZUGFeRD ohne Dokumentenklasse hochladen

TODO: In der Extraktion werden mit executeXRechnungInvoiceSolution Invoice-Spezifische Dinge erledigt, Lieferanteinheitlich und Kreditorumfassend zu ermitteln.

Dasrendern, istwodurch keinedie saubereIntegration Trennungund Handhabung von Corebenutzerdefinierten undXML-Formaten Solution.weiter verbessert wird.