Skip to main content

XML-Pipeline

Einleitung

XML-Dateien in SQUEEZE mit einer anderen techischen Pipeline verarbeitet als PDFs oder einzelne Bilder. Das liegt daran, dass nicht alle SchritteIn der Standard-XML-Pipeline wievon z. B. Texterkennung sinnvoll anwendbar sind.

StattdessenSqueeze werden XML-DateienDokumente durch speziell angepasste Verarbeitungsstufen geführt, um den unterschiedlichen Anforderungen der Datenextraktion und Dokumentenkategorisierung gerecht zu werden. Dieser Abschnitt beschreibt die verarbeiteten Schritte und die Unterschiede zwischen der bisherigen Pipeline und der neuen Pipeline, die ab Version X.X.X auch benutzerdefinierte XML-Strukturen unterstützt.ku

 

  • Im
    1. Im
      1. werden
        1. Tabellengemappt
        2. Und
        3. SchrittBisherige PipelineNeue Pipeline (ab Version X.X.X)

          Einganskanäle

          Alle Eingangskanäle prüfen die Dokumente auf ihre Validität in denBezug hierauf erklärtendie Schritten verarbeitet.EN16931-Spezifikationen.

          XML-Pipeline

          ImportierteAlle bzw.Eingangskanäle hochgeladeneprüfen Dokumente durchlaufenauf dieseValidität. Schritte:

          Es
            wird
          1. Imgeprüft, erstenob Schritt,das demDokument InitStepden
              EN16931-Spezifikationen
            1. werdenentspricht hochgeladeneoder XML-Dateien,ob diees einem unterstütztembenutzerdefinierten Mapping entspricht.

          Initialisierungs-Schritt

          - Hochgeladene XML-SchemaDateien entsprechen,werden in ein internes Standard-XML-Format (intermediate.xml) überführt. DieEine entstandene Datei ist die intermediate.xml

        4. für die intermediate.xmlPDF wird eineaus PDFder intermediate.xml erzeugt.
        5. Im

          - SchrittPrüfung, BarcodeExtractionob

            das
          1. werdenDokument XRechnung (CII, UBL) oder ZUGFeRD entspricht. Transformation und Erstellung eines Zwischenformats. Das Zwischenformat dient als Basis für spezifische Schema-Extraktion und PDF-DateienErstellung. mitBenutzerdefinierte einerXMLs: eingebettetenPrüfung XMLauf weiterhinMapping.

        6. Barcode- Extraktions-Schritt

          - Viewer-Bilder auf Basis der PDF werden erstellt.

        7. DavonDieser abgesehen,Schritt wird dieserfür XML-Dateien übersprungen.

        8. Unverändert: Dieser Schritt wird für XML-Dateien weiterhin übersprungen.

          OCR-Schritt

          Ocr
        9. werden

          - PDF-Dateien mit einer eingebetteten XML werden normal verarbeitet, um ein OCR-Ergebnis zu erstellen.

        10. DavonDieser abgesehen,Schritt wird dieserfür reine XML-Dateien übersprungen.

        11. Unverändert: Dieser Schritt wird für reine XML-Dateien weiterhin übersprungen.

          Klassifizierungs-Schritt

          Classification
        12. TODO:

          - Dokumentieren,Die dassKlassifizierung dasvon nochXML-Dokumenten garist derzeit nicht geht

        13. möglich. Eine Exception
        14. Imwird Schrittgeworfen, wenn der betroffene Code aufgerufen wird.

        15. - Klassifikation durch Identifizieren des Mappings. Bei gefundenem Mapping: Informationen zur Dokumentenklasse werden genutzt, um die Klassifikation des Dokuments zu gestalten.

          Extraction

            übliche

            - Übliche Extraktionsmechanismen weiterhinwerden ausgeführt oder übersprungen durch die Stapelklasseneigenschaft: SkipXmlExtraction.

          1. intermediate.xml wird nach dem Übernehmen von vordefinierten Feldwerten und vor dem Ausführen von Lokatoren die intermediate.xml genutztgenutzt, um Kreditor und Mandant der XML zu ermitteln. Dieses Verhalten ist Invoice-Spezifisch.
          2. wird nach dem Ausführen von Lokatoren und vor dem Ausführen der Autovalidierung dieDie eigentliche XML-Extraktion basiert auf Basis der intermediate.xml.

            durchgeführt.
          3. Hier

            - Extraktion basiert auf dem Mapping, nicht auf einem statischen Konstrukt. Änderungen an einem Mapping in der Administration wirken sich direkt aus. Bei ZUGFeRD oder XRechnung: Nutzung der intermediate.xml und festes System-Mapping, das nicht bearbeitet oder gelöscht werden Felderkann.

            und
          4. erneut
            die XML als PDF gerendert?!

            Extraktion von XMLs

            >In TODOder XML-Pipeline von Squeeze erfolgt die XML-Extraktion als aller letzter Schritt vor der Autovalidierung/Validierung und hat dabei eine besondere Rolle: Sie überschreibt extrahierte Feldwerte aus den KI-Extraktionen und den Lokatoren-Ergebnissen. Die Extraktion von XML-Daten basiert auf dem Mapping, welches im Administrationsbereich angepasst werden kann. Alternativen werden gemäß der Definition im Mapping verarbeitet.

            Falls ein Hauptwert in der XML nicht gefunden wird, wird die Alternative nicht als Hauptwert verwendet und bleibt stattdessen als Alternative erhalten. Dies gewährleistet, dass nur valide Hauptwerte zur weiteren Verarbeitung und Validierung herangezogen werden, während alternative Werte für eventuelle spätere Verwendungen oder Überprüfungen verfügbar

            Rendering von XMLs

            >Das TODOXML-Rendering in Squeeze bezieht sich auf den Prozess der Erstellung von PDF-Dokumenten aus XML-Dateien. Dieser Prozess unterscheidet sich je nach Art des XML-Dokuments und umfasst spezifische Anforderungen für standardisierte und benutzerdefinierte XML-Formate.

            Rendering von Spezifischen XML-Dokumenten

            TODO:Für Dokumentieren,standardisierte XML-Formate wie XRechnung und ZUGFeRD, die XML-Verarbeitungden allgemeinSpezifikationen geschiehtEN16931 entsprechen, erfolgt das Rendering nach den folgenden Schritten:

            1. TODO:Erstellung Abgrenzungdes zuZwischenformats: ZUGFeRD?Im GibtInitStep dawird schonaus unterschiededer imXML-Datei Core.ein Zwischenformat erstellt, das als Basis für das PDF-Rendering dient. Dieses Zwischenformat wird aus der intermediate.xml generiert, die die für die PDF-Erstellung benötigten Daten enthält.

            2. TODO:PDF-Erzeugung: WieBasierend spieltauf diesesdem FeatureZwischenformat mitwird Mail-Importenein zusammen?PDF-Dokument Waserstellt, das die strukturierten Daten aus der XML übersichtlich darstellt. Dies ermöglicht die Generierung von PDFs, die den Anforderungen der jeweiligen Spezifikation entsprechen und für den Austausch und die Archivierung verwendet werden können.

            Rendering von Nicht-Spezifischen XML-Dokumenten

            Für benutzerdefinierte XML-Strukturen (Customized XMLs), die nicht den EN16931-Spezifikationen entsprechen, gibt es zuderzeit beachten?folgende Vorgehensweise:

            1. TODO:Prüfung Dieauf KlassifizierungMapping: Im InitStep wird geprüft, ob die benutzerdefinierte XML ein gültiges Mapping hat. Falls ein Mapping vorhanden ist, wird eine Platzhalter-PDF erstellt, die die Struktur und grundlegenden Informationen der XML dokumentiert, jedoch keine vollständige PDF-Generierung wie bei den standardisierten Formaten durchführt.

            2. Platzhalter-PDF: Benutzerdefinierte XML-Dokumente, die ein Mapping aufweisen, erhalten eine Platzhalter-PDF, die grundlegende Informationen enthält, aber nicht die vollständige Detailtiefe wie bei standardisierten XMLs. Diese Platzhalter-PDF dient als temporäre Lösung, bis eine umfassendere Unterstützung für benutzerdefinierte XMLs implementiert wird.

            Zukunftsausblick

            In einer zukünftigen Version von XMLSqueeze ist aktuellgeplant, auch für XML-Dokumente, die nicht möglich.den DaEN16931-Spezifikationen entsprechen, eine vollständige PDF-Erzeugung zu ermöglichen. Diese Weiterentwicklung wird sogares eineerlauben, Exceptionalle geworfen,Arten fallsvon derXML-Dokumenten betroffene Code aufgerufen wird. Zum einen fraglich ob wir das mal verbessern, zum anderen sollte das vermutlich besser dokumentiert sein.

            Testcases:
            - XML ohne Dokumentenklasse hochladen
            - ZUGFeRD ohne Dokumentenklasse hochladen

            TODO: In der Extraktion werden mit executeXRechnungInvoiceSolution Invoice-Spezifische Dinge erledigt, Lieferanteinheitlich und Kreditorumfassend zu ermitteln.

            Dasrendern, istwodurch keinedie saubereIntegration Trennungund Handhabung von Corebenutzerdefinierten undXML-Formaten Solution.weiter verbessert wird.