Formulare trainieren
Beim Formulartraining werden Formulare in Bereiche (Regionen) aufgeteilt. Jeder Bereich enthält spezifische Informationen (Felder). Das System wird trainiert, diese Bereiche und die darin enthaltenen Informationen zu erkennen, indem es nach bestimmten Schlüsselwörtern und Mustern sucht.
Der Prozess funktioniert wie folgt:
- Einteilung in Regionen:
Formulare werden in verschiedene Abschnitte (Regionen) unterteilt.
Regionen haben Anker (die Schlüsselworte) um eine Region zu identifizieren. - Identifizierung von Feldern:
Zu jeder Region (bzw. zu jedem Regionsanker) werden die einzelnen Informationen (Felder) festgelegt.
Die Felder werdenmitin Relation zum Regionsanker trainiert. - Suchen nach
Schlüsselwörtern:Schlüsselwörtern (Regionsanker):Das System sucht nach bestimmten Wörtern oder Phrasen (Schlüsselwörter), um eine Region zu identifizieren.
Dazu wird der zuvor (trainierte) markierte Bereich herangezogen. - Suchen nach Werten von Feldern zu Regionen:
Das System sucht nachbestimmtenWertenWörternundoderMusternPhrasenin Relation zum gefundenen Schlüsselwort der Region (Wert),Regionsanker).
DieumgefundenenFeldwertinhalteFeldwertezuwerdenextrahieren.inDiesediewerdentrainierten Felder geschrieben.
Ziel des Trainings:
Durch diesen Prozess lerntwird das System,System trainiert, sich gleichende Formulare automatisch zu analysieren und die relevanten Informationen zu extrahieren.
Kopffeldtraining
Um die Kopffelder zu identifizieren, muss zunächst die Region in der die Felder zu extrahieren sind trainiert werden.
Die Trainingsfunktion sucht zuerst die Regionsanker und richtet daran die markierten Bereiche der trainierten Felder aus.
Regionsanker konfigurieren
Der Regionsanker stellt einen Anker dar.
Wenn dieser gefunden wurde, können die (in Relation) zur Region trainierten Felder ermittelt werden.
Es kann mehr als einen Regionsanker geben und zu jeder Region bis zu n Felder trainiert werden.
| Attribut | Beschreibung |
| Lieferanten-Nr. | Stellt den Trainingsschlüssel dar, an dem das Training geknüpft wird. Bisher ist es das Feld "CreditorId". |
| Beschreibung | Beschreibung der Region. Erleichtert die Auswahl der Region bei den Feldtrainings. |
| Schlüsselbegriff | Enthält auch den gezogenen Bereich (Bounding Box) in dem das Schlüsselwort gesucht wird. |
| Ignoriere Leerzeichen | Auswahlliste um bei der Ermittlung des Schlüsselwortes die Leerzeichen zu ignorieren. Kann den |
Vorgehen
- Beschreibung der Region
- Markieren des Schlüsselbegriffes
- Festlegung ob Leerzeichen ignoriert werden sollen
- "Trainieren" Button betätigen um den Regionsanker zu speichern
Beispiel - Ausfuhrbegleitdokument
Umtrainieren
Trainierte Regionen werden in der Tabelle aufgelistet.
Durch einen Klick auf den Stift kann der RegexRegEx des Schlüsselwortes geändert werden - ebenso ob Leerzeichen ignoriert werden
Mit betätigen des "Umtrainieren" Buttons werden die Änderungen übertragen. Dabei wird kein neuer RegexRegEx generiert, dieser wird lediglich überprüft.
Felder trainieren
Für jede trainierte Region können nun Kopffelder aus der SQUEEZE Dokumentenklasse dieses Dokumentes trainiert werden.
| Attribut | Beschreibung |
| Lieferanten-Nr. | Stellt den Trainingsschlüssel dar, an dem das Training geknüpft wird. Bisher ist es das Feld "CreditorId". |
| Region Anker | Auswahl des trainierten Region-Ankers. Die Felder werden in Relation zum Regionsanker trainiert. Daher sollte hier ein Anker ausgewählt werden, bei dem die Relation zum Feld ungefähr gleichbleibend ist. |
| Feld | Auswahl des Kopffeldes aus der Dokumentenklasse des Dokuments. Das Ergebnis bei der Extraktion des Trainings wird in das hier ausgewählte Feld geschrieben. |
| Wert | Enthält auch den gezogenen Bereich (Bounding Box) in dem der Wert in Relation zum Regionsanker gesucht wird. |
| Ignoriere Leerzeichen | Auswahlliste um bei der Ermittlung des Wertes die Leerzeichen zu ignorieren. Kann den |
| Mehrzeilige Auslesung | Auswahl, um alle gefundenen Werte aus der Region genutzt werden sollen (ja) oder nur der Erste (nein). |
Beim Anlegen des Trainings wird aus dem Feldinhalt ("Wert") initial ein Regex generiert.
Bitte geben Sie erst beim Umtrainieren, einen eigenen Regex an.
Vorgehen
- Regionsanker an dem das Feldtraining ausgerichtet werden soll auswählen.
- Dokumentenklassenfeld des Dokumentes auswählen in der das Ergebnis des Trainings bei der Extraktion geschrieben werden soll.
- Markierung des Wertes. Es wird die gesamte Markierung zur Suche und Extraktion des Feldwertes herangezogen.
- Festlegung, ob Leerzeichen ignoriert werden sollen - dies kann in einigen Fällen für den Wert nützlich sein.
- Festlegung, ob mehrzeilig in der gesamten Markierung oder nur der erste Treffer in einer Zeile ausgelesen werden sollen.
- "Trainieren" Button betätigen, um das Feldtraining in Abhängigkeit zur Region zu speichern bzw. zu trainieren.
Beispiel Ausfuhrbegleitdokument
Mehrzeilige Auslesung
Bei der Mehrzeiligen Auslesung werden alle Treffer des angegebenen Musters im gesamten markierten Bereich zurückgegeben.
In diesem Beispiel würde auch ein Wert ausgelesen werden, der innerhalb der Markierung an der Stelle des Mauszeigers ist:
Umtrainieren
Trainerte Felder werden in der Tabelle aufgelistet.
Durch einen Klick auf den Stift kann der RegexRegEx des Wertes geändert werden - ebenso, ob Leerzeichen ignoriert oder mehrzeilig ausgelesen werden soll.
Mit betätigen des "Umtrainieren" Buttons werden die Änderungen übertragen.
Beim Umtrainieren wird aus dem Feldinhalt kein neuer RegexRegEx generiert, dieser wirdsondern lediglich überprüft.
Beispiel - Ausfuhrbegleitdokument
In diesem Beispiel wollen wir die Versenderdetails trainieren.
Regionsanker trainieren
Um dies zu tun, ermitteln wir erst einen Regionsanker, von dem aus das System in Relation die im Nachgang trainierten Felder extrahieren soll. Dafür müssen wir ein Schlüsselwort definieren und die Region markieren.
Mit einem Klick in das Feld "Schlüsselbegriff" ist das Feld im Fokus. Danach kann die Region und der Wert des Schlüsselbegriffs (hier Versender/Ausführer) mit gedrückter rechten Maustaste als Markierung in das Feld übertragen werden.
Der RegexRegEx des Schlüsselwortes wird beim Trainieren (also bei der Anlage) eines Schlüsselwortes über den Button "Trainieren" automatisch generiert. Dieser kann durch das Umtrainieren geändert werden.
Felder trainieren
Nun wollen wir die Felder "Versender", "Straße", "Postleitzahl" und "Ort" trainieren, die sich an dem gefundenen Schlüsselwort des Regionsanker "Versendeinformationen" orientieren.
Dazu ist es ratsam den generierten RegexRegEx zu bearbeiten, sodass alle erwünschten Werte erkannt werden können.
In diesem Beispiel wurde für das Feld "Versender" der Regex ([a-z]{9}) generiert.
Dieses Muster mag für den Wert Hansgrohe zutreffend sein, alle anderen Versendernamen die bspw. ein Leerzeichen enthalten oder aus mehr als 9 Zeichen bestehen würden jedoch nicht ausgelesen werden.
Daher wurde das Muster umtrainiert zu ^(.*)$, welches also alle Zeichen matcht solange es in einer Zeile steht.
So kann mit allen weiteren auszulesenden Feldern aus der Region verfahren werden.
Alternativ kann man auch einfach den gesamten Versender Block für ein Feld auslesen. Dafür den gesamten Bereich markieren und die "Mehrzeilige Auslesung" auf "Ja" stellen, beim Training.
Positionstraining
tbd.







