Stepelklasseneigenschaften OCR-Texterkennung
Allgemeines
Die OCR Extraktion ist ein elementarer Teil der Squeeze Software. Dieser Kernbereich der Software ist mit verschiedenen Einstellungen versehen, die das Ergebnis der Extraktion tangieren. Im folgenden Artikel gehen wir auf die Besonderheiten und die Anforderungen der unterschiedlichen Eigenschaften ein.
Welche Arten der OCR unterstützt Squeeze ?
Grundsätzlich unterscheiden wir im Kontext von Squeeze zwischen dem Einsatz einer OCR basierend auf den Ressourcen der lokalen Maschine und dem Einsatz eines Remote-OCR-Dienstes.
Was beinhaltet meine Standardversion von Squeeze ?
Im Auslieferungszustand ist Squeeze mit einer lokal verfügbaren OCR-Engine ausgestattet. Auf Kundenwunsch können unsere Berater und Partner bei einer Squeeze Installation ab der Version 2.3.x eine Remote-OCR aktivieren lassen, die mithilfe von AI bessere Ergebnisse liefern kann.
Stapelklassen-Eigenschaften die Allgemeingültig sind
OCREngine
Verfügbar ab der Version 2.4
DieseWird diese Stapelklassen-Eigenschaft ist nicht konfiguriert greift automatisch die lokale OCR-Engine ocrmypdf, wird aus den Anforderungen ein Projektes eine Remote-AI-OCR benötigt müssen Sie die Eigenschaft auf ai-ocr setzen.
Um die Remote-AI-OCR zu verwenden ist es von Notwendigkeit das eine Internetverbindung auf dem System existiert und das die Anmeldedaten von ihrem Squeeze Berater konfiguriert werden.
Stapelklassen-Eigenschaften für die lokale OCR Engine
OCRForce
Im Standard wird bei digitalen PDF´s der Textlayer genutzt und die Felderkennung darauf angewendet (false). Um aber eine OCR zu erzwingen ist dieser Schalter auf true zu setzen.
OCRLanguage
Im Standard werden Deutsch und Englisch verwendet. Für Deutsch wird der Wert deu eingetragen und für Englisch der Wert eng eingetragen.
OCRPageLimit
Anzahl der auszulesenden Seiten im Dokument. Syntax n-m
Beispiel für Auslesung der ersten 3 Seiten: 1-3
PDFA-Conversion
Es wird ein PDFA kompatibles Dokument erzeugt. Eingabe 1|0 (true|false)
PDFProcessor
Hier gilt PDFBox als Standard. PDFMiner ist die Alternative .
PSM-Modes
Im Project bietet es sich an, die Modi 3, 4, 6 und 11 zu verwenden. Dabei gilt 3 als Standard.
| 3 | Standardeinstellung liefert gute Ergebnisse. |
| 4 | Wortweise Segmentierung. Es wird nicht nach Zeilen geschaut sondern Worten. (verfügbar ab Version 2.0) |
| 6 | Gut für Positionsdaten. Hat aber Probleme bei Linien die sehr dicht am Text sind. |
| 11 | Gut bei vielen Grafiken auf den Dokumenten. |
Stapelklassen-Eigenschaften für die Remote Remote-AI-OCR Engine
Aktuell gibt es keine Möglichkeiten die Remote-AI-OCR zu beeinflussen.
Fragen und Antworten ?
- Ich habe die
ai-ocrals OCREngine Eigenschaft ausgewählt, jedoch funktioniert die Texterkennung nicht mehr ?- Gehen Sie bitte Sicher das Ihr Squeeze Berater oder Partner die notwendigen Anmeldedaten zur Aktivierung der Remote OCR hinterlegt hat.