Skip to main content

Stepelklasseneigenschaften OCR-Texterkennung

Allgemeines

Die OCR Extraktion ist ein elementarer Teil der Squeeze Software. Dieser Kernbereich der Software ist mit verschiedenen Einstellungen versehen, die das Ergebnis der Extraktion tangieren. Im folgenden Artikel gehen wir auf die Besonderheiten und die Anforderungen der unterschiedlichen Eigenschaften ein.

Welche Arten der OCR unterstützt Squeeze ? 

Grundsätzlich unterscheiden wir im Kontext von Squeeze zwischen dem Einsatz  einer OCR basierend auf den Ressourcen der lokalen Maschine und dem Einsatz eines Remote-OCR-Dienstes. 

Was beinhaltet meine Standardversion von Squeeze ?

Im Auslieferungszustand ist Squeeze mit einer lokal verfügbaren OCR-Engine ausgestattet. Auf Kundenwunsch können unsere Berater und Partner  bei einer Squeeze Installation ab der Version 2.3.x eine Remote-OCR aktivieren lassen, die mithilfe von AI bessere Ergebnisse liefern kann.


Stapelklassen-Eigenschaften die Allgemeingültig sind

OCREngine

Verfügbar ab der Version 2.4

DieseWird diese Stapelklassen-Eigenschaft ist nicht konfiguriert greift automatisch die lokale OCR-Engine ocrmypdf, wird aus den Anforderungen ein Projektes eine Remote-AI-OCR benötigt müssen Sie die Eigenschaft auf ai-ocr setzen.

Um die Remote-AI-OCR zu verwenden ist es von Notwendigkeit das eine Internetverbindung auf dem System existiert und das die Anmeldedaten von ihrem Squeeze Berater konfiguriert werden.

 

Stapelklassen-Eigenschaften für die lokale OCR Engine

OCRForce

Im Standard wird bei digitalen PDF´s der Textlayer genutzt und die Felderkennung darauf angewendet (false). Um aber eine OCR zu erzwingen ist dieser Schalter auf true zu setzen.

OCRLanguage

Im Standard werden Deutsch und Englisch verwendet. Für Deutsch wird der Wert deu eingetragen und für Englisch der Wert eng eingetragen.

OCRPageLimit

Anzahl der auszulesenden Seiten im Dokument. Syntax n-m 

Beispiel für Auslesung der ersten 3 Seiten: 1-3

PDFA-Conversion

Es wird ein PDFA kompatibles Dokument erzeugt. Eingabe 1|0 (true|false)

PDFProcessor

Hier gilt PDFBox als Standard. PDFMiner ist die Alternative .

PSM-Modes

Im Project bietet es sich an, die Modi 3, 4, 6 und 11 zu verwenden. Dabei gilt 3 als Standard.

3 Standardeinstellung liefert gute Ergebnisse.
4 Wortweise Segmentierung. Es wird nicht nach Zeilen geschaut sondern Worten. (verfügbar ab Version 2.0)
6 Gut für Positionsdaten. Hat aber Probleme bei Linien die sehr dicht am Text sind.
11 Gut bei vielen Grafiken auf den Dokumenten.

Stapelklassen-Eigenschaften für die Remote Remote-AI-OCR Engine

Aktuell gibt es keine Möglichkeiten die Remote-AI-OCR zu beeinflussen. 

Fragen und Antworten ?

  1. Ich habe die ai-ocr als OCREngine Eigenschaft ausgewählt, jedoch funktioniert die Texterkennung nicht mehr ?
    1. Gehen Sie bitte Sicher das Ihr Squeeze Berater oder Partner die notwendigen Anmeldedaten zur Aktivierung der Remote OCR hinterlegt hat.