Allgemein
Über Squeeze
Squeeze ist eine Input-Management-Lösung mit dem Ziel die dokumentbasierten Prozesse eines Unternehmens zu bündeln/kanalisieren, um sie dann zu klassifizieren und die benötigten Daten zu extrahieren.
Eingangskanäle
Eingangskanäle für Dokumente sind in Unternehmen klassischerweise der Postweg sowie Emailübertragung, die in einem oder mehreren Postfächern eingehen. Die Dokumente werden erst typisiert und vereinheitlicht, um in den folgenden Prozessen gleichartig behandelt werden zu können.
Bildaufbereitung
Alle eingehenden Dokumente werden in ein einheitliches Format konvertiert, Dabei spielt der Eingangskanal keine Rolle. Ob es sich um ein gescanntes Dokument oder um ein "gedrucktes" PDF handelt, wird erst in einem der folgenden Schritte geprüft und entsprechend genutzt.
Texterkennung
Bei der Texterkennung wird unterschieden, ob es sich um ein gescanntes Dokument oder um ein digital erstelltes Dokument handelt. Nur bei gescannten Dokumenten wird eine Texterkennung im klassischen Sinne durchgeführt. Die OCR (Optical Character Recognition) versucht aus jedem gescannten Zeichen einen entsprechenden Buchstaben zu ermitteln.
Bei digital erstellten PDFs (nicht gescannten PDFs) wird der enthaltene gedruckte Text verwendet. Dieses Verfahren hat natürlich den Vorteil, dass es nicht zu "Lesefehlern" in der OCR kommen kann. Die Verarbeitung von solchen "nativen" PDFs ist also in jedem Fall zu bevorzugen.
Klassifikation