OCR Texterkennung für Zwischendurch

Neulich fragt mich meine Freundin, welche OCR-Software ich ihr empfehlen könne, möglichst preisgünstig. Texterkennung — vor ein paar Jahren “ganz heißer Scheiß”, aber jetzt? Ich experimentiere damals damit (ebenso wie mit Spracherkennung), nutze es nie ernsthaft, weil auch eine scheinbar “fast perfekte” Erkennung von 99 Prozent immer noch 6 Fehler auf 3.600 Zeichen bedeutet. Hört sich wenig an, bedeutet aber, daß ich in Fachtexten nochmal gründlichst Korrekturlesen muß und zugeschaltete Wörterbücher bieten trügerische Sicherheit, wenn sie ähnliche Begriffe verwechseln. Bei Zahlen kann man oft noch nicht einmal aus dem Zusammenhang auf mögliche Fehler schließen — man weiß ja nie, welche sechs Zeichen falsch erkannt wurden…

Texterkennung

Texterkennung

Weil sich für OCR im Privatbereich m. E. niemand mehr so richtig interessiert — und große Büros eher auf Spezialscanner mit automatischer Dokumentenverwaltung setzen — bin ich überzeugt davon, daß sich eine Menge “veralteter” Software für den Heimbereich kostengünstig als “lite”, LE” usw. finden lassen müßte. Irrtum. — Aber ich habe zwei interessante Ansätze gefunden.

Um “Reklamationen” zu vermeiden, verweise ich natürlich nicht einfach auf eine Google-Suche oder Testberichte, sondern probiere einige Programme selbst aus. Mit FreeOCR gibt es eine kostenlose Software die “traditionell” auf dem heimischen Rechner installiert wird. Man muß es wohl heutzutage eher als “normal” bezeichnen, wenn Texterkennung mit Google Docs eben auch online geht.Probetext mit unterschiedlichen Schriften und zwei Flecken.

Testdokument mit unterschiedlichen Anforderungen

Testdokument: Da Zeitschriftenseiten meist mehrspaltig sind sowie Bilder und Tabellen enthalten, entwerfe ich mir zusätzlich einen etwas einfacheren OCR-Probetext als typische A4 Manuskriptseite. Er beinhaltet unterschiedliche Schriftschnitte (Courier, Times, Calibri) sowie -größen (8, 9 und 11 Punkt). Als besondere Herausforderung gibt es einen Absatz in einer “Handschrift” und zwei Flecken. — Der Text wurde ganz normal ausgedruckt und dann wieder (mit den Macken versehen) eingescannt, also nicht einfach direkt ein Screenshot oder lokal erzeugtes PDF verwandt.

 

FreeOCR

FreeOCR basiert auf “Tesseract-ocr” (About: “Using Tesseract v3”), laut Beschreibung “An OCR Engine that was developed at HP Labs between 1985 and 1995… and now at Google.” — also aus gutem Hause und inzwischen auch von Google… Da die Software ab Windows XP (SP 2) lauffähig ist, sind die Hardwareanforderungen moderat, getestet mit Windows 7 (64 Bit), soll auch mit Windows 8 laufen.

Die in einigen Download-Portalen schlechte Bewertung kann ich hier nicht bestätigen. Oft bezieht sich die Kritik auf mitinstallierte Werbesoftware — vielleicht auch auf eine ältere Version? Mir ist diesbezüglich nichts aufgefallen — ich hafte aber natürlich nicht für dirty tricks! — Getestet: “Version 5..4.1 (March 2015)”.

Als Grundlage kann das Programm PDFs und Bilddateien verwenden oder direkt einen Scanner ansteuern (sofern er TWAIN oder WIA beherrscht). Zur Unterstützung dienen Sprachdateien, die die jeweiligen Besonderheiten erkennen (bitte oben rechts im Programmfenster einstellen). Mitgeliefert werden:

  • Eng – English
  • Dan – Danish
  • Deu – German
  • Fin – Finnish
  • Fra – French
  • Ita – Italian
  • Nld – Dutch
  • Nor – Norway
  • Pol – Polish
  • Spa – Spanish
  • Swe – Swedish

Wie man sieht, alles lateinische Schriften, man kann allerdings bei Google Code eine Menge zusätzlicher Sprachdateien herunterladen, auch mit anderen Alphabeten wie beispielsweise Russisch oder Bulgarisch (laut Liste Stand 2010 bis 2013) und sogar deutsche Fraktur. Das Ergebnis kann in mehreren Textformaten gespeichert werden, wobei ärgerlicherweise ungefragt ein Unterverzeichnis auf c: angelegt wird.

FreeOCR erzielt erstaunlich gute Resultate.

FreeOCR erzielt erstaunlich gute Resultate.

Mein Probedokument scanne ich direkt aus der Anwendung heraus, auch mit den eigenen “Werkseinstellungen” mit 200 dpi und schwarzweiß (wahlweise kann man auf TWAIN-Software umschalten). Die Erkennungsrate ist sehr gut, im normalen Text fehlerfrei. Der schwarze Fleck provoziert wahrscheinlich das zusätzliche Komma, der Strich durch den Text kreiert ein neues Wort. Die “Handschrift” (bei der ja gleiche Buchstaben identisch dargestellt werden) geht trotzdem weitgehend daneben.

Zusätzlich bekommt das Programm noch eine dreispaltige Zeitschriftenseite zum Test. Spalten werden “eigentlich” erkannt, allerdings mit “Datenmüll” dazwischen. Die kleinen Infotabellen sind praktisch nicht mehr lesbar. Bei komplizierten Layouts kann man hilfsweise Textrahmen aufziehen.

Google Docs

… oder muß es Google Drive heißen? Man kann Google Drive jedenfalls so einstellen, daß ein PDF– oder Bild-Upload direkt analysiert wird und anschließend bei Google Docs auftaucht. Dann reicht es, den gescannten Text einfach hochzuladen. Texterkennung per drag & drop.Etwas irritierend ist, daß der Bilddateiname erhalten bleibt — mit der Endung JPG — davor ein Texticon erscheint, das man als Text öffnen und bearbeiten kann. Zur Kontrolle ist das ursprüngliche Bild auf der ersten Seite automatisch eingefügt.

Texterkennung per drag & drop.

Tipp: Zuerst finde ich in den Einstellungen (Settings oder Zahnrad-Icon) nicht die entsprechende Einstellung. Erst als ich das alte Interface aktiviere, taucht die entsprechende Funktion dort auf: “Upload-Einstellungen | Text aus hochgeladenen PDF- oder Bilddateien konvertieren”, empfehlenswert der Zusatz “Einstellungen vor jedem Upload bestätigen”.

 

Google Drive bietet zusammen mit Google Docs Texterkennung.

Google Drive bietet zusammen mit Google Docs Texterkennung.

Durch den schwarzen Fleck läßt sich Google nicht aus dem Tritt bringen, allerdings führt der kleine Strich ebenfalls zu einem deutlichen Fehler. Bei näherem Hinsehen gibt es aber doch eine Menge “Kleinigkeiten”: So wird aus sollte regelmäßig solite, aus Schnäppchenpreis wird Schnäppehpreis, aus Archivqualität Archivdualität(!), beim Leuchtpult wird das l unterschlagen und es fehlen zwischendrin eine Menge Leerzeichen. Auch die “Handschrift” wird nur unbrauchbar bearbeitet.

Fazit OCR Texterkennung

Für den Falle eines Falles habe ich nun eine Texterkennung zur Hand. Damit ich mir den Rechner nicht mit selten genutzter Software zumülle, bevorzuge ich schon oft Online-Programme (“Web-Apps”). Auf den ersten Blick wird machen beide Programme einen guten Eindruck, es wird viel leserlicher Text angezeigt, wobei Textauszeichnungen nicht übernommen werden. Bei aufwendigen Seiten werden auch Spalten erkannt. Bei genauerem Hinsehen kann Google allerdings nicht überzeugen, zu lang die Liste kleiner Fehler und sogar einer Wortverdrehung. FreeOCR erkennt den Haupttext fehlerfrei und ist einfach zu bedienen. Darüber hinaus ist man nicht auf einen Google-Account angewiesen. Die Software ist zwar nur für Windows, den Unterbau gibt es auch für andere Plattformen (nicht weiter untersucht). Da wird FreeOCR erstmal an Bord bleiben.

w4z9vgw

Comments

comments

Leave a Reply

Your email address will not be published.