praegnanz.de büro für intervernetzte medien

Gerrit, 21.12.2007

Das ZEIT-Archiv und die Texterkennung

Hätte mich auch gewundert. Wenn es die ZEIT geschafft hätte, sämtliche Ausgaben der Jahre 1946 bis heute fehlerfrei ins Archiv zu stellen, in all ihrer Vollständigkeit. Schöne URLs sind es ja, in der Tat: http://www.zeit.de/1950/34/Zwischen-Seifen-und-Synthetica

Aber der Artikel aus dem Jahr 1950 wurde wohl eher nicht von Praktikanten abgetippt, sondern schluderig automatisch digitalisiert, ohne jede händische Nachbearbeitung:

Unsere Hausfrauen iverdert vom !. September ab wieder „richtiges« Seifexpulver kaufen können. (Das wird hoffentlico dazu beitragen, daß die sinnlosen Hamster kä.ife für Seifen aller Art bald nachlassen . . .) Naürlich wird man auch weiterhin synthetische Waschmittel angeboten erhalten. Die Frage ist nun, ob sich diese bei uns künftig ebenso durchsetzen, wie etwa bei der Hausirauenund Wäschereikundschaft in den USA.

Bei soviel Fehlern wird ja selbst Robert Basic neidisch. Man merke sich: Wenn man im großen Stile OCR betreibt, dann sollte man ein digitales Wörterbuch in den Workflow mit einbeziehen, das solche Auswüchse wie »Hausirauenund« verhindert. Dann sehen wir weiter.

(Abgesehen davon ist es natürlich toll, dass die ZEIT ihr komplettes Archiv aufgemacht hat!)

(via Nick)

10 Kommentare

  1. Andreas Diner am 21. Dezember 2007 #

    Richtig schade ist auch was passiert wenn man im Firefox die Schrift vergrößert. Wer eigentlich ganz ok, wehren da nicht diese scheinbar absolut positionierten Anzeigen.

  2. Yannic Walter am 21. Dezember 2007 #

    hoffentlico…

    Amüsant ist es ja.

  3. Karsten am 21. Dezember 2007 #

    Vielleicht wird da ja ein community-basiertes OCR-Projekt draus. So richtig Web 2.0 eben!

  4. Nick Blume am 21. Dezember 2007 #

    Da steht es doch auch drauf. Die Fehler kann man der ZEIT mitteilen.

  5. Jörg L. am 21. Dezember 2007 #

    Ich habe mal Mustererkennung studiert, allerdings nicht speziell OCR. Ich wäre nie auf die Idee gekommen, dass man OCR ohne Wörterbuch machen könnte. Vielleicht ist das hier auch nicht der Fall: Denn man kann vermutlich auch schlecht ein OCR-Programm schreiben, das nur Wörter aus seinem Wörterbuch erkennen kann. Dazu sind geschriebene Texte einfach zu voll von Unregelmäßigkeiten. Dann sind die alten Zeitungen möglicherweise einfach so schlecht lesbar, dass das Programm leider verwirrt wird. Man könnte vielleicht versuchen, etwas mehr Wörterbuchtreue zu erzwingen.

  6. Gero von Randow am 28. Dezember 2007 #

    Ist das Maximum, das mit heutiger Technik erreichbar ist, sorry.

  7. Dan Arkway am 28. Dezember 2007 #

    Hi, ein paar Ideen, die mir durch den Kopf gingen – nicht toll, aber vielleicht ein Ansatz?
    Nach einem Entwickler suchen, der sich bei http://code.google.com/p/tesseract-ocr/ um die Verbesserung bei de-Texten kuemmert?
    Die Texte zusaetzlich als djvu-File anbieten?
    Fuer den Text etwas wie http://gplv3.fsf.org/comments/gfdl-draft-1.html basteln?
    Fuer den Zugang zum kompletten Zeit-Archiv ein passendes, Zeit-Archiv basiertes http://recaptcha.net/ loesen lassen :)

  8. tessa am 31. Dezember 2007 #

    krass. dass auch solche grosse firmen fehler machen können.

  9. Volker am 3. Januar 2008 #

    Gut, dass Computer auch nur Menschen sind!

  10. Johann Fischler am 5. Januar 2008 #

    Ich finde es lustig. An meinen Vorkommentator Volker: der war gut!

    Mal im Ernst: man kann von Computern nicht verlangen, so fehlerlos zu arbeiten wie ein Mensch. Das dauert noch. Momentan bin ich aber ziemlich fasziniert darüber, welche Fortschritte die Spracherkennung gemacht hat. Da sollte auch die Texterkennung schon bald fehlerlos funktionieren.

Kommentar schreiben

Nutzt Textile zum Strukturieren eures Textes.
SEO-Beiträge werden gelöscht, auch bei thematisch passendem Spam.