Das ZEIT-Archiv und die Texterkennung

Hätte mich auch gewundert. Wenn es die ZEIT geschafft hätte, sämtliche Ausgaben der Jahre 1946 bis heute fehlerfrei ins Archiv zu stellen, in all ihrer Vollständigkeit. Schöne URLs sind es ja, in der Tat: http://www.zeit.de/1950/34/Zwischen-Seifen-und-Synthetica

Aber der Artikel aus dem Jahr 1950 wurde wohl eher nicht von Praktikanten abgetippt, sondern schluderig automatisch digitalisiert, ohne jede händische Nachbearbeitung:

Unsere Hausfrauen iverdert vom !. September ab wieder „richtiges« Seifexpulver kaufen können. (Das wird hoffentlico dazu beitragen, daß die sinnlosen Hamster kä.ife für Seifen aller Art bald nachlassen . . .) Naürlich wird man auch weiterhin synthetische Waschmittel angeboten erhalten. Die Frage ist nun, ob sich diese bei uns künftig ebenso durchsetzen, wie etwa bei der Hausirauenund Wäschereikundschaft in den USA.

Bei soviel Fehlern wird ja selbst Robert Basic neidisch. Man merke sich: Wenn man im großen Stile OCR betreibt, dann sollte man ein digitales Wörterbuch in den Workflow mit einbeziehen, das solche Auswüchse wie »Hausirauenund« verhindert. Dann sehen wir weiter.

(Abgesehen davon ist es natürlich toll, dass die ZEIT ihr komplettes Archiv aufgemacht hat!)

(via Nick)