Themen Technik
642 Bibliotheksdienst 43. Jg. (2009), H. 6
Nach der Imageerstellung des historischen Dokuments wird zunächst eine Ras-
tergraphik generiert. Diesen Prozess nennt man auch Binarisierung. Darauf folgt
die Strukturerkennung, d.h. in den meisten Fällen eine Segmentierung in Bildele-
mente, Linien, Wörter, Einzelbuchstaben etc. Daran schließt sich das eigentliche
OCR, das im Grunde einen Mustervergleich darstellt, an. Zur Kontextanalyse wer-
den die Inhalte eines elektronischen Lexikons benötigt. Das Endprodukt eines
solchen Prozesses ist eine Ausgabedatei, meist im XML-Format, d.h. der maschi-
nenlesbare Volltext.
Einen Ausbau dieses abstrakten Grundmodells speziell für maschinenschriftliche
Dokumente haben Antonacopoulos/ Karatzas (2005)59 mit ihrem Digital Historical
Document Life-Cycle (DDLC) erreicht.
Innerhalb dieses Ansatzes wurde eine Digital Document Workbench (DDW) mit
entsprechenden Tools erarbeitet. Das Repository Management tool (RMT) dient der
Archivierung und Ordnung der erstellten Images. Hierbei erfolgt eine Einordnung
der Digitalisate in semantische Klassen, d.h. nach Inhalten und Bedeutungen der
Dokumente mit Hilfe entsprechender Dokumentschablonen. Die Kategorisierung
der Images nach qualitativen Maßstäben (phase tuning) wird durch das Quality
Evaluation of Electronic Documents tool (QED) ermöglicht. Nach einem Segmen-
tierungs- bzw. Extraktionsschritt erfolgt die Dokumentverarbeitung durch ein
Image Processing tool (IPT). Das für den Erkennungsprozess mit der kommerzi-
ellen OCR-Software OCE DokuStar V 3.6 benötigte Lexikon wird individuell für
die verschiedenen semantischen Einheiten (z.B. Eigennamen, Ortsnamen etc.)
angereichert. Das mit dem Electronic Document Editor (EDD) generierte XML-Do-
kument kann u.U. fehlerhafte Zeichen enthalten. Daher ist eine Korrektur durch
den Content Editor Generator of Electronic Documents (GED) oder eine Ergänzung
von Anmerkungen durch einen Multivalent Browser Viewer of Electronic Documents
(VED) möglich. Dieses anhand des Datenmaterials des MEMORIAL-Projekts60 ent-
wickelte differenzierte Modell ermöglicht im Image sowohl die Erkennung von
Text- als auch von Nicht-Text-Regionen, von Zeilen, von Einzelwörtern und von
Einzelbuchstaben.
Speziell für den Bereich der Handschriftenerkennung hat Feldmann (2001) fol-
gendes abstrakte Modell für die Struktur eines Handschriftenerkennungssystems
vorgelegt.
59 A. Antonacopoulos/ D. Karatzas: Semantics-Based Content Extraction in Typewritten
Historical Documents. In: Proceedings of the 2005 Eight International Conference on
Document Analysis and Recognition (ICDAR 2005), S. 48–53.
60 http://www.memorial-project.info (15.02.2009)