Path:
Volume Heft 6

Full text: Bibliotheksdienst (Rights reserved) Issue 43.2009 (Rights reserved)

Themen Technik 642 Bibliotheksdienst 43. Jg. (2009), H. 6 Nach der Imageerstellung des historischen Dokuments wird zunächst eine Ras- tergraphik generiert. Diesen Prozess nennt man auch Binarisierung. Darauf folgt die Strukturerkennung, d.h. in den meisten Fällen eine Segmentierung in Bildele- mente, Linien, Wörter, Einzelbuchstaben etc. Daran schließt sich das eigentliche OCR, das im Grunde einen Mustervergleich darstellt, an. Zur Kontextanalyse wer- den die Inhalte eines elektronischen Lexikons benötigt. Das Endprodukt eines solchen Prozesses ist eine Ausgabedatei, meist im XML-Format, d.h. der maschi- nenlesbare Volltext. Einen Ausbau dieses abstrakten Grundmodells speziell für maschinenschriftliche Dokumente haben Antonacopoulos/ Karatzas (2005)59 mit ihrem Digital Historical Document Life-Cycle (DDLC) erreicht. Innerhalb dieses Ansatzes wurde eine Digital Document Workbench (DDW) mit entsprechenden Tools erarbeitet. Das Repository Management tool (RMT) dient der Archivierung und Ordnung der erstellten Images. Hierbei erfolgt eine Einordnung der Digitalisate in semantische Klassen, d.h. nach Inhalten und Bedeutungen der Dokumente mit Hilfe entsprechender Dokumentschablonen. Die Kategorisierung der Images nach qualitativen Maßstäben (phase tuning) wird durch das Quality Evaluation of Electronic Documents tool (QED) ermöglicht. Nach einem Segmen- tierungs- bzw. Extraktionsschritt erfolgt die Dokumentverarbeitung durch ein Image Processing tool (IPT). Das für den Erkennungsprozess mit der kommerzi- ellen OCR-Software OCE DokuStar V 3.6 benötigte Lexikon wird individuell für die verschiedenen semantischen Einheiten (z.B. Eigennamen, Ortsnamen etc.) angereichert. Das mit dem Electronic Document Editor (EDD) generierte XML-Do- kument kann u.U. fehlerhafte Zeichen enthalten. Daher ist eine Korrektur durch den Content Editor Generator of Electronic Documents (GED) oder eine Ergänzung von Anmerkungen durch einen Multivalent Browser Viewer of Electronic Documents (VED) möglich. Dieses anhand des Datenmaterials des MEMORIAL-Projekts60 ent- wickelte differenzierte Modell ermöglicht im Image sowohl die Erkennung von Text- als auch von Nicht-Text-Regionen, von Zeilen, von Einzelwörtern und von Einzelbuchstaben. Speziell für den Bereich der Handschriftenerkennung hat Feldmann (2001) fol- gendes abstrakte Modell für die Struktur eines Handschriftenerkennungssystems vorgelegt. 59 A. Antonacopoulos/ D. Karatzas: Semantics-Based Content Extraction in Typewritten Historical Documents. In: Proceedings of the 2005 Eight International Conference on Document Analysis and Recognition (ICDAR 2005), S. 48–53. 60 http://www.memorial-project.info (15.02.2009)
Top of page

Note to user

Dear user,

In response to current developments in the web technology used by the Goobi viewer, the software no longer supports your browser.

Please use one of the following browsers to display this page correctly.

Thank you.