Path:
Volume Heft 6

Full text: Bibliotheksdienst (Rights reserved) Issue 43.2009 (Rights reserved)

Technik Themen Bibliotheksdienst 43. Jg. (2009), H. 6 651 Das Besondere an diesem Modell ist, dass es speziell für die Texterkennung bei Inkunabeln entworfen wurde. Außerdem gelingt es Wieners, alle bisher aus der Erarbeitung von OCR Software für den Bereich des Alten Buches gewonnenen Erkenntnisse zu nutzen. Hierzu zählt vor allem die Fokussierung auf ein selbst- lernendes System aus Rationalisierungsgründen und zur Zeitersparnis. Wieners geht auf alle zu Beginn dieses Kapitels aufgeführten Schwierigkeiten bei der Text- erkennung von Wiegendrucken ein und gestaltet die Vorverarbeitungsphase und die Segmentierungsstufe entsprechend. Mit feingliedrigen Arbeitsschritten und nützlichen Einzeltools wird der Texterkennungsprozess optimiert: z.B. inner- halb der Vorverarbeitung sieht Wieners einen automatischen Histogrammaus- gleich zur Erhöhung der Konstraste vor. Die Reduzierung von Bildstörungen (z.B. dunkle Flecke) erfolgt durch einen Medianfilter. Mit der Verwendung von künst- lichen neuronalen Netzen in Form von selbstorganisierenden Karten (SOMs) ver- folgt Wieners beim Aufbau des Lexikons die bei Feldmann (2001) beschriebene wahrnehmungsorientierte Variante, die sich am menschlichen Leseprozess aus- richtet. Erstaunlich ist beim Trainieren der SOMs, dass die selbstorganisierende Karte bereits nach 100 Lernschritten eine Klassifizierungsleistung mit maximal 30–40% falsch zugeordneten Einzelzeichen (Wieners spricht von Glyphen) er- reicht. Dieses Ergebnis muss man vor der außerordentlichen Drucktypenvielfalt der Inkunabelzeit beurteilen, so dass das Trainieren von TED durchaus als eine viable Lösung erscheint. Fazit: Die Problematik der Texterkennung beim Alten Buch wurde bisher von verschiedenen Seiten her angegangen. Die vorgestellten Modelle nutzen daher unterschiedliche Ansatzmöglichkeiten zur Problemlösung. Ihre Effizienz ist je- weils von folgenden Faktoren abhängig: a) Zu erbringende manuelle Transkrip- tionsleistung oder b) Zeit- und Arbeitsaufwand für das Trainieren eines Systems. Der Knackpunkt scheint die Automatisierung des Erkennungsprozesses innerhalb eines selbstlernenden Systems (s. z.B. TED) zu sein, so dass die Erkennungsquo- te mit möglichst geringem Zeitaufwand optimiert werden kann. Sieht man von der Möglichkeit der Kombination halbautomatischer Verfahren wie z.B. GAMERA mit Inhalten aus Transkriptionsprojekten ab, so scheint dies die einzig praktikable Möglichkeit zur Volltextgenerierung durch OCR zu sein.
Top of page

Note to user

Dear user,

In response to current developments in the web technology used by the Goobi viewer, the software no longer supports your browser.

Please use one of the following browsers to display this page correctly.

Thank you.