Path:
Volume Heft 12

Full text: Bibliotheksdienst (Rights reserved) Issue 44.2010 (Rights reserved)

Themen Erschließung 1126 Bibliotheksdienst 44. Jg. (2010), H. 12 Gesamtdokumentenzahl zu erkennen, die intellektuelle Indexierer durch ihre ein- geschränkten Blickwinkel normalerweise nicht erkennen können.22 Die Lernfähigkeit der eingesetzten Indexierungssoftware wird durch deren Ein- satz im Rahmen eines semi-automatischen Verfahrens noch erhöht. Mit Hilfe die- ses Verfahrens können durch die Fachreferenten Indexierungsfehler ausgebessert und Wortkombinationen, eine Schwachstelle vieler maschineller Verfahren, dem System als Regeldefinition vorgegeben werden, um die Kontexterkennung zu ver- bessern. Dadurch werden nicht nur statistisch häufige Muster erkannt, sondern darüber hinaus durch die Trainingsdokumente auch Gesetzmäßigkeiten konstru- iert, die bei der Erschließung von neuen Dokumenten („unseen documents“) Be- rücksichtigung finden.23 Die in der ZBW vorgenommene Implementierung einer semi-automatischen In- dexierung läuft folgendermaßen ab. Zuerst wird ein Trainingsset zusammenge- stellt, auf dessen Basis die Indexierungssoftware die Vergabe der einzelnen Ka- tegorien/Schlagwörter auf Grundlage des intellektuellen Indexierungsverhaltens der Fachreferenten trainieren kann. Das System braucht eine ausreichende Anzahl an Dokumenten pro Kategorie, in der Regel ca. 50 Titel, um diese zu „lernen“. Hier- bei hängt die benötigte Anzahl auch davon ab, wie stark sich die Inhalte von ande- ren Kategorien abgrenzen.24 Das System extrahiert nicht nur einzelne, häufig vor- kommende Stichworte, sondern Wortmuster, die wiederum für die Entscheidung bezüglich einer Kategoriezuordnung genutzt werden. Dieser Lernvorgang wird mit Hilfe des sog. Taxonomie-Browsers25 gesteuert und verwaltet. Nach dieser initialen Lernphase wird das „Trainingsprojekt“ in ein „Annotationsprojekt“ über- führt, dem jetzt neue, im Rahmen des alltäglichen Geschäftsprozesses hinzukom- mende Dokumente zur Verschlagwortung zugeführt werden. Neue Dokumente stellen damit das jeweilige Testset dar, welches unter Zuhilfenahme des Annota- tionstools kategorisiert wird.26 Die Dokumente werden von Decisiv Categorization 22 Hier liegt die Stärke des PLSA-Ansatzes, denn gegenüber linguistischen Verfahren, denen oft lexikalisch entsprechende Synoyme und Polyseme vorgegeben werden müssen, erkennt dieser Ansatz potentielle Mehrdeutigkeiten und verwandte Begriffe auf Basis der Gesamtdokumentenanzahl. 23 Vgl. Oberhauser, Otto (2005): Automatisches Klassifizieren – Entwicklungsstand, Methodik, Anwendungsbereiche. Frankfurt/M. u.a.: Peter Lang Verlag. S. 22. 24 Im Falle des STW, der bilingual ausgestaltet ist, benötigt das System für jeden Deskriptor insgesamt 100 Dokumente, jeweils 50 deutsche und 50 englischsprachige Titel. 25 Hier können den einzelnen Kategorien auch Negativbeispiele zugeordnet werden. Zudem kann der statistische Lernprozess über kategoriespezifische Regeln verfeinert werden. 26 Vgl. Lingelbach-Hupfauer/Laute (a. a. O.: 48).
Top of page

Note to user

Dear user,

In response to current developments in the web technology used by the Goobi viewer, the software no longer supports your browser.

Please use one of the following browsers to display this page correctly.

Thank you.