Path:
Volume Heft 3/4

Full text: Bibliotheksdienst (Rights reserved) Issue46.2012 (Rights reserved)

Gremien Themen Bibliotheksdienst 46. Jg. (2012), H. 3/4 215 Die gemeinsamen Bestrebungen zielen zunächst darauf ab, zentrale URIs (CG-URIs) zu prägen, mit denen andere Identifier verknüpft werden. Auf dieser Ba- sis sollen Identifier für identische bzw. verwandte Ressourcen gebündelt werden. Die Etablierung von verbundübergreifenden Identifiern verfolgt das Ziel, die bib- liografischen Datensets möglichst eng zu verbinden und gleichzeitig den Zugang zu bibliografischen Daten der AG Verbund zu erleichtern. In der ersten Projekthälfte wurde eine neue Infrastruktur aufgebaut, um den Im- port und die Analysen auf großen Datenbeständen effizient durchführen und deren Ergebnisse präsentieren zu können. Diese basiert auf den Technologien Apache hadoop/hbase/lucene. Eine Komplett-Lieferung der Titeldaten seit 1945 ist inzwischen von den Verbundpartnern BSZ, hbz, BVB, ZDB, HeBIS, GBV und DNB erfolgt. Hierfür wurden effiziente Importverfahren neu entwickelt, die verschiede- ne Datenformate unterstützen. Aktuell (November 2011) befinden sich ca. 90 Mio. Datensätze im System. Sowohl beim Importieren als auch Analysieren der Daten konnte eine sehr hohe Performanz erreicht werden. Nach der erfolgten Aggregation und Speicherung der für ein Matchingverfahren relevanten Felder werden erste, einfache Matching-Algorithmen getestet, mit dem Ziel der Zusammenführung (Doublettenerkennung) bzw. Gruppierung/Clus- terings von Titeldatensätzen. Diese Matching-Ergebnisse müssen durch die Verbünde geprüft werden und auf der Basis des vorhandenen Datenpools stetig fortentwickelt und verfeinert wer- den. Hierzu wird unter anderem eine Webschnittstelle entwickelt, die die Grup- pierung einzelner Datensätze darstellt und nachvollziehbar macht. Dieser Web- dienst bietet eine Suchmaske um in den berechneten Titelgruppen zu suchen (Lookup) sowie einen Resolvingdienst: Über die Eingabe der CG-URI (oder eines alternativen eindeutigen Identifiers (Alias-URI) wird die damit assoziierte Titel- gruppe zurückgegeben. Bestandteil der Darstellung einer Gruppe ist neben dem Verweis auf die einzelnen Gruppenmitglieder (also die Originalsätze), die identifi- zierenden Merkmale der Gruppe und ein Verweis auf das Matchingverfahren, das zur Bildung der Gruppe geführt hat. Neben dieser HTML-GUI wird auch ein LinkedData-Service angeboten. Das heißt, alle Titelgruppen, deren identifizierenden Merkmale und Verknüpfungen werden nach den Linked-Data-Prinzipien auch in einer RDF/XML-Repräsentation zur Ver- fügung gestellt. Parallel dazu erfolgt die Veröffentlichung einer Auswahl von Gruppen in der Lin- ked Data Cloud und damit auch die Prägung von CG-URIs.
Top of page

Note to user

Dear user,

In response to current developments in the web technology used by the Goobi viewer, the software no longer supports your browser.

Please use one of the following browsers to display this page correctly.

Thank you.