coli-conc Logo

Ein Vergleich ausgewählter Normdatendienste

coli-conc report 10

2017-05-31

https://doi.org/10.5281/zenodo.800577 CC-BY-SA

Moritz Horn <moritz.horn@gbv.de>

Jakob Voß <jakob.voss@gbv.de> (Verbundzentrale des GBV (VZG))

Dieser Report fasst Ergebnisse eines Vergleichs von APIs zum Zugriff auf ausgewählte Wissensorganisationssysteme zusammen.

Einführung

Im Rahmen des Projekt coli-conc wurden in einem Workshop der DINI AG KIM allgemeine Anforderungen an Normdatendienste zum Zugriff auf verschiedene Wissenssorganisationssysteme ermittelt [@TR4]. Der vorliegende Report untersucht die Eigenschaften einiger vorhandener Normdatendienste. Die Untersuchung basiert auf den Ergebnissen eines umfangreicheren Vergleichs von APIs zum Zugriff auf kontrollierte Vokabulare [@Horn2016].

Untersuchte Normdatendienste

Untersucht wurden vier Schnittstellen zum Zugriff auf die folgenden Vokabulare:

VokabularTypAPI-Betreiber
Regensburger Verbundklassifikation (RVK)KlassifikationUni Regensburg[1]
Gemeinsame Normdatei (GND)Normdateihbz (lobid.org)[2]
Standardthesaurus Wirtschaft (STW)ThesaurusZBW[3]
Library of Congress Subject Headings (LCSH)ThesaurusLoC[4]

Rückgabeformate

Abgesehen von der RVK-API, die ein eigenes JSON- bzw. XML-Format verwendet, basieren die Rückgabeformate aller APIs auf RDF, das in unterschiedlichen Serialisierungen (RDF/XML, Turtle...) ausgewählt werden kann. Die RDF-Formate basieren bei STW und LCSH auf SKOS [@SKOS], während für die GND eine eigene Ontologie definiert wurde [@Haffner2016]. Das Format der STW beschränkt sich weitgehend auf SKOS. Die Library of Congress bietet mit MADS/RDF zusätzlich eine Erweiterung an.[5] Noch umfangreicher ist die GND-Ontologie mit 228 Eigenschaften.

Umfang der zurückgelieferten Daten

Trotz unterschiedlicher Rückgabeformate lassen sich Gemeinsamkeiten in den über die verschiedenen APIs abfragbaren Datenfeldern ausmachen. Die folgende Übersicht beschränkt sich auf einen Vergleich der abfragbaren Verknüpfungen: Dies sind hierarchische (broader, narrower, ancestors) und assoziative Verknüpfungen (related) zwischen Begriffen eines Vokabulars sowie mappings auf andere Vokabulare.

FeldRVKGNDSTWLCSH
broaderXXXX
narrowerX-XX
ancestorsX---
related-XXX
mappings-XXX

Die RVK-API bietet als einzige der untersuchten Dienste eine Möglichkeit alle transitiv übergeordneten Klassen (ancestors) einer Klasse abzufragen, was allerdings bei monohierarchischen Klassifikationen auch einfacher umzusetzen ist. Allerdings wird bei Auswahl einer Klasse nur mitgeteilt, ob untergeordneten Klassen vorhanden sind, die in diesem Fall mit einer weiteren Abfrage ermittelt werden können. In der GND fehlen untergeordnete Begriffe ganz.

Die Einträge von STW zu GND und LCSH zu GND sind jeweils über Mappings miteinander verknüpft. Zudem enthält die LCSH Mappings auf die Normdatei RAMEAU der französischen Nationalbibliothek. In der GND sind diese Mappings zwar auch enthalten, werden aber nicht über die API mitgeliefert. Die GND enthält dafür Verknüpfungen zu den eigenen GND Subject Categories und der DDC. Sowohl GND als auch STW sind weiterhin (über de.wikipedia bzw. DBPedia) mit Wikipedia verknüpft[6]). In den STW-Daten sind zusätzlich Verlinkungen auf Einträge im Katalog des ZBW enthalten.

Abfragemöglichkeiten für typische Anwendungsfälle

Die folgende Tabelle liefert einen Vergleich der APIs mit den von @TR4 genannten Anwendungsfällen und Anforderungen mit Ausnahme von Schreib-Zugriffen.

AnforderungRVKGNDSTWLCSH
Abfrage von SynonymenX-X-
(Fuzzy-)Suche in NormdateienXX(X)-
Metasuche in mehreren Normdateien---X
Multilinguale Suche--X-
Autovervollständigung/TypeaheadXXX-
Entity-Kurzinfo(X)X(X)X
Abfrage der kanonischen Form-X(X)(X)
Abfrage von Konkordanzen und Mappings--X-
Abfrage von Änderungen--X(X)
Nutzungsstatistik----
Ermittlung von indexierten Ressourcen--(X)-

Einige Anwendungsfälle können mit den vorhandenen APIs nicht oder nur eingeschränkt (z.B. indirekt über andere Abfragen) umgesetzt werden. Die APIs der STW bieten den weitesten Funktionsumfang, was allerdings auch mit der Komplexität des Vokabulars zusammenhängt. Die API der LCSH kann mit ihrer Beschränkung auf einfachem Linked Open Data, d.h. Abfrage per bekannter URI, den wenigsten Anforderungen genügen. Die Typeahead-Funktionen sind bei allen APIs mangelhaft, da sie anscheinend nicht auf Ranking-Verfahren basieren.

Zusammenfassung und Ausblick

Zusammenfassend lässt sich feststellen dass die verschiedenen untersuchten Normdatendienste trotz grundsätzlicher Vergleichbarkeit sehr unterschiedlich ausfallen. Selbst die RDF-basierten APIs sind uneinheitlich umgesetzt. Generell lassen sich mit SKOS zwar Ansätze einer Vereinheitlichung erkennen, solange aber SKOS-Erweiterungen, Umfang der zurückgelieferten Daten und Abfragemöglichkeiten variieren, ist eine einheitliche Abfrage verschiedener Normdatendienste aber nicht möglich.

Im Rahmen des Projekt coli-conc wird deshalb neben der Vereinheitlichung von SKOS-Varianten mit dem Format JSKOS [@JSKOS] eine darauf basierende API zur Abfrage von Wissenssorganisationssystemen entwickelt. Eine Teilmenge dieser JSKOS-API wurde bereits unter dem Namen ELMA [@ELMA] festgelegt und umgesetzt.

Zur weiteren Entwicklung und Evaluation von Normdatendiensten sollen im Verlauf des Projektes neben Normdatendiensten für einzelne Vokabulare die APIs verschiedener Webanwendungen zum Zugriff auf Wissensorganisationssysteme verglichen werden [@TR7].

Nachweise


  1. http://rvk.uni-regensburg.de/Portal_API/ (nicht dokumentierter Endpunkt) ↩︎

  2. http://lobid.org/api ↩︎

  3. http://zbw.eu/labs/de/project/econ-ws (Sammlung mehrerer APIs) ↩︎

  4. http://id.loc.gov/authorities/subjects.html ↩︎

  5. http://www.loc.gov/standards/mads/rdf/ ↩︎

  6. Inzwischen wäre ein Mapping mit Wikidata sinnvoller. ↩︎

2024-04-29

Der Abschlussbericht der letzten Entwicklungsphase des Projekts coli-conc ist von der DFG genehmigt und nun veröffentlicht worden.

2023-06-26

Introduces tagging mismatch reasons and non-indexing concepts

2023-04-03

Improves display of concept information, and many other small changes

2022-10-18

Adds support for new filters, suggestions via catalog co-occurrences, and additional vocabulary APIs

2022-07-12

Sacherschließungsdaten des K10plus-Katalog als Open Data veröffentlicht

2022-06-23

The software library cocoda-sdk can be used to access terminologies from various sources