coli-conc Logo

Inhaltserschließung des K10plus als Open Data

2022-07-12

Der K10plus-Katalog umfasst bibliographische Angaben und Bestandsnachweise der Bibliotheken des Südwestdeutsche Bibliotheksverbund (SWB), des Gemeinsamen Bibliotheksverbundes (GBV) und weiterer Forschungseinrichtungen. Mit mehr als 200 Millionen Nachweisen zu rund 80 Millionen Publikationen ist er der umfangreichste Katalog im deutschsprachigen Raum. Die Daten des K10plus sind über Schnittstellen und als Datenbankdump in MARC und RDF als Open Data verfügbar.

Zur Auswertung von Sacherschließungsdaten wurde nun im Rahmen des Projekt coli-conc ein Auszug des K10plus mit allen Sacherschließungsdaten als Forschungsdatensatz veröffentlicht:

Die Datensätze umfassen rund 14 Gigabyte im normalisierten PICA+ Format. Eine Beschreibung der Daten und eine zufällige Stichprobe von 10.000 Datensätzen sind enthalten. Die Beschreibung der PICA-Felder ist unter https://format.k10plus.de/avram.pl abrufbar.

Aufbauend auf diesem Forschungsdatensatz sollen weiter aufbereitete Daten und Auswertungen erstellt und publiziert werden. Hinweise zur Verarbeitung der Daten werden in einem git-Repository gesammelt.

P.S.: Inzwischen gibt es auch eine reduzierte und bereinigte Version der Daten für ausgewählte Vokabulare als Tabelle und in RDF: https://doi.org/10.5281/zenodo.7016625 (Stand Juni 2022 mit 82.937.252 Links von 24.009.936 Datensätzen).

Mehr Beiträge

2024-04-29

Der Abschlussbericht der letzten Entwicklungsphase des Projekts coli-conc ist von der DFG genehmigt und nun veröffentlicht worden.

2023-06-26

Introduces tagging mismatch reasons and non-indexing concepts

2023-04-03

Improves display of concept information, and many other small changes

2022-10-18

Adds support for new filters, suggestions via catalog co-occurrences, and additional vocabulary APIs

2022-06-23

The software library cocoda-sdk can be used to access terminologies from various sources

2022-05-13

Informationen zum Einbinden eigener Vokabulare in Cocoda anhand verschiedener Beispiele.