coli-conc Logo

Neue Version von coli-ana zur Analyse von DDC-Notationen und Eintragung im K10plus

2022-02-04

Die Dewey-Dezimalklassifikation (DDC) wird seit mehr als 100 Jahren weltweit von Bibliotheken zur Beschreibung von Publikationen eingesetzt. Eine Besonderheit dieser Klassifikation ist, dass sich komplexe Sachverhalte durch Kombination verschiedener Aspekte in einer Notation ausdrücken lassen. Ein Beispiel ist hierfür ist die Notation 641.50902, die sich aus den Klassen 641.5 (Kochen) und T1--0902 (6.–15. Jahrhundert) zusammensetzt und unter der sich Bücher zum "Kochen wie im Mittelalter" finden. Die automatische Zerlegung von DDC-Notationen in ihre elementaren Bestandteile ist jedoch alles andere als trivial. Im Rahmen des Forschungsprojekt Colibri/DDC wurde ein Programm zur Analyse von DDC-Notationen entwickelt und als Webanwendung coli-ana zur Verfügung gestellt.

Die bereits auf der SWIB21-Konferenz vorgestellte Anwendung (siehe Video und Vortragsfolien) wurde nun überarbeitet. Die Änderungen betreffen vor allem das Benutzerinterface und die Eintragung von Zerlegungen im K10plus-Katalog, während der Zerlegungs-Algorithmus ("vc_day") weitgehend gleich bleibt.

Neue Funktionen und Verbesserungen

Zu den Verbesserungen der Version 0.3.0 gehört:

Die Möglichkeit, mehrere Notationen auf einmal zu analysieren und nachzuschlagen, welche Zerlegungen einen Notationsbestandteil enthalten, wurden dagegen zunächst entfernt.

Eintragung im K10plus

Zur Verbesserung des Retrievals sollen die Zerlegungen von DDC-Notationen in Titeldatensätze des K10plus-Katalog eingetragen werden. Eine Suche nach Literatur zum Mittelalter (T1--0902) sollte dann beispielsweise auch Titel liefern, die mit der DDC-Notation 641.50902 erschlossen sind. Im Datenformat des K10Plus sind für DDC zwei PICA-Felder vorgesehen:

Bislang enthalten rund 12% der Datensätze DDC-Notationen. Insgesamt kommen je nach Einbeziehung korrigierbarer Tippfehler rund 700.000 bis 750.000 verschiedene DDC-Notationen vor, von denen etwa zwei Drittel vollständig von coli-ana analysiert werden können. Die Rate wird mit Weiterentwicklung des Dienstes und mit Berücksichtigung unvollständiger Zerlegungen noch steigen. Eine Zerlegung aller vorkommenden Notationen ist jedoch nicht möglich, da der Algorithmus nur für die neueste Ausgabe der DDC umgesetzt ist und weil bereits Fehler bei den DDC-Notationen im Katalog vorkommen.

Zur Bestimmung der Analysequalität wurde eine Stichprobe von 250 unterschiedlichen DDC-Notationen aus dem K10plus-Katalog entnommen und deren Zerlegung intellektuell überprüft. Bei 4 Fehlern ergibt sich mit Konfidenz von 99% eine Fehlerrate zwischen 0,3% und 5%. Zu beachten ist allerdings dass die ersten Bestandteile einer DDC-Notationen praktisch immer richtig erkannt werden und dass vorgesehen ist, bei Korrekturen am Algorithmus die angereicherten Datensätze entsprechend anzupassen.

In einem ersten Durchlauf sollen rund 5 Millionen Datensätze des K10plus um DDC-Notationen angereichert werden.

Weitere Informationen zu coli-ana gibt es auf der coli-ana Projektseite.

Mehr Beiträge

2022-07-12

Sacherschließungsdaten des K10plus-Katalog als Open Data veröffentlicht

2022-06-23

The software library cocoda-sdk can be used to access terminologies from various sources

2022-05-13

Informationen zum Einbinden eigener Vokabulare in Cocoda anhand verschiedener Beispiele.

2022-04-27

Concordances can now be managed inside Cocoda

2022-04-25

Weitere Vokabulare in BARTOC und Cocoda verfügbar.

2021-11-22

Performance improvements and many bug fixes