Sie sind hier

DFG Projekt: EXCITE - Extraction of Citations from PDF Documents

Der Mangel an Zitationsdaten in den internationalen und insbesondere den deutschsprachigen Sozialwissenschaften ist bei Wissenschaftler gut bekannt und oft in akademischen Studien untersucht worden. Zitationsdaten sind u.a. der Ausgangspunkt effektiver Informationssuche, Empfehlungsdiensten und Wissensentdeckungsprozessen. Die Zugänglichkeit von Informationen in den Sozialwissenschaften liegt deutlich hinter anderen Disziplinen (z.B. den Naturwissenschaften) in denen grundsätzlich mehr Zitationsdaten verfügbar sind. Das EXCITE Projekt versucht diese Lücke zu schließen, indem eine Tool-Kette von Softwarekomponenten zur Referenzextraktion entwickelt wird, die auf bestehende wissenschaftliche Datenbanken (insb. Volltexte in den der Sozialwissenschaften) angewendet wird. Die Tools werden anschließend anderen Forschern zur Verfügung gestellt. Das Projekt wird eine Reihe von Algorithmen zur Extraktion von Referenzen und Zitationen aus PDF Volltexten entwickeln und das Matchen der Referenzstrings auf bibliographische Datenbanken verbessern. Die Extraktion von Zitationen wird als ein Fünf-Schritt-Prozess umgesetzt: 1) Extraktion von Text aus den Quelldokumenten, 2) Identifikation von Referenzabschnitten im Text, 3) Segmentierung individueller Referenzen in Felder wie Autor, Titel, etc. 4) Matching von Referenzstrings in bibliographischen Nachweissystemen und 5) Export der gematchten Referenzen in nachnutzbare Formate und Services. Besonderes Augenmerk wird auf die Optimierung der Einzelkomponenten des Prozesses zu Zitationsextraktion gelegt. Dies soll mit Hilfe von Machine Learning Methoden geschehen, die die Datenqualität der extrahierten Daten in den Einzelkomponenten kontrollieren. Die extrahierten Zitationsdaten werden anschließend in bestehende Nachweissysteme der Antragsteller (Sowiport and related-work.net) integriert und als linked open data unter freien Lizenzen zur Nachnutzung publiziert. Die entwickelte Software im Projekt wird zudem als WebService API und Open Source verfügbar gemacht.

Resultate

Methode zur Autorenextraktion von Publikationen in den Sozialwissenschaften basierend auf Conditional Random Fields und Distant Supervision

Um die Erstellung von Zitationsdaten für die deutschen Sozialwissenschaften zu unterstützen, tragen wir einen Ansatz zur Autorenextraktion von Literaturverzeichnissen bei. Anstatt sich auf kleine Mengen manuell annotierter Daten zu verlassen, nutzen wir den Ansatz der Distant Supervision um automatisch teilweise annotierter Trainingsdaten zu erstellen. Generalized Expectation Kriterien bieten eine geeignete Zielfunktion um Conditional Random Fields (CRFs) mithilfe von teilweise annotierten Daten zu lernen. Das resultierende Modell entscheidet nicht nur ob ein Wort Teil eines Autorennamens ist, sondern seperiert auch aufgelistete Autoren und unterscheidet zwischen deren Vor- und Nachnamen. Die Evaluierung unseres Ansatzes zur Autorenextraktion zeigt vielversprechende Ergebnisse. Zusätzlich deutet sie auf einen Weg hin, mit dem der Kompromiss zwischen den beiden Metriken Precision und Recall für das Modell beeinflusst werden kann.

Ergebnisse:

Für eine Evaluierung wurden 54 Literaturverzeichnisse aus PDF-Dateien als Text extrahiert und die enthaltenen Autoren manuell gelabelt. Die CRF Modelle für die Autorenextraktion wurden auf bis zu 16470 Literaturverzeichnissen in verschiedenen Konfigurationen gelernt. Bei der Klassifizierung der 7055 manuell gelabelten Autorenwörter als solche erreichte das beste Modell einen Recall von 95,5% bei einer Precision von 92,5%. Zusätzlich deuten die Ergebnisse darauf hin, dass der Trade-off zwischen Precision und Recall durch bestimmte Konfigurationen direkt beeinflusst werden kann.

Publikationen:

Martin Körner, Author Extraction from Social Science Research Papers Using Conditional Random Fields and Distant Supervision, Masterarbeit, Universität Koblenz-Landau, 2016.

Community Workshop 2017 bei GESIS in Köln

Allgemeine Informationen

Laufzeit:

  • September 2016 - August 2018

Geldgeber:

  • DFG - Deutsche Forschungsgemeinschaft

Partner:

Beteiligte: 

Martin Körner

mkoerner@uni-koblenz.de

Prof. Dr. Steffen Staab

staab@uni-koblenz.de