Sie sind hier

DFG Projekt: EXCITE - Extraction of Citations from PDF Documents

Der Mangel an Zitationsdaten in den internationalen und insbesondere den deutschsprachigen Sozialwissenschaften ist bei Wissenschaftler gut bekannt und oft in akademischen Studien untersucht worden. Zitationsdaten sind u.a. der Ausgangspunkt effektiver Informationssuche, Empfehlungsdiensten und Wissensentdeckungsprozessen. Die Zugänglichkeit von Informationen in den Sozialwissenschaften liegt deutlich hinter anderen Disziplinen (z.B. den Naturwissenschaften) in denen grundsätzlich mehr Zitationsdaten verfügbar sind. Das EXCITE Projekt versucht diese Lücke zu schließen, indem eine Tool-Kette von Softwarekomponenten zur Referenzextraktion entwickelt wird, die auf bestehende wissenschaftliche Datenbanken (insb. Volltexte in den der Sozialwissenschaften) angewendet wird. Die Tools werden anschließend anderen Forschern zur Verfügung gestellt. Das Projekt wird eine Reihe von Algorithmen zur Extraktion von Referenzen und Zitationen aus PDF Volltexten entwickeln und das Matchen der Referenzstrings auf bibliographische Datenbanken verbessern. Die Extraktion von Zitationen wird als ein Fünf-Schritt-Prozess umgesetzt: 1) Extraktion von Text aus den Quelldokumenten, 2) Identifikation von Referenzabschnitten im Text, 3) Segmentierung individueller Referenzen in Felder wie Autor, Titel, etc. 4) Matching von Referenzstrings in bibliographischen Nachweissystemen und 5) Export der gematchten Referenzen in nachnutzbare Formate und Services. Besonderes Augenmerk wird auf die Optimierung der Einzelkomponenten des Prozesses zu Zitationsextraktion gelegt. Dies soll mit Hilfe von Machine Learning Methoden geschehen, die die Datenqualität der extrahierten Daten in den Einzelkomponenten kontrollieren. Die extrahierten Zitationsdaten werden anschließend in bestehende Nachweissysteme der Antragsteller (Sowiport and related-work.net) integriert und als linked open data unter freien Lizenzen zur Nachnutzung publiziert. Die entwickelte Software im Projekt wird zudem als WebService API und Open Source verfügbar gemacht.

Platforms

Excite integriert und entwickelt Methoden und wendet sie auf mehreren Plattformen an:

Resultate

Methode zur Autorenextraktion von Publikationen in den Sozialwissenschaften basierend auf Conditional Random Fields und Distant Supervision

Um die Erstellung von Zitationsdaten für die deutschen Sozialwissenschaften zu unterstützen, tragen wir einen Ansatz zur Autorenextraktion von Literaturverzeichnissen bei. Anstatt sich auf kleine Mengen manuell annotierter Daten zu verlassen, nutzen wir den Ansatz der Distant Supervision um automatisch teilweise annotierter Trainingsdaten zu erstellen. Generalized Expectation Kriterien bieten eine geeignete Zielfunktion um Conditional Random Fields (CRFs) mithilfe von teilweise annotierten Daten zu lernen. Das resultierende Modell entscheidet nicht nur ob ein Wort Teil eines Autorennamens ist, sondern seperiert auch aufgelistete Autoren und unterscheidet zwischen deren Vor- und Nachnamen. Die Evaluierung unseres Ansatzes zur Autorenextraktion zeigt vielversprechende Ergebnisse. Zusätzlich deutet sie auf einen Weg hin, mit dem der Kompromiss zwischen den beiden Metriken Precision und Recall für das Modell beeinflusst werden kann.

Ergebnisse:

Für eine Evaluierung wurden 54 Literaturverzeichnisse aus PDF-Dateien als Text extrahiert und die enthaltenen Autoren manuell gelabelt. Die CRF Modelle für die Autorenextraktion wurden auf bis zu 16470 Literaturverzeichnissen in verschiedenen Konfigurationen gelernt. Bei der Klassifizierung der 7055 manuell gelabelten Autorenwörter als solche erreichte das beste Modell einen Recall von 95,5% bei einer Precision von 92,5%. Zusätzlich deuten die Ergebnisse darauf hin, dass der Trade-off zwischen Precision und Recall durch bestimmte Konfigurationen direkt beeinflusst werden kann.

Publikationen:

Martin Körner, Author Extraction from Social Science Research Papers Using Conditional Random Fields and Distant Supervision, Masterarbeit, Universität Koblenz-Landau, 2016.

Community Workshop 2017 bei GESIS in Köln

Allgemeine Informationen

Laufzeit:

  • September 2016 - August 2018

Geldgeber:

  • DFG - Deutsche Forschungsgemeinschaft

Partner:

Martin Körner

B 104
+49 261 287-2863
mkoerner@uni-koblenz.de

Prof. Dr. Steffen Staab

B 108
+49 261 287-2761
staab@uni-koblenz.de

Kurzlebenslauf

Ich habe Informatik und Computerlinguistik an der Universität Erlangen-Nürnberg und an der University of Pennsylvania studiert. Ich habe in der früheren Computerlinguistik-Forschungsgruppe an der Universität Freiburg gearbeitet und meinen Dr. rer. nat. in Informatik an der Technischen Fakultät (damals: Fakultät für angewandte Wissenschaften) 1998 erworben. Danach war ich an der Universität Stuttgart, am Institut IAT, und bei Fraunhofer IAO tätig, bevor ich zur Universität Karlsruhe (jetzt: KIT) wechselte, wo ich als Projektleiter, wissenschaftlicher Assistent und Oberassistent arbeitete. 2004 wurde ich zum Professor für Datenbanken und Informationssystem an der Universität Koblenz-Landau ernannt, wo ich 2009 das Institute for Web Science and Technologies (WeST) gründete. Seit März 2015 halte ich außerdem einen Chair for Web and Computer Science an der University of Southampton.

Forschungsinteressen

Auf dem Rechner beschreiben Daten die Welt. Die Welt ist spannend, aber Daten sind ganz schön langweilig, wenn man nicht weiß, was sie bedeuten. Ich interessiere mich dafür, wie Daten spannend werden, indem man ihre Bedeutung versteht.

Wie aber kommt Bedeutung zustande? 

  • Man kann die Bedeutung von Daten und Informationen modellieren. Begriffliche Modelle und Ontologien sind die Grundlage für Wissensnetze, die dem Rechner erlauben bedeutungsvoll mit Daten umzugehen.
  • Text und Data Mining sowie Informationsextraktion finden bedeutungstragende Muster in Daten (z.B. mittels Ontology Learning oder Text Clustering) und auch Zusammenhänge zwischen Daten und ihrer Verwendung im Kontext (z.B. mit Smartphones). So werden Wissensnetze in Daten gefunden.
  • Menschen kommunizieren Informationen. Um zu verstehen, was Daten und Informationen bedeuten, muss man soziale Interaktionen verstehen. Im Kontext von sozialen Netzwerken werden Wissensnetze bedeutungsvoll für Menschen.
  • Bedeutung ist nichts absolut Gesetztes. Letzten Endes muss die Bedeutung von Daten und Informationen wieder an den Menschen kommuniziert werden, der diese Daten und Informationen nutzt. Interaktion zwischen Menschen und Rechnern muss der Bedeutung von Daten und Informationen gerecht werden.

Das größte Konstrukt, das die Menschheit erfunden hat, um Daten mit Bedeutung zu kommunizieren ist das World Wide Web. Web Science untersucht, wie Netzwerke von Personen und Wissen im Web entstehen, wie Menschen damit umgehen und welche Folgen das für uns alle hat. Das Web ist eine Bedeutungsmaschine, die ich durch meine Forschung verstehen möchte.

Wo ich sonst zu finden bin

Wenn ich nicht gerade im Büro oder auf Dienstreise bin, bin ich am Liebsten zum Laufen im Stadtwald, im Changa oder beim AHS. Watch out! 

Dr. Heinrich Hartmann

B 103
+49 261 287-2759
heinrich@heinrichhartmann.com

Azam Hosseini

azam.hosseini@gesis.org

Programmer (Developer)

Behnam Ghavimi

behnam.ghavimi@gesis.org

Dr. Zeyd Boukhers

B 114
+49 261 287-2765
boukhers@uni-koblenz.de