You are here

DFG Project: EXCITE - Extraction of Citations from PDF Documents

The shortage of citation data for the international and especially the German social sciences is well known to researchers in the field and has itself often been subject to academic studies. Citation data is the basis of effective information retrieval, recommendation systems and knowledge discovery processes. The accessibility of information in the social sciences lags behind other fields (e.g. the natural sciences) where more citation data is available. The EXCITE project aims to close this gap by developing a tool chain of software components for reference extraction which will be applied on existing scientific databases (esp. full texts in the social sciences). The tools will be made available to other researchers. The project will develop a number of algorithms for extracting references and citations from PDF full texts. It will also improve the matching of reference strings to bibliographic databases. The extraction of citations will be implemented as a five step process: 1) Extraction of text from the source documents, 2) identification of reference sections in the text, 3) segmentation of individual references in fields such as author, title, etc., 4) matching of reference strings against bibliographic databases, 5) export of the matched references in usable formats and services. Special attention will be paid to the optimization of individual components of the citation extraction. This will be done with the help of machine learning methods which control the quality of the extracted data of the individual components. The extracted citation data will be integrated into the services maintained by the proposers (sowiport and Related­Work.net) and published as linked open data under permissive licenses to enable reuse. The resulting software of this project will be published under open source licenses and made accessible via a WebService API.

Platforms

Excite integrates and develops methods and applies them on several platforms including:

Outcomes

Method for Distantly Supervised Author Extraction from Social Science Research Papers using Conditional Random Fields

To help in the creation of citation information for the German social sciences, we contribute an approach for extracting author names from reference sections. Instead of relying on small amounts of manually labeled data, we use a distantly supervised approach to automatically generate a partially labeled training data set. Generalized expectation criteria provide a suitable objective function to learn conditional random fields (CRFs) using such partially labeled data. The resulting model does not only decide if a word is part of an author, but also separates the listed authors and distinguishes between their first and last names.

Results:

For an evaluation, 54 reference sections were extracted from PDF files as text and authors were manually labeled. The CRF models for the author extraction were learned on up to 16470 reference sections using different configurations. For the classification of the 7055 manually labeled author words, our best model achieves a recall of 95.5% with a precision of 92.5%. The results further suggest ways of influencing the trade-off between the precision and recall of the model based on its configuration.

Publications:

Martin Körner, Author Extraction from Social Science Research Papers Using Conditional Random Fields and Distant Supervision, Master's Thesis, University of Koblenz-Landau, 2016.

Community Workshop 2017 at GESIS in Cologne

General Information

Operational time:

  • September 2016 - August 2018

Source of funding:

  • DFG - Deutsche Forschungsgemeinschaft

Partner:

Dr. Zeyd Boukhers

B 114
+49 261 287-2765
boukhers@uni-koblenz.de

Prof. Dr. Steffen Staab

B 108
+49 261 287-2761
staab@uni-koblenz.de

Kurzlebenslauf

Ich habe Informatik und Computerlinguistik an der Universität Erlangen-Nürnberg und an der University of Pennsylvania studiert. Ich habe in der früheren Computerlinguistik-Forschungsgruppe an der Universität Freiburg gearbeitet und meinen Dr. rer. nat. in Informatik an der Technischen Fakultät (damals: Fakultät für angewandte Wissenschaften) 1998 erworben. Danach war ich an der Universität Stuttgart, am Institut IAT, und bei Fraunhofer IAO tätig, bevor ich zur Universität Karlsruhe (jetzt: KIT) wechselte, wo ich als Projektleiter, wissenschaftlicher Assistent und Oberassistent arbeitete. 2004 wurde ich zum Professor für Datenbanken und Informationssystem an der Universität Koblenz-Landau ernannt, wo ich 2009 das Institute for Web Science and Technologies (WeST) gründete. Seit März 2015 halte ich außerdem einen Chair for Web and Computer Science an der University of Southampton.

Forschungsinteressen

Auf dem Rechner beschreiben Daten die Welt. Die Welt ist spannend, aber Daten sind ganz schön langweilig, wenn man nicht weiß, was sie bedeuten. Ich interessiere mich dafür, wie Daten spannend werden, indem man ihre Bedeutung versteht.

Wie aber kommt Bedeutung zustande? 

  • Man kann die Bedeutung von Daten und Informationen modellieren. Begriffliche Modelle und Ontologien sind die Grundlage für Wissensnetze, die dem Rechner erlauben bedeutungsvoll mit Daten umzugehen.
  • Text und Data Mining sowie Informationsextraktion finden bedeutungstragende Muster in Daten (z.B. mittels Ontology Learning oder Text Clustering) und auch Zusammenhänge zwischen Daten und ihrer Verwendung im Kontext (z.B. mit Smartphones). So werden Wissensnetze in Daten gefunden.
  • Menschen kommunizieren Informationen. Um zu verstehen, was Daten und Informationen bedeuten, muss man soziale Interaktionen verstehen. Im Kontext von sozialen Netzwerken werden Wissensnetze bedeutungsvoll für Menschen.
  • Bedeutung ist nichts absolut Gesetztes. Letzten Endes muss die Bedeutung von Daten und Informationen wieder an den Menschen kommuniziert werden, der diese Daten und Informationen nutzt. Interaktion zwischen Menschen und Rechnern muss der Bedeutung von Daten und Informationen gerecht werden.

Das größte Konstrukt, das die Menschheit erfunden hat, um Daten mit Bedeutung zu kommunizieren ist das World Wide Web. Web Science untersucht, wie Netzwerke von Personen und Wissen im Web entstehen, wie Menschen damit umgehen und welche Folgen das für uns alle hat. Das Web ist eine Bedeutungsmaschine, die ich durch meine Forschung verstehen möchte.

Wo ich sonst zu finden bin

Wenn ich nicht gerade im Büro oder auf Dienstreise bin, bin ich am Liebsten zum Laufen im Stadtwald, im Changa oder beim AHS. Watch out! 

Dr. Heinrich Hartmann

B 103
+49 261 287-2759
heinrich@heinrichhartmann.com

Azam Hosseini

azam.hosseini@gesis.org

Programmer (Developer)

Behnam Ghavimi

behnam.ghavimi@gesis.org

Martin Körner

B 104
+49 261 287-2863
mkoerner@uni-koblenz.de