Sie sind hier

Maschinelles Lernen für den Aufbau eines Zitationsnetzwerkes

Das Ziel des DFG-Projekts EXCITE [1] ist es, den Mangel an Zitationsdaten für die deutschen Sozialwissenschaften zu vermindern. Solche Zitationsdaten würden die Literaturrecherche in dem Gebiet drastisch vereinfachen und zusätzlich einen interessanten Datensatz für weiterführende Forschungen darstellen. Durch die Zusammenarbeit mit dem GESIS – Leibniz-Institut für Sozialwissenschaften [2] haben wir Zugang zu mehreren hunderttausend Publikationen im PDF Format, die als Basis für die Extraktion dienen. Die Aufgabe in EXCITE ist es also, Zitationsdaten aus den gegebenen PDF-Dateien zu extrahieren und nutzbar zu machen.

Eine Besonderheit, durch die sich ein Teil der Publikationen von anderen Gebieten wie beispielsweise der Informatik unterscheiden, sind Zitationsdaten in den Fußnoten. Dabei werden die Referenz-Informationen komplett in den Fußnoten der entsprechenden Seite gegeben, anstatt gesammelt in einem Literaturverzeichnis zu erscheinen. Siehe [3] für einige konkrete Beispiele.

Dadurch ergeben sich interessante Herausforderungen. Zum einen müssen Fußnoten mit Zitationsdaten als solche erkannt werden. Zum anderen beinhalten solche Fußnoten in einigen Fällen zusätzliche Anmerkungen, die nicht Teil der eigentlichen Referenz sind. In beiden Fällen lassen sich Methoden des überwachten maschinellen Lernens anwenden. Konkret wird ein Lösungsansatz basierend auf Conditional Random Fields, einer Art von Probabilistischen Graphischen Modellen, vorgeschlagen. Mit einem ersten zeilenbasierten Modell soll entschieden werden, ob eine gegebene Zeile eine Fußzeile mit Zitationsdaten ist. Mit einem wortbasierten Modell werden dann die eigentlichen Zitationsdaten als solche erkannt und von zusätzlichen Anmerkungen getrennt. Beide Modelle können sowohl die Layout-Informationen der PDF als auch textuelle Informationen wie beispielsweise eine vorhandene Jahresangabe nutzen.

Vorausgesetzt werden Java-Kenntnisse, um auf bereits existierenden Implementationen des Projekts aufbauen zu können. Vor allem das existierende Modell zur Erkennung von Referenzen in Literaturverzeichnissen [4] bietet eine erprobte Grundlage für diese Masterarbeit. Dadurch sind einige Schritte wie beispielsweise das Extrahieren von Text und Layout-Informationen aus PDF Dateien bereits abgedeckt und der Student kann sich auf das maschinelle Lernen als Kernthema konzentrieren.

Zusammenfassend zeichnet sich das vorgeschlagene Thema zum einen durch den gegebenen Praxis-Bezug und einem echten Problem aus. Zusätzlich bietet es die Möglichkeit, sich tiefer in das Thema maschinelles Lernen einzuarbeiten und Erfahrungen mit Probabilistischen Graphischen Modellen zu sammeln.

Referenzen:
[1]: https://west.uni-koblenz.de/de/research/excite
[2]: http://www.gesis.org/
[3]: http://excite-compute.west.uni-koblenz.de/footnote-examples/
[4]: https://github.com/exciteproject/refext

Studienart: 
Master
Ausschreibungsdatum: 
2017