Institute for Web Science and Technologies · Universität Koblenz - Landau

Automatische Erkennung von exakten und Near-Duplikaten in einer Netzwerkdatenbank

[zur Übersicht]

Das Institut WEST betreibt die Netzwerkdatenbank KONECT. Die Datenbank hat die Funktion möglichst viele verschiedene Netzwerke zu katalogisieren. Ein Hinzufügen von Duplikaten stellt dabei ein Problem dar, da es Experimente, die auf dieser Datenbank ausgeführt werden, stark verfälscht. Diese Arbeit beschreibt diverse Duplikatstypen und analysiert deren Netzwerkstatistiken. Anhand eben jener Statistiken soll für jeden Duplikatstyp eine Erkennungsmöglichkeit definiert werden. Somit soll festgestellt werden, ob eine Duplikatenerkennung und damit die Lösung des Duplikatenproblems in KONECT möglich ist.


21.01.16 - 10:15
B 016