You are here

Web Search and Data Mining

Nowadays, the World Wide Web is both: A huge network of interlinked information as well as a virtual space for people to interact, meet, and share experiences. In the working group on Web Search and Data Mining we use a joint toolset of methods and approaches to analyse both of these aspects. When it comes to information on the Web, a core task is the detection of topics covered by online media. We use probabilistic models to describe topics and to determine the degree of how much a certain online article addresses a topic. For this we do not only analyse the words appearing in the documents, but also the context of the documents, e.g. the place or the social setting. This viewpoint on web contents can be used, for instance, to select a reasonable number of articles which provide the best and most representative coverage of a given topic. In social networks users generate and upload content, but one may also analyse their social interactions. The network structures can be used to predict, for instance, when two users should get into contact with each other, when a user is about to leave a social network and what would be the benefit of extending the 'like' button in a social network platform with a 'dislike' button.

Prof. Dr. Steffen Staab

B 108
+49 261 287-2761


Ich habe Informatik und Computerlinguistik an der Universität Erlangen-Nürnberg und an der University of Pennsylvania studiert. Ich habe in der früheren Computerlinguistik-Forschungsgruppe an der Universität Freiburg gearbeitet und meinen Dr. rer. nat. in Informatik an der Technischen Fakultät (damals: Fakultät für angewandte Wissenschaften) 1998 erworben. Danach war ich an der Universität Stuttgart, am Institut IAT, und bei Fraunhofer IAO tätig, bevor ich zur Universität Karlsruhe (jetzt: KIT) wechselte, wo ich als Projektleiter, wissenschaftlicher Assistent und Oberassistent arbeitete. 2004 wurde ich zum Professor für Datenbanken und Informationssystem an der Universität Koblenz-Landau ernannt, wo ich 2009 das Institute for Web Science and Technologies (WeST) gründete. Seit März 2015 halte ich außerdem einen Chair for Web and Computer Science an der University of Southampton.


Auf dem Rechner beschreiben Daten die Welt. Die Welt ist spannend, aber Daten sind ganz schön langweilig, wenn man nicht weiß, was sie bedeuten. Ich interessiere mich dafür, wie Daten spannend werden, indem man ihre Bedeutung versteht.

Wie aber kommt Bedeutung zustande? 

  • Man kann die Bedeutung von Daten und Informationen modellieren. Begriffliche Modelle und Ontologien sind die Grundlage für Wissensnetze, die dem Rechner erlauben bedeutungsvoll mit Daten umzugehen.
  • Text und Data Mining sowie Informationsextraktion finden bedeutungstragende Muster in Daten (z.B. mittels Ontology Learning oder Text Clustering) und auch Zusammenhänge zwischen Daten und ihrer Verwendung im Kontext (z.B. mit Smartphones). So werden Wissensnetze in Daten gefunden.
  • Menschen kommunizieren Informationen. Um zu verstehen, was Daten und Informationen bedeuten, muss man soziale Interaktionen verstehen. Im Kontext von sozialen Netzwerken werden Wissensnetze bedeutungsvoll für Menschen.
  • Bedeutung ist nichts absolut Gesetztes. Letzten Endes muss die Bedeutung von Daten und Informationen wieder an den Menschen kommuniziert werden, der diese Daten und Informationen nutzt. Interaktion zwischen Menschen und Rechnern muss der Bedeutung von Daten und Informationen gerecht werden.

Das größte Konstrukt, das die Menschheit erfunden hat, um Daten mit Bedeutung zu kommunizieren ist das World Wide Web. Web Science untersucht, wie Netzwerke von Personen und Wissen im Web entstehen, wie Menschen damit umgehen und welche Folgen das für uns alle hat. Das Web ist eine Bedeutungsmaschine, die ich durch meine Forschung verstehen möchte.

Wo ich sonst zu finden bin

Wenn ich nicht gerade im Büro oder auf Dienstreise bin, bin ich am Liebsten zum Laufen im Stadtwald, im Changa oder beim AHS. Watch out! 

Dr. Mahdi Bohlouli

B 006
+49 261 287 2864

Mahdi Bohlouli has been graduated with the PhD degree (Dr.-Ing.) in computer science from the university of Siegen, Germany in 2016. His PhD work is about statistical regeneration and scalable clustering of big data using MapReduce in the Hadoop ecosystem. Before his career as a researcher at the University of Siegen, he was involved in leading various industrial software projects in the IT sector. Since 2010, he has been active in research grant requests with a great success leading to numerous research projects, specially in applied Big Data and career knowledge management areas. Mahdi was involved in setting-up, management and research activities of the EU projects called ComProFITS (2013-2015), COMALAT (2014-2017), GraDAna (2016-2018) as well as member of setting-up and local project management team of FP7-ITN Eduworks project (2013-2017). Mahdi has supervised over 41 undergraduate and graduate theses and research reports as well as taught over 16 courses up to now. He served a Program Committee (PC) member of over 34 highly qualified conferences such as ISC2017, ADBIS15, EINS15, and ISDT2014. Furthermore, he has been involved as reviewer to over 25 scholarly and mostly ISI indexed journals such as Pattern Recognition Letters (Elsevier), Information Processing Letters (Elsevier). Further information can be found in the following link:

Lukas Schmelzeisen

B 104
+49 261 287-2758

Jun Sun

B 122
+49 261 287-2786

Research area:

  • Network theory
  • Machine learning and data mining

Open thesis topic:

Competed thesis: