Sie sind hier

Proseminar Data Mining auf großen Datenmengen

Beim Data Mining geht es im Allgemeinen um die Erkennung oder Bestätigung von Mustern in Daten. Ziel ist es dabei auf automatische Art und Weise nicht-triviale Erkenntnisse aus den Daten zu gewinnen. Zu diesem Zweck gibt es viele etablierte und in der Praxis erprobte Verfahren. Besondere Anforderungen ergeben sich an solche Verfahren jedoch, wenn besonders große Datenmengen analysiert werden sollen. Dann müssen Verfahren adaptiert oder komplett neu entwickelt werden um mit den veränderten Rahmenbedingungen umgehen zu können. Im Proseminar werden verschiedene solcher Verfahren und Methoden in einzelnen Vorträgen vorgestellt und besprochen.  

Aktuelles

  • Vorbesprechung zum Proseminar: 24. Juli 2014 um 11:00 Uhr (s.t.) in Raum D-116. Hier werden die Inhalte und Themen kurz angesprochen sowie die Vorträge verteilt.
Proseminar - Proseminar Datamining auf großen Datenmengen

Veranstaltungsnummer: 04450

Dozent(in) Thomas Gottron
Dr. Heinrich Hartmann
Termin(e) Mo 12.00-14.00
E 523, KO Gebäude E

Organisatorisches

  • Die Teilnehmer erhalten ein Thema auf dem Gebiet des Data Mining auf großen Datenmengen. Schwerpunkt liegt dabei auf der Adaption etablierter Verfahren für die Anwendung auf großen Datenmengen. 
  • Zu jedem Thema werden die Teilnehmer einen Vortrag halten. Die Vorträge sollen insgesamt maximal 45 Minuten dauern, wobei die letzten 10-15 Minuten für Fragen vorgesehen sind. Im Anschluss sollen Vortragsfolien und ergänzende Materialien im PDF-Format eingereicht werden, um sie anderen Seminarteilnehmern zugänglich machen zu können.
  • Weiterhin soll zu jedem Thema wahlweise eine theoretische oder praktische Ausarbeitung eingereicht werden. Ein theoretische Ausarbeitung soll einen Umfang von 10-15 Seiten im LNCS Format haben und die vorgestellten VErfahren mit eigenen Worten wiedergeben und erklären. Eine praktische Ausarbeitung besteht aus der Implemtentierung der vorgestellten Verfahren auf einer skalierbaren Plattform. Diese wird in einem ergänzenden Vortrag vorgestellt.
  • Ein genauer Zeitplan für Vorträge und weitere Fristen wird mit den Teilnehmern vereinbart.
  • Vorlagen zum LNCS Format für Word und LaTeX finden sich auf der Homepage des Springer Verlages. Bernhard Hechenleitner hat daraus auch eine LNCS Vorlage für OpenOffice erstellt.

Vortragsthemen

  • Matrix Models
  • Mining Similar Items
  • Link Analysis
  • Mining Social Network Graphs
  • Clustering Verfahren
  • Sampling Streams
  • Bloom Filter
  • Counting Distinct Elements
  • Time Series Analysis
  • Frequent Itemsets

Literatur

  • Mining of Massive Datatsets, Leskovec, Rajaraman, UIlman, Cambridge University Press, (PDF)