Machine Learning and Data Mining
[go to overview]Winter Term 2012 / 2013
NEWS
10.02.13: Die Prüfungstermine unserer Vorlesung Machine Learning sind im KLIPS eingerichtet. Jeder zugelassene Teilnehmer sollte nun in der Lage sein, zum Termin seiner Wahl sich anzumelden. Es ist geplant, die Prüfung wie folgt abzuhalten:
- 13.02.2013 - 14 Uhr c.t.
- 20.02.2013 - 14 Uhr c.t.
- 08.03.2013 - 14 Uhr c.t.
- 27.03.2013 - 14 Uhr c.t.
Treffpunkt wäre in allen Fällen unser üblicher Vorlesungsraum B016.
19.12.12: Aufgrund der Krankheit muss die Vorlesung heute leider ausfallen. Wir wünschen allen Teilnehmern frohe Festtage - im neuen Jahr geht es weiter!
30.10.12: Hilfreich: A few useful things to know about machine learning - benutzen Sie Frei-Zugriff auf ACM DL aus der Uni-Domäne.
23.10.12: Achtung Raumänderung: ab 31.10.2012 wird unsere Vorlesung Mittwochs 14-16 Uhr in die Informatik-Hochburg (Gebäude B) verlegt und findet dann dauerhaft in B-016 statt. Mit dem Umzug bekommen wir etwas mehr Platz und auch eine größere Projektionsfläche! Am 31.10.2012 findet die Vorlesung zum ersten Mal in neuen Räumlichkeiten statt!
Das Themenfeld
Als "Maschinelles Lernen" bezeichnet man Methoden zur Realisierung von automatisierten Entscheidungsverfahren, insbesondere in Verbindung mit größeren Datenmengen. Zu den klassischen Beispielen des Maschinellen Lernens gehören Klassifikation, Clustering, oder Faktoranalyse.
Verfahren des Maschinellen Lernens haben ein sehr breites Anwendungsspektrum in diversen Themenfeldern der praktischen Informatik - z.B. Bildklassifikation, Informationssuche, Analyse des Benutzerverhaltens, Optimierung von Multimedia-Systemen, oder Analysen in Data Warehouses.
Lernziele
Die Vorlesung vermittelt einen systemtischen Überblick über entsprechende etablierte Verfahren und deren Anwendung: Hypothesenbildung, Auswahl der Methoden, implizite Modellannahmen, mögliche Fehlentscheidungen, Evaluation.
Die wesentlichen Themenbereiche der Vorlesung im Überblick:
- Motivation und (mehrere) Beispiele
- Technische und mathematische Grundlagen - Gemeinsamkeiten, die verbinden
- Vektoren, Punkte, Punktwolken mit Aussicht auf Klassifikation und Clustering
- Regeln für alle - Entscheidungsregeln und Assoziationsregeln
- Ursachenforschung: Regressionsbasierte Lern- und Analyseverfahren
- Kernwaffen der Informatik: Support Vector Machines
- Alles Bayes, oder .. Naive Bayes und Bayesian Networks
- Jeder in seinem Element: Komponentenanalyse (LSI, PLSI, LDA)
Zielgruppe
Die Vorlesung richtet sich primär an Studenten der Fachrichtungen Informatik, CV, Wirtschaftsinformatik und IM. Empfohlene Vorkenntnisse umfassen die Grundlagen der linearen Algebra, der Theorie der Wahrscheinlichkeiten und der Statistik, sowie Algorithmen und Datenstrukturen.
Übungen
Die Vorlesung wird in Kombination mit thematisch abgestimmten praktischen Übungen in Blockform angeboten. Die einzelnen Übungsthemen und der Übungsablauf werden in der Einführungsveranstaltung mit den Teilnehmern abgestimmt.
Dozenten
Dr. Dr. Sergej Sizov ist Akademischer Rat am Institut für Web Science und Technologien (WeST) der Koblenzer Uni-Informatik. Zu seinen Forschungsschwerpunkten gehören intelligente Informationssuche, Analyse von interaktiven sozialen Medien, Wissensmodellierung, sowie multi-linguale Informationssysteme. Eine neue Forschungsrichtung bilden seit 2009 interdisziplinäre Aktivitäten im Themenfeld "Web Science". Sergej Sizov koordiniert derzeit in Koblenz EU-Forschungsprojekte "WeGov" und "Live+Gov" und ist zudem Leiter der Forschungsgruppe "Social Web" im Institut WeST.
Dipl.-Inf. Christoph Kling ist wissenschaftlicher Mitarbeiter am Institut für Web Science und Technologien (WeST) und Absolvent der Koblenzer Uni-Informatik. Sein Promotionsthema liegt im Bereich der probabilistischen Modellierung und multi-modalen Analyse von Web-Inhalten, unter anderem im Forschungsschwerpunkt "Kommunikation-Medien-Politik".
Wo und Wann
Die Vorlesung startet planmäßig am 17. Oktober 2012; weitere organisatorische Details werden in der ersten Vorlesung bekanntgegeben und mit Teilnehmern individuell abgestimmt.
Leistung und Prüfung
Die Vorlesung hat zusammen mit Übung den Umfang von 4 SWS (6 ECTS). Als Leistungskontrolle ist eine individuelle mündliche Prüfung am Ende des Semesters vorgesehen.
Literatur, Unterlagen, Links
Christopher M. Bishop: Pattern Recognition and Machine Learning. Springer, 2006 (Semesterapparat Uni-Bib);
Richard O. Duda, Peter E. Hart, David G. Storck: Pattern Classification. Wiley, 2001 (Semestarapparat Uni-Bib);
Tom M. Mitchell: Machine Learning. McGraw-Hill, 1997 (Semestarapparat Uni-Bib);
Christopher D. Manning, Hinrich Schuetze: Foundations of Statistical Language Processing. MIT Press, 2003 (Semestarapparat nachbestellt).
Neben der Literaturliste und aktuellen Online-Quellen stehen den Teilnehmern Folien der Vorlesung zur Verfügung, die zeitnah online veröffentlicht werden:
- Kap 1 - Introduction: PDF Folien
- Kap 2 - Probabilistic Models: PDF Folien
- Kap 3 - Information Theory in ML: PDF Folien
- Kap 4 - Separation of data points: PDF Folien
- Kap 5 - Alternative Feature spaces: PDF Folien
Übung
- Übung 1 - Introduction: PDF Folien, Octave code
- Übung 2 - Idiot Bayes: PDF Folien, Octave code, Daten
- Übung 3 - Parameter Estimation: PDF Folien 1
- Übung 4 - Parameter Estimation2: PDF Folien
- Übung 5 - Regression Analysis: PDF Folien, Octave code
- Übung 6 - Regression + Decision Trees: Zip-Archiv Neu! Jetzt mit tollen Übungsaufgaben als PDF und Octave-Code für Decision Trees :)
- Übung 7 - Entropie: Zip-Archiv Wieder mit tollen Übungsaufgaben als PDF!
- Übung 8 - Entropie, Clustering: Zip-Archiv Wieder mit tollen Übungsaufgaben als PDF!
- Übung 9 - Clustering, SVM: Zip-Archiv "
- Übung 10: PDF Folien Aufgabenblatt
Empfohlene Software
- OCTAVE - der wissenschaftliche "Taschenrechner" (in Wirklichkeit ein mächtiges Freeware Computeralgebra-Paket) für unsere Aufgaben und Demos