Sie sind hier

Proseminar Linked Data

Organisatorisches:

Leistungsnachweis: Vortrag + Ausarbeitung + Review
Erste Sitzung: Das erste Treffen ist am Montag, den 21.10.13, um 12:00 Uhr s.t. in E 523. Die Themenvergabe erfolgt am Montag, den 28.10.13, um 12 Uhr s.t. in E 523.
Anmerkungen: Das Seminar findet als Blockseminar an zwei aufeinanderfolgenden Tagen statt. Die genauen Tage werden in der Einführungsveranstaltung festgelegt.
Anmeldung: Die Anmeldung läuft bis zum 28.10.2013 und erfolgt über die Sammelanmeldung von Klips. Die Anmeldung ist nicht verbindlich. Eine verbindliche Vergabe der Themen erfolgt erst in der Einführungsveranstaltung.
Betreuung: Prof. Dr. Stefen Staab & Renata Dividino & Daniel Janke
Einführungsfolien: 01_Einfuehrung01.pdf
02_Einfuehrung02.pdf

Kurzbeschreibung

Der Begriff Linked Open Data bezieht sich auf ein Paradigma, das beschreibt, wie strukturierte Daten miteinander verbunden und im Netz veröffentlicht werden sollen.  Bei der so entstehenden Linked Open Data Cloud handelt es sich um einen globalen Informationsnetz dem sogenannten "Giant Global Graph".

Im Rahmen des Seminars werden wichtige Methoden und Techniken im Umgang mit Linked Data aufgegriffen und vertieft. Neben wichtigen und etablierten Arbeiten auf diesem Gebiet werden auch aktuelle Themen und Trends aufgegriffen.

Weiter Infos Zur Veranstaltung

Die Vorträge sollen insgesamt maximal 45 Minuten dauern, wobei die letzten 10-15 Minuten für Fragen vorgesehen sind (30 min Votrag + 15 min Fragen). Im Anschluss sollen Vortragsfolien und ergänzende Materialien im PDF-Format eingereicht werden, um sie anderen Seminarteilnehmern zugänglich machen zu können.

Weiterhin ist eine schriftliche Ausarbeitung im PDF-Format abzugeben, die ebenfalls im Web für alle Teilnehmer online gestellt wird. 

Ablauf

  • 21.10.2013    Vorstellung der Themen
  • 28.10.2013    Einführung und Themenvergabe
  • 11.11.2013    Erste Abgabe: Abstract und erläuterte Gliederung der Ausarbeitung
                             des eigenen Themas
  • 18.11.2013    Feedback, ob sich die Ausarbeitung mit den Vorstellungen der Betreuer deckt
  • 16.12.2013    Zweite Abgabe: erste Version der vollständigen Ausarbeitung
  • 17.12.2013    Zuweisung einer Ausarbeitung, für die ein Review erstellt werden soll
  • 13.01.2014    Dritte Abgabe: Reviews und anschließende Verteilung zur Überarbeitung
                             der eigenen Ausarbeitung
  • 19.02.2014    Vorträge - Blockseminar
  • 20.02.2014    Vorträge - Blockseminar
  • 10.03.2014    Vierte Abgabe: Finale Version der Ausarbeitung

Das Seminar wird als Blockveranstaltung am Mittwoch den 19.02. im Raum B 016 und Donnerstag den 20.02 im Raum B 016 abgehalten.

Mi, 19.02.2014: Cloud Computing
Zeit Thema ReferentIn Unterlagen
08:30 Begrüßung
08:45  HADOOP Distributed File System  Stefan Lawsky Folien
Ausarbeitung
09:30  HADOOP MapReduce  Stefan Rolli Folien
Ausarbeitung
10:15 Pause
10:30  HBase  Maximilian Luzius Folien
Ausarbeitung
11:15  Cassandra  Milan Dilberovic Folien
Ausarbeitung
12:00 Pause
14:00  Giraph  Sebastian Prusak Folien
Ausarbeitung
14:45  Signal/Collect  Fabian Meyer Folien
Ausarbeitung
15:30  Storm  Adrian Derstroff Folien
Ausarbeitung
Do, 20.02.2014: Linked Data Cloud
Zeit Thema ReferentIn Unterlagen
11:00 Begrüßung
11:15  Federated Query Processing: FedEx/Splendid  Tobias Lippert Folien
Ausarbeitung
12:00  SQUIN  Dominik Cremer Folien
Ausarbeitung
12:45 Pause
13:30  SPARQL-RANK  Annika Wießgügel Folien
Ausarbeitung
14:15  StreamingSPARQL/EP-SPARQL  Fabian Mlink Folien
Ausarbeitung
15:00 Schlussbesprechung

 Themen

  • Cloud Computing
    • HADOOP Distributed File System [1, 2, 3]
    • HADOOP Map Reduce [1, 4]
    • HBase [5, 6]
    • Cassandra [7, 8, 9, 10]
    • S4 [11, 12] or Storm [13, 14]
    • Giraph/Pregl [15, 16]
    • Signal Collect [34]
  • Linked Data Cloud
    • RDF Stream Processors [22, 26, 27]
      •  C-SPARQL [21] / SPARQL Stream [18]
      •  StreamingSPARQL [17] / EP-SPARQL [19]
    • Top-k SPARQL Queries [25]
      • SPARQL-RANK [28]
    • Querying Linked Data
      • Federated Query Processing: FedEx [30, 31] / SPLENDID [32]
      • SQUIN [35, 36]
      • Summaries for RDF datasets 
        • Q-Tree [23, 24]
        • SchemEx [33]/ Schema Extraction [37]

          References

          [1] Hadoop. (Oct. 2013). Retrieved Oct. 8, 2013 from https://hadoop.apache.org/

          [2] Konstantin Shvachko, Hairong Kuang, Sanjay Radia, and Robert Chansler. 2010. The Hadoop Distributed File System. In Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST '10). IEEE Computer Society, Washington, DC, USA, 1-10. DOI:10.1109/MSST.2010.5496972

          [3] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. 2003. The Google File System. In Proceedings of the nineteenth ACM symposium on Operating systems principles (SOSP '03). ACM, New York, NY, USA, 29-43. DOI:10.1145/945445.945450

          [4] Dean Jeffrey, and Sanjay Ghemawat. 2004. MapReduce: Simplified Data Processing on Large Clusters. In Proceedings of the 6th symposium on Operating systems design & implemantation (OSDI '04). 137-150.

          [5] Apache HBase. (March 2013).  Retrieved Oct. 8, 2013 from https://hbase.apache.org/0.94/

          [6] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Michael Burrows, Tushar Chandra, Andrew Fikes, and Robert Gruber. 2006. Bigtable: A Distributed Storage System for Structured Data. In OSDI 2006, 205-218.

          [7] Cassandra. Retrieved Oct. 8, 2013 from https://cassandra.apache.org/

          [8] Apache Cassandra™ 1.2 Documentation. (Oct. 2013). Retrieved Oct. 8, 2013 from http://www.datastax.com/documentation/cassandra/1.2/pdf/cassandra12.pdf

          [9] Avinash Lakshman, and Prashant Malik. 2010. Cassandra: a decentralized structured storage system. SIGOPS Oper. Syst. Rev. 44, 2 (April 2010), 35-40. DOI:10.1145/1773912.1773922

          [10] Giuseppe DeCandia, Deniz Hastorun, Madan Jampani, Gunavardhan Kakulapati, Avinash Lakshman, Alex Pilchin, Swaminathan Sivasubramanian, Peter Vosshall, and Werner Vogels. 2007. Dynamo: amazon's highly available key-value store. In Proceedings of twenty-first ACM SIGOPS symposium on Operating systems principles (SOSP '07). ACM, New York, NY, USA, 205-220, DOI:10.1145/1294261.1294281

          [11] S4 distributed stream computing platform. Retrieved Oct. 8, 2013 from https://incubator.apache.org/s4/

          [12] Leonardo Neumeyer, Bruce Robbins, Anish Nair, and Anand Kesari. 2010. S4: Distributed Stream Computing Platform. In Proceedings of the 2010 IEEE International Conference on Data Mining Workshops (ICDMW '10). IEEE Computer Society, Washington, DC, USA, 170-177. DOI:10.1109/ICDMW.2010.172

          [13] Storm Distributed and fault-tolerant realtime computation. Retrieved Oct. 8, 2013 from http://storm-project.net/

          [14] Jonathan Leibiusky, Gabriel Eisbruch, and Dario Simonassi. 2012. Getting Started with Storm - Continuous Streaming Computation with Twitter's Cluster Technology (1st. ed.). O'Reilly, Sebastopol, CA.

          [15] Apache Giraph. (Aug. 2013). Retrieved Oct. 8, 2013 from https://giraph.apache.org/

          [16] Grzegorz Malewicz, Matthew H. Austern, Aart J.C Bik, James C. Dehnert, Ilan Horn, Naty Leiser, and Grzegorz Czajkowski. 2010. Pregel: a system for large-scale graph processing. In Proceedings of the 2010 ACM SIGMOD International Conference on Management of data (SIGMOD '10). ACM, New York, NY, USA, 135-146. DOI:10.1145/1807167.1807184

          [17] Andre Bolles, Marco Grawunder, and Jonas Jacobi. 2008. Streaming SPARQL extending SPARQL to process data streams. In Proceedings of the 5th European semantic web conference on The semantic web: research and applications (ESWC'08), Sean Bechhofer, Manfred Hauswirth, Jörg Hoffmann, and Manolis Koubarakis (Eds.). Springer-Verlag, Berlin, Heidelberg, 448-462

          [18] Jean-Paul Calbimonte, Oscar Corcho and Alasdair J. G. Gray. Enabling Ontology-based Access to Streaming Data Sources. In Proceedings of the 9th International Semantic Web Conference ISWC 2010, Shanghai, China.

          [19] Darko Anicic, Paul Fodor, Sebastian Rudolph, and Nenad Stojanovic. 2011. EP-SPARQL: a unified language for event processing and stream reasoning. In Proceedings of the 20th international conference on World wide web (WWW '11). ACM, New York, NY, USA, 635-644. DOI=10.1145/1963405.1963495 http://doi.acm.org/10.1145/1963405.1963495

          [20]  Danh Le-Phuoc and Hoan Quoc Nguyen-Mau and Josiane Xavier Parreira and Manfred Hauswirth. 2012. A Middleware Framework for Scalable Management of Linked Streams. Web Semantics: Science, Services and Agents on the World Wide Web, Elsevier, 2012, 16.

          [21] Davide Francesco Barbieri, Daniel Braga, Stefano Ceri, Emanuele Della Valle, Michael Grossniklaus: C-SPARQL: a Continuous Query Language for RDF Data Streams. Int. J. Semantic Computing 4(1): 3-25 (2010)

          [22] Della Valle, E.; Ceri, S.; van Harmelen, F.; Fensel, D., "It's a Streaming World! Reasoning upon Rapidly Changing Information," Intelligent Systems, IEEE , vol.24, no.6, pp.83,89, Nov.-Dec. 2009

          [23] Andreas Harth, Katja Hose, Marcel Karnstedt, Axel Polleres, Kai-Uwe Sattler, and Jürgen Umbrich. 2010. Data summaries for on-demand queries over linked data. In Proceedings of the 19th international conference on World wide web (WWW '10). ACM, New York, NY, USA, 411-420. DOI=10.1145/1772690.1772733 http://doi.acm.org/10.1145/1772690.1772733
           
          [24] J. Umbrich, K. Hose, M. Karnstedt, A. Harth, A. Polleres Comparing Data Summaries for Processing Live Queries over Linked Data In: World Wide Web Journal, Volume 14, Numbers 5-6, pp. 495-544
           
          [25] Emanuele Della Valle, Stefan Schlobach, Markus Krötzsch, Alessandro Bozzon, Stefano Ceri, Ian Horrocks: Order matters! Harnessing a world of orderings for reasoning over massive data. Semantic Web 4(2): 219-231 (2013)

          [26] Marco Balduini, Emanuele Della Valle: A Restful Interface for RDF Stream Processors. International Semantic Web Conference (Posters & Demos) 2013: 209-212

          [27] Thomas Scharrenbach, Jacopo Urbani, Alessandro Margara, Emanuele Della Valle, Abraham Bernstein: Seven Commandments for Benchmarking Semantic Flow Processing Systems. ESWC 2013: 305-319

           [28] Sara Magliacane, Alessandro Bozzon, Emanuele Della Valle: Efficient Execution of Top-K SPARQL Queries. International Semantic Web Conference (1) 2012: 344-360

           [29]  Describing Linked Datasets with the VoID Vocabulary   http://www.w3.org/TR/void/

          [30] Andreas Schwarte, Peter Haase, Katja Hose, Ralf Schenkel, and Michael Schmidt. FedX: A Federation Layer for Distributed Query Processing on Linked Open Data. ESWC 2011.

          [31] Andreas Schwarte, Peter Haase, Katja Hose, Ralf Schenkel, Michael Schmidt.FedX: Optimization Techniques for Federated Query Processing on Linked Data. ISWC 2011. [32] Olaf Görlitz and Steffen Staab. SPLENDID: SPARQL Endpoint Federation Exploiting VOID Descriptions. COLD 2011. 

          [33] Gottron, Thomas; Knauf, Malte; Scheglmann, Stefan; Scherp, Ansgar (2013): A Systematic Investigation of Explicit and Implicit Schema Information on the Linked Open Data Cloud. In: ESWC'13: Proceedings of the 10th Extended Semantic Web Conference. Springer Verlag. S. 228–242 

           [34] Philip Stutz, Abraham Bernstein, William W. Cohen: Signal/Collect: Graph Algorithms for the (Semantic) Web. International Semantic Web Conference (1) 2010: 764-780

           [35] Olaf Hartig, Christian Bizer, Johann Christoph Freytag: Executing SPARQL Queries over the Web of Linked Data. International Semantic Web Conference 2009: 293-309   [36] Olaf Hartig: Zero-Knowledge Query Planning for an Iterator Implementation of Link Traversal Based Query Execution. ESWC (1) 2011: 154-169  

           [37] Svetlozar Nestorov, Serge Abiteboul, Rajeev Motwani: Extracting Schema from Semistructured Data. SIGMOD Conference 1998: 295-306