.  Home  .  Lehre  .  Vorlesungen  .  Sommersemester 2019  .  Data analytics

Infrastructure for Advanced Analytics and Machine Learning

Blockvorlesung im Sommersemester 2019

Prof. Dr. D. Kranzlmüller
Dr. Andre Luckow
Maximilian Höb


    Die Veranstaltung finden vom 13.04.2019-18.04.2019 statt.


The ongoing data deluge driven by the increasing digitalization of science, society and industry, leads to a significant increase in demand for data storage, processing and analytics within several industrial domains. Sciences and industry are overwhelmed by the need to store large amounts of transactional and machine-generated data resulting from the customer, service and manufacturing processes. Examples of machine- generated data are server logs as well as sensor data that is generated in finer granularities and frequencies. Further, datasets are often enriched with web and open data from social media, blogs or other open data sources. The Internet of Things (IoT) will further blur the boundaries between the physical and the digital world causing an even further increase in the digital footprint of the world. In this course, we will learn about data applications and their requirements. Further, we will discuss the core infrastructure necessary to handle the large data volumes and analytical problems. As part of the exercises students will utilize different frameworks, e.g. MapReduce and Spark to implement different algorithms.

This class will cover the following topics:
  • Data Applications in Industry and Sciences
  • Resource Management: YARN, Mesos and Kubernetes
  • Hadoop Processing Engines: Spark, Flink
  • SQL on Hadoop: Impala, Hive, Spark, Presto
  • Stream Processing: Kafka, Spark Streaming, Flink, Heron
  • Fault Tolerance: CAP Theorem, Eventual Consistency, Quorum Protocols, Apache Zookeeper
  • Data in the Cloud: Elastic MapReduce, Azure HDInsight, Google Cloud Dataflow
  • Machine Learning (MLLib)
  • Natural Language Processing
  • Deep Learning: Convolutional Neural Networks
  • The course will be offered as a block lecture.


Die Vorlesung richtet sich an Master- und Bachelor-Studenten der Informatikstudiengänge.


Aufgaben und Code zur Übung sind unter: verfügbar.

Umfang und Prüfung

Die Vorlesung ist zweistündig und besitzt eine Übungen (6 ECTS).

Die Endnote der Veranstaltung wird mit einer schriftlichen Prüfung ermittelt. Für die Zulassung zur Prüfung ist die Übung zu bestehen. Für den Erfolg der Vorlesung müssen muss mindestens die Note 4 erreicht werden.


Besuch der Vorlesungen Rechnernetze und verteilte Systeme, Betriebssysteme, Rechnerarchitektur oder vergleichbare Kentnisse erforderlich.
Programmierkenntnisse in Python und Umgang mit Linux Kommandozeile erforderlich.

Zeit und Ort

Zeit: 13. - 18. April 2019, 09 Uhr bis 16 Uhr (Am Sonntag keine Veranstaltung)

Ort: Oettingenstraße 67, Raum: 169 (VL), CIP-Pool Kalahari - BU 102 (Übung)

Anmeldung: Die Plätze werden über UniWorX vergeben werden: UniWorX-Bewerbung.
Wir bitten Sie in der Bewerbung Ihre Vorkenntnisse zu beschreiben und Ihre Teilnahme zu motivieren.

Schriftliche Prüfung

Zeit: Donnerstag, 02.05.2019, 16.00h s.t.

Ort: Oettingenstraße 67, Raum: BU101
  • Absolutely no electronic devices of any kind allowed!
  • Writing utensils are the only allowed aids.
  • All questions must be answered in German or English.
  • Please do not write in red color or with pencils.
  • Please have both your student ID and government-issued photo ID ready.
  • The duration of the exam is 90 minutes.


For questions or inquiries please contact Andre Luckow.


Introduction, HPC, Hadoop, Spark
SQL, Data Science, Machine Learning
Deployment, Data Literacy, Summary
Exercise Solutions