Die Geschwindigkeit und Menge an Daten, die in der heutigen Welt durch Menschen und Maschinen generiert werden nimmt stetig zu. Speichern, Verwalten und Analysieren derartiger großer Datenmengen ist mit den etablierten relationalen Datenbanken nicht mehr realisierbar. Ebenso müssen daran anknüpfende Technologien, wie Business Intelligence, neu gedacht werden.
Das Ziel dieser Vorlesung ist es das Verständnis, das Wissen und die Fähigkeiten zu vermitteln, die benötigt werden um die neuen Technologien und Ansätze zu nutzen. Hierbei steht ebenso wie die theoretische Auseinandersetzung, der Aufbau praktischer Fähigkeiten zur Entwicklung von Big Data Lösungen im Vordergrund. Den Schwerpunkt bildet in der praktischen Betrachtung das Hadoop Ökosystem, mit Programmiermodellen wie MapReduce, Hive, Pig und Apache Spark.
In der Übung werden ausgewählte Werkzeuge wie Hadoop, Hive, Spark, MongoDB und Neo4j zur Auswertung und Visualisierung von öffentlichen Datensets angewendet. Außerdem wird MapReduce tiefergehend thematisiert. Grundlagen der Programmiersprache Python werden darüber hinaus in den Übungen erlernt bzw. angewendet.
- Grundbegriffe, Definitionen, Grundkonzepte rund um Big Data
- Vertiefung Datenbanken: OLAP, OLTP, ETL, NoSQL (Schlüssel-Wert Datenbanken, Dokumenten Datenbanken, Graph-Datenbanken)
- Verteilte Dateisysteme
- MapReduce und weitere neue Paradigmen
- Batch- und Stream-Processing, Lambda Architektur