Datenvisualisierung mit Matplotlib#
Je umfangreicher tabellarisch organisierte Datensammlungen aber werden, desto unübersichtlicher werden sie auch; die Methode der Datenvisualisierung kann uns dabei helfen, einen raschen Überblick über komplexe Wertverteilungen zu erhalten.
Graphen, Diagramme oder Karten ermöglichen uns die Identifikation von Ausreißern, Mustern oder auch Trends. Es handelt sich um einen eigenen Forschungsbereich, den wir hier leider nur anreißen können, aber so viel sei gesagt: Effektive Datenvisualisierungen sind eine Wissenschaft für sich und das richtige Maß zwischen Form und Funktion zu finden, stellt nicht selten eine Herausforderung dar. Alles an einer Visualisierung sollte einem Zweck folgen: die Auswahl des Visualisierungstyps sollte zu den Informationen passen (Linien- oder Balkendiagramm, Heatmap, Histogramm, …) und Farben, Ausrichtungen, Positionen und Formen einen Aussagewert haben.
Um uns an diesen Bereich heranzutasten, werden wir erst einmal mit der für Python grundlegenden und vielfältigen Bibliothek Matplotlib arbeiten. Sie wurde 2003 erstmals als plattformübergreifendes Visualisierungs-Paket veröffentlicht und wird von pandas standardmäßig aufgerufen, wenn auf Basis der Pandas-Objekte Visualisierungen erstellt werden sollen. Auf der Website der Bibliothek finden Sie zahlreiche nützliche Tutorials für verschiedene Visualisierungsformen: https://matplotlib.org/tutorials/index.html.
Lernziele#
Sie wissen, wie Sie Matplotlib und seaborn zur Datenvisualisierung einsetzen können.
Sie kennen die grundlegenden Befehle von Matplotlib und seaborn.
Sie können verschiedene Visualisierungstypen mit Matplotlib und seaborn umsetzen.
Sie können selbstständig das grundlegende Layout der Visualisierungen anpassen.
weitere Ressourcen#
Zum Vertiefen empfehlen wir das auch online verfügbare Python Data Science Handbook von Jake VanderPlas, hier das Kapitel zu Visualization with Matplotlib
Für dieses Abschnitt empfehlen wir Ihnen die folgenden zusätzlichen Ressourcen: