Skip to main content

Visualisierung nimmt beim Thema Big Data eine Schlüsselrolle ein. In der Mehrzahl der Projekte steht am Ende eines datengetriebenen Prozesses die Visualisierung des Ergebnisses. Daten müssen verständlich und nachvollziehbar dargestellt werden um letztlich strategische und operative Entscheidungen des Managements zu unterstützen. In diesem Beitrag möchten wir Werkzeuge vorstellen die sich

  1. für die Erstellung von optisch ansprechenden, einmaligen oder wiederkehrenden Berichten, (etwa Verkaufzahlen nach Regionen auf Tagesbasis, Zuschauerverteilungen und Marktanteile des gestrigen Sendetages oder Voraussagen zur zukünftigen Geschäftsentwicklung)
  2. für die Visualisierung bei der explorativen Datenanalyse (z. B. zur Verdeutlichung eines Sachverhalts. Das Clustering von Wörtern eines Textes – etwa zur Erzeugung einer visuellen Zusammenfassung als Word-Cloud oder die graphische Ausgabe (plotting) bei der AdHoc-Analyse einer (SQL-,CSV-) Datenquelle) und
  3. für die Darstellung von (live) Charts innerhalb von Webanwendungen eignen (Dashboards, damit geschäftskritische Kennzahlen – etwa der Prozentsatz an Ausschussware am Ende einer Produktionslinie oder Detailauswertungen zum Webseiten-Traffic mit einer Software wie Google Analytics).

Im folgenden werden wir einige Werkzeuge vorstellen, die sich für alle drei Anwendungsfälle eignen.

Grundlegende Werkzeuge zur Datenvisualisierung

Nachfolgend befassen wir uns mit Softwarepaketen die von Analysten verwendet werden können, da keine tiefgreifenden technischen Kenntnisse erforderlich sind. Daten werden über definierte Schnittstellen (SQL, REST, CSV,…) in die jeweiligen Werkzeuge geladen und dort entsprechend grafisch aufbereitet.

MS Excel und Libreoffice

Die verbreitesten Werkzeuge zur Datenerfassung und -visualisierung sind oft schon auf Firmen-PCs vorinstalliert. Libreoffice ist zudem frei verfügbar und kann auf Linux, MacOS und Windows Betriebssystemen verwendet werden. Ein weiterer, oft entscheidener Vorteil, besteht darin, dass der Umgang mit diesen Werkzeugen oft schon beherrscht wird und sich daher nur eine sehr flache Lernkurve ergibt um diese Form der Visualisierung zu verwenden.

Die Werkezuge eigenen sich oft in den Fällen in denen

  1. schnell ein hinreichendes Ergebnis erzielt werden muss
  2. die Datenmenge überschaubar ist (bis zu einigen Megabyte) und
  3. die Eingabedaten in standardisierten Formaten (CSV, TSV) vorliegen.

Die Videos How to create charts using Libre Office Calc und How to make a line graph in Excel (Scientific data) zeigen in wenigen Minuten, wie Charts mit den jeweiligen Standardwerkzeugen erstellt werden können.

Tableau

Tableau ist ein sehr bekanntes Werkezug zur Datenvisualisierung. Die Stärken der Software liegen in den vielseitigen Darstellungsformen (Charts, Graphen, Karten und vieles weiterer) bei der Visualisierung und der flexiblen Anbindung unterschiedlichster Datenquellen (CSV, SQL-Datenbanken, Hadoop, SAP, Teradata,…). Durch dich hohe Verbreitung existieren zudem viele (Online-)Kurse und Lernmaterial sowohl für Anfänger als auch für fortgeschrittene Tableau Nutzer. Die Verwendung von Spezialfunktionen setzt zwar Expertenswissen voraus, allerdings ist der Eintieg in das Werkzeug sehr intuitiv. Dies führt zu einer mäßig ansteigenden Lernkurve bei der sich bereits am Anfang zügig Erfolgserlebnisse einstellen.

Durch seine Vielseitigkeit und die relativ einfache Handhabung können in Tableau schnell einmalige ad-hoc wie auch wiederkehrende Auswertungen erstellt werden. Ferner kann man sich in der Datensicht durch interaktives „drill through“ von der Auswertung einer hohen Aggegationsstufe (etwa Umsatz auf Länderebene) schnell zu den unteren Ebenen durchklicken (Umsatz eines einzelnen Marktes an einem Samstag).

Einen weiteren Vorteil stellt die Möglichkeit dar, Tableau in einer Desktop Version auf einem PC zu installieren oder die Web-Version direkt im Browser zu verwenden. Gerade die Browserversion kann zur Anzeige von Auswertungen auf mobilen Geräten unterwegs von Managern genutzt werden um alle wichtigen Kennzahlen zu beobachten.

Ein Einstieg in die Verwendung von Tableau liefert das Video Tableau Getting Started.

Microsoft Power BI

Power BI ist die Business Intelligence Lösung von Microsoft. Es bietet ebenfalls vielfältige Darstellungsmöglichkeiten die sich über eine Drag & Drop Oberfläche zusammenstellen lassen. Ein Herausragendes Merkmal dieses Werkzeugs ist die gute Integration in weitere Microsoft Produkte wie z. B. Excel oder SharePoint. In Sharepoint können unterschiedliche Nutzer an einem Bericht arbeiten und so Abteilungs-/ und Standortübergreifend kooperieren.

Auch Power BI bietet Web-Oberflächen die in der Cloud gehostet werden und daher auf allen Geräten mit Webbrowsern zur Verfügung stehen. Power BI erfordert ebenfalls eine kostenpflichtige Lizenz.

Eine Einführung in Power BI bietet das Schulungsvideo Power BI Tutorial For Beginners | Introduction to Power BI | Power BI Training | Edureka.

Datenvisualisierung für Entwickler

Nun möchten wir Visualisierungsoptionen vorstellen, welche von Softwareentwicklern bzw. Fachkräften mit tiefgreifendem technischen Wissen verwendet werden können. Diese Werkzeuge sind generisch für eine Vielzahl von Anwendungsfällen einsetzbar, benötigen jedoch die Daten bereits in geeigneter Form (meist programmatisch aufbereitet).

Explorative Datenauswertung

Der erste Schritt ein einem daten-getriebenen Projekt betrifft die Analyse vorhandener Bestandsdaten: Welche Daten werden bereits erhoben? In welcher Qualität liegen diese vor? Welche Muster befinden sich in den gespeicherten Daten? Wie sehen die Verteilungen von Ereignissen (Rücklaufquote, Ausschussrate, …), von Kundeneigenschaften (Geschlecht, Alter, …) oder -bedürfnissen (bestellte Produkte zu bestimmten Zeitpunkten) aus?

Diese Fragen werden häufig sehr „datennah“ ausgewertet und in Entwicklungsumgebungen erhoben.

Jupyter Notebook + matplotlib

Jupyter Notebook ist häufig ein zentrales Werkzeug für Data Engineers und Data Scientists um neue Datenquellen zu erkunden, Bereinigungen und Aggregationen auf diesen auszuführen und die Daten zum besseren Selbstverständnis zu visualisieren. Die Visualisierung übernimmt in diesem Fall die Bibliothek „matplotlib“, welche Grafiken direkt in die Notebooks zeichnen kann. Beispiele für matplotlib-Grafiken befinden sich hier. Jupyter und matplotlib können unabhängig von einnander verwendet werden, bilden zusammen jedoch ein sehr häufig eingesetztes und aufeinander abgestimmtes Gespann. Da zudem beide Komponenten frei sind, fallen keine Lizenzkosten an.

Auf der Webseite jupyter.org kann eine Version im Browser getestet werden.

Eine Einführung in die erstellung von Plots innerhalb von Jupyter bietet das Video Learn Jupyter Notebooks (Pt. 1) Plotting.

Apache Zeppelin

Das Werkzeug Zeppelin Jupyter Notebook vom Einsatzzweck her sehr ähnlich. Es ist ebenfalls ein Interpreter, in dem Live Code ausgeführt und Grafik gezeichnet werden kann. Daten können erforscht, aufbereitet und in Tabellenform zwecks visueller Darstellung geladen werden. Zeppelin ist ebenfalls ein Werkzeug für Entwickler bzw. Data Scientists um sich schnell einen Überblick zu verschaffen oder Sachverhalte Ad-hoc grafisch darzustellen. Die Software ist OpenSource und frei verfügbar.

In dem Video Zeppelin Build and Tutorial Notebook werden ab 10:16 Grafiken aus den Importierten Daten erzeugt.

Apache Zeppelin Features werden hier (Englisch) genauer beschrieben.

Gephi

Gephi eignet sich hervoragend zur Visualisierung von Graphstrukturen. Es kann frei verwendet werden, da es sich um ein OpenSource Werkzeug handelt.

Graphen können in dem Data Editor eingeladen werden. Eine Datei – etwa im Format CSV – enthält dabei die Knoten (Vertices) und eine weitere beinhaltet die Kanten (Edges) – also die Verbindungen zwischen den Knoten. Gephi zeichnet dann einen Graphen, der sich dann interaktiv erforschen lässt (rein/raus Zoomen, Knoten verschieben, etc.). Clustering von Eigenschaften durch spezifische Farben oder die Stärke der Linien durch Gewichtung der Kanten sowie viele weitere graphische Hervorherbungen sind möglich. Praktische Anwendungsbeispiele von Gephi sind z. B. die Visualisierung von Themengebieten im Journalismus (z. B. durch die New York Times) oder von Netzwerktopologien im technischen Bereich.

Durch die Quelloffenheit sind sehr viele grafische Erweiterungen für Gephi implementiert worden. Gilt es also eine Graphenstruktur zu visualisieren, ist Gephi meist das Werkzeug der Wahl.

Die Visualisierungsmöglichkeiten von Gephi können im verlinkten Video betrachtet werden. Introduction to GEPHI zeigt sehr ausführlich wie Daten eingeladen und Visualisierungen verwendet werden können.

Darstellung auf Dashboards bzw. Web-Anwendungen

Analog dazu wie z. B. Google Analytics einen Live-Einblick und -erkenntnissgewinn in den Webverkehr einer Webseite erlaubt, benötigen Manager eben diesen Live-Einblick in die Geschäftsprozesse des eigenen Unternehmens um schnell valide Entscheidungen zu treffen. Um dies zu ermöglichen werden dafür in Unternehmen oft eigene Werkzeuge, meist als Webanwendungen, implementiert. Diese visualisieren fortlaufend geschäftskritische Kennzahlen und ermöglichen es so stets einen Gesamtüberblick zu behalten.

Vertriebler werden etwa mit Informationen zu Lagerbeständen oder aktuellen Produktpreislisten versorgt. Das Marketing prüft fortlaufend den Wirkungsgrad der gebuchten Online-Werbekampagnen. IT-Administratoren halten die Fehlerrate von internen und externen Anwendungen im Blick und Entwickler erhalten kontinuierlich Informationen über die Qualität des entwickelten Quellcodes. All diese Metriken werden oft in Webanwendungen dargestellt und daher möchten wir Werkezuge vorstellen mit denen die Visualisierung innerhalb des Browsers sehr einfach möglich ist.

D3.js

Bei D3.js handelt es sich um eine JavaScript Bibliothek zur Visualisierung von Daten im Webbrowser. Durch die Verwendung moderner Werbstandards können die Charts live aktualisiert werden, wenn sich die dahinter liegenden Daten ändern. Der Übergang zu einem neuen Zustand erfolgt zudem mit einer Animation. Diese trägt zum Vertändnis des Aussage des Charts bei.

Durch die offene BSD-Lizenz kann die Software für alle kommerziellen und nicht kommerziellen Zwecke eingesetzt werden.

Es stehen sehr viele unterschiedliche Chart-Typen zur Verfügung, welche auf der Beispielseite zu finden sind.

Ein empfehlenswertes Video, welches die Möglichkeiten von D3.js zeigt kann hier angesehen werden:
D3.js Tutorial – A Demo with Examples using D3.js

chart.js

Chart.js kann als abgespeckte D3.js Version angesehen werden. Es bietet weniger Charts, ist jedoch dafür etwas einfacher zu integrieren. Eine Übersicht aller Charts befindet sich auf der Beispielseite. Für einfache Anwendungen reicht diese Bibliothek oftmals aus. Die Charts passen sich zudem automatisch an die verfügbare Bildschirmfläche an und besitzen so auf Desktop-PCs und Mobilgeräten stets eine ideale Darstellung. Auch Chart.js unterstützt die Live-Manipulation der zugrunde liegenden Daten und bietet somit echtzeitfähige Charts.

Die Integration und Verwendung wird in dem Video Diagramme mit JavaScript und Chart.JS einfach anlegen und anpassen! [TUTORIAL] beschrieben.

Wir hoffen wir konnten Ihnen einen umfassenden Eindruck von grundlegenden Werkzeugen für die Datenvisualisierung im Big Data Umfeld vermitteln. Die Liste hat keinen Anspruch auf Vollständigkeit und das Ökosystem entwickelt sich sehr schnell weiter. Wir sind gespannt darauf, welche Erfahrungen Sie gemacht haben und welche Werkzeuge Sie verwenden. Senden Sie uns ihre Erfolgsrezepte, Fragen oder weitere Anregungen gerne per E-Mail an [email protected]

Wir freuen uns auf Ihre Anregungen!