In diesem Blogartikel möchte ich auf Definitionen der deskriptiven Statistik, explorative (eng. exploratory) und erklärende (eng. explanatory) Analyse eingehen. In der Praxis werden insbesondere deskriptive Statistik und explorative Analyse als Synonymen verwendet. Jedoch gibt es Unterschiede zwischen den Begriffen. Ebenso werde ich erklären, in welchem Kontext man erklärende Analyse nutzt und wie sie sich von der explorative Analyse unterscheidet.
Deskriptive Statistik und Explorative Datenanalyse
Deskriptive Statistik umfasst numerische und grafische Verfahren zur Charakterisierung und Präsentation von Daten. Ziel ist, die Daten in den enthaltenen statistischen Informationen zu reduzieren. Das gelingt durch Verdichtung zu wenigen Kenngrößen möglichst ohne größeren Informationsverlust. Deskriptive Statistik ist in der Praxis die am häufigsten verwendete Statistik.
Aus der deskriptiven Statistik ging mit den Fortschritten in der Informationstechnologie die explorative Datenanalyse hervor. Dies geht über die deskriptive Statistik hinaus, weil hier – noch ohne Einsatz von Modellen – mit rechenintensiven Verfahren nach auffälligen Mustern und Strukturen in Datenbeständen gesucht wird.
Die explorative Analyse wird auch EDA genannt. EDA steht für Exploratory Data Analysis. Diese Analyse geht aus der deskriptiven Statistik hervor. In der Praxis lassen sich explorative Analyse und deskriptive Statistik kaum unterscheiden.
Vorgehen bei der explorativen Analyse
Wenn wir einen Datensatz mit Excel oder einer anderen Software öffnen, sind wir neugierig, was dieser Datensatz mit sich bringt. Ich erstelle erste Visualisierungen schnell, weil ich nach etwas Interessantem suche. Mein Ziel ist zu verstehen, was die Daten mit sich bringen:
• Wer ist der Hauptakteur?
• Um welche zeitliche Periode, welches Land oder Thema handelt es sich?
Dabei erstelle ich erste Visualisierungen wie z. B. Balkendiagramme, Streudiagramme oder Liniendiagramme. Das hilft mir ein besseres Bild von Daten zu bekommen und den Kontext zu verstehen.
Diese Visualisierungen dienen den Erforschungszwecken, das heißt: Ich schaue mir die Trends an, suche nach Mustern in den Daten und versuche, das Big Picture zu begreifen. Diese Visualisierungen werden nicht für den Enduser erstellt und deswegen müssen sie nicht perfekt sein. Es ist auch nicht zwingend notwendig, die genauen Zahlen oder Benennungen auf den Diagrammen darzustellen.
Daten erforschen mit EDA
Bei dieser Art der Analyse hat der Anwender vorab keine konkrete Frage an die Daten. Viel mehr empfiehlt sich EDA als ein Vorgehen, bei dem wir:
● Annahmen (Hypothesen) über die Ursache und den Grund der beobachteten Daten bilden,
● die Auswahl für passende, statistische Werkzeuge und Techniken treffen. (Welche Qualität haben die Daten? Basierend darauf kann ich die Entscheidung treffen, ob ich sie gleich für meine Analyse verwenden kann oder die Daten erst präparieren sollte),
● entscheiden können, ob hier auch weitere Daten gesammelt werden sollen,
● unsere eigene Intuition für Daten prüfen und neue Intuition entwickeln.
Vielleicht hast du schon einmal den Satz gehört „Lass die Daten für sich sprechen”. Das ist genau der richtige Schritt. EDA ist die beste Möglichkeit für dich, mit Daten zu spielen, den Kontext im Großen und Ganzen zu verstehen. EDA passiert im Hintergrund: Die Ergebnisse der Analyse werden nicht nach außen zum Enduser getragen. Im Rahmen von EDA werden viele Diagrammen erstellt, die für das bessere Verständnis der Daten gelten. Die meisten Grafiken werden am Ende der Analyse verworfen.
Folgende Beispiele zeigen, welche Grafiken bei EDA verwendet werden:
Baumdiagramm
Histogramm
Liniendiagramm
Balkendiagramm
Dot Plot
Aber auch
● Box-Plots
● Streudiagramm
● Mosaik-Plot
● Liniendiagramm
● Kreisdiagramm
und viele andere.
Mit dem Median zur schnellen Analyse
Ein gutes Beispiel für EDA hat Nathan Yau in seinem Blogartikel zu TV Size veröffentlicht. Dabei hat der Autor die Daten über die Bildschirmgrößen von Fernsehern benutzt, um zu überprüfen, ob die Fernseher über eine bestimmte Zeit größer werden; so hatten es Medien zuvor berichtet. Hierfür bietet sich der Median als Zentralwert an, um zu analysieren, ob die Annahme stimmt. Das Ergebnis: Die Fernseher werden größer.
Bessere Hypothesen mit EDA
So ein Verfahren hilft uns, die Daten zu verstehen, bevor wir Hypothesen aufstellen, oder Vorhersagemodelle bilden. EDA hilft uns definitiv dabei, bessere Hypothesen zu bilden. Gleichzeitig entscheiden wir, welche Variable am besten geeignet ist, um Vorhersagemodelle zu bilden.
Was ich noch mit auf dem Weg zu EDA geben möchte ist: Wenn du mit Daten arbeitest, sei skeptisch! Daten bestehen unter anderem aus Zahlen. Vor der Big-Data-Zeit haben wir ein großes Vertrauen in Zahlen gehabt. In der Schule oder an der Uni in Mathematik oder im Statistik-Unterricht haben wir immer gelernt, dass ein Ergebnis als Zahl immer richtig ist.
In der heutigen Zeit müssen wir unsere Denkweise ändern. Eine Zahl ist nicht automatisch korrekt, sie kann auch falsch sein. Hinterfrage deine Daten kritisch: Sind die Zusammenhänge logisch? Sind die Verhältnisgrößen plausibel oder ähnlich?
Deskriptive Statistik
Bei der deskriptiven Statistik gehen wir anders mit unseren Daten um. Deskriptiv heißt beschreibend. Ziel dieser Methode ist, Daten genauer zu beschreiben, statt Muster darin zu erkennen. Die Beschreibung ist mit Messgrößen möglich. Wir beschreiben unsere Daten, indem wir beispielsweise
● maximale/minimale Werte,
● Modalwerte,
● Mediane,
● Box-Plots
● arithmetische Mittel,
● Häufigkeiten,
● Lagemaßen,
● Standardabweichungen,
● Schiefe und Wölbungen,
● Korrelationen,
berechnen.
Bei der deskriptiven Statistik spielt der Datentyp eine wichtige Rolle. Dabei unterscheiden wir unsere Daten nach qualitativen und quantitativen, diskret und stetig.
Verschiedene Ausprägungen der Merkmale in den Daten werden in Skalen erfasst. Dabei unterscheiden wir zwischen Nominalskala, Ordinalskala und Kardinalskala.
Ein Beispiel zum Vorgehen bei deskriptiven Statistik
Stellen wir vor, uns liegen die Daten aus der Personalabteilung. In der Tabelle haben wir Informationen zu den Kollegen: Name, Vorname, Geburtsdatum, Abteilungsname (wo die Kollegen tätig sind), Einstellungsdatum, Gehälter und Weiterbildungskosten.
Beispielsweise könnte ich die Verteilung der Gehälter als Histogrammen darstellen und Medianwerten oder Standardabweichung berechnen. Das hilft mir meine Daten genauer interpretieren. Dadurch treffe ich solche Aussagen wie: In der Abteilung XY verdient man im Durchschnitt Y Betrag, was ebenso im Durchschnitt +/-6% variieren kann.
Die visuelle Darstellung der Daten ähnelt im Verfahren der EDA. Für die Darstellung der Zahlen nimmt der Beschriftung der Achsen allerdings einen höheren Stellenwert ein. Dadurch gelingt eine konkrete Interpretation der Daten. Die Diagramme, die im Rahmen der deskriptiven Statistik erstellt werden, werden häufiger dem Enduser präsentiert.
Erklärende Analyse
Während die explorative Analyse im Hintergrund geschieht, dienen die Ergebnisse der erklärenden Analyse nach außen: Sie werden an den Enduser kommuniziert. Erklärende Analyse findet Verwendung, nachdem wir interessante Inhalte in unseren Daten gefunden haben. Und diese interessanten Ergebnisse wollen wir erklärend dem Enduser vorstellen.
Die Visualisierungen, die wir im Rahmen der erklärenden Analyse erstellt werden, sollen visuell ansprechend sein und als eine Data–Story erzählt werden. Diese Art der Analyse fokussiert sich nur auf die relevanten Informationen für Enduser. Die unnötigen Informationen werden nicht dargestellt. Wenn wir im Rahmen der erklärenden Analyse eine Frage stellen, dann fokussieren wir uns bei unserer Arbeit auf die Antwort darauf.
Bei der explorativen Analyse haben wir gesagt: “Lass den Zahlen sprechen.” Bei der erklärenden Analyse finden wir als Visualisierungsexperte in der Rolle, die Geschichte richtig zu erzählen. Dabei müssen wir uns auf eine bestimmte Botschaft fokussieren und diese anhand der Grafiken und Annotationen richtig erklären.
Zusammenfassung
Deskriptive Statistik
- übersichtliche Darstellung von Eigenschaften von Messreihen ( X1 . . . . Xn)
- Verwendung von statistischen Modellen (Standardabweichung, Varrianz, arithmetischen Mittel etc. )
Explorative Analyse (EDA)
- Finden von (unbekannten) Mustern oder Zusammenhängen in den Daten
- Formulierung erster Fragen oder Hypothesen
- Visualisierungen sind i.d.R. nicht perfekt
Erklärende Analyse
- Erkenntnisse aus den Daten hervorheben und mit dem Publikum teilen
- Ein Schwerpunkt liegt auf der Data Story
- Unnötige Informationen werden nicht dargestellt