- dirk-joedicke.de
- Blogbeitrag
Datenvisualisierung – Teil 2: Verteilungsanalyse
Der vorherige Blogbeitrag hat sich grafischen Verfahren gewidmet, die innerhalb der Statistik und als wichtige Werkzeuge zur Anwendung von SIX SIGMA dabei unterstützen, Korrelationen – also Zusammenhänge – zwischen Variablen zu erkennen. Die Statistik-Software Minitab® bietet darüber hinaus noch weitere spannende Werkzeuge, deren Anwendung wir uns genauer ansehen möchten. In diesem Beitrag steht die Charakterisierung von Verteilungen im Fokus – anhand von Mustern, Ausreißern und optisch erkennbaren Abweichungen, die mit rein numerischen Zahlen häufig verborgen bleiben.
Was versteht man unter Verteilungen?
In der Statistik bezeichnet eine Verteilung die Art und Weise, wie sich Datenwerte über einen Wertebereich hinweg verteilen. Sie zeigt, mit welcher Wahrscheinlichkeit oder Häufigkeit bestimmte Werte auftreten. Wichtige Merkmale sind die Lage (z. B. Mittelwert), die Streuung (z. B. Standardabweichung), die Form (z. B. symmetrisch oder schief) sowie Ausreißer. Verteilungen und deren Visualisierung sind grundlegend für viele statistische Verfahren im Rahmen von SIX SIGMA. Grafische Werkzeuge wie Histogramme, Punktediagramme oder Wahrscheinlichkeitsnetze unterstützen dabei, Verteilungen sichtbar zu machen und Muster zu identifizieren. Sie sind somit essenziell für datenbasierte Entscheidungen in der Qualitätsanalyse und Prozessoptimierung.
Werkzeuge zur Analyse von Verteilungen
Verschiedene grafische Verfahren können für SIX SIGMA-Teams zur einfacheren Analyse mittels Visualisierung der Daten dienen:
Histogramm:
Das Histogramm bildet die Basis der Verteilungsanalyse. Es gruppiert Daten in Klassen (sogenannte Bins) und zeigt auf, welche Werte in bestimmten Bereichen wie häufig auftreten. Mit Minitab® lassen sich Histogramme schnell und unkompliziert erstellen. Mithilfe des Histogramms erkennen wir die Form der Verteilung und können hieraus erste Hinweise auf Normalverteilung oder Abweichungen erkennen.

Punktediagramm:
Zur detailgenauen Darstellung einzelner Werte ist ein Punktediagramm optimal. Es zeigt jeden einzelnen Datenpunkt entlang einer Skala. Insbesondere bei kleinen bis mittleren Stichproben, die bei der Arbeit mit SIX SIGMA ermittelt werden, ist es nützlich, um Lücken, Cluster oder Ausreißer aufzudecken. Ein Punktediagramm stellt die einzelnen Werte meist entlang der X-Achse dar. Kommt ein Wert mehrfach vor, werden die Punkte gestapelt dargestellt.

Wahrscheinlichkeitsnetz:
Das Wahrscheinlichkeitsnetz ist ein leistungsstarkes Werkzeug zur Prüfung auf theoretische Verteilungen. Es zeigt, ob Daten bestimmten theoretischen Verteilungen folgen, zum Beispiel der Normalverteilung, oder nicht. Das Netz ist ein zweidimensionales Koordinatensystem – die X-Achse zeigt die tatsächlichen Datenwerte, die Y-Achse eine bestimmte theoretische Datenverteilung. Sollten die Punkte innerhalb des Netzes annähernd auf einer Gerade liegen, ist die Annahme einer bestimmten Verteilung gerechtfertigt. Im Beispiel hier sehen wir ein Wahrscheinlichkeitsnetz der Körpergrößen von 50 erwachsenen Männern: Die Daten liegen annähernd auf der zentralen Gerade – es ist anzunehmen, dass die Körpergröße erwachsener Männer normalverteilt ist.

Empirische Verteilungsfunktion:
Mit der empirischen Verteilungsfunktion lässt sich die kumulierte Häufigkeit der Daten innerhalb einer Stichprobe analysieren. Für jeden Wert zeigt sie den Anteil der Beobachtungen, die kleiner oder gleich diesem Wert sind. Sie zeigt somit optisch eine Treppe, die bei jedem Datenpunkt einen Sprung macht. Mit der empirischen Verteilungsfunktion kann geprüft werden, ob Ausreißer zu erkennen sind oder die Daten einer theoretischen Verteilung folgen. Sie ist einfach zu berechnen und auch bei kleinen Stichproben gut grafisch darstellbar. Die Grafik zeigt die empirische Verteilung der Körpergrößen von 50 erwachsenen Männern – die Treppenfunktion kann sehr gut durch eine symmetrische S-Kurve angenähert werden.

Mit Datenvisualisierung zu mehr Durchblick bei SIX SIGMA-Projekten
Grafische Werkzeuge erlauben es, bestimmte Datenmuster auf einen Blick zu erkennen und entsprechend zu interpretieren. Sie sind somit innerhalb von SIX SIGMA ein fester Bestandteil der statistischen Arbeit und liefern die Grundlage für fundierte Entscheidungen. Gerne beantworte ich Ihre Fragen hierzu persönlich.
Bild von Freepik