Korrelation & Kausalität: Warum Daten nicht die ganze Wahrheit sagen

Mit den Grundbegriffen der Statistik, der Analyse von Daten und der Datenvisualisierung haben Sie einen weitreichenden Einblick in die Arbeit mit statistischen Werkzeugen innerhalb eines SIX SIGMA-Projekts erhalten. Einen Begriff, dem wir in der Datenanalyse oft begegnen, greifen wir in diesem Blogbeitrag noch einmal auf: die Korrelation. Und in diesem Zusammenhang auch die Kausalität – denn was sich scheinbar von der Bedeutung her ähneln mag, kann sich gravierend unterscheiden. Wer Korrelation und Kausalität verwechselt, läuft Gefahr, falsche Schlüsse zu ziehen und somit falsche Maßnahmen zur Prozessoptimierung zu ergreifen.

Was ist Korrelation?

In der Statistik bezeichnet Korrelation einen Zusammenhang zwischen zwei Variablen – das heißt: Verändert sich die eine Variable, verändert sich die andere tendenziell auch. Bei einer positiven Korrelation in die gleiche Richtung, bei einer negativen Korrelation in die entgegengesetzte Richtung.

Ein einfaches Beispiel: Je wärmer das Wetter, desto mehr Eis wird tendenziell verkauft. Das bedeutet jedoch nicht, dass das Wetter den Eisverkauf unmittelbar beeinflusst.

Was ist Kausalität?

Kausalität bedeutet, dass die Veränderung einer Variablen die Ursache für die Entwicklung der anderen ist. Ändert sich X, verursacht dies eine Änderung bei Y. Die Abhängigkeit beider Variablen ist somit viel stärker als bei der Korrelation.

Hier ein Beispiel: Werden Pflanzen regelmäßig gegossen, wachsen sie besser. Das Gießen ist somit die direkte Ursache für das Wachstum – ein kausaler Zusammenhang.

Korrelation und Kausalität in SIX SIGMA-Projekten: Verwechslungsgefahr

Die Definition beider Begriffe weist durchaus Ähnlichkeiten auf, weswegen SIX SIGMA-Teams bei der Datenanalyse nicht selten in die „Falle tappen“ und aus der Verwechslung heraus falsche Schlüsse ziehen. Nur, weil zwei Dinge gleichzeitig passieren, verursacht nicht unbedingt eines das andere.

Korrelation ist quantifizierbar

In SIX SIGMA spielt die Korrelation vor allem in der Measure- und Analyze-Phase des DMAIC-Zyklus eine entscheidende Rolle. Hier können mittels bestimmter Werkzeuge wie Streudiagrammen und Matrixplots zur Datenanalyse Zusammenhänge zwischen Einfluss- und Ergebnisgrößen analysiert werden. Mithilfe statistischer Kennzahlen wird die Stärke und Richtung des Zusammenhangs beschrieben – zum Beispiel mit dem Pearson-Korrelationskoeffizient (r). Er misst den linearen Zusammenhang zwischen zwei metrischen Variablen.

Wertebereich:

  • +1 = perfekte positive Korrelation
  • 0 = kein linearer Zusammenhang
  • –1 = perfekte negative Korrelation

Dies wird häufig in Streudiagrammen visualisiert.

Wann kann man Kausalität annehmen?

Kausale Schlussfolgerungen sind zwar möglich – aber nur unter bestimmten Bedingungen:

  • Zeitliche Reihenfolge: Die Ursache muss vor der Wirkung auftreten.
  • Plausibilität: Der Zusammenhang muss fachlich sinnvoll erscheinen.
  • Ausschluss anderer Erklärungen: Es dürfen keine anderen plausiblen Ursachen für die Wirkung existieren.

In der Praxis und für SIX SIGMA-Teams wird das oftmals zum Problem. Denn viele Variablen beeinflussen sich wechselseitig oder sind über die Zeit miteinander verknüpft. Rückkopplungen oder auch indirekte Effekte machen die Analyse komplex. Mit verschiedenen Verfahren lässt sich Kausalität prüfen:

  • Randomisierte Experimente gelten als Goldstandard, da sie Störfaktoren ausschließen.
  • Quasi-experimentelle Designs wie „Difference-in-Differences“ oder Instrumentvariablen helfen, wenn echte Experimente nicht umsetzbar sind.
  • Kausale Diagramme (DAGs) machen Annahmen sichtbar und prüfbar.
  • Zeitreihenanalysen liefern Hinweise, wenn Veränderungen in X zeitlich vor Y auftreten – ein möglicher, aber nicht endgültiger Beleg für Kausalität.

In vielen Fällen ist Kausalität auch mit weniger komplexen Methoden erkennbar. Auch die Werkzeuge SIPOC, Prozess-Landkarte, Ursache-Wirkungs-Matrix, FMEA und DoE können dafür genutzt werden.

Fazit: Korrelation ist ein guter Startpunkt ...

... aber niemals eine Garantie für Kausalität. Wer mit komplexen Daten arbeitet, muss sich also immer fragen: Was könnte noch dahinterstecken? Auch, wenn ein scheinbar kausaler Zusammenhang offensichtlich erscheint. Denn Statistik bzw. statistische Methoden können nur Korrelationen ermitteln, niemals Kausalität. Die Kausalität wird durch Fachwissen begründet. Bei Fragen hierzu berate ich Sie gerne.

 

Bild von freepik