Was ist eine Kreuztabelle?

Aufrufe: 2023     Aktiv: 28.07.2019 um 04:39

3

Es gibt einen sehr schönen Text von André Dalwigk zu der Frage: Was ist eine Matrix? [1] Der Text hat mich motiviert, diesen hier zu schreiben. Dabei geht es um die Frage: Was ist eine Kreuztabelle?

1. Aufbau einer Kreuztabelle

Eine Kreuztabelle ist in Zeilen und Spalten organisiert, in denen Zahlen zu finden sind. Die Zahlen sind die Zellen- oder Randhäufigkeiten, die absolut oder relativ angegeben sein können.

Die Größe einer Kreuztabelle wird mit der Anzahl der Zeilen und der Spalten (in dieser Reihenfolge) angegeben, in denen die Zellenhäufigkeiten stehen. Die Anzahl der Zeilen wird mit \(r\) (für englich »row« = »Zeile«) und die Anzahl der Spalten mit \(c\) (für englisch »column« = »Spalte«, daher kommt der Ausdruck »Kolumne« für eine Zeitungsspalte) abgekürzt. Die Größe einer Tabelle wird also mit \(r\times c\) angegeben.[2] Eine \(2\times 2\)-Tabelle wird auch Vierfeldertafel genannt.

Am Beispiel einer \(3\times 3\)-Tabelle sei hier der Aufbau einer Kreuztabelle gezeigt (vgl. Benninghaus 1989:67):

Tabelle 1: Aufbau einer Kreuztabelle
\(
\begin{array}{|l|c|c|c|c|}
\hline
\textrm{Variable Y}\downarrow|\textrm{Variable X}\rightarrow & x_{1} & x_{2} & x_{3} & \textrm{Gesamt}\\
\hline
y_{1} & f_{1.1} & f_{1.2} & f_{1.3} & n_{1.}\\
\hline
y_{2} & f_{2.1} & f_{2.2} & f_{2.3} & n_{2.}\\
\hline
y_{3} & f_{3.1} & f_{3.2} & f_{3.3} & n_{3.}\\
\hline
\textrm{Gesamt} & n_{.1} & n_{.2} & n_{.3} & n\\
\hline
\end{array}
\)

Mit Variablen werden bestimmte Merkmale, wie Geschlecht, Schuhgröße oder Einkommen, erfasst. Diese Merkmale haben Merkmalsausprägungen. »Männlich« ist zum Beispiel eine mögliche Ausprägung des Merkmals »Geschlecht«, »42« für die Schuhgröße [3] und »1024,42 Euro« für das monatliche Nettoeinkommen. In Tabelle 1 ist

  • Variable X die unabhängige Variable. Sie steht normalerweise im Tabellenkopf
  • Variable Y die abhängige Variable. Sie steht normalerweise an der Tabellenseite
  • \(x_1\) bis \(x_3\) die Ausprägungen der Variablen X
  • \(y_1\) bis \(y_3\) die Ausprägungen der Variablen Y
  • \(f_{i.j}\) die Zellenhäufigkeit in der Zelle i.j. Die Zelle i.j wird durch die Kreuzung der i-ten Zeile mit der j-ten Spalte gebildet.
  • \(n_{i.}\) ist die Randhäufigkeit der i-ten Zeile. Sie ist die Summe aller Zellenhäufigkeiten in der i-ten Zeile. Gleichzeitig ist sie die Häufigkeit der Merkmalsausprägung \(y_i\)  der Variablen Y. Die Gesamt-Spalte ist also das Zeilen-Gesamt.
  • \(n_{.j}\) ist die Randhäufigkeit der j-ten Spalte. Sie ist die Summe aller Zellenhäufigkeiten in der j-ten Spalte. Gleichzeitig ist sie die Häufigkeit der Merkmalsausprägung \(x_j\)  der Variablen X. Die Gesamt-Zeile ist also das Spalten-Gesamt.
  • Ganz unten rechts in der Ecke gibt es die Zelle, die gleichzeitig die Summe der Gesamt-Spalte und die Summe der Gesamt-Zeile ist. In dieser Zelle steht die Anzahl aller Fälle (zum Beispiel aller Fragebögen), abzüglich der fehlenden Fälle. Das ist die Fallzahl. Die Fallzahl wird mit \(n\) oder manchmal auch mit \(N\) abgeküzt.

Die Struktur von Kreuztabellen ähnelt also stark der Struktur von Matrizen, wie sie von André Dalwigk vorgestellt werden. Tatsächlich ist es einfach, eine Kreuztabelle in eine Matrix zu überführen. Dazu müssen nur die Zellenhäufigkeiten ohne Tabellenkopf, Tabellenseite, Gesamt-Spalte und Gesamt-Zeile genommen und als Matrix geschrieben werden. So entspricht zum Beispiel die folgende \(2\times 3\)-Tabelle:

Tabelle 2: Kreuztabelle mit fiktiven Daten
\(
\begin{array}{|l|r|r|r|r|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & 16 & 24 & 19 & 59\\
\hline
\textrm{weiblich} & 38 & 9 & 21 & 68\\
\hline
\textrm{Gesamt} & 54 & 33 & 40 & 127\\
\hline
\end{array}
\)

der folgenden Matrix:

 

\(
\begin{pmatrix}
16 & 24 & 19\\
38 & 9 & 21
\end{pmatrix}
\)

2. Und wozu ist das gut?

Matrizen sind vielseitig anwendbar. So können mit ihnen zum Beispiel lineare Gleichungssysteme (LGS) mit dem Gauß-Algorithmus gelöst werden. Mit Matrizen ist es auch möglich, zu rechnen. Zum Beispiel können zwei Matrizen (unter gewissen Umständen) miteiander addiert oder multipliziert werden.

Kreuztabellen dienen in der Regel dazu, herauszufinden, ob zwischen zwei Variablen ein Zuammenhang oder ein Unterschied besteht oder nicht. Eine einfache Möglichkeit, das zu tun, ist, Spaltenprozent zu bilden und dann die Prozentsätze zeilenweise zu vergleichen. Bei Tabelle 2 sieht das so aus:

Tabelle 3: Kreuztabelle mit Spaltenprozent
\(
\begin{array}{|l|r|r|r|r|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & 29,63\,\% & 72,73\,\% & 47,50\,\% & 46,46\,\%\\
\hline
\textrm{weiblich} & 70,37\,\% & 27,27\,\% & 52,50\,\% & 53,54\,\%\\
\hline
\textrm{Gesamt} & 100,00\,\% & 100,00\,\% & 100,00\,\% & 100,00\,\%\\
\hline
\end{array}
\)

Weil sie dafür gemacht sind, sind Kreuztabellen meiner Ansicht nach ein gutes Mittel, um zu verstehen, was es mit bedingten und unbdingten Wahrscheinlichkeiten auf sich hat und was es bedeutet, wenn zwei Variablen statistisch (bzw. stochastisch) unabhängig voneinander sind. Was passiert zum Beispiel, wenn bei Tabelle 4, bei der die Randhäufigkeiten denen in Tabelle 2 entsprechen, die Zellenhäufigkeiten  aber anders sind, Spaltenprozent gebildet werden (abgesehen von Rundungsfehlern in der zweiten Nachkommastelle)?

Tabelle 4: Eine überraschende Kreuztabelle
\(
\begin{array}{|l|r|r|r|r|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & 25,09 & 15,33 & 18,58 & 59,00\\
\hline
\textrm{weiblich} & 28,91 & 17,67 & 21,42 & 68,00\\
\hline
\textrm{Gesamt} & 54,00 & 33,00 & 40,00 & 127,00\\
\hline
\end{array}
\)

 

Anmerkungen

[1]
Siehe hier:
https://fragen.letsrockmathe.de/question/9132/was-ist-eine-matrix/

Eventuell muss der Link kopiert und manuell in einen neuen Tab eingefügt werden.

[2]
André Dalwigk kürzt die Zeilen mit \(m\) und die Spalten mit \(n\) ab. Das führt zu der Größenangabe \(m\times n\). Strukturell ist das kein Unterschied.

[3]
Darüber hinaus ist »42« natürlich die Antwort auf die Frage nach dem Leben, dem Universum und allem. ;-)

 

Literatur

Benninghaus, Hans, (6)1989: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22, Studienskripten zur Soziologie) Stuttgart: Teubner

geschrieben 28.07.2019 um 02:07

Sonstiger Berufsstatus, Punkte: 1.22K

 
Kommentar schreiben
0 Antworten