Skalenniveaus. Oder: Was ist ein Dreizehntelbaby?

Aufrufe: 2660     Aktiv: 03.08.2019 um 18:18

4

 

Einleitung

Statistik wird betrieben, um etwas über die Welt, in der wir leben, zu erfahren. Dabei werden Eigenschaften und Mekmale gesammelt und in Variablen zusammengefasst, um sie einer quantitativen Analyse zugänglich zu machen. Diese in Variablen zusammengefassten Eigenschaften und Merkmale sind die Daten, über die wir etwas erfahren wollen.

Diese Daten können unterschiedlicher Art sein, so dass sie statistisch unterschiedlich behandelt werden müsssen. Angenomen, es werden 100 Personen nach ihrer Lieblingsfarbe gefragt. 37 geben rot, 24 blau und 39 grün als Lieblingsfarbe an. Rot wird mit 1, blau mit 2 und grün mit 3 kodiert. Jetzt berechnen wir aus diesen Daten das arithmetische Mittel:

$$\frac{(37\cdot 1)+(24\cdot 2)+(39\cdot 3)}{100}=\frac{202}{100}=2,02 \tag{falsch!}$$

Und? Was sagt das jetzt? Ist es sinnvoll zu sagen, die durchschnittliche Lieblingsfarbe ist 2,02? Es wäre an dieser Stelle doch viel besser, zu sagen, dass 37 Prozent der befragten Personen rot, 24 Prozent blau und 39 Prozent grün als Lieblingsfarbe angegeben haben.

Das Problem bei Gleichung (falsch!) ist, dass das Skalenniveau der erhobenen Daten nicht berücksichtigt worden ist. Wären 100 Schülerinnen und Schüler nach ihrem Taschengeld befragt worden und 37 hätten mit 10 Euro geantwortet, 24 mit 20 Euro und 39 mit 30 Euro, dann wäre die Angabe:

Im Durchschitt bekommen die Schülerinnen und Schüler 20,20 Euro Taschengeld.

durchaus sinnvoll. Insgesamt werden fünf Datenarten unterschieden: nominales, ordinales, Intervall-, Ratio- und absolutes Skalenniveau. [1] Dabei werden intervall-, ratio- und absolut skalierte Daten zu metrischen Daten zusammengfasst. Außerdem gibt es daneben noch die Unterscheidung von diskreten und kontinuierlichen Daten. Die Skalenniveaus sind in Tabelle 1 dargestellt.

Tabelle 1: Skalenniveaus
\(
\begin{array}{|cl|c|c|c|c|c|}
\hline
& \textrm{Skalenniveau} & \textrm{Unter-} & \textrm{Reihen-} & \textrm{gleiche } & \textrm{absoluter } & \textrm{feste }\\
& & \textrm{scheidung} & \textrm{folge} & \textrm{Abstände} & \textrm{Nullpunkt} & \textrm{Einheit}\\
\hline
5 & \textrm{absolutes} & \textrm{Größen} & \textrm{Ja} & \textrm{Ja} & \textrm{Ja} & \textrm{Ja}\\
4 & \textrm{Ratio-} & \textrm{Größen} & \textrm{Ja} & \textrm{Ja} & \textrm{Ja} & \\
3 & \textrm{Intervall-} & \textrm{Größen} & \textrm{Ja} & \textrm{Ja} & & \\
2 & \textrm{ordinales} & \textrm{Kategorien} & \textrm{Ja} & & & \\
1 & \textrm{nominales} & \textrm{Kategorien} & & & & \\
\hline
\end{array}
\)

 

Diskrete und kontinuierliche Daten

Eine Einteilung der Daten, die von den Skalenneveaus unabhängig ist, aber darauf bezogen werden kann, ist die in diskrete und kontinuierliche Daten. Diskrete Daten sind wie Würfelzucker, kontinuierliche wie Butter. Diskrete Daten sind abzählbar, wie die Anzahl der Zuckerstücke. Kontinuierliche Daten sind messbar, wie die Menge Butter in Gramm.

Bei diskreten Daten gibt es immer nur ganze Einheiten, aber nichts dazwischen. In einem Laden für gebrauchte 90er-Jahre-Handys kann ein Kunde ein Handy kaufen oder zwei oder drei – aber nicht 1,36 Handys. Bei kontinuierlichen Daten ist das anders. Es ist schon möglich, 0,78 Liter Milch pro Tag zu trinken. [2]

 

Nominales Skalenniveau

Daten, die nur eine qualitative Unterscheidung bieten, wie die Lieblingsfarbe, die Haarfarbe, das Geschlecht, die bevorzugte Fußballmannschaft oder die Lieblingsmusikrichtung, sind nominal skaliert. Den verschiedenen Variablenausprägungen wird einfach ein Name gegeben, das heißt es erfolgt eine Kategorisierung.

Nominal skalierte Daten können beliebig kodiert werden, die Reihenfolge der Kategorien ist gleichgültig. So können bei der Varaiblen Geschlecht zum Beispiel die Ausprägungen weiblich, männlich, intersexuell jeweils mit 0, 1, 2 oder A, B, C oder 2, 300, –1 oder \(\gamma\), \(\alpha\), \(\beta\) oder sonstwie kodiert werden. Hauptsache, das Datenauswertungsprogramm im Computer weiß, welche Kodierung welcher Ausprägung zugeordnet ist.

Die Daten können den Ausprägungen zugeordnet und dann ausgezählt werden, es können die absoluten und relativen Häufigkeiten (auch in Prozent) jeder Ausprägung angegeben und auch gesagt werden, welche Ausprägung am häufigsten ist. Außerdem kann noch gesagt werden, wieviele Ausprägungen es gibt (minus 1 wäre das der Range).

Das war es dann aber auch.

 

Ordinales Skalenniveau

Die Bundesligatabelle unterscheidet sich von der eigenen Fußballclubpräferenz dadurch, dass die Fußballclubs hier in eine Rangordnung gebracht werden. Es kann gesagt werden, welcher Fußballclub in der laufenden Saison (Stand: heute!) bislang besser gespielt hat als ein anderer, aber ohne weitere Informationen (wie geschossene und kassierte Tore oder die Tordifferenz) nicht, um wieviel besser. Weitere Beispiele wären Chartplazierungen, die Parteipräferenz nach einer links-rechts-Einteilung, Hotel-Bewertungen (drei Sterne und so) oder Schulnoten.

Außer den Operationen, die bereits auf dem Nominalskalenniveau erlaubt sind, kann hier noch gesagt werden, welcher Wert bei einer nach Ausprägungshöhe sortierten Urliste in der Mitte der Verteilung liegt (Median), welcher Wert beim ersten und beim dritten Viertel liegen und es kann auch der Abstand zwischen beiden Werten angegeben werden.

Es darf aber zum Beispiel kein arithmetisches Mittel berechnet werden. Deshalb ist die Angabe einer Durchschnittsnote ziemlich absurd. Besser wäre hier die Angabe der »mittleren« Note, also der Median. Es werden eben häufiger ordinalskalierte Daten erhoben und dann so getan, als seien sie wenigstens intervallskaliert. Methodisch sauber ist das nicht.

 

Intervallskalenniveau

Beim Intervallskalenniveau sind die Abstände zwischen den einzelnen Ausprägungen genau gleich groß. Zum Beispiel ist der Abstand zwischen 10 Grad Celsius und 20 Grad Celsius genauso groß wie der Abstand zwischen 110 Grad Celsius und 120 Grad Celsius. Es kann aber nicht gesagt werden, 10 Grad Celsius sei »doppelt« so heiß wie 20 Grad Celsius (fragt Eure Physiklehrerin!).

Ab dem Intervallskalenniveau sind die Merkmalsausprägungen nicht mehr Kategorien, sondern Größen, die auf einer Skala wie der Einteilung in Zentimeter und Millimeter auf einem Lineal, angeordnet werden können. Deshalb wird bei Merkmalsausprägungen, die mindestens intervallskaliert sind, von metrischen Daten gesprochen. Die Daten werden nicht Kategorien zugeordnet, sondern im engeren Sinne gemessen. Daher kann, neben den bereits beim nominalen und beim ordinalen Skalenniveau erlaubten Operationen, das metrische Instrumentarium – wie arithmetisches Mittel, Varianz, Kovarianz oder Standardabweichung – ab diesem Skalenniveau verwendet werden.

 

Ratioskalenniveau

20 Grad Celsius ist nicht doppelt so warm wie 10 Grad Celsius – wohl aber sind 20 Euro doppelt so viel Geld wie 10 Euro. Der Unterschied ist, dass es beim Geld einen absoluten Nullpunkt gibt. Weniger als 0 Euro kann niemand in der Tasche haben.

Die kälteste mögliche Temperatur in diesem Universum ist 0 Kelvin [3] (frag Deine Physiklehrerin). Kelvin ist also eine Temperaturskala mit einem absoluten Nullpunkt. Deshalb ist zum Beispiel 200 Kelvin doppelt so warm wie 100 Kelvin.

 

Absolutes Skalenniveau

Kelvin geht vom absoluten Temperaturnullpunkt aus und verwendet den Abstand der Celsius-Skala. Grad Rankine geht ebenfalls vom absoluten Temperaturnullpunkt aus, so dass 0 Grad Rankine identisch mit 0 Kelvin ist, verwendet aber den Abstand der Fahrenheit-Skala.

Bei Stückzahlen kann der Abstand zwischen den Einheiten nicht mehr frei gewählt werden. Dieser Abstand ist fest, so dass es nicht verschiedene Einheiten zur Messung der Stückzahlen geben kann. Gleichzeitig sind Stückzahlen diskret und nicht, wie Temperatureinheiten oder das Einkommen, kontinuierlich. Es kann zwar 523,64 Euro oder 23,98 Grad Celsius geben, aber nicht einen Fuhrpark mit 53,793 Autos. Stückzahlen bewegen sich auf absolutem Skalenniveau.

Das absolute Skalenniveau gehört zu den metrischen Skalenniveaus. Deshalb kann zum Beispiel auch das arithmetische Mittel berechnet werden. Das führt aber fast immer zu Zahlen mit Nachkommastellen. Gleichzeitig ist das absolute Skalenniveau aber auch diskret. Siehe dazu Tabelle 2.

Tabelle 2: Skalenniveaus, metrische und diskrete Daten
\(
\begin{array}{|cl|c|c|}
\hline
& \textrm{Skalenniveau} & \textrm{metrisch} & \textrm{diskret}\\
\hline
5 & \textrm{absolutes} & \textrm{Ja} & \textrm{Ja}\\
4 & \textrm{Ratio-} & \textrm{Ja} & \\
3 & \textrm{Intervall-} & \textrm{Ja} & \\
2 & \textrm{ordinales} & & \textrm{Ja}\\
1 & \textrm{nominales} & & \textrm{Ja}\\
\hline
\end{array}
\)

 

Das führt dann zu solchen Angaben wie zum Beispiel 1,3 Lebendgeborene pro gebährfähiger Frau, mit denen Statistiker regelmäßig das Publikum erfreuen. Da stellt sich schon die Frage: was zum Teufel ist ein neugeborenes lebendes Dreizehntelbaby?

An sich ist das aber nur eine Durchschnittsagabe. Gemeint ist: auf zehn gebährfähige Frauen kommen im Durchschnitt 13 lebend neugeborene Babys.

 

In der Praxis gibt es drei

In der sozialwissenschaftlichen Praxis werden Daten unterschieden, die nominal, ordinal oder mindestens intervallskaliert sind. Die letztere Kategorie wird dann metrisch genannt. Das hat damit zu tun, dass die Analyseintrumentarien sich auf genau diese drei Niveaus (nominal, ordinal, metrisch) beziehen lassen.

 

Fazit

Wenn die Skalenniveaus mit der Einteilung in diskrete und kontinuierliche Daten in Beziehung gesetzt werden, dann stellt sich heraus, dass absolut skalierte Daten gleichzeitig metrisch und diskret sind. Das metrische Analyseinstrumentarium ist aber auf kontinuierliche Daten ausgelegt. Das führt zu der Merkwürdigkeit, dass bei Durchschnittsberechnungen plötzlich Nachkommastellen bei Stückzahlen möglich sind, wie beispielsweise in einem Automobilwerk durchschnittlich 325,87 produzierte Autos pro Stunde. Das ist ein Produkt der Anwendung des arithmetischen Mittels, weil es sich eben um metrische Daten handelt.

Anmerkungen

[1]
Manchmal wird noch eine sogenannte Log-Intervallskala angegeben, die zwischen Ordinalskala und Intervallskala angesiedelt ist. Darauf gehe ich an dieser Stelle aber nicht ein.

[2]
Eine Ausnahme ist die Richterskala für Erdbeben, die diskret ist, weil sie nur wenige Ausprägungen hat, bei der aber auch Angaben mit Nachkommastellen möglich sind. Vgl. dazu
https://wissenschafts-thurm.de/grundlagen-der-statistik-worin-unterscheiden-sich-diskrete-und-stetige-merkmale-und-wann-sind-merkmale-haeufbar/

[3]
Die Konvention ist, »sounsoviel Kelvin« zu sagen, nicht »soundsoviel Grad Kelvin«.

 

Empfohlene Literatur

Skalenniveaus, nominal bis Ratio

Benninghaus, Hans, (6)1989: Sozialwissenschaftlich relevante Variablen und ihre Messung. 20–28 (=Kapitel 2) in ders.: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22, Studienskripten zur Soziologie) Stuttgart: Teubner 

Bortz, Jürgen, (6)2005: Skalenarten. 18–27 in ders.: Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer

Bühl, Achim, (13)2012: Skalenniveaus. 165–168 in ders.: SPSS 20. Einführung in die moderne Datenanalyse. (= scientific tools 4150) München: Pearson

Clauß, Günter und Heinz Ebner, 1968: Die Formen der Skalierung. 22–25 in: Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen. Berlin (DDR): Volk und Wissen)

Schnell, Rainer, Hill, Paul B. und Elke Esser, 1988: Skalentypen. 137–140 in dies.: Methoden der empirischen Sozialforschung. München: Oldenbourg

Schnell, Rainer, Hill, Paul B. und Elke Esser, 1988: Messniveau und »zulässige« statistische Verfahren. 140–144 in dies.: Methoden der empirischen Sozialforschung. München: Oldenbourg

https://de.wikipedia.org/wiki/Skalenniveau
(Letzter Zugriff: 31. Juli 2019)

https://www.crashkurs-statistik.de/merkmals-und-skalentypen/
(Letzter Zugriff: 3. August 2019)

Skalenniveaus, Absolutskala

https://de.wikipedia.org/wiki/Absolutskala
(Letzter Zugriff: 31. Juli 2019)

https://www.wiwiweb.de/statistik/grundbegriff/skalierungen/absolutskala.html
(Letzter Zugriff: 31. Juli 2019)

Skalennivaus, alle

https://www.fernuni-hagen.de/KSW/neuestatistik/content/Fallstudie_Desk/Generalbeispiel/Lernmodule/01_01/html/a76.html
(Letzter Zugriff: 31. Juli 2019)

diskret und kontinuierlich

https://wissenschafts-thurm.de/grundlagen-der-statistik-worin-unterscheiden-sich-diskrete-und-stetige-merkmale-und-wann-sind-merkmale-haeufbar/
(Letzter Zugriff: 31. Juli 2019)

 

 

 

 

 

 

geschrieben 31.07.2019 um 07:07

Sonstiger Berufsstatus, Punkte: 1.22K

 
Kommentar schreiben
0 Antworten