Herleitung Korrelationskoeffizienten

Erste Frage Aufrufe: 1133     Aktiv: 15.07.2019 um 13:31

0

Moin,

hier (https://www.youtube.com/watch?v=sBD-KfzQAik&list=PLLTAHuUj-zHifw_3OhBTvQq2EGX5NedOy&index=19) sagt Daniel Jung, dass mx*my=r^2 ist. Ich verstehe allerdings nicht warum das so ist. Die Rechnung kann ich nachvollziehen, ich verstehe die Logik dahinter nicht. Könnte mir das bitte jmd erläutern?

Diese Frage melden
gefragt

Schüler, Punkte: 10

 
Kommentar schreiben
3 Antworten
0

Hallo,

\( r = \frac {S_{xy}} {\sqrt{S_{xx}S_{yy}}} \ , m_x = \frac {S_{xy}} {S_{xx}} \ , m_y = \frac {S_{xy}} {S_{yy}} \\ \Rightarrow m_{x} \cdot m_{y} =  \frac {S_{xy}} {S_{xx}} \cdot \frac {S_{xy}} {S_{yy}} = \frac {S_{xy}^2} {S_{xx}S_{yy}} = \left( \frac {S_{xy}} {\sqrt{S_{xx}S_{yy}}} \right) ^2 = r^2 \)

Allerdings hat das Daniel genau so in seinem Video, deshalb bin ich mir nicht sicher, ob das wirklich deine Frage war. Wenn nicht melde dich nochmal

Grüße Christian

Diese Antwort melden
geantwortet

Sonstiger Berufsstatus, Punkte: 29.81K

 

Danke erstmal für die Antwort, aber anscheinend hab ich mich falsch ausgedrückt. Ich frage mich wieso die beiden Steigungen der Regressionsgeraden miteinander multipliziert den Korrelationskoeffezienten zum Quadrat ergeben. Also denn Sinn dahinter, die Rechnung an sich verstehe ich. :)

  ─   basti9 30.03.2019 um 14:01

Wir können der Regressionsgerade nicht ansehen, wie "eng" die Daten und die Gerade miteinander zusammenhängen (korrelieren). Wir wissen also nicht, liegen die Daten nahe der Gerden oder streuen sie stark.


Dafür wird der Korrelationskoeffizient definiert. Er wird direkt so definiert, dass er diese Aussage aus der Eigenschaft bezieht, dass wenn wir die x und y Werte vertauschen zwei unterschiedliche Geraden entstehen. 


Beschreiben beide Geraden die selbe Beziehung, so ergibt der Korrelationskoeffizient 1 oder -1. Haben die beiden Geraden keinen Bezug zueinander, ergibt der Korrelationskoeffizient 0.


Das Quadrat des Korrelationskoeffizienten wird Bestimmtheitsmaß genannt. Es beschreibt die Variation der Messwerte. 


Du kannst dir das vorstellen als wenn du eine Geradengleichung umstellen würdest von x nach y


\( y = mx+b \\ \Rightarrow y-b = mx \\ \Rightarrow \frac 1 m y - \frac b m = x \\ \Rightarrow x = \frac 1 m y + c \)


Wenn wir nun die Steigungen der beiden Geraden multiplizieren, erhalten wir 1, da beide Geraden die selben Daten beschreiben und genau das soll auch das Bestimmtheitsmaß beschrieben.


Ich hoffe ich konnte die Frage klären.


Grüße Christian

  ─   christian_strack 30.03.2019 um 22:59

Kommentar schreiben

0

Danke schonmal für die ersten Erläuterungen.

Es gibt für mich noch zwei Unklarheiten:

1. Bei der Umstellung der Geradengleichung frage ich mich, woher das c kommt.

2. Das Bestimmtheitsmaß ist ja das r^2, der Korrelationskoeffizient das r. Nun heißt es aber, dass sich der Korrelationskoeffizient aus dem Produkt der Geradensteigungen ermitteln lässt und nicht das Bestimmheitsmaß?

Diese Antwort melden
geantwortet

Lehrer/Professor, Punkte: 10

 

Zu 1.
\(c\) ist offensichtlich \(-\frac{b}{m}\), wie sich sehr schnell herausstellt, wenn die dritte und die vierte Zeile in Christians Umformung verglichen werden:

\begin{eqnarray*}
\frac{1}{m}y-\frac{b}{m} & = & \frac{1}{m}y+c\qquad\mid-\frac{1}{m}y\\
-\frac{b}{m} & = & c
\end{eqnarray*}

Zu 2.
Aus dem Video von Daniel Jung geht eindeuig hervor, dass \(r^2=m_{x}\cdot m_{y}\) ist, und nicht \(r\).

Grüße
jake2024
  ─   jake2042 14.07.2019 um 23:58

Kommentar schreiben

0

A.

Die ganze Geschichte mit den zwei Steigungen finde ich ziemlich kryptisch. Ich würde \(r^2\) etwas anders betracheten, nämlich als Verhältnis der erklärten Varianz zur Gesamtvarianz. [1]

Der beste Schätzwert für den Wert der abhängigen Variablen \(y\) an der Stelle \(x_i\) auf der Grundlage ihrer eigenen Verteilung ist ihr Mittelwert (\(\bar{y}\)).

Der beste Schätzwert für den Wert der abhängigen Variablen \(y\) an der Stelle \(x_i\) unter Berücksichtigung der unabhängigen Variablen \(x\) ist der y-Wert des Punktes auf der Regressionsgeraden, der sich an der Stelle der Stelle \(x_i\) befindet. Die Beziehung zwischen der Gesamtabweichung, der nicht erklärten Abweichung und der erklärten Abweichung des Punktes \(P(x_i|y_i)\) ist aus dem folgenden Diagamm zu ersehen:


Quelle: Benninghaus 1989:210

Für den y-Wert des Punktes \(P(x_i|y_i)\) gilt also, dass sich die Gesamtabweichung dieses y-Werts aus der Summe der erklärten und der nicht erklärten Abweichung ergibt. Das heißt, es gilt Gleichung (1):

$$\left(y_{i}-\bar{y}\right)=\left(y'_{i}-\bar{y}\right)+\left(y_{i}-y'_{i}\right) \tag{1}$$

Über eine Umformung, bei der die erste binomische Formel [2] eine Rolle spielt, lässt sich zeigen, dass auch der folgende Zusammenhang gilt:

$$\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)=\sum_{i=1}^{n}\left(y'_{i}-\bar{y}\right)+\sum_{i=1}^{n}\left(y_{i}-y'_{i}\right) \tag{2}$$

Das heißt, dass sich auch die Gesamtvariation aus der Summe der erklärten und der nicht erklärten Variation zusammensetzt. \(r^2\) ist jetzt definiert als das Verhältnis der erklärten Variation zur Gesamtvariation bzw., wenn alle drei Ausdrücke noch einmal durch die Fallzahl geteilt werden, der erklärten Varianz zur Gesamtvarianz.


B.

Die Formel zur Berechnung von Pearsons r (das ist der Korrelationskoeffizient) kann auch so geschrieben werden:

$$r=\frac{\mathrm{cov}(x,y)}{s_{x}\cdot s_{y}} \tag{3}$$

Dabei ist \(\mathrm{cov}(x,y)\) die Kovarianz von x und y. \(s_x\) und \(s_y\) sind die Standardabweichungen von \(x\) und  \(y\). Diese drei Parameter können wie folgt berechnet werden:

$$\mathrm{cov}(x,y)=\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)\cdot\left(y_{1}-\bar{y}\right)}{n} \tag{4}$$

$$s_{x}=\sqrt{\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n}} \tag{5}$$

$$s_{y}=\sqrt{\frac{\sum\limits _{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}{n}} \tag{6}$$

Wie sich mit Papier und Bleistift nachvollziehen lässt, küzen sich die Fallzahlen weg, wenn die Formeln (4) bis (6) in die Formel (3) eingesetzt werden. Daraus ergibt sich dann Formel (7):

$$r=\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)\cdot\left(y_{i}-\bar{y}\right)}{\sqrt{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\cdot\sum\limits _{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} \tag{7}$$

Das ist, wie sich leicht fesstellen lässt, numerisch identisch mit der Formel, die Daniel Jung in seinem Video vorgestellt hat.


[1]
Das heißt Varianzaufklärung. Eine Anmerkung dazu: Die Varianz ist die Summe der Abweichungsquadrate geteilt durch die Fallzahl. Die Summe der Abweichungsquadrate wird auch Variation genannt. Wenn die erklärte Varianz durch die Gsamtvarianz geteilt wird, kürzt sich die Fallzahl weg. Was übrig bleibt ist die erklärte Variation geteilt durch die Gesamtvariation.

[2]
\((a+b)^2=a^2+2ab+b^2\)

Siehe dazu auch Benninghaus 1989:211


Literatur

Benninghaus, Hans, (6)1989: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22, Studienskripten zur Soziologie) Stuttgart: Teubner

 

Diese Antwort melden
geantwortet

Sonstiger Berufsstatus, Punkte: 1.22K

 

Ja, nur dass die Gleichung (2) so lauten muss:

$$\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(y'_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n}\left(y_{i}-y'_{i}\right)^{2} \tag{2}$$

Es handelt sich nämlich um die Gesamtvarition, die erklärte Variation und die nicht erklärte Variation der abhängigen Variblen \(y\).

Die Variation ist die Summe der quadrierten Abweichungen der Einzelwerte einer Variablen vom Mittelwert dieser Variablen. Ein anderer Ausdruck für Variation ist Summer der Abweichungsquadrate (SAQ).
  ─   jake2042 15.07.2019 um 13:31

Kommentar schreiben