Formelsammlung für Mathematik, Physik, Astronomie, Chemie, Biologie und Informatik
Goldbarren kaufen
  Startseite Formelsammlung bookmarken Bookmark setzen Sitemap anzeigen Sitemap Impressum anzeigen Impressum
 
» Formelsammlung:
» Startseite
» Astronomie
» Biologie
» BWL
» Chemie
» Informatik
» Mathematik
» Physik

» Interaktiv:
» Forum
» Lexikon
» Mitmachen
» Links zu Uns
» Surftipps

» Informationen:
» Kontakt
» Impressum
» Über Formel-Sammlung.de

» Partnerseiten:
  www.schuelerlexikon.de

» Partner:
  Etiketten
Kostenlose Kochrezepte
Künstler Verzeichnis
Schilder
Spieleforum
Witze & SMS Sprüche

Chi-Quadrat-Test



Sie befinden Sie in: Formelsammlung Lexikon > c > Chi-Quadrat-Test
Chi-Quadrat-Test

Mit dem Chi-Quadrat-Test oder ?2-Test untersucht man Verteilungseigenschaften einer statistischen Grundgesamtheit.

Man unterscheidet vor allem die beiden Tests:

  • Verteilungstest oder Anpassungstest
  • Unabhängigkeitstest
Inhaltsverzeichnis
1 Verteilungstest

1.1 Vorgehensweise
1.2 Besonderheiten

1.2.1 Schätzung von Verteilungsparametern
1.2.2 Mindestgröße der erwarteten Häufigkeiten

1.3 Beispiel zu Anpassungstest

2 Unabhängigkeitstest

2.1 Vorgehensweise
2.2 Besonderheiten
2.3 Beispiel zu Unabhängigkeitstest

 

Verteilungstest

Man betrachtet ein statistisches Merkmal x, dessen Wahrscheinlichkeiten in der Grundgesamtheit unbekannt sind. Es wird bezüglich der Wahrscheinlichkeiten von x eine, vorläufig allgemein formulierte Nullhypothese

Ho: Das Merkmal x hat die Wahrscheinlichkeitsverteilung Fo(x)

aufgestellt.

 

Vorgehensweise

Die n Beobachtungen von x liegen in m vielen Kategorien j (j = 1, ..., m) vor. Treten bei einem Merkmal sehr viele Ausprägungen auf, fasst man sie zweckmäßigerweise zu Klassen j zusammen und fasst die Klassenzugehörigkeit als j-te Kategorie auf. Die Zahl der Beobachtungen in einer Kategorie ist die beobachtete Häufigkeit nj.

Man überlegt sich nun, wieviele Beobachtungen im Mittel in einer Kategorie liegen müssten, wenn x tatsächlich die hypothetische Verteilung hat. Dazu berechnet man zunächst die Wahrscheinlichkeit Fo(x)j, dass x in diese Kategorie fällt.

n_{jo}=F_o(x)_j\cdot n

ist die unter Ho zu erwartende Häufigkeit.

Die Prüfgröße für den Test ist

\chi ^2= \sum_{j=1}^m \frac{(n_j-n_{jo})^2}{n_{jo}} .

Die Prüfgröße ?2 ist bei ausreichend großen nj annähernd ?2-verteilt mit m-1 Freiheitsgraden.

Man sieht an der Differenzenbildung, dass die Hypothese wahr sein muss, wenn der Unterschied zwischen beobachteter und erwarteter Häufigkeit klein ist. Also wird Ho bei einem hohen Prüfgrößenwert abgelehnt, der Ablehnungsbereich für Ho liegt rechts.

Bei einem Signifikanzniveau ? wird Ho abgelehnt, wenn ?2 > ?2(1-?; m-1), dem (1-?)-Quantil der ?2-Verteilung mit m-1 Freiheitsgraden ist.

 

Besonderheiten

 

Schätzung von Verteilungsparametern

Im allgemeinen gibt man bei der Verteilungshypothese die Parameter der Verteilung an. Kann man diese nicht angeben, müssen sie aus der Stichprobe geschätzt werden. Hier geht bei der ?2-Verteilung pro geschätztem Parameter ein Freiheitsgrad verloren. Sie hat also m-w-1 Freiheitsgrade mit w als Zahl der geschätzten Parameter.

 

Mindestgröße der erwarteten Häufigkeiten

Damit die Prüfgröße als annähernd ?2-verteilt betrachtet werden kann, muss jede erwartete Häufigkeit mindestens 5 betragen. Sind sie zu klein, sollten gegebenenfalls mehrere Klassen zusammengefasst werden.

 

Beispiel zu Anpassungstest

Es liegen von ca. 200 aktiennotierten Unternehmen die Umsätze vor. Das folgende Histogramm, in SPSS erstellt, zeigt ihre Verteilung.

bild:UmsatzHisto0.PNG

Es sei x: Umsatz eines Unternehmens [Mio ?].

Es soll nun die Hypothese getestet werden, dass x normalverteilt ist.

Da die Daten in vielen verschiedenen Ausprägungen vorliegen, wurden sie in Klassen eingeteilt. Es ergab sich die Tabelle:

Klasse Intervall Beobachtete Häufigkeit
j über bis nj
1 ... 0 0
2 0 5000 148
3 5000 10000 17
4 10000 15000 5
5 15000 20000 8
6 20000 25000 4
7 25000 30000 3
8 30000 35000 3
9 35000 ... 9
Summe     197

Da keine Parameter vorgegeben werden, werden sie aus der Stichprobe ermittelt. Es sind geschätzt

\hat \mu = \bar x = 6892

und

\hat \sigma = s = 14984.

Es wird getestet:

Ho: X ist normalverteilt mit dem Erwartungswert ? = 6892 und der Varianz ?2 = 149842.

Um die erwarteten Häufigkeiten zu bestimmen, werden zunächst die Wahrscheinlichkeit berechnet, dass X in die vorgegebenen Klassen fällt. Es sei ?(x|6892;149842) die Verteilungsfunktion der oben angegebenen Normalverteilung an der Stelle x. Man errechnet dann

P(X \le 0)=F_{1o}=\Phi(0|6892;14984^2) = 0,3228
P(0 < X \le 5000)=\Phi(5000|6892;14984^2) - \Phi(0|6892;14984^2) = 0,1270
...

Daraus ergeben sich die erwarteten Häufigkeiten

n_{1o}=n \cdot F_{1o} = 197 \cdot 0,3228 = 63,59
n_{2o}= 197 \cdot 0,1270=25,02
...

Es müssten also beispielsweise ca 25 Unternehmen im Mittel einen Umsatz zwischen 0 und 5000 ? haben, wenn das Merkmal Umsatz tatsächlich normalverteilt ist.

Die erwarteten Häufigkeiten sind zusammen mit den beobachteten Häufigkeiten in der folgenden Tabelle aufgeführt.


Klasse Intervall Beobachtete Häufigkeit Wahrscheinlichkeit Erwartete Häufigkeit
j über bis nj Fjo njo
1 ... 0 0 0,3228 63,59
2 0 5000 148 0,1270 25,02
3 5000 10000 17 0,1324 26,08
4 10000 15000 5 0,1236 24,35
5 15000 20000 8 0,1034 20,36
6 20000 25000 4 0,0774 15,25
7 25000 30000 3 0,0519 10,23
8 30000 35000 3 0,0312 6,14
9 35000 ... 9 0,0303 5,98
Summe     197 1,0000 197,00

Die Prüfgröße wird jetzt folgendermaßen ermittelt:

\chi^2 = \frac{(0- 63,59)^2}{ 63,59 } +  \frac{(148- 25,02)^2}{ 25,02 } + ... +  \frac{(9- 5,98)^2}{ 5,98 } = 710,79 .

Bei einem Signifikanzniveau ? = 0,05 liegt der kritische Wert der Testprüfgröße bei ?2(0,95;9-2=7) = 14,07. Da ?2 > 14,07 ist, wird die Hypothese abgelehnt. Man kann davon ausgehen, dass das Merkmal Umsatz nicht normalverteilt ist.

Ergänzung

Die Daten wurden logarithmiert. Ein Normalverteilungstest dieser Daten wurde bei einem Signifikanzniveau von 0,05 nicht abgelehnt.

Das folgende Histogramm, in SPSS erstellt, zeigt die Verteilung der logarithmierten Daten.

bild:LgUmsatzHisto0.PNG

 

 

Unabhängigkeitstest

Siehe auch: Vierfeldertest

Man betrachtet zwei statistische Merkmale x und y, die beliebig skaliert sein können. Man interessiert sich dafür, ob die Merkmale stochastisch unabhängig sind. Es wird die Nullhypothese

Ho: Das Merkmal x ist vom Merkmal y stochastisch unabhängig.

aufgestellt.

 

Vorgehensweise

Die Beobachtungen von x liegen in m vielen Kategorien j (j = 1, ..., m) vor, die des Merkmals y in r vielen Kategorien k (k=1, ..., r) vor. Treten bei einem Merkmal sehr viele Ausprägungen auf, fasst man sie zweckmäßigerweise zu Klassen j zusammen und fasst die Klassenzugehörigkeit als j-te Kategorie auf. Es gibt insgesamt n viele paarweise Beobachtungen von x und y, die sich auf m×r Kategorien verteilen.

Konzeptionell ist der Test so aufzufassen:

Man betrachte zwei diskrete Zufallsvariablen X und Y, deren gemeinsame Wahrscheinlichkeiten in einer Wahrscheinlichkeitstabelle dargestellt werden können.


Man zählt nun, wie oft die j-te Ausprägung von X zusammen mit der k-ten Ausprägung von Y auftritt. Die beobachteten gemeinsamen absoluten Häufigkeiten njk können in einer zweidimensionalen Häufigkeitstabelle mit m Zeilen und r Spalten eingetragen werden.

Merkmal y ?
Merkmal x 1 2 ... k ... r nj.
1 n11 n12 ... n1k ... n1r n1.
2 n21 n22 ... n2k ... n2r n2.
... ... ... ... ... ... ... ...
j ... ... ... njk ... ... ...
... ... ... ... ... ... ... ...
m nm1 nm2 ... nmk ... nmr nm.
? n.1 n.2 ... n.k ... n.r n


Die Zeilen- bzw. Spaltensummen ergeben die absoluten Randhäufigkeiten nj. bzw. n.k als

n_{j.}= \sum_{k=1}^r n_{jk} und  :n_{.k}= \sum_{j=1}^m n_{jk}.

Entsprechend sind die gemeinsamen relative Häufigkeiten pjk = njk/n und die relativen Randhäufigkeiten pj. = nj./n und p.k = n.k/n.

Wahrscheinlichkeitstheoretisch gilt: Sind zwei Ereignisse A und B stochastisch unabhängig, ist die Wahrscheinlichkeit für ihr gemeinsames Auftreten gleich dem Produkt der Einzelwahrscheinlichkeiten:

P(A\and B)= P(A)\cdot P(B)


Man überlegt sich nun, dass analog zu oben bei stochastischer Unabhängigkeit von x und y auch gelten müsste

p_{jk}\approx p_{j.}\cdot p_{.k} ,

mit n multipliziert entsprechend

n_{jk}\approx \frac{n_{j.}\cdot n_{.k}}{n} oder auch
n_{jk}- \frac{n_{j.}\cdot n_{.k}}{n}\approx 0.

Sind diese Differenzen für sämtliche j,k klein, kann man vermuten, dass x und y tatsächlich stochastisch unabhängig sind.

Setzt man für die erwartete Häufigkeit bei Vorliegen von Unabängigkeit

n^*_{jk}=\frac{n_{j.}\cdot n_{.k}}{n}

resultiert aus der obigen Überlegung die Prüfgröße für den Unabhängigkeitstest

\chi ^2= \sum_{j=1}^m\sum_{k=1}^r \frac{(n_{jk}- n^*_{jk})^2}{n^*_{jk}} .

Die Prüfgröße ?2 ist bei ausreichend großen erwarteten Häufigkeiten njk* annähernd ?2-verteilt mit (m-1)(r-1) Freiheitsgraden.

Wenn die Prüfgröße klein ist, wird vermutet, dass die Hypothese wahr ist. Also wird Ho bei einem hohen Prüfgrößenwert abgelehnt, der Ablehnungsbereich für Ho liegt rechts.

Bei einem Signifikanzniveau ? wird Ho abgelehnt, wenn ?2 > ?2(1-?; (m-1)(r-1)), dem (1-?)-Quantil der ?2-Verteilung mit (m-1)(r-1) Freiheitsgraden ist.

 

Besonderheiten

Damit die Prüfgröße als annähernd ?2-verteilt betrachtet werden kann, muss jede erwartete Häufigkeit njk* mindestens 5 betragen. Wird dieser Wert nicht erreicht, sollten gegebenenfalls mehrere Klassen zu einer neuen zusammengefasst werden.

 

 

Beispiel zu Unabhängigkeitstest

Im Rahmen des Qualitätsmangements wurden die Kunden einer Bank befragt, unter anderem nach ihrer Zufriedenheit mit der Geschäftsabwicklung und nach der Gesamtzufriedenheit. Der Grad der Zufriedenheit richtete sich nach dem Schulnotensystem.

Die Daten wurden in SPSS verarbeitet. Es ergab sich die unten folgende Kreuztabelle der Gesamtzufriedenheit von Bankkunden versus ihrer Zufriedenheit mit der Geschäftsabwicklung. Man sieht, dass einige erwartete Häufigkeiten zu klein waren.

bild:Chigross.png

Eine Reduzierung der Kategorien auf jeweils drei ergab methodisch korrekte Ergebnisse.

bild:Chiklein.png

Die folgende Tabelle enthält die erwarteten Häufigkeiten njk*, die sich so berechnen:

n^*_{11}= \frac{102 \cdot 270}{621}= 44,35 \quad n^*_{12}= \frac{102 \cdot 273}{621}= 44,84 \quad ...\quad  n^*_{33}= \frac{160 \cdot 78}{621}= 20,10
Merkmal y
Merkmal x 1 2 3 ?
1 44,35 44,84 12,81 102
2 156,09 157,82 45,09 359
3 69,57 70,34 20,10 160
? 270 273 78 621

Die Prüfgröße wird dann folgendermaßen ermittelt:

\chi^2 = \frac{(86-44,35)^2}{44,35} +  \frac{(16-44,84)^2}{44,84} + ... +  \frac{(53-20,10)^2}{20,10} = 167,187

Bei einem ? = 0,05 liegt der kritische Wert der Testprüfgröße bei ?2(0,95;4) = 9,488. Da ?2 > 9,488 ist, wird die Hypothese abgelehnt, man vermutet also, dass die Gesamtzufriedenheit von der Zufriedenheit mit der Geschäftsabwicklung beeinflusst wurde.


Lexikon Eintrag Drucken | Dokument als PDF downloaden
Dieser Artikel stammt aus Wikipedia, der freien Enzyklopädie
und steht unter der GNU Free Documentation Licence. 

zum Seitenanfang

» Formel Suche:
  Gebe einfach den Gesuchten Begriff ein.
 
 
» Unterstüzt von:
Duden Paetec Schulbuchverlage

zum Formelsammlung Forum

» Anzeigen:
 
 
       
Diese Seite wurde in 0.008 Sekunden erstellt - 39 Besucher Online.
© 2004 by Formel-Sammlung.de & DUDEN PAETEC GmbH Alle Rechte vorbehalten