Information

Muss man zwei Chi-Quadrat-Tests durchführen?

Muss man zwei Chi-Quadrat-Tests durchführen?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Eine Frage aus dem Fragenpapier meiner Universität 2016:

Es wird angenommen, dass eine neu identifizierte Fruchtfliegenmutante, Zyklopenauge - groß und einzeln in der Mitte des Kopfes, autosomal dominant ist. Das Experiment begann mit homozygoten Wildtyp-Weibchen und heterozygoten Cyclopes-Männchen. Die Daten der F2-Generation waren 44 männliche Wildtyp-Männchen, 60 Wildtyp-Weibchen, 110 Cyclops-Männchen und 150 Cyclops-Weibchen. Unterstützt oder lehnt dies die Hypothese$^1$? Verwenden Sie das Chi-Quadrat, um zu beweisen.

Ich denke, das Folgende sollte ein angemessener Ansatz sein, um es zu lösen:

h0= Das Verhältnis von Zyklopenäugigen Männchen und Weibchen ist nicht gleich, d.h. das verantwortliche Gen ist nicht autosomal. $oder$ Es besteht ein Zusammenhang zwischen dem Geschlecht der Fruchtfliege und dem Phänotyp.$^2$

h1= Das Verhältnis von Männchen und Weibchen mit Zyklopenaugen ist gleich, das Gen ist auf Autosomen vorhanden $oder$ Es besteht kein Zusammenhang zwischen dem Geschlecht und dem Phänotyp.$^2$

Chi-Quadrat-Kontingenztest mit Männchen und Weibchen (in den Spalten) und Wildtyp- und Mutanten-Phänotyp (in Reihen).

Sobald das H0 als falsch bewiesen ist (wenn es sich als falsch herausstellt), betrachten wir einen nächsten Chi-Quadrat-Test, die Anpassungsgüte, wobei:

h0= Der Anteil des mutierten Phänotyps ist der gleiche wie beim Wildtyp, d.h. das Verhältnis 1:1 wird eingehalten

h1=Der Anteil und der mutierte Phänotyp ist größer, d.h. das verantwortliche Allel ist dominant.

Wenn das letzte H1 wird akzeptiert das $^1$Hypothese ist richtig oder falsch.

$^2$ Ich bin mir nicht sicher, welches besser / richtig ist.

Ist das richtig?


Sie sollten nur einen Chi-Quadrat-Test haben, um die Hypothese zu testen.

Beachten Sie, dass das Problem nach der F2-Generation fragt, nicht nach F1.

h0 in einem Chi-Quadrat-Test ist Ihre Vorhersage basiert auf einem Modell; h1 ist, dass das wirkliche Ergebnis von den Erwartungen abweicht, also haben Sie das etwas rückwärts. h0 sollte die erwartete Anzahl sein, wenn die anfänglichen Anteile bekannt sind und eine autosomal-dominante Vererbung erwartet wird.

Beginnen Sie mit Ihrer Vorhersage:

Die F1-Generation besteht zur Hälfte aus heterozygoten Männchen/Weibchen, zur Hälfte aus WT-Männchen/Weibchen, sodass die F2-Generation 3 Arten von Paarungsereignissen hat:

Cc x Cc tritt in 25 % der Fälle auf und 75 % der Nachkommen sind betroffen

Cc x cc tritt in 50 % der Fälle auf und 50 % der Nachkommen sind betroffen

cc x cc tritt in 25 % der Fälle auf und 0 % der Nachkommen sind betroffen

Multiplizieren Sie diese Wahrscheinlichkeiten und Sie sollten 43,75% haben, die den Phänotyp ausdrücken; Ihre Vorhersage für den Chi-Quadrat-Test ist, dass Sie unabhängig vom Geschlecht denselben Prozentsatz sehen werden.

Von da an ist es einfach, einen Chi-Quadrat-Test durchzuführen, und dafür gibt es viele Ressourcen online (hier ist nur eine).


Punnett-Quadrate sind praktisch, um das Ergebnis von Monohybrid- oder Dihybrid-Kreuzungen vorherzusagen. Die Erwartung zweier heterozygoter Eltern ist 3:1 bei einer Kreuzung mit einem einzigen Merkmal oder 9:3:3:1 bei einer Kreuzung mit zwei Merkmalen. Die Durchführung einer Kreuzung mit drei oder vier Merkmalen wird sehr chaotisch. In diesen Fällen ist es besser, den Wahrscheinlichkeitsregeln zu folgen. Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass ein Ereignis eintritt, ausgedrückt als Bruchteil oder Prozentsatz. Im Falle einer monohybriden Kreuzung bedeutet das Verhältnis 3:1, dass eine Wahrscheinlichkeit von (frac<3><4>) (0,75) für den dominanten Phänotyp mit (frac<1><4> ) (0,25) Wahrscheinlichkeit eines rezessiven Phänotyps.

Ein einzelner Würfel hat eine Chance von 1 zu 6, einen bestimmten Wert zu haben. In diesem Fall besteht eine (frac<1><6>) Wahrscheinlichkeit, eine 3 zu würfeln. Es versteht sich, dass das gleichzeitige Würfeln eines zweiten Würfels nicht vom ersten beeinflusst wird und daher unabhängig ist. Dieser zweite Würfel hat auch eine (frac<1><6>) Chance, eine 3 zu sein.

Wir können diese Wahrscheinlichkeitsregeln verstehen, indem wir sie auf das Dihybridkreuz anwenden und erkennen, dass wir zum gleichen Ergebnis kommen wie die 2 monohybriden Punnett-Quadrate wie mit dem einzelnen Dihybrid-Punnett-Quadrat.

Diese gegabelte Linienmethode zur Berechnung der Wahrscheinlichkeit von Nachkommen mit verschiedenen Genotypen und Phänotypen kann skaliert und auf mehr Merkmale angewendet werden.


Muss man zwei Chi-Quadrat-Tests durchführen? - Biologie

Häufigkeitsverteilungen

Ein wichtiger Satz statistischer Tests ermöglicht es uns, auf Abweichungen beobachteter Häufigkeiten von erwarteten Häufigkeiten zu testen. Um diese Tests einzuführen, beginnen wir mit einem einfachen, nicht-biologischen Beispiel. Wir wollen feststellen, ob eine Münze fair ist. Mit anderen Worten, sind die Chancen, die Münze Heads-Up zu werfen, die gleichen wie Tails-Up. Wir sammeln Daten, indem wir die Münze 200 Mal werfen. Die Münze landete 108 Mal im Heads-Up und 92 Mal im Tails-Up. Auf den ersten Blick könnte man vermuten, dass die Münze verzerrt ist, weil Kopf häufiger als Zahl resultierte. Wir haben jedoch eine quantitativere Möglichkeit, unsere Ergebnisse zu analysieren, einen Chi-Quadrat-Test.

Um einen Chi-Quadrat-Test (oder einen anderen statistischen Test) durchzuführen, müssen wir zuerst unsere Nullhypothese aufstellen. In diesem Beispiel lautet unsere Nullhypothese, dass die Münze jedes Mal mit gleicher Wahrscheinlichkeit Head-Up oder Tails-Up landet. Die Nullhypothese erlaubt es uns, erwartete Häufigkeiten anzugeben. Für 200 Würfe würden wir 100 Kopf und 100 Zahl erwarten.

Der nächste Schritt besteht darin, eine Tabelle wie folgt vorzubereiten.

Köpfe Schwänze Gesamt
Beobachtet 108 92 200
Erwartet 100 100 200
Gesamt 208 192 400

Die beobachteten Werte sind diejenigen, die wir selbst sammeln. Die Erwartungswerte sind die erwarteten Häufigkeiten, basierend auf unserer Nullhypothese. Wir summieren die Zeilen und Spalten wie angegeben. Es ist eine gute Idee, sicherzustellen, dass die Zeilensummen den Spaltensummen entsprechen (beide ergeben in diesem Beispiel 400).

Mithilfe der Wahrscheinlichkeitstheorie haben Statistiker eine Methode entwickelt, um festzustellen, ob eine Häufigkeitsverteilung von der erwarteten Verteilung abweicht. Um diesen Chi-Quadrat-Test zu verwenden, müssen wir zuerst das Chi-Quadrat berechnen.

Chi-Quadrat = (beobachtet-erwartet) 2 /(erwartet)

In diesem Beispiel müssen wir zwei Klassen berücksichtigen, Kopf und Zahl.

Chi-Quadrat = (100-108) 2 /100 + (100-92) 2 /100 = (-8) 2 /100 + (8) 2 /100 = 0,64 + 0,64 = 1,28

Jetzt müssen wir eine Tabelle mit kritischen Werten der Chi-Quadrat-Verteilung konsultieren. Hier ist ein Teil einer solchen Tabelle.

df/prob. 0.99 0.95 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05
1 0.00013 0.0039 0.016 0.64 0.15 0.46 1.07 1.64 2.71 3.84
2 0.02 0.10 0.21 0.45 0.71 1.39 2.41 3.22 4.60 5.99
3 0.12 0.35 0.58 1.00 1.42 2.37 3.66 4.64 6.25 7.82
4 0.3 0.71 1.06 1.65 2.20 3.36 4.88 5.99 7.78 9.49
5 0.55 1.14 1.61 2.34 3.00 4.35 6.06 7.29 9.24 11.07

In der Spalte ganz links sind die Freiheitsgrade (df) aufgeführt. Wir bestimmen die Freiheitsgrade, indem wir von der Anzahl der Klassen eins abziehen. In diesem Beispiel haben wir zwei Klassen (Kopf und Zahl), also sind unsere Freiheitsgrade 1. Unser Chi-Quadrat-Wert ist 1,28. Bewegen Sie sich 1 df über die Reihe, bis wir kritische Zahlen finden, die unseren Wert begrenzen. In diesem Fall 1,07 (entspricht einer Wahrscheinlichkeit von 0,30) und 1,64 (entspricht einer Wahrscheinlichkeit von 0,20). Wir können unseren Wert von 1,24 interpolieren, um eine Wahrscheinlichkeit von 0,27 zu schätzen. Dieser Wert bedeutet, dass unsere Münze mit einer Wahrscheinlichkeit von 73 % verzerrt ist. Mit anderen Worten, die Wahrscheinlichkeit, mit einer fairen Münze 108 Köpfe aus 200 Münzwürfen zu erzielen, beträgt 27%. Bei biologischen Anwendungen wird in der Regel eine Wahrscheinlichkeit von 5 % als Standard angenommen. Dieser Wert bedeutet, dass die Wahrscheinlichkeit, dass ein beobachteter Wert zufällig entsteht, nur 1 zu 20 beträgt. Da der Chi-Quadrat-Wert, den wir im Münzbeispiel erhalten haben, größer als 0,05 ist (0,27, um genau zu sein), akzeptieren wir die Nullhypothese als wahr und schlussfolgern, dass unsere Münze fair ist.

Wir haben Daten gesammelt, um zu sehen, ob der Prozentsatz an erhöhtem Cholesterin (> 220 ppm) bei Mädchen und Jungen gleich ist. Unsere Stichprobe umfasst alle Sechstklässler im Bundesstaat Maine.

Die resultierenden Daten sind wie folgt: Von 7.532 Jungen hatten 397 erhöhte Cholesterinwerte, von 7.955 Mädchen hatten 242 erhöhte Cholesterinwerte.


Der Chi-Quadrat-Test ist am nützlichsten bei der Analyse von Kreuztabellen von Umfrageantwortdaten.

Da Kreuztabellen die Häufigkeit und den Prozentsatz der Antworten auf Fragen von verschiedenen Segmenten oder Kategorien von Befragten (Geschlecht, Beruf, Bildungsniveau usw.) die verschiedenen Segmente oder Kategorien beantworteten eine bestimmte Frage.

Wichtige Dinge, die Sie bei der Verwendung des Chi-Quadrat-Tests beachten sollten

Zuerst Chi-Quadrat nur testet, ob zwei einzelne Variablen im Binär-, „ja“- oder „nein“-Format unabhängig sind.

Chi-Quadrat-Tests geben keinen Einblick in die Grad Unterschied zwischen den Befragtenkategorien, was bedeutet, dass die Forscher nicht sagen können, welche Statistik (Ergebnis des Chi-Quadrat-Tests) größer oder kleiner als die andere ist.

Zweitens erfordert Chi-Quadrat, dass Forscher numerische Werte verwenden, die auch als Häufigkeitszahlen bekannt sind, anstatt Prozentsätze oder Verhältnisse zu verwenden. Dies kann die Flexibilität der Forscher in Bezug auf die von ihnen verwendeten Verfahren einschränken.


Chi-Quadrat-Test der Anpassungsgüte

Sie verwenden den Chi-Quadrat-Test der Anpassungsgüte, wenn Sie eine nominale Variable haben, Sie sehen möchten, ob die Anzahl der Beobachtungen in jeder Kategorie einer theoretischen Erwartung entspricht und der Stichprobenumfang groß ist.

Wann man es verwendet

Verwenden Sie den Chi-Quadrat-Test der Anpassungsgüte, wenn Sie eine nominale Variable mit zwei oder mehr Werten haben (z. B. rote, rosa und weiße Blumen). Sie vergleichen die beobachteten Anzahlen von Beobachtungen in jeder Kategorie mit den erwarteten Anzahlen, die Sie mit einer Art theoretischer Erwartung berechnen (z. B. ein 1:1-Geschlechtsverhältnis oder ein 1:2:1-Verhältnis bei einer genetischen Kreuzung).

Wenn die erwartete Anzahl von Beobachtungen in einer Kategorie zu gering ist, kann der Chi-Quadrat-Test ungenaue Ergebnisse liefern, und Sie sollten stattdessen einen exakten Test verwenden. Informationen dazu, was "klein" bedeutet, finden Sie auf der Webseite zu kleinen Stichproben.

Der Chi-Quadrat-Test der Anpassungsgüte ist eine Alternative zum g&ndashtest der Anpassungsgüte Jeder dieser Tests hat einige Vorteile und einige Nachteile, und die Ergebnisse der beiden Tests sind normalerweise sehr ähnlich. Sie sollten den Abschnitt "Chi-Quadrat vs. g&ndashtest" am Ende dieser Seite, wählen Sie entweder Chi-Quadrat oder g&ndashtest, dann bleiben Sie für den Rest Ihres Lebens bei dieser Wahl. Viele der Informationen und Beispiele auf dieser Seite sind die gleichen wie auf der g&ndashtest-Seite. Wenn Sie sich also entschieden haben, welcher Test für Sie der bessere ist, müssen Sie nur noch einen lesen.

Nullhypothese

Die statistische Nullhypothese besagt, dass die Anzahl der Beobachtungen in jeder Kategorie gleich der von einer biologischen Theorie vorhergesagten ist, und die alternative Hypothese lautet, dass die beobachteten Zahlen von den erwarteten abweichen. Die Nullhypothese ist normalerweise eine extrinsische Hypothese, bei der Sie die erwarteten Proportionen vor der Durchführung des Experiments kannten. Beispiele sind ein Geschlechterverhältnis von 1:1 oder ein Verhältnis von 1:2:1 in einer genetischen Kreuzung. Ein anderes Beispiel wäre die Betrachtung eines Küstenbereichs, der zu 59 % mit Sand, 28 % Schlamm und 13 % Felsen bedeckt ist stehend auf Sand, 28% auf Schlamm und 13% auf Felsen.

In einigen Situationen haben Sie eine intrinsische Hypothese. Dies ist eine Nullhypothese, bei der Sie die erwarteten Anteile berechnen, nachdem Sie das Experiment durchgeführt haben, indem Sie einige der Informationen aus den Daten verwenden. Das bekannteste Beispiel für eine intrinsische Hypothese sind die Hardy-Weinberg-Anteile der Populationsgenetik: Wenn die Häufigkeit eines Allels in einer Population P und das andere Allel ist Q, lautet die Nullhypothese, dass die erwarteten Häufigkeiten der drei Genotypen P 2 , 2pq, und Q 2. Dies ist eine intrinsische Hypothese, denn Sie schätzen P und Q aus den Daten, nachdem Sie die Daten gesammelt haben, können Sie nicht vorhersagen P und Q vor dem Versuch.

So funktioniert der Test

Im Gegensatz zum exakten Test der Anpassungsgüte berechnet der Chi-Quadrat-Test nicht direkt die Wahrscheinlichkeit, die beobachteten Ergebnisse oder etwas Extremeres zu erhalten. Stattdessen hat der Chi-Quadrat-Test wie fast alle statistischen Tests einen Zwischenschritt, in dem er die Daten verwendet, um eine Teststatistik zu berechnen, die misst, wie weit die beobachteten Daten von der Nullerwartung entfernt sind. Anschließend verwenden Sie eine mathematische Beziehung, in diesem Fall die Chi-Quadrat-Verteilung, um die Wahrscheinlichkeit zu schätzen, diesen Wert der Teststatistik zu erhalten.

Sie berechnen die Teststatistik, indem Sie eine beobachtete Zahl (Ö), subtrahiert die erwartete Zahl (E), dann quadrieren Sie diese Differenz. Je größer die Abweichung von der Nullhypothese ist, desto größer ist die Differenz zwischen beobachtet und erwartet. Die Quadratur der Unterschiede macht sie alle positiv. Dann dividieren Sie jede Differenz durch die erwartete Zahl und addieren diese standardisierten Differenzen. Die Teststatistik ist ungefähr gleich dem Log-Likelihood-Verhältnis, das in der g&ndashtest. Es wird konventionell als "Chi-Quadrat"-Statistik bezeichnet, obwohl dies etwas verwirrend ist, da es sich nur um eine von vielen Teststatistiken handelt, die der theoretischen Chi-Quadrat-Verteilung folgen. Die Gleichung ist

Wie bei den meisten Teststatistiken wird die Teststatistik umso größer, je größer der Unterschied zwischen beobachtet und erwartet wird. Um ein Beispiel zu geben, sagen wir, Ihre Nullhypothese ist ein 3:1-Verhältnis von glatten Flügeln zu faltigen Flügeln bei Nachkommen von einem Haufen Drosophila Kreuze. Sie beobachten 770 Fliegen mit glatten Flügeln und 230 Fliegen mit faltigen Flügeln, die erwarteten Werte sind 750 glattflügelige und 250 faltige Fliegen. Wenn Sie diese Zahlen in die Gleichung eingeben, beträgt der Chi-Quadrat-Wert 2,13. Wenn Sie 760 Glattflügelfliegen und 240 Faltenflügelfliegen beobachtet hätten, was näher an der Nullhypothese liegt, wäre Ihr Chi-Quadrat-Wert mit 0,53 kleiner gewesen, wenn Sie 800 Glattflügel- und 200 Faltenflügelfliegen beobachtet hätten fliegt, was weiter von der Nullhypothese entfernt ist, hätte Ihr Chi-Quadrat-Wert 13,33 betragen.

Die Verteilung der Teststatistik unter der Nullhypothese entspricht ungefähr der theoretischen Chi-Quadrat-Verteilung. Das bedeutet, dass Sie, sobald Sie den Chi-Quadrat-Wert und die Anzahl der Freiheitsgrade kennen, die Wahrscheinlichkeit berechnen können, diesen Chi-Quadrat-Wert mithilfe der Chi-Quadrat-Verteilung zu erhalten. Die Anzahl der Freiheitsgrade ist die Anzahl der Kategorien minus eins, für unser Beispiel gibt es also einen Freiheitsgrad. Mit der CHIDIST-Funktion in einer Tabellenkalkulation geben Sie =CHIDIST(2.13, 1) ein und berechnen, dass die Wahrscheinlichkeit, mit einem Freiheitsgrad einen Chi-Quadrat-Wert von 2.13 zu erhalten, . ist P=0.144.

Die Form der Chi-Quadrat-Verteilung hängt von der Anzahl der Freiheitsgrade ab. Bei einer extrinsischen Nullhypothese (der viel häufigeren Situation, in der Sie die von der Nullhypothese vorhergesagten Proportionen kennen, bevor Sie die Daten sammeln) ist die Anzahl der Freiheitsgrade einfach die Anzahl der Werte der Variablen minus eins. Wenn Sie also eine Nullhypothese eines 1:1-Geschlechtsverhältnisses testen, gibt es zwei mögliche Werte (männlich und weiblich) und damit einen Freiheitsgrad. Dies liegt daran, dass die Anzahl der Männer bestimmt wird, sobald Sie wissen, wie viele Frauen insgesamt sind (eine Zahl, die "frei" von 0 bis zur Stichprobengröße variieren kann). Bei drei Werten der Variablen (z. B. Rot, Rosa und Weiß) gibt es zwei Freiheitsgrade usw.

Eine intrinsische Nullhypothese ist eine, bei der Sie einen oder mehrere Parameter aus den Daten schätzen, um die Zahlen für Ihre Nullhypothese zu erhalten. Wie oben beschrieben, sind ein Beispiel Hardy-Weinberg-Proportionen. Für eine intrinsische Nullhypothese wird die Anzahl der Freiheitsgrade berechnet, indem die Anzahl der Werte der Variablen genommen wird, 1 für jeden aus den Daten geschätzten Parameter subtrahiert und dann 1 mehr subtrahiert wird. Für Hardy-Weinberg-Proportionen mit zwei Allelen und drei Genotypen gibt es also drei Werte der Variablen (die drei Genotypen), für den aus den Daten geschätzten Parameter (die Allelfrequenz, P) und dann subtrahieren Sie einen weiteren, was einen Freiheitsgrad ergibt. Es gibt noch andere statistische Probleme beim Testen der Übereinstimmung mit den Hardy-Weinberg-Erwartungen. Wenn Sie dies tun müssen, sehen Sie sich also Engels (2009) und die von ihm zitierten älteren Referenzen an.

Post-hoc-Test

Wenn es mehr als zwei Kategorien gibt und Sie herausfinden möchten, welche sich signifikant von ihrer Nullerwartung unterscheiden, können Sie die gleiche Methode verwenden, um jede Kategorie gegenüber der Summe aller anderen Kategorien mit der Bonferroni-Korrektur zu testen, wie ich es beschreibe für den genauen Test. Sie verwenden natürlich Chi-Quadrat-Tests für jede Kategorie.

Annahmen

Das Chi-Quadrat der Anpassungsgüte setzt Unabhängigkeit voraus, wie für den genauen Test beschrieben.

Beispiele: extrinsische Hypothese

Europäischer Kreuzschnabel (Loxia curvirostra) haben die Spitze des oberen Schnabels entweder rechts oder links vom unteren Schnabel, was ihnen hilft, Samen aus Tannenzapfen zu gewinnen. Einige haben die Hypothese aufgestellt, dass eine frequenzabhängige Selektion die Anzahl der rechts- und linksschnabeligen Vögel in einem Verhältnis von 1:1 halten würde. Groth (1992) beobachtete 1752 Rechtsschnabel- und 1895 Linksschnabelkreuzschnabel.

Berechnen Sie die erwartete Häufigkeit von Vögeln mit Rechtsschnabel, indem Sie die Gesamtstichprobe (3647) mit dem erwarteten Anteil (0,5) multiplizieren, um 1823,5 zu erhalten. Machen Sie dasselbe für Linksschnabelvögel. Die Anzahl der Freiheitsgrade bei einer extrinsischen Hypothese ist die Anzahl der Klassen minus eins. In diesem Fall gibt es zwei Klassen (rechts und links), also gibt es einen Freiheitsgrad.

Das Ergebnis ist Chi-Quadrat=5,61, 1 d.f., P=0,018, was bedeutet, dass Sie die Nullhypothese ablehnen können, dass es deutlich mehr linksabgerechnete als rechtsabgerechnete Kreuzrechnungen gibt.

Shivrainet al. (2006) kreuzten Klarfeldreis, der gegen das Herbizid Imazethapyr resistent ist, mit rotem Reis, der gegen Imazethapyr anfällig ist. Sie kreuzten dann die Hybrid-Nachkommen und untersuchten die F2 Generation, wo sie 772 resistente Pflanzen, 1611 mäßig resistente Pflanzen und 737 anfällige Pflanzen fanden. Wenn die Resistenz durch ein einzelnes Gen mit zwei kodominanten Allelen kontrolliert wird, würden Sie ein Verhältnis von 1:2:1 erwarten. Vergleicht man die beobachteten Zahlen mit dem 1:2:1-Verhältnis, beträgt der Chi-Quadrat-Wert 4,12. Es gibt zwei Freiheitsgrade (die drei Kategorien minus eins), also die P Wert 0,127 ist, gibt es keinen signifikanten Unterschied zu einem Verhältnis von 1:2:1.

Weiblicher Rotbrustkleiber, Sitta canadensis.

Mannan und Meslow (1984) untersuchten das Nahrungssucheverhalten von Vögeln in einem Wald in Oregon. In einem bewirtschafteten Wald waren 54 % der Baumkronen Douglasie, 40 % Ponderosa-Kiefer, 5 % Grand-Tanne und 1 % westliche Lärche. Sie machten 156 Beobachtungen der Nahrungssuche durch Rotbrustkleiber, 70 Beobachtungen (45% der Gesamtzahl) in Douglasie, 79 (51%) in Ponderosa-Kiefer, 3 (2%) in Großtanne und 4 (3%) in Western Lärche.Die biologische Nullhypothese besagt, dass die Vögel nach dem Zufallsprinzip nach Nahrung suchen, unabhängig davon, um welche Baumart sie es sich bei der statistischen Nullhypothese handeln, dass die Anteile der Nahrungssuche den Anteilen des Kronenvolumens entsprechen. Der Anteilsunterschied ist signifikant (Chi-Quadrat=13,59, 3 d.f., P=0.0035).

Die erwarteten Zahlen in diesem Beispiel sind ziemlich klein, daher wäre es besser, sie mit einem genauen Test zu analysieren. Ich lasse es hier, weil es ein gutes Beispiel für eine extrinsische Hypothese ist, die aus der Messung von etwas (Baldachinvolumen, in diesem Fall) stammt, und keine mathematische Theorie, für die ich Schwierigkeiten hatte, gute Beispiele dafür zu finden.

Beispiel: intrinsische Hypothese

McDonald (1989) untersuchte die Variation an der Mpi Lokus im Flohkrebs-Krebstier Platorchestia platensis von einem einzigen Standort auf Long Island, New York, abgeholt. Es gab zwei Allele, Mpi 90 und Mpi 100 und die Genotyphäufigkeiten in Proben aus mehreren zusammengepoolten Daten betrugen 1203 Mpi 90/90 , 2919 Mpi 90/100 und 1678 Mpi 100/100 . Die Schätzung der Mpi Der 90-Allel-Anteil aus den Daten beträgt 5325/11600 = 0,459. Unter Verwendung der Hardy-Weinberg-Formel und dieses geschätzten Allelanteils betragen die erwarteten Genotypanteile 0,211 Mpi 90/90 , 0.497 Mpi 90/100 und 0,293 Mpi 100/100 . Es gibt drei Kategorien (die drei Genotypen) und einen aus den Daten geschätzten Parameter (die Mpi 90-Allel-Anteil), also gibt es einen Freiheitsgrad. Das Ergebnis ist Chi-Quadrat=1,08, 1 d.f., P= 0,299, was nicht signifikant ist. Sie können die Nullhypothese, dass die Daten den erwarteten Hardy-Weinberg-Proportionen entsprechen, nicht zurückweisen.

Die Ergebnisse grafisch darstellen

Bei nur zwei Werten der Nenngröße sollten Sie das Ergebnis nicht grafisch darstellen, da dies ein Balkendiagramm mit nur einem Balken wäre. Geben Sie stattdessen einfach den Anteil an, zum Beispiel Groth (1992) fand 52,0 % Linksschnabel-Kreuzschnabel.

Bei mehr als zwei Werten der Nominalvariablen sollten Sie die Ergebnisse eines Anpassungstests in der Regel in einer Tabelle mit beobachteten und erwarteten Anteilen darstellen. Wenn die erwarteten Werte offensichtlich sind (z. B. 50%) oder aus den Daten leicht zu berechnen sind (z. B. Hardy&ndashWeinberg-Proportionen), können Sie die erwarteten Zahlen aus Ihrer Tabelle weglassen. Für eine Präsentation benötigen Sie wahrscheinlich eine Grafik, die sowohl die beobachteten als auch die erwarteten Proportionen zeigt, um einen visuellen Eindruck davon zu geben, wie weit sie voneinander entfernt sind. Sie sollten ein Balkendiagramm für die beobachteten Proportionen verwenden, die erwartet werden können mit einer horizontalen gestrichelten Linie oder mit Balken mit einem anderen Muster.

Wenn Sie dem Diagramm Fehlerbalken hinzufügen möchten, sollten Sie Konfidenzintervalle für einen Anteil verwenden. Beachten Sie, dass die Konfidenzintervalle nicht symmetrisch sind, und dies wird besonders offensichtlich, wenn der Anteil nahe 0 oder 1 liegt.

Lebensraumnutzung im Rotbrustkleiber.. Graue Balken sind die beobachteten Prozentsätze der Nahrungssuche bei jeder Baumart, mit 95-%-Konfidenzintervallen sind schwarze Balken die erwarteten Prozentsätze.

Einige Leute verwenden ein "gestapeltes Balkendiagramm", um Proportionen anzuzeigen, insbesondere wenn es mehr als zwei Kategorien gibt. Es kann jedoch schwierig sein, die Größen der beobachteten und erwarteten Werte für die mittleren Kategorien zu vergleichen, da sowohl ihre Ober- als auch Unterseiten auf unterschiedlichen Niveaus liegen, daher empfehle ich dies nicht.

Ähnliche Tests

Sie verwenden den Chi-Quadrat-Unabhängigkeitstest für zwei nominale Variablen, nicht für eine.

Es gibt mehrere Tests, die Chi-Quadrat-Statistiken verwenden. Das hier beschriebene ist offiziell als Pearson-Chi-Quadrat bekannt. Es ist bei weitem der gebräuchlichste Chi-Quadrat-Test, daher wird er normalerweise nur als Chi-Quadrat-Test bezeichnet.

Sie haben die Wahl zwischen drei Anpassungstests: dem exakten Anpassungstest, dem g&ndashtest der Anpassungsgüte oder der Chi-Quadrat-Test der Anpassungsgüte. Für kleine Werte der erwarteten Zahlen sind das Chi-Quadrat und g&ndashtests sind ungenau, da die Verteilungen der Teststatistiken nicht sehr gut zur Chi-Quadrat-Verteilung passen.

Als Faustregel gilt, dass Sie den exakten Test verwenden sollten, wenn der kleinste erwartete Wert kleiner als 5 ist und das Chi-Quadrat und g&ndashtests sind für größere erwartete Werte genau genug. Diese Faustregel stammt aus der alten Zeit, als man noch statistische Berechnungen von Hand machen musste und die Berechnungen für den genauen Test sehr mühsam waren und nach Möglichkeit vermieden werden sollten. Heutzutage machen Computer den exakten Test genauso einfach wie das rechnerisch einfachere Chi-Quadrat oder g&ndashtest, es sei denn, die Stichprobengröße ist so groß, dass nicht einmal Computer damit umgehen können. Ich empfehle Ihnen, den exakten Test zu verwenden, wenn die Gesamtstichprobe kleiner als 1000 ist. Bei Stichprobengrößen zwischen 50 und 1000 und erwarteten Werten über 5 macht es im Allgemeinen keinen großen Unterschied, welchen Test Sie verwenden. nicht jemanden dafür kritisieren, dass er das Chi-Quadrat benutzt oder g&ndashtest für Experimente, bei denen ich den genauen Test empfehle. Weitere Informationen finden Sie auf der Webseite zu kleinen Stichproben.

Chi-Quadrat vs. g&ndashtest

Der Chi-Quadrat-Test liefert ungefähr die gleichen Ergebnisse wie der g&ndashtest. Im Gegensatz zum Chi-Quadrat-Test sind die G-Werte additiv. Sie können ein aufwendiges Experiment durchführen, bei dem sich die G-Werte verschiedener Teile des Experiments zu einem Gesamt-G-Wert für das gesamte Experiment addieren. Chi-Quadrat-Werte kommen dem nahe, aber die Chi-Quadrat-Werte von Unterteilen eines Experiments addieren sich nicht genau zum Chi-Quadrat-Wert des gesamten Experiments. g&ndashtests sind eine Unterklasse von Likelihood-Quotienten-Tests, eine allgemeine Kategorie von Tests, die viele Verwendungsmöglichkeiten haben, um die Anpassung von Daten an mathematische Modelle zu testen. Die Möglichkeit, ausführlichere statistische Analysen durchzuführen, ist einer der Gründe, warum manche Leute die g&ndashtest, auch für einfachere Designs. Auf der anderen Seite ist der Chi-Quadrat-Test mehr Menschen vertraut, und es ist immer eine gute Idee, Statistiken zu verwenden, mit denen Ihre Leser nach Möglichkeit vertraut sind. Sie können sich die Literatur in Ihrem Bereich ansehen und die am häufigsten verwendete verwenden.

Natürlich solltest du nicht analysieren Sie Ihre Daten mit beiden g&ndashtest und den Chi-Quadrat-Test, dann wählen Sie dasjenige aus, das Ihnen das interessanteste Ergebnis liefert, das Betrug wäre. Jedes Mal, wenn Sie mehr als eine statistische Methode ausprobieren und einfach diejenige verwenden, die die niedrigsten Ergebnisse liefert P Wert, erhöhen Sie die Wahrscheinlichkeit eines Fehlalarms.

So machen Sie den Test

Kalkulationstabelle

Ich habe eine Tabelle für den Chi-Quadrat-Test der Anpassungsgüte erstellt. Es ist weitgehend selbsterklärend. Es berechnet die Freiheitsgrade für Sie, wenn Sie eine extrinsische Nullhypothese verwenden Wenn Sie eine intrinsische Hypothese verwenden, müssen Sie die Freiheitsgrade in die Tabelle eingeben.

Webseiten

Es gibt Webseiten, die den Chi-Quadrat-Test hier und hier durchführen. Auf keiner dieser Webseiten können Sie die Freiheitsgrade auf den geeigneten Wert zum Testen einer intrinsischen Nullhypothese einstellen.

Hier ist ein SAS-Programm, das PROC FREQ für einen Chi-Quadrat-Test verwendet. Es verwendet die Mendel-Erbsendaten von oben. Der "WEIGHT count" teilt SAS mit, dass die "count"-Variable die Anzahl angibt, wie oft jeder Wert von "texture" beobachtet wurde. Die Option ZEROS weist es an, Beobachtungen mit Zählungen von Null einzuschließen. Wenn Sie beispielsweise 20 glatte Erbsen und 0 zerknitterte Erbsen hatten, schadet es nicht, immer die Option ZEROS einzuschließen. CHISQ weist SAS an, einen Chi-Quadrat-Test durchzuführen, und TESTP=(75 25) teilt ihm die erwarteten Prozentsätze mit. Die erwarteten Prozentsätze müssen sich auf 100 summieren. Sie müssen die erwarteten Prozentsätze in alphabetischer Reihenfolge angeben: Da "glatt" vor "faltig" steht, geben Sie die erwarteten Häufigkeiten für 75% glatt, 25% faltig an.

Hier ist ein SAS-Programm, das PROC FREQ für einen Chi-Quadrat-Test von Rohdaten verwendet, bei dem Sie jede einzelne Beobachtung aufgelistet haben, anstatt sie selbst hochzuzählen. Ich habe drei Punkte verwendet, um anzuzeigen, dass ich nicht den vollständigen Datensatz angezeigt habe.

Die Ausgabe umfasst Folgendes:

Sie würden dies als "chi-square=0.3453, 1 d.f., P=0.5568."

Leistungsanalyse

Um eine Power-Analyse mit dem G*Power-Programm durchzuführen, wählen Sie „Anpassungstests: Kontingenztabellen“ aus dem Menü „Statistischer Test“ und dann „Chi-Quadrat-Tests“ aus dem Menü „Testfamilie“. Um die Effektstärke zu berechnen, klicken Sie auf die Schaltfläche Bestimmen und geben Sie die Nullhypothesenanteile in die erste Spalte und die Anteile, die Sie erhoffen, in die zweite Spalte ein. Klicken Sie dann auf die Schaltfläche Berechnen und ins Hauptfenster übertragen. Stellen Sie Ihr Alpha und Ihre Leistung ein und stellen Sie sicher, dass Sie die Freiheitsgrade (Df) für eine extrinsische Nullhypothese festlegen, dh die Anzahl der Zeilen minus eins.

Nehmen wir als Beispiel an, Sie möchten eine genetische Kreuzung von Löwenmäulchen mit einem erwarteten Verhältnis von 1:2:1 durchführen und in der Lage sein, ein Muster mit 5% mehr Heterozygoten als erwartet zu erkennen. Geben Sie 0,25, 0,50 und 0,25 in die erste Spalte ein, geben Sie 0,225, 0,55 und 0,225 in die zweite Spalte ein, klicken Sie auf Berechnen und ins Hauptfenster übertragen, geben Sie 0,05 für Alpha, 0,80 für Potenz und 2 für Freiheitsgrade ein. Wenn Sie dies richtig gemacht haben, sollte Ihr Ergebnis eine Gesamtstichprobengröße von 964 sein.

Verweise

Engels, W.R. 2009. Exakte Tests für Hardy-Weinberg-Verhältnisse. Genetik 183: 1431-1441.

Groth, J. G. 1992. Weitere Informationen zur Genetik der Schnabelkreuzung bei Kreuzschnabeln. Auk 109:383–385.

Mannan, R. W. und E. C. Meslow. 1984. Vogelpopulationen und Vegetationsmerkmale in bewirtschafteten und alten Wäldern im Nordosten von Oregon. Zeitschrift für Wildtiermanagement 48: 1219-1238.

McDonald, J. H. 1989. Auswahlkomponentenanalyse der Mpi Lokus im Flohkrebs Platorchestia platensis. Vererbung 62: 243-249.

Shivrain, V. K., N. R. Burgos, K.A.K. Moldenhauer, R. W. McNew und T. L. Baldwin. 2006. Charakterisierung von spontanen Kreuzungen zwischen Clearfield-Reis (Oryza sativa) und roter Reis (Oryza sativa). Unkrauttechnologie 20: 576-584.

&lArr Vorheriges Thema|Nächstes Thema &rArr Inhaltsverzeichnis

Diese Seite wurde zuletzt am 20. Juli 2015 überarbeitet. Die Adresse lautet http://www.biostathandbook.com/chigof.html. Es kann zitiert werden als:
McDonald, J. H. 2014. Handbuch der biologischen Statistik (3. Aufl.). Sparky House Publishing, Baltimore, Maryland. Diese Webseite enthält den Inhalt der Seiten 45-52 in der gedruckten Version.

©2014 von John H. McDonald. Sie können mit diesem Inhalt wahrscheinlich tun, was Sie wollen. Weitere Informationen finden Sie auf der Seite "Berechtigungen".


Einführung

Willkommen zur dritten Ausgabe des Handbuch der biologischen Statistik! Dieses Online-Lehrbuch entstand aus einer Reihe von Notizen für meinen Kurs zur biologischen Datenanalyse an der University of Delaware. Mein Hauptziel in diesem Kurs ist es, Biologiestudenten beizubringen, den geeigneten statistischen Test für ein bestimmtes Experiment auszuwählen, diesen Test dann anzuwenden und die Ergebnisse zu interpretieren. In meiner Klasse und in diesem Lehrbuch verbringe ich relativ wenig Zeit mit den mathematischen Grundlagen der Tests für die meisten Biologen, Statistik ist nur ein nützliches Werkzeug, wie ein Mikroskop, und die detaillierte mathematische Grundlage eines statistischen Tests zu kennen, ist für die meisten genauso unwichtig Biologen wissen, welche Glasarten für die Herstellung eines Mikroskopobjektivs verwendet wurden. Biologen in sehr statistikintensiven Bereichen wie Ökologie, Epidemiologie und Systematik mögen dieses Handbuch für ihre Bedürfnisse als etwas oberflächlich empfinden, genauso wie ein Biologe, der die neuesten Techniken der konfokalen 4-D-, 3-Photonen-Mikroskopie verwendet, dies tun muss weiß mehr über sein Mikroskop als jemand, der nur die Haare auf dem Rücken einer Fliege zählt. Aber ich hoffe, dass dies für Biologen in vielen Bereichen eine nützliche Einführung in die Statistik ist.

Sie können durch diese Seiten navigieren, indem Sie die Links "Vorheriges Thema" und "Nächstes Thema" oben auf jeder Seite verwenden, oder Sie können mit den Links in der linken Seitenleiste von Thema zu Thema springen.

Ich habe eine Tabelle zur Verfügung gestellt, um viele der statistischen Tests durchzuführen. Jedes enthält bereits eingegebene Beispieldaten. Laden Sie einfach die Tabelle herunter, ersetzen Sie die Beispieldaten durch Ihre Daten und Sie erhalten Ihre Antwort. Die Tabellenkalkulationen wurden für Excel geschrieben, sollten aber auch mit dem kostenlosen Programm Calc funktionieren, das Teil der OpenOffice.org-Programmsuite ist. Wenn Sie OpenOffice.org verwenden, müssen einige der Diagramme möglicherweise neu formatiert werden, und Sie müssen möglicherweise die Anzahl der Dezimalstellen für einige Zahlen neu einstellen. Lassen Sie es mich wissen, wenn Sie ein Problem mit einer der Tabellenkalkulationen haben, und ich werde versuchen, es zu beheben.

Wo immer möglich, habe ich für jeden Test auch eine Webseite verlinkt. Ich habe die meisten dieser Webseiten mithilfe der ausgezeichneten Liste der interaktiven statistischen Berechnungsseiten von John Pezzullo gefunden, die ein guter Ort ist, um nach Informationen zu Tests zu suchen, die in diesem Handbuch nicht behandelt werden.

Es gibt auch Anweisungen für die Durchführung jedes statistischen Tests in SAS. Es ist nicht so einfach zu verwenden wie die Tabellenkalkulationen oder Webseiten, aber wenn Sie viele fortgeschrittene Statistiken erstellen möchten, müssen Sie früher oder später SAS oder ein ähnliches Programm lernen. Ich habe eine Seite über die Grundlagen von SAS.

Salvatore Mangiafico hat An R Companion to the Handbook of Biological Statistics geschrieben, das als kostenlose Webseiten und auch als kostenloses PDF verfügbar ist. R ist eine kostenlose statistische Programmiersprache, die auf Windows-, Mac- oder Linux-Computern verwendet werden kann und bei ernsthaften Statistikbenutzern immer beliebter wird. Wenn ich bei Null anfangen würde, würde ich R anstelle von SAS lernen und meine Schüler dazu bringen, es auch zu lernen. Das Buch von Dr. Mangiafico bietet Beispielprogramme für fast alle statistischen Tests, die ich im Handbuch beschreibe, sowie nützliche Hinweise zum Einstieg in R.

Gedruckte Version

Obwohl dieses Handbuch in erster Linie für die Online-Nutzung gedacht ist, können Sie es bequem finden, einige oder alle Seiten auszudrucken. Wenn Sie eine Seite drucken, sollten die Seitenleiste links, das Banner und die dekorativen Bilder (niedliche Kreaturen usw.) nicht gedruckt werden. Ich bin mir nicht sicher, wie gut das Drucken mit verschiedenen Browsern und Betriebssystemen funktioniert. Wenn die Seiten nicht richtig gedruckt werden, lassen Sie es mich bitte wissen.

Wenn Sie ein gedrucktes Exemplar des gesamten Handbuchs mit Spiralbindung wünschen, können Sie eines für 18 US-Dollar plus Versand bei Lulu.com kaufen. Ich habe diesen Print-on-Demand-Service als Annehmlichkeit für Sie genutzt, nicht als Geldverdiener, also fühlen Sie sich bitte nicht verpflichtet, einen zu kaufen.

Sie können auch ein kostenloses PDF der Druckversion herunterladen. Das PDF hat Seitenzahlen und ein Inhaltsverzeichnis und ist daher möglicherweise etwas einfacher zu verwenden als einzeln gedruckte Webseiten.

Wenn Sie dieses Handbuch verwenden und es in einer Publikation zitieren möchten, zitieren Sie es bitte als:

McDonald, J. H. 2014. Handbuch der biologischen Statistik, 3. Aufl. Sparky House Publishing, Baltimore, Maryland.

Es ist besser, die gedruckte Version zu zitieren als die Webseiten, damit die Leute von morgen genau sehen können, was Sie sich angesehen haben. Wenn Sie nur eine Webseite zitieren, kann es in einigen Jahren ganz anders aussehen, wenn jemand sie ansieht. Wenn Sie sehen möchten, was jemand aus einer früheren Ausgabe zitiert hat, können Sie PDFs der ersten oder zweiten Ausgabe herunterladen.

Kannenpflanzen, Darlingtonia californica. Dies ist ein Beispiel für ein dekoratives Bild, von dem ich hoffe, dass es Ihre Erfahrung mit Online-Statistiken aufhellt, aber Sie werden kein Papier verschwenden, wenn Sie es drucken.

Ich versuche ständig, dieses Lehrbuch zu verbessern. Wenn Sie Fehler, fehlerhafte Links, Tippfehler oder andere Verbesserungsvorschläge finden, senden Sie mir bitte eine E-Mail an [email protected] Wenn Sie statistische Fragen zu Ihrer Forschung haben, versuche ich diese gerne zu beantworten. Ich muss Sie jedoch warnen, dass ich kein Experte in allen Bereichen der Statistik bin. Wenn Sie also nach etwas fragen, das weit über den Inhalt dieses Lehrbuchs hinausgeht, kann ich Ihnen möglicherweise nicht weiterhelfen. Und bitte mich nicht um Hilfe bei deinen Statistik-Hausaufgaben (außer du bist natürlich in meiner Klasse!).


Vielen Dank!

Danksagung

Die Erstellung dieses Handbuchs wurde teilweise durch ein Stipendium des Howard Hughes Medical Institute Undergraduate Science Education Program an die University of Delaware unterstützt.

Danke an Naomi Touchet, die mir bei einigen kniffligen HTML- und CSS-Problemen geholfen hat (aber gib ihr nicht die Schuld für das klobige Design Mitte der 1990er Jahre und die "handwerkliche" HTML-Codierung, das ist alles meine Schuld).

Referenz

Bild von Darlingtonia californica aus einer meiner SmugMug-Galerien.

Bannerfoto

Das Foto im Banner oben auf jeder Seite ist drei Megalorchestia californiana, Flohkrebse, die an den Sandstränden der Pazifikküste Nordamerikas leben. Sie klettern auf meinen Rechenschieber, den ich in einem Mathewettbewerb der Mittelschule gewonnen habe. Diese Illustration wurde stark mit Photoshop bearbeitet, um das Original zu sehen. Besuchen Sie meine SmugMug-Seite.

|Nächstes Thema &rArr Inhaltsverzeichnis

Diese Seite wurde zuletzt am 4. Dezember 2014 überarbeitet. Die Adresse lautet http://www.biostathandbook.com/index.html . Es kann zitiert werden als:

McDonald, J. H. 2014. Handbuch der biologischen Statistik (3. Aufl.). Sparky House Publishing, Baltimore, Maryland. Diese Webseite enthält den Inhalt der Seiten 1-2 in der gedruckten Version.

©2014 von John H. McDonald. Sie können mit diesem Inhalt wahrscheinlich tun, was Sie wollen. Weitere Informationen finden Sie auf der Seite "Berechtigungen".


Chi-Quadrat-Test

Chi-Quadrat- (oder χ2)-Tests ziehen Schlussfolgerungen und testen auf Beziehungen zwischen kategorialen Variablen, d. h. einem Satz von Datenpunkten, die in diskrete Kategorien ohne inhärente Rangfolge fallen.

Es gibt drei Arten von Chi-Quadrat-Tests, Tests der Anpassungsgüte, Unabhängigkeit und Homogenität. Alle drei Tests beruhen auch auf derselben Formel, um eine Teststatistik zu berechnen.

Alle drei funktionieren, indem sie Beziehungen zwischen beobachteten Datensätzen und theoretischen – oder „erwarteten“ – Datensätzen entschlüsseln, die mit der Nullhypothese übereinstimmen.

Was ist der Chi-Quadrat-Güte-Fit-Test?
Was ist der Chi-Quadrat-Güte-Fit-Test?

Der Chi-Quadrat-Anpassungstest wird verwendet, um eine zufällig gesammelte Stichprobe, die eine einzelne kategoriale Variable enthält, mit einer größeren Population zu vergleichen. Dieser Test wird am häufigsten verwendet, um eine Zufallsstichprobe mit der Grundgesamtheit zu vergleichen, aus der sie potenziell entnommen wurde.

Der Test beginnt mit der Erstellung einer Null- und Alternativhypothese. In diesem Fall lauten die Hypothesen wie folgt:

Nullhypothese (Ho): Die gesammelten Daten stimmen mit der Bevölkerungsverteilung überein.

Alternative Hypothese (Ha): Die erhobenen Daten stimmen nicht mit der Bevölkerungsverteilung überein.

Der nächste Schritt besteht darin, eine Kontingenztabelle zu erstellen, die darstellt, wie die Daten verteilt würden, wenn die Nullhypothese genau richtig wäre.

Die Gesamtabweichung der Stichprobe von diesen theoretischen/erwarteten Daten ermöglicht es uns, eine Schlussfolgerung zu ziehen, wobei eine stärkere Abweichung zu kleineren p-Werten führt.

Was ist der Chi-Quadrat-Test der Unabhängigkeit?
Was ist der Chi-Quadrat-Test der Unabhängigkeit?

Der Chi-Quadrat-Test auf Unabhängigkeit sucht nach einem Zusammenhang zwischen zwei kategorialen Variablen innerhalb derselben Population. Im Gegensatz zum Anpassungstest vergleicht der Unabhängigkeitstest nicht eine einzelne beobachtete Variable mit einer theoretischen Grundgesamtheit, sondern zwei Variablen innerhalb eines Stichprobensatzes miteinander.

Die Hypothesen für einen Chi-Quadrat-Test der Unabhängigkeit lauten wie folgt:

Nullhypothese (Ho): Es besteht kein Zusammenhang zwischen den beiden kategorialen Variablen in der interessierenden Grundgesamtheit.

Alternative Hypothese (Ha): Es besteht kein Zusammenhang zwischen den beiden kategorialen Variablen in der interessierenden Grundgesamtheit.

Der nächste Schritt besteht darin, eine Kontingenztabelle mit erwarteten Werten zu erstellen, die widerspiegelt, wie ein Datensatz aussehen würde, der die Nullhypothese perfekt ausrichtet.

Der einfachste Weg, dies zu tun, besteht darin, die Grenzhäufigkeiten jeder Zeile und Spalte zu berechnen. Die erwartete Häufigkeit jeder Zelle ist gleich der Grenzhäufigkeit der Zeile und Spalte, die einer bestimmten Zelle in der beobachteten Kontingenztabelle entspricht, geteilt durch die Gesamtstichprobe Größe.

Was ist eine Kontingenztabelle?
Was ist eine Kontingenztabelle?

Kontingenztabellen (auch als Zwei-Wege-Tabellen bekannt) sind Raster, in denen Chi-Quadrat-Daten organisiert und angezeigt werden. Sie vermitteln ein grundlegendes Bild der Wechselbeziehung zwischen zwei Variablen und können helfen, Wechselwirkungen zwischen ihnen zu finden.

In Kontingenztabellen werden eine Variable und jede ihrer Kategorien vertikal und die andere Variable und jede ihrer Kategorien horizontal aufgelistet.

Darüber hinaus wird das Einschließen von Spalten- und Zeilensummen, auch als "Randhäufigkeiten" bekannt, den Chi-Quadrat-Testprozess erleichtern.

Damit der Chi-Quadrat-Test als vertrauenswürdig eingestuft wird, muss jede Zelle Ihrer erwarteten Kontingenztabelle einen Wert von mindestens fünf haben.

Jeder Chi-Quadrat-Test hat eine Kontingenztabelle, die beobachtete Zählungen darstellt (siehe Abb. 1) und eine Kontingenztabelle, die erwartete Zählungen repräsentiert (siehe Abb. 2).

Abbildung 1. Tabelle "Beobachtet" (die die beobachteten Zählungen enthält).

Um die erwarteten Häufigkeiten für eine beliebige Zelle in einer Kreuztabelle zu erhalten, in der die beiden Variablen als unabhängig angenommen werden, multiplizieren Sie die Zeilen- und Spaltensummen für diese Zelle und dividieren Sie das Produkt durch die Gesamtzahl der Fälle in der Tabelle.

Figur 2. Erwartete Tabelle (wie wir erwarten, dass die bidirektionale Tabelle aussieht, wenn die beiden kategorialen Variablen unabhängig sind).

Wie berechnet man die Chi-Quadrat-Statistik?
Wie berechnet man die Chi-Quadrat-Statistik?
  1. Berechnen Sie die erwarteten Häufigkeiten und die beobachteten Häufigkeiten.
  2. Ziehen Sie für jede beobachtete Zahl in der Tabelle die entsprechende erwartete Zahl (O — E) ab.
  3. Quadrieren Sie die Differenz (O —E)².
  4. Teilen Sie die für jede Zelle der Tabelle erhaltenen Quadrate durch die erwartete Zahl für diese Zelle (O - E)² / E.
  5. Summiere alle Werte für (O - E)² / E. Dies ist die Chi-Quadrat-Statistik.
Was ist die Chi-Quadrat-Statistik?
Was ist die Chi-Quadrat-Statistik?

Die Chi-Quadrat-Statistik gibt an, wie groß der Unterschied zwischen der beobachteten Anzahl in jeder Tabellenzelle und der Anzahl ist, die Sie erwarten würden, wenn es in der Grundgesamtheit überhaupt keine Beziehung gäbe.

EIN sehr klein Statistische Mittelwerte des Chi-Quadrat-Tests bedeuten, dass eine hohe Korrelation zwischen den beobachteten und den erwarteten Werten besteht. Daher passen die Stichprobendaten gut zu den Erwartungen in der Allgemeinbevölkerung.

Theoretisch wäre die Chi-Quadrat-Statistik Null, wenn der beobachtete und der erwartete Wert gleich wären (kein Unterschied), aber dies ist im wirklichen Leben unwahrscheinlich.

EIN sehr groß Chi-Quadrat-Teststatistik bedeutet, dass die Stichprobendaten (beobachtete Werte) nicht sehr gut zu den Grundgesamtheitsdaten (erwarteten Werten) passen. Mit anderen Worten, es gibt keine Beziehung.

Wie melde ich ein Chi-Quadrat-Testergebnis (APA)?
Wie melde ich ein Chi-Quadrat-Testergebnis (APA)?

Um eine Chi-Quadrat-Ausgabe in einem Ergebnisabschnitt im APA-Stil zu melden, verlassen Sie sich immer auf die folgende Vorlage:

χ2 (Freiheitsgrade, N = Stichprobengröße) = Chi-Quadrat-Statistikwert, P = P Wert .

Im Fall des obigen Beispiels würden die Ergebnisse wie folgt geschrieben:

Ein Chi-Quadrat-Test der Unabhängigkeit zeigte, dass es einen signifikanten Zusammenhang zwischen dem Geschlecht und den Bildungsplänen nach dem Abschluss gab. χ2 (4, N = 101) = 54,50, p < 0,001.

APA-Stilregeln
  • Verwenden Sie keine Null vor einer Dezimalstelle, wenn die Statistik nicht größer als 1 sein darf (Anteil, Korrelation, statistisches Signifikanzniveau).
  • Geben Sie genaue p-Werte mit zwei oder drei Dezimalstellen an (z. B. P = 0,006, p = ,03).
  • Melden Sie jedoch p-Werte unter 0,001 als „P < 0,001.”
  • Setzen Sie ein Leerzeichen vor und nach einem mathematischen Operator (z. B. minus, plus, größer als, kleiner als, Gleichheitszeichen).
  • Wiederholen Sie Statistiken nicht sowohl im Text als auch in einer Tabelle oder Abbildung.
Wie ist die P-Wert interpretiert?
Wie ist die P-Wert interpretiert?

Bei einem Chi-Quadrat-Test weist ein p-Wert kleiner oder gleich dem Signifikanzniveau 0,05 darauf hin, dass die beobachteten Werte von den erwarteten Werten abweichen.

Somit weisen niedrige p-Werte (p< < .05) auf einen wahrscheinlichen Unterschied zwischen der theoretischen Grundgesamtheit und der gesammelten Stichprobe hin. Sie können daraus schließen, dass zwischen den kategorialen Variablen eine Beziehung besteht.

Erinnere dich daran P-Werte geben nicht die Wahrscheinlichkeit an, dass die Nullhypothese wahr ist, sondern geben eher die Wahrscheinlichkeit an, dass man die beobachtete Stichprobenverteilung (oder eine extremere Verteilung) erhalten würde, wenn die Nullhypothese tatsächlich wahr wäre.

Ein Vertrauensniveau, das notwendig ist, um die Nullhypothese zu akzeptieren, kann nie erreicht werden. Daher müssen Schlussfolgerungen abhängig vom berechneten p-Wert entweder die Null verwerfen oder die Alternativhypothese akzeptieren.

Verwenden von SPSS zum Durchführen eines Chi-Quadrat-Tests
Verwenden von SPSS zum Durchführen eines Chi-Quadrat-Tests

Die folgenden vier Schritte zeigen Ihnen, wie Sie Ihre Daten mit a . analysieren Chi-Quadrat-Anpassungsgüte Test in SPSS (wenn Sie davon ausgegangen sind, dass Sie die gleichen erwarteten Anteile haben).

Schritt 1: Analysieren > Nichtparametrische Tests > Ältere Dialogfelder > Chi-Quadrat. im oberen Menü wie unten gezeigt:

Schritt 2: Verschieben Sie die Variable, die Kategorien anzeigt, in das Feld „Testvariablenliste:“.

Schritt 3: Wenn Sie die Hypothese testen möchten, dass alle Kategorien gleich wahrscheinlich sind, klicken Sie auf „OK“.

Schritt 4: Geben Sie die erwartete Anzahl für jede Kategorie an, indem Sie zuerst auf die Schaltfläche „Werte“ unter „Erwartete Werte“ klicken.

Schritt 5: Geben Sie dann im Feld rechts neben „Werte“ die erwartete Anzahl für Kategorie 1 ein und klicken Sie auf die Schaltfläche „Hinzufügen“. Geben Sie nun die erwartete Anzahl für Kategorie 2 ein und klicken Sie auf „Hinzufügen“. Fahren Sie auf diese Weise fort, bis alle erwarteten Zählungen eingegeben wurden.

Schritt 6: Klicken Sie dann auf „OK“.

Die folgenden vier Schritte zeigen Ihnen, wie Sie Ihre Daten mit a . analysieren Chi-Quadrat-Test der Unabhängigkeit in SPSS-Statistik.

Schritt 1: Öffnen Sie das Dialogfeld Kreuztabellen (Analysieren > Deskriptive Statistik > Kreuztabellen).

Schritt 2: Wählen Sie die Variablen aus, die Sie mit dem Chi-Quadrat-Test vergleichen möchten. Klicken Sie im linken Fenster auf eine Variable und dann oben auf den Pfeil, um die Variable zu verschieben. Wählen Sie die Zeilenvariable und die Spaltenvariable aus.

Schritt 3: Klicken Sie auf Statistik (ein neues Popup-Fenster wird angezeigt). Aktivieren Sie Chi-Quadrat und klicken Sie dann auf Weiter.

Schritt 4: (Optional) Aktivieren Sie das Kontrollkästchen für Geclusterte Balkendiagramme anzeigen.

Schritt 5: OK klicken.

Was ist der Chi-Quadrat-Test für Homogenität?
Was ist der Chi-Quadrat-Test für Homogenität?

Der Chi-Quadrat-Test auf Homogenität wird genauso organisiert und durchgeführt wie der Test auf Unabhängigkeit. Der Hauptunterschied zwischen den beiden besteht darin, dass der Unabhängigkeitstest nach einer Assoziation zwischen zwei kategorialen Variablen innerhalb derselben Grundgesamtheit sucht, während der Homogenitätstest bestimmt, ob die Verteilung einer Variablen in jeder von mehreren Grundgesamtheiten gleich ist (also Bevölkerung selbst als zweite kategoriale Variable).

Die Hypothesen für einen Chi-Quadrat-Test der Unabhängigkeit lauten wie folgt:

Nullhypothese (Ho): Es gibt keinen Unterschied in der Verteilung einer kategorialen Variablen für mehrere Populationen oder Behandlungen.

Alternative Hypothese (Ha): Es gibt einen Unterschied in der Verteilung einer kategorialen Variablen für mehrere Populationen oder Behandlungen.

Der Unterschied zwischen diesen beiden Tests kann insbesondere in praktischen Anwendungen eines Chi-Quadrat-Tests etwas schwierig zu bestimmen sein. Als verlässliche Faustregel gilt, wie die Daten erhoben wurden.

Wenn die Daten nur aus einer Zufallsstichprobe bestehen und die Beobachtungen nach zwei kategorialen Variablen klassifiziert sind, handelt es sich um einen Unabhängigkeitstest. Bestehen die Daten aus mehr als einer unabhängigen Zufallsstichprobe, handelt es sich um einen Homogenitätstest.

Über den Autor

Ben ist Senior am Harvard College und studiert Geschichte und Naturwissenschaften mit dem Nebenfach Globale Gesundheit und Gesundheitspolitik. Ben interessiert sich vor allem für die Schnittstellen zwischen Psychologie und Geschichte und hofft, eine Karriere im Bereich der psychiatrischen Versorgung einzuschlagen.


Grundlagen des Hypothesentests

Hypothesentest verwendet werden, um anhand von Stichprobendaten Schlussfolgerungen über die Population zu interpretieren und zu ziehen. Es hilft bei der Entscheidung, welche sich gegenseitig ausschließende Aussage über die Bevölkerung am besten durch Stichprobendaten gestützt wird.

Nullhypothese (H0) – Es handelt sich um eine allgemein akzeptierte oder als Status quo geltende Aussage. Es wird davon ausgegangen, dass das beobachtete Ergebnis auf die Faktorwahrscheinlichkeit zurückzuführen ist. Es wird mit H0 bezeichnet.

Alternative Hypothese (H1 oder Ha) – Wie bereits erwähnt, sind die Nullhypothese und die Alternativhypothese sich gegenseitig ausschließende Aussagen. Wenn die Nullhypothese eine allgemein akzeptierte Tatsache ist, ist die alternative Hypothese eine echte faktenbasierte Beobachtung aus den Beispieldaten. Es wird mit H1 oder Ha bezeichnet.

Es gibt verschiedene Arten von Hypothesentests. Um nur einige zu nennen, gibt es z-Test, t-Test bei einer Stichprobe, gepaarter t-Test, t-Test bei 2 Stichproben, ANOVA und viele mehr. All dies sind parametrische Tests von Mittelwert und Varianz. Darunter haben wir einen weiteren Test, den wir im Detail verstehen werden, den Chi-Quadrat-Test.


Eine einfache Erklärung zum Verständnis des Chi-Quadrat-Tests

Lassen Sie uns anhand von Beispielen aus dem täglichen Leben erklären und verstehen, was ein Chi-Quadrat-Test ist.

Der Chi-Quadrat-Test, eine statistische Methode, wird von Methoden des maschinellen Lernens verwendet, um die Korrelation zwischen zwei kategorialen Variablen zu überprüfen.

Chinesen übersetzen Chi-Quadrat-Test in „Karten-Quadrat“-Test, was die meisten Leute denken lässt, dass diese Methodik mit einer Karte zusammenhängt, und eine Frage stellen.

„Muss ich für diesen Test eine Karte kaufen? “

Dieses Gespräch zwischen Produktmanagern und Analysten höre ich oft.

Analyst: „Ich habe einen Chi-Quadrat-Test für diese Variable durchgeführt. Das Ergebnis zeigt, dass die Variable nicht signifikant ist, daher habe ich sie nicht in das endgültige Modell aufgenommen.“

Derzeit verstehen viele Projektmanager möglicherweise nicht, was ein Chi-Quadrat-Test ist.

Einige „gute Schüler“ werden den Analytiker direkt fragen: „Hallo, können Sie mir sagen, was der Chi-Quadrat-Test ist? ”

Andere könnten heimlich Wikipedia durchsuchen, um herauszufinden, was ein Chi-Quadrat-Test ist >_<.

In jedem Fall werden die meisten Produktmanager den Rat des Analysten ohne weitere Fragen oder Diskussionen befolgen.

Das ist mir tatsächlich täglich passiert. Meiner Ansicht nach besteht die Hauptaufgabe der Produktmanager in der Planung und Ausführung während des gesamten Produktlebenszyklus, basierend auf Input und Empfehlungen von Data Scientists/Analysten, und nicht in der Arbeit an den Problemen selbst.

Die Ziele dieses Artikels sind:

  1. Um dem Produktmanager zu sagen: Keine Angst, wenn Sie dieses Wort hören!
  2. Einfache Beispiele verwenden, um das statistische Konzept für Anfänger benutzerfreundlicher zu machen.
  3. Analysten beibringen, in Gesprächen mit funktionsübergreifenden Teams „Laien“-Wörter zu sagen.

W as ist der Chi-Quadrat-Test:

Der Chi-Quadrat-Test bewertet, ob zwei kategoriale Variablen in irgendeiner Weise miteinander verbunden sind.

Wir können es in den folgenden Szenarien verwenden:

  1. Testen Sie, ob das Geschlecht bei der Entscheidung für den Online-Einkauf von Lebensmitteln eine signifikante Rolle spielt.
  2. Testen Sie, ob die Stadtstufe einen signifikanten Unterschied im Segment der Autokaufentscheidung usw. ausmacht.

Wenn es einen signifikanten Unterschied gibt, werden wir erwägen, diese Variablen in das Modell oder die Analyse aufzunehmen.

Beginnen wir mit einem der einfachsten Beispiele.

  1. Bestimmen Sie, ob die Münze fair oder unfair ist, basierend auf der Anzahl der Köpfe und der Zahl, wenn Sie die Münze werfen.

Okay, lassen Sie mich diese Frage anders stellen. Sagen wir, wenn ich dir eine normale Münze gebe. Erinnern! Es ist eine normale Spule mit einem Kopf und einem Schwanz. Wie viele Kopf- und Zahlzahlen bekommst du, wenn du es 50 Mal wirfst?

Der Logik nach sind 25 Köpfe und 25 Zahlen der beste Fall.

Aber ich glaube nicht, dass es das perfekte Szenario von 25 Kopf gegen 25 Zahl wird.

Dann werden Sie anfangen zu denken, 28 Kopf und 22 Zahl sind in Ordnung, und 23 Kopf und 27 Zahl sind auch in Ordnung.

Aber Sie werden nicht glauben, dass Sie mit einer normalen Münze 10 Kopf und 40 Zahl bekommen. Wenn das passiert, müssen Sie denken, dass Sie die Lotterie sofort kaufen sollten!

Der obige Denkprozess dient dazu, das Ergebnis (die Münze ist normal) zu nehmen und die verschiedenen Fälle zu erraten, die auftreten würden.

Der Chi-Quadrat-Test dient nur dazu, den Prozess des obigen Denkprozesses umzukehren.

Um eine Schlussfolgerung durch die Beobachtung zu ziehen (Um die Anzahl der Köpfe, Anzahl der Schwänze zu bestimmen)

Kehren wir zum Beispiel zurück.

Wenn ich das Ergebnis der Münze nicht kenne. Ich möchte die Anzahl der Köpfe und die Anzahl der Schwänze überprüfen.

Ich begann mein Experiment und warf die Münze 50 Mal.

Dann bekam ich 28 Köpfe und 22 Schwänze.

Wie sollte ich den Chi-Quadrat-Test verwenden, um das Ergebnis der Münze zu bestimmen?


Muss man zwei Chi-Quadrat-Tests durchführen? - Biologie

Hintergrund: Der Student's t-Test und die Varianzanalyse werden verwendet, um zu analysieren Messung Daten, die theoretisch kontinuierlich variabel sind. Zwischen einer Messung von, sagen wir, 1 m m und 2 m m gibt es einen stufenlosen Bereich von 1,001 bis 1,9999 m m.

Bei einigen Arten von Experimenten möchten wir jedoch aufzeichnen, wie viele Individuen in eine bestimmte Kategorie fallen, z. B. blaue Augen oder braune Augen, bewegliche oder unbewegliche Zellen usw. Diese Zählungen, oder Aufzählung Daten, sind diskontinuierlich (1, 2, 3 usw.) und müssen anders behandelt werden als kontinuierliche Daten. Oft ist der geeignete Test der Chi-Quadrat (c 2 ), den wir verwenden, um zu testen, ob die Anzahl der Individuen in verschiedenen Kategorien zu a . passt Nullhypothese (eine Art Erwartung).

Die Chi-Quadrat-Analyse ist einfach und für alle möglichen Dinge wertvoll – nicht nur für Mendelsche Kreuze! Auf dieser Seite bauen wir von den einfachsten Beispielen zu komplexeren auf. Wenn Sie die Beispiele durchgegangen sind, sollten Sie die Checkliste mit Verfahren und möglichen Fallstricken .

Ein einfaches Beispiel

Angenommen, das Verhältnis von männlichen zu weiblichen Studierenden in der naturwissenschaftlichen Fakultät beträgt genau 1:1, aber in der Pharmacology Honours-Klasse waren es in den letzten zehn Jahren 80 weibliche und 40 männliche. Ist dies eine deutliche Abweichung von den Erwartungen? Wir gehen wie folgt vor (aber beachten Sie, dass wir einen sehr wichtigen Punkt übersehen werden, mit dem wir uns später befassen werden).

Stellen Sie wie unten gezeigt eine Tabelle mit den "beobachteten" und den "erwarteten" Zahlen (d. h. unserer Nullhypothese) auf.

Ziehen Sie dann jeden "erwarteten" Wert vom entsprechenden "beobachteten"-Wert (O-E) ab.

Quadrieren Sie die "O-E"-Werte und dividieren Sie jeden durch den entsprechenden "erwarteten" Wert, um (O-E) 2 /E . zu erhalten

Addieren Sie alle (O-E) 2 /E-Werte und nennen Sie die Summe "X 2 "

Weiblich Männlich Gesamt
Beobachtete Zahlen (O) 80 40 120
Erwartete Zahlen (E) 60* 3 60* 3 120 * 1
O - E 20 -20 0 * 2
(O-E) 2 400 400
(O-E) 2 / E 6.67 6.67 13,34 = X 2

Anmerkungen:
* 1 Diese Summe muss immer gleich der beobachteten Summe sein
* 2 Diese Summe muss immer Null sein
* 3 Die Nullhypothese war hier offensichtlich: Uns wird gesagt, dass es in der naturwissenschaftlichen Fakultät gleich viele Männer und Frauen gibt, also könnten wir erwarten, dass es in der Pharmakologie gleich viele Männer und Frauen geben wird. Also teilen wir unsere Gesamtzahl der Pharmakologiestudenten (120) im Verhältnis 1:1 auf, um unsere ‘erwarteten’-Werte zu erhalten.

Jetzt müssen wir unseren X 2 -Wert mit einem c 2 (Chi-Quadrat)-Wert in einer Tabelle von c 2 mit n-1 Freiheitsgraden vergleichen (wobei n die Anzahl der Kategorien, d.h. 2 in unserem Fall - Männchen und Weibchen). Wir haben nur einen Freiheitsgrad (n-1). Aus der c 2 -Tabelle finden wir einen "kritischen Wert von 3,84 für P = 0.05.

Wenn unser berechneter Wert von X 2 den kritischen Wert von c 2 überschreitet, haben wir einen signifikanten Unterschied zum Erwartungswert. Tatsächlich übertrifft unser berechnetes X 2 (13.34) sogar den tabellarischen c 2 -Wert (10.83) für P = 0,001. Dies zeigt eine extreme Abweichung von den Erwartungen. Es ist immer noch möglich, dass wir dieses Ergebnis zufällig erhalten haben - eine Wahrscheinlichkeit von weniger als 1 zu 1000. Aber wir könnten zu 99,9 % zuversichtlich sein, dass ein Faktor zu einer "Voreingenommenheit" gegenüber Frauen führt, die an den Pharmacology Honours teilnehmen. [Die Daten sagen uns natürlich nicht, warum das so ist - es könnte eine Selbstauswahl oder ein anderer Grund sein]

Wiederholen Sie nun diese Analyse, aber wissen Sie, dass 33,5% aller Studenten der naturwissenschaftlichen Fakultät männlich sind

Weiblich Männlich Gesamt
Beobachtete Zahlen (O) 80 40 120
Erwartete Zahlen (E) 79.8*3 40.2 120* 1
O - E 0.2 -0.2 0* 2
(O-E) 2 0.04 0.04
(O-E) 2 / E 0.0005 0.001 0,0015 = X 2

Anmerkung 1: Wir wissen, dass die erwartete Summe 120 sein muss (die gleiche wie die beobachtete Summe), sodass wir die erwarteten Zahlen als 66,5% und 33,5% dieser Summe berechnen können.

Anmerkung 2: Diese Summe muss immer null sein.

Notiz 3: Obwohl die beobachteten Werte ganze Zahlen sein müssen, die erwarteten Werte können (und müssen oft) Dezimalzahlen sein.

Aus einer c 2 -Tabelle sehen wir nun, dass unsere Daten nicht von der Erwartung abweichen (der Nullhypothese). Sie stimmen bemerkenswert gut damit überein und könnten uns vermuten lassen, dass dahinter ein Design steckt! In den meisten Fällen können wir jedoch Zwischenwerte von X 2 erhalten, die weder stark übereinstimmen noch den Erwartungen entsprechen. Dann schließen wir, dass es kein Grund zur Ablehnung die Nullhypothese.

Einige wichtige Punkte zum Chi-Quadrat

Chi quadriert ist eine mathematische Verteilung mit Eigenschaften, die es uns ermöglichen, unsere berechneten X 2 -Werte mit c 2 -Werten gleichzusetzen. Die Details brauchen uns nicht zu interessieren, aber wir müssen einige Einschränkungen berücksichtigen, damit c 2 valide für statistische Tests verwendet werden kann.

(i) Yates-Korrektur für zwei Kategorien von Daten (ein Freiheitsgrad)

Wenn es nur zwei Kategorien gibt (z.B.männlich/weiblich) oder richtiger, wenn es nur einen Freiheitsgrad gibt, sollte der c2-Test streng genommen nicht verwendet werden. Es gab verschiedene Versuche, diesen Mangel zu beheben, aber der einfachste besteht darin, die Yates-Korrektur auf unsere Daten anzuwenden. Dazu subtrahieren wir einfach 0,5 von jedem berechneten Wert von "O-E" und ignorieren das Vorzeichen (Plus oder Minus). Mit anderen Worten, ein "O-E"-Wert von +5 wird +4,5 und ein "O-E"-Wert von -5 wird -4,5. Um anzuzeigen, dass wir den Absolutwert reduzieren und das Vorzeichen ignorieren, verwenden wir vertikale Linien: |O-E|-0.5. Dann fahren wir wie gewohnt fort, aber mit diesen neuen (korrigierten) O-E-Werten: Wir berechnen (mit den korrigierten Werten) (O-E) 2 , (O-E) 2 /E und summieren dann die (O-E) 2 /E-Werte zu X 2 . Die Yates-Korrektur gilt nur, wenn wir zwei Kategorien haben (ein Freiheitsgrad).

Diesen Punkt haben wir in unserer ersten Analyse der Studierendenzahlen (oben) ignoriert. Hier ist also noch einmal die Tabelle mit der Yates-Korrektur:

Weiblich Männlich Gesamt
Beobachtete Zahlen (O) 80 40 120
Erwartete Zahlen (E) 60* 3 60* 3 120 * 1
O - E 20 -20 0 * 2
|O-E|-0.5 19.5 -19.5 0
(|O-E|-0.5) 2 380.25 380.25
(|O-E|-0.5) 2 / E 6.338 6.338 12,676 = X 2

In diesem Fall wichen die beobachteten Zahlen so stark vom erwarteten 1:1-Verhältnis ab, dass die Yates-Korrektur kaum einen Unterschied machte – sie reduzierte nur den X 2 -Wert von 13,34 auf 12,67. Aber es würde auch andere Fälle geben, in denen die Yates-Korrektur den Unterschied zwischen Annahme oder Ablehnung der Nullhypothese ausmachen würde.

(ii) Beschränkungen der Zahlen in den "erwarteten" Kategorien

Um die mathematischen Annahmen zu erfüllen, die c 2 zugrunde liegen, gilt: erwartet Die Werte sollten relativ groß sein. Es gelten die folgenden einfachen Regeln:

  • keine erwartete Kategorie sollte kleiner als 1 . sein (es spielt keine Rolle, was die beobachteten Werte sind)
  • UND nicht mehr als ein Fünftel der erwarteten Kategorien sollte kleiner als 5 . sein.

Was können wir tun, wenn unsere Daten diese Kriterien nicht erfüllen? Wir können entweder größere Stichproben sammeln, um die Kriterien zu erfüllen, oder wir können die Daten für die kleineren "erwarteten" Kategorien kombinieren, bis ihr kombinierter Erwartungswert 5 oder mehr beträgt, und dann einen c2-Test mit den kombinierten Daten durchführen. Wir werden unten ein Beispiel sehen.

Chi im Quadrat mit drei oder mehr Kategorien

Angenommen, wir wollen die Ergebnisse einer Mendelschen genetischen Kreuzung testen. Wir beginnen mit 2 Eltern des Genotyps AABB und aabb (wo EIN und ein die dominanten und rezessiven Allele eines Gens darstellen und B und B die dominanten und rezessiven Allele eines anderen Gens darstellen).

Wir wissen, dass alle F1 Generation (Nachkommen der ersten Generation dieser Eltern) den Genotyp AaBb aufweisen und ihr Phänotyp beide dominanten Allele aufweist (z. B. in Fruchtfliegen alle F1 Generation rote Augen statt weiße Augen haben und normale Flügel statt Stummelflügel).

Dies f1 Generation produziert 4 Arten von Gameten (AB, Ab, aB und ab), und wenn wir das F . selbst überqueren1 Generation werden wir mit einer Vielzahl von F2 Genotypen (siehe Tabelle unten).

Alle diese Genotypen fallen in 4 Phänotypen, die in der Tabelle farblich gekennzeichnet sind: doppelt dominant , einfach dominant A , einfach dominant B und doppelt rezessiv . Wir wissen, dass in der klassischen Mendelschen Genetik das erwartete Verhältnis dieser Phänotypen 9:3:3:1 beträgt

Angenommen, wir haben beobachtete Zählungen wie folgt

[Anmerkung 1 . Aus unserer erwarteten Summe von 80 können wir unsere Erwartungswerte für Kategorien im Verhältnis 9:3:3:1 berechnen.]

Aus einer c 2 Tabelle mit 3 df (wir haben vier Kategorien, also 3 df) at P = 0,05, finden wir, dass ein c 2 -Wert von 7,82 notwendig ist, um die Nullhypothese zu verwerfen (Erwartung des Verhältnisses 9:3:3:1). Unsere Daten sind also konsistent mit dem erwarteten Verhältnis.

Sehen Sie sich die Tabelle oben an. Wir nur nur genug Daten gesammelt, um ein erwartetes Verhältnis von 9:3:3:1 testen zu können. Hätten wir nur 70 (oder 79) Fruchtfliegen gezählt, wäre unsere niedrigste erwartete Kategorie kleiner als 1 gewesen und wir hätten den Test nicht wie gezeigt durchführen können. Wir würden eine der "Regeln" für c 2 brechen – dass nicht mehr als ein Fünftel der erwarteten Kategorien kleiner als 5 sein sollte. Wir könnten immer noch die Analyse durchführen, aber erst nachdem wir die kleineren Kategorien kombiniert und gegen eine andere Erwartung getestet haben.

Hier ist eine Illustration davon, angenommen, wir hatten 70 Fruchtfliegen verwendet und die folgenden beobachteten Zahlen von Phänotypen erhalten.

Eine unserer erwarteten Kategorien (ab) ist kleiner als 5 (dargestellt in fett kursiv in der Tabelle). Also haben wir diese Kategorie mit einer der anderen kombiniert und müssen die Ergebnisse dann mit einem erwarteten Verhältnis von 9:3:4 vergleichen. Die Zahlen in den erwarteten Kategorien wurden eingegeben, indem die Summe (70) in dieses Verhältnis geteilt wurde.

Jetzt haben wir mit 3 Kategorien nur 2 Freiheitsgrade. Der Rest der Analyse wird wie gewohnt durchgeführt, und wir haben immer noch keinen Grund, die Nullhypothese abzulehnen. Aber es ist eine andere Nullhypothese: das erwartete Verhältnis beträgt 9:3:4 (doppelt dominant: einfach dominant Ab: einfach dominant aB plus doppelt rezessiv ab).

Chi-Quadrat: Doppelklassifikationen

Angenommen, wir haben eine Population von Pilzsporen, die eindeutig in zwei Größenkategorien fallen, groß und klein. Wir inkubieren diese Sporen auf Agar und zählen die Sporen, die keimen, indem wir einen einzelnen Auswuchs oder mehrere Auswüchse produzieren.

Sporen gezählt:

120 große Sporen, von denen 80 mehrere Auswüchse und 40 einzelne Auswüchse bilden
60 kleine Sporen, von denen 18 mehrere Auswüchse und 42 einzelne Auswüchse bilden

Gibt es einen signifikanten Unterschied in der Art und Weise, wie große und kleine Sporen keimen?

1. Stellen Sie eine Tabelle wie folgt auf

Große Sporen Kleine Sporen Gesamt
Mehrere Auswüchse 80 18 98
Einzelner Auswuchs 40 42 82
Gesamt 120 60 180

2. Entscheiden Sie sich für die Nullhypothese.

In diesem Fall gibt es keine "Theorie", die uns eine offensichtliche Nullhypothese liefert. Wir haben zum Beispiel keinen Grund anzunehmen, dass 55 % oder 75 % oder irgendein anderer Prozentsatz großer Sporen mehrere Auswüchse produzieren wird. Die vernünftigste Nullhypothese ist also, dass sich sowohl die großen als auch die kleinen Sporen ähnlich verhalten und dass beide Sporenarten zu 50 % mehrfache Auswüchse und 50 % einzelne Auswüchse produzieren. Mit anderen Worten, wir werden gegen ein Verhältnis von 1:1:1:1 testen. Wenn unsere Daten dieser Erwartung nicht entsprechen, haben wir Beweise dafür, dass die Sporengröße die Art der Keimung beeinflusst.

3. Berechnen Sie die erwarteten Häufigkeiten basierend auf der Nullhypothese.

Dieser Schritt wird durch die Tatsache erschwert, dass wir eine unterschiedliche Anzahl von großen und kleinen Sporen haben und eine unterschiedliche Anzahl von Vielfachen gegen einzelne Auswüchse. Aber wir können die erwarteten Frequenzen (ein, B, C und D) unter Verwendung der Gesamtsumme (180) und der Spalten- und Zeilensummen (siehe Tabelle unten).

Große Sporen Kleine Sporen Zeilensummen
Mehrere Auswüchse Beobachtet (O) 80 18 98
Erwartet (E) ein B (voraussichtlich 98)
Einzelner Auswuchs Beobachtet (O) 40 42 82
Erwartet (E) C D (voraussichtlich 82)
Spaltensummen 120 60 180

Um den erwarteten Wert zu finden "ein" Wir wissen, dass insgesamt 98 Sporen mehrere Auswüchse hatten und 120 der insgesamt 180 Sporen groß waren. So ein ist 98(120/180) = 65,33.

Ebenso zu finden B wir wissen, dass 98 Sporen mehrere Auswüchse hatten und dass 60 der insgesamt 180 Sporen klein waren. So, B ist 98(60/180) = 32,67. [Eigentlich hätten wir dies einfach durch Subtrahieren tun können ein aus der erwarteten Gesamtsumme von 98 Zeilen - die erwartete Gesamtsumme muss immer gleich der beobachteten Gesamtsumme sein]

Finden C wir wissen, dass 82 Sporen einzelne Auswüchse hatten und 120 der insgesamt 180 Sporen groß waren. So C ist 82(120/180) = 54,67.

Finden D wir wissen, dass 82 Sporen einzelne Auswüchse hatten und dass 60 der insgesamt 180 Sporen klein waren. So D ist 82(60/180) = 27,33. [Dieser Wert hätte auch durch Subtraktion erhalten werden können]

4. Bestimmen Sie die Anzahl der Freiheitsgrade

Man könnte meinen, dass es 3 Freiheitsgrade gibt (weil es 4 Kategorien gibt). Aber es gibt tatsächlich ein Freiheitsgrad! Der Grund dafür ist, dass wir einen Freiheitsgrad verlieren, weil wir 4 Kategorien haben, und wir verlieren weitere 2 Freiheitsgrade, weil wir zwei Informationen verwendet haben, um unsere Nullhypothese zu konstruieren - wir haben eine Spaltensumme und eine Zeilensumme verwendet. Wenn wir diese einmal verwendet hätten, hätten wir nur eine Dateneingabe benötigt, um die restlichen Werte auszufüllen (daher haben wir einen Freiheitsgrad).

Natürlich müssen wir mit einem Freiheitsgrad verwenden Yates-Korrektur (Subtrahieren Sie 0,5 von jedem O-E-Wert).

5. Führen Sie die Analyse wie gewohnt durch. Berechnen von O-E, (O-E) 2 und (O-E) 2 /E für jede Kategorie, dann summieren Sie (O-E) 2 /E. Werte, um X 2 zu erhalten und dies gegen c 2 zu testen.

Die folgende Tabelle zeigt einige der Arbeiten. Die Summe der rot dargestellten Werte ergibt X 2 von 20,23

Große Sporen Kleine Sporen Zeilensummen
Mehrere Auswüchse Beobachtet (O) 80 18 98
Erwartet (E) 65.33 32.67 98
O-E +14.67 -14.67
Yates-Korrektur |O-E|-0.5 +14.17 -14.17 0
(O-Ekorrigiert) 2 /E 3.07 6.14
Einzelner Auswuchs Beobachtet (O) 40 42 82
Erwartet (E) 54.67 27.33 82
O-E -14.67 +14.67
Yates-Korrektur |O-E|-0.5 +14.17 -14.17 0
(O-Ekorrigiert) 2 /E 3.67 7.35 x 2 = 20.23
Spaltensummen 120 60 180

Wir vergleichen den X 2 -Wert mit einem tabellarischen c 2 . mit ein Freiheitsgrad. Unser berechnetes X 2 überschreitet den tabellarischen c 2 -Wert (10,83) für P = 0,001. Wir schließen daraus, dass es eine hochsignifikante Abweichung von der Nullhypothese gibt – wir haben sehr starke Beweise dafür, dass große Sporen und kleine Sporen ein unterschiedliches Keimungsverhalten zeigen.

Chi-Quadrat ist ein sehr einfacher Test. Die einzigen möglicherweise schwierigen Dinge daran sind:

  • Berechnung der erwarteten Häufigkeiten bei Doppelklassifikationen - verwenden Sie die marginalen Zwischensummen und Summen, um diese Häufigkeiten zu berechnen
  • Bestimmen der Anzahl der Freiheitsgrade, insbesondere wenn wir einige der Daten verwenden müssen, um die Nullhypothese zu konstruieren.

Wenn Sie den Beispielen auf dieser Seite folgen, sollten Sie nicht allzu viele Schwierigkeiten haben.

Einige Punkte zu beachten:

  • Arbeiten Sie in den beobachteten Kategorien immer mit "realen Zahlen", nicht mit Proportionen. Um dies zu veranschaulichen, betrachten wir einen einfachen Chi-Quadrat-Test beim Werfen von Münzen. Angenommen, Sie erhalten in 100 Würfen 70 "Kopf" und 30 "Zahl". Mit der Yates-Korrektur (für einen Freiheitsgrad) würden Sie einen X 2 -Wert von 15,21 finden, was einer c 2 -Wahrscheinlichkeit von weniger als 0,001 entspricht. Aber wenn Sie 7 "Kopf" und 3 "Schwanz" in einem Test von 10 Würfen haben, wäre dies völlig vereinbar mit zufälligem Zufall. Das Verhältnis ist dasselbe (7:3), aber die tatsächlichen Zahlen bestimmen das Signifikanzniveau in einem Chi-Quadrat-Test.
  • Beobachtete Kategorien müssen ganze Zahlen haben, erwartete Kategorien können jedoch Dezimalzahlen haben.
  • Befolgen Sie die Regeln für die Mindestanzahl in erwarteten Kategorien. Diese Regeln gelten nicht für die beobachteten Kategorien.
  • Denken Sie an die Yates-Korrektur für einen Freiheitsgrad.

STATISTISCHE PRÜFUNGEN:
Studenten T-Prüfung zum Vergleich der Mittelwerte zweier Stichproben
Test mit gepaarten Stichproben. (wie ein T-test, aber verwendet, wenn Daten gekoppelt werden können)
Varianzanalyse zum Vergleich von Mittelwerten von drei oder mehr Stichproben:


ANOVA, Regression und Chi-Quadrat

Es gibt eine Vielzahl von statistischen Verfahren. Das geeignete statistische Verfahren hängt von der/den Forschungsfrage(n) ab, die wir stellen und von der Art der erhobenen Daten. Obwohl EPSY 5601 nicht als Statistikklasse gedacht ist, ist eine gewisse Vertrautheit mit verschiedenen statistischen Verfahren erforderlich.

Parametrische Datenanalyse

Unterschiede untersuchen

Eine unabhängige Variable (mit zwei Ebenen) und eine abhängige Variable

Wenn wir wissen möchten, ob sich die Mittelwerte zweier Gruppen (eine unabhängige Variable (z. B. Geschlecht) mit zwei Niveaus (z. B. Männer und Frauen)) unterscheiden, a T Prüfung ist angebracht. Um a . zu berechnen T Test müssen wir den Mittelwert, die Standardabweichung und die Anzahl der Probanden in jeder der beiden Gruppen kennen. Ein Beispiel für a T Testforschungsfrage lautet “Gibt es einen signifikanten Unterschied zwischen den Leseleistungen von Jungen und Mädchen in der sechsten Klasse?” Eine Beispielantwort könnte sein: “Boys (m=5.67, SD=.45) und Mädchen (m=5.76, SD=.50) ähnlich beim Lesen abschneiden, T(23)=.54, P>.05.” [Anmerkung: (23) sind die Freiheitsgrade für a T Prüfung. Es ist die Anzahl der Probanden abzüglich der Anzahl der Gruppen (immer 2 Gruppen mit einem t-Test). In diesem Beispiel gab es 25 Probanden und 2 Gruppen, sodass die Freiheitsgrade 25-2=23 sind.] Denken Sie daran, a T Der Test kann nur die Mittelwerte zweier Gruppen (unabhängige Variable, z. B. Geschlecht) mit einer einzigen abhängigen Variablen (z. B. Leseergebnis) vergleichen. Sie können die Kursleiternotizen lesen für T testet.

Eine unabhängige Variable (mit mehr als zwei Ebenen) und eine abhängige Variable

Wenn die unabhängige Variable (z. B. politische Parteizugehörigkeit) mehr als zwei Ebenen (z. B. Demokraten, Republikaner und Unabhängige) zum Vergleich hat und wir wissen möchten, ob sie sich in einer abhängigen Variablen unterscheiden (z. B. Einstellung zu einer Steuersenkung), wir müssen eine ANOVA (EINAnalyse ÖF VAranz). Mit anderen Worten, wenn wir eine unabhängige Variable (mit drei oder mehr Gruppen/Ebenen) und eine abhängige Variable haben, führen wir eine einseitige ANOVA durch. Eine beispielhafte Forschungsfrage lautet: “Unterscheiden sich Demokraten, Republikaner und Unabhängige in ihrer Option zur Steuersenkung?” Eine Beispielantwort ist, “Demokraten (m=3.56, SD=.56) sind weniger wahrscheinlich für eine Steuersenkung als Republikaner (m=5.67, SD=.60) oder Unabhängige (m=5.34, SD=.45), F(2,120)=5.67, P<.05.” [Anmerkung: (2,120) sind die Freiheitsgrade für eine ANOVA. Die erste Zahl ist die Anzahl der Gruppen minus 1. Da wir drei politische Parteien hatten, ist es 2, 3-1=2. Die zweite Zahl ist die Gesamtzahl der Fächer abzüglich der Anzahl der Gruppen. Da wir 123 Probanden und 3 Gruppen hatten, sind es 120 (123-3)]. Die einseitige ANOVA hat eine unabhängige Variable (politische Partei) mit mehr als zwei Gruppen/Ebenen (Demokrat, Republikaner und Unabhängige) und eine abhängige Variable (Einstellung zu einer Steuersenkung).

Mehr als eine unabhängige Variable (mit jeweils zwei oder mehr Ebenen) und eine abhängige Variable

ANOVAs können mehr als eine unabhängige Variable haben. Eine Zwei-Wege-ANOVA hat zwei unabhängige Variablen (zB politische Partei und Geschlecht), eine Drei-Wege-ANOVA hat drei unabhängige Variablen (zB politische Partei, Geschlecht und Bildungsstatus) usw. Diese ANOVA haben immer noch nur eine abhängige Variable ( zB Einstellung zu einer Steuersenkung). Eine Zwei-Wege-ANOVA hat drei Forschungsfragen: Eine für jede der beiden unabhängigen Variablen und eine für die Interaktion der beiden unabhängigen Variablen.

Beispielforschungsfragen für eine Zwei-Wege-ANOVA:
Unterscheiden sich Demokraten, Republikaner und Unabhängige in ihrer Meinung zu einer Steuersenkung?
Unterscheiden sich Männer und Frauen in ihrer Meinung zu einer Steuersenkung?
Gibt es eine Wechselwirkung zwischen Geschlecht und Parteizugehörigkeit bezüglich der Meinungen zu einer Steuersenkung?

Eine Zwei-Wege-ANOVA hat drei Nullhypothesen, drei Alternativhypothesen und drei Antworten auf die Forschungsfrage. Die Antworten auf die Forschungsfragen sind ähnlich wie bei der Einweg-ANOVA, nur gibt es drei davon.

Eine oder mehrere unabhängige Variablen (mit jeweils zwei oder mehr Ebenen) und mehr als eine abhängige Variable

Manchmal haben wir mehrere unabhängige Variablen und mehrere abhängige Variablen. In diesem Fall machen wir eine MANOVA (mmehrere EINAnalyse ÖF VAranz). Es genügt zu sagen, dass multivariate Statistiken (von denen MANOVA ein Mitglied ist) ziemlich kompliziert sein können.

Beziehungen untersuchen

Manchmal möchten wir wissen, ob es eine Beziehung zwischen zwei Variablen gibt. Eine einfache Korrelation misst die Beziehung zwischen zwei Variablen. Die Variablen haben den gleichen Status und werden nicht als unabhängige Variablen oder abhängige Variablen betrachtet. In unserer Klasse haben wir Pearson verwendet‘s R die eine lineare Beziehung zwischen zwei stetigen Variablen misst. Es gibt zwar andere Arten von Beziehungen mit anderen Variablentypen, aber wir werden sie in dieser Klasse nicht behandeln. Eine beispielhafte Forschungsfrage für eine einfache Korrelation ist “Wie ist die Beziehung zwischen Körpergröße und Armspannweite??” Eine Beispielantwort lautet: “Es besteht eine Beziehung zwischen Körpergröße und Armspannweite, R(34)=.87, P<.05.” Vielleicht möchten Sie die Kursleiternotizen auf Korrelationen überprüfen. Eine kanonische Korrelation misst die Beziehung zwischen Sätzen mehrerer Variablen (dies ist eine multivariate Statistik und würde den Rahmen dieser Diskussion sprengen).

Eine Erweiterung der einfachen Korrelation ist die Regression. Bei der Regression werden eine oder mehrere Variablen (Prädiktoren) verwendet, um ein Ergebnis (Kriterium) vorherzusagen. Vielleicht möchten Sie den GPA eines College-Studenten vorhersagen, indem er seinen High-School-GPA, SAT-Ergebnisse und den College-Major verwendet. Daten von mehreren hundert Schülern würden in ein Regressionsstatistikprogramm eingespeist und das Statistikprogramm würde bestimmen, wie gut die Prädiktorvariablen (GPA der High School, SAT-Ergebnisse und College-Major) mit der Kriteriumsvariablen (College GPA) in Beziehung stehen. Basierend auf den Informationen erstellt das Programm eine mathematische Formel zur Vorhersage der Kriteriumsvariablen (College-GPA) unter Verwendung der signifikanten Vorhersagevariablen (High-School-GPA, SAT-Ergebnisse und/oder College-Major). Möglicherweise sind nicht alle der eingegebenen Variablen signifikante Prädiktoren. Eine Beispielforschungsfrage könnte sein: “Was ist die individuelle und kombinierte Kraft von High-School-GPA, SAT-Ergebnissen und College-Major bei der Vorhersage des College-GPA-Abschlusses?” Die Ausgabe einer Regressionsanalyse enthält eine Vielzahl von Informationen. R2 gibt an, wie viel der Variation des Kriteriums (z. B. Abschlussnote des Colleges) von den Prädiktoren berücksichtigt werden kann (z. B. High-School-GPA, SAT-Ergebnisse und College-Major (Dummy-codiert 0 für Education Major und 1 für Non-Education Major .) ). In einem Forschungsbericht könnte festgestellt werden, dass “High-School-GPA, SAT-Ergebnisse und College-Major wichtige Prädiktoren für den Abschluss des College-GPA sind. R2 =.56.” In diesem Beispiel können 56 % des College-GPA einer Person mit seinem High-School-GPA, SAT-Ergebnissen und College-Major vorhergesagt werden. Die Regressionsgleichung für eine solche Studie könnte wie folgt aussehen: Y’= .15 + (HS GPA * .75) + (SAT * .001) + (Major * -.75). Indem wir den High-School-GPA, den SAT-Score und den College-Major (0 für Bildungs-Major und 1 für Non-Education-Major) in die Formel einfügen, könnten wir vorhersagen, wie der endgültige College-GPA von jemandem aussehen wird (zumindest). 56 % davon). Zum Beispiel hätte jemand mit einem High-School-GPA von 4,0, einem SAT-Score von 800 und einem Hauptschulabschluss (0) einen vorhergesagten GPA von 3,95 (0,15 + (4,0 * 0,75) + (800 * 0,001) + (0 * -.75)). Universitäten verwenden häufig Regression bei der Auswahl von Studenten für die Einschreibung.

Ich habe ein Beispiel für einen SPSS-Regressionsausdruck mit Interpretation erstellt, wenn Sie dieses Thema weiter vertiefen möchten.Sie sind nicht dafür verantwortlich, den SPSS-Ausdruck zu lesen oder zu interpretieren.

Nicht parametrische Datenanalyse

Wir könnten die Vorfälle von etwas zählen und das, was unsere tatsächlichen Daten zeigten, mit dem vergleichen, was wir erwarten würden. Angenommen, wir haben 27 Personen befragt, ob sie Rot, Blau oder Gelb als Farbe bevorzugen. Wenn es keine Präferenz gäbe, würden wir erwarten, dass 9 Rot, 9 Blau und 9 Gelb auswählen würden. Wir verwenden ein Chi-Quadrat, um das, was wir beobachten (tatsächlich) mit dem zu vergleichen, was wir erwarten. Wenn unsere Stichprobe ergab, dass 2 Rot, 20 Blau und 5 Gelb mögen, könnten wir eher zuversichtlich sein, dass mehr Menschen Blau bevorzugen. Wenn unsere Stichprobe ergab, dass 8 gern gelesen, 10 blau und 9 gelb mögen, sind wir möglicherweise nicht sehr zuversichtlich, dass Blau im Allgemeinen bevorzugt wird. Das Chi-Quadrat hilft uns, Entscheidungen darüber zu treffen, ob das beobachtete Ergebnis signifikant vom erwarteten Ergebnis abweicht. Eine beispielhafte Forschungsfrage lautet: “Gibt es eine Präferenz für die Farben Rot, Blau und Gelb?” Eine Beispielantwort ist “Die Farben Rot, Blau oder Gelb wurden nicht gleich bevorzugt. Mehr Menschen bevorzugten Blau als Rot oder Gelb, X 2 (2) = 12.54, P < .05″. So wie t-Tests uns sagen, wie sicher wir sagen können, dass es Unterschiede zwischen den Mittelwerten zweier Gruppen gibt, sagt uns das Chi-Quadrat, wie sicher wir sagen können, dass unsere beobachteten Ergebnisse von den erwarteten Ergebnissen abweichen.

Jede der Statistiken erzeugt eine Teststatistik (z. B. T, F, R, R2 , X 2 ), die mit Freiheitsgraden (basierend auf der Anzahl der Probanden und/oder der Anzahl der Gruppen) verwendet wird, um das statistische Signifikanzniveau zu bestimmen (Wert von P). Letztlich interessiert uns, ob P kleiner oder größer als 0,05 (oder ein anderer vom Forscher vorherbestimmter Wert) ist. Es läuft alles auf den Wert von hinaus P. Wenn P<.05 wir sagen, es gibt Unterschiede für t-Tests, ANOVAs und Chi-Quadrate oder es gibt Beziehungen für Korrelationen und Regressionen.

Dank der verbesserten Rechenleistung ist die Datenanalyse über den einfachen Vergleich von ein oder zwei Variablen hinaus zum Erstellen von Modellen mit Variablensätzen geworden. Strukturgleichungsmodellierung und hierarchische lineare Modellierung sind zwei Beispiele für diese Techniken. Strukturgleichungsmodellierung (SEM) analysiert Pfade zwischen Variablen und testet die direkten und indirekten Beziehungen zwischen Variablen sowie die Anpassung des gesamten Modells von Pfaden oder Beziehungen. Ein Forscher könnte beispielsweise den Zusammenhang zwischen IQ und Schulleistung messen und dabei auch andere Variablen wie Motivation, Bildungsstand der Familie und frühere Leistungen einbeziehen.

Das folgende Beispiel zeigt die Zusammenhänge zwischen verschiedenen Faktoren und der Freude an der Schule. Wenn eine Linie mit einer Variablen verbunden ist, besteht eine Beziehung. Wenn zwei Variablen nicht miteinander verbunden sind, sind sie nicht durch eine Linie verbunden. Die Stärken der Beziehungen sind auf den Linien angegeben. In diesem Modell können wir sehen, dass es eine positive Beziehung zwischen Bildungsniveau der Eltern&# und Studenten’ Schulfähigkeit. Wir können sehen, dass es keine Beziehung zwischen Lehrerwahrnehmung der akademischen Fähigkeiten und Studenten’ Freude an der Schule. Wir können sehen, dass es eine negative Beziehung zwischen den Schülern gibt’ Schulfähigkeit und ihre Freude an der Schule. Weitere Informationen zu SEM finden Sie im Artikel von D. Betsy McCoach.

Oftmals verstoßen die von uns erhobenen Bildungsdaten gegen die wichtige Unabhängigkeitsannahme, die für einfachere statistische Verfahren erforderlich ist. Die Schüler sind oft in Klassenzimmern gruppiert (verschachtelt). Diese Klassenräume sind in Schulen gruppiert (verschachtelt). Die Schulen sind in Bezirken gruppiert (verschachtelt). Diese Verschachtelung verstößt gegen die Annahme der Unabhängigkeit. Hierarchische lineare Modellierung (HLM) wurde entwickelt, um mit verschachtelten Daten zu arbeiten. HLM ermöglicht es Forschern, den Effekt des Klassenzimmers sowie den Effekt des Besuchs einer bestimmten Schule zu messen, sowie den Effekt, ein Schüler in einem bestimmten Bezirk zu sein, auf eine ausgewählte Variable, wie z. B. die Leistung in Mathematik. Weitere Informationen zu HLM finden Sie im Artikel von D. Betsy McCoach.



Bemerkungen:

  1. Erskine

    Ich bestätige. Ich abonniere all das oben.Lassen Sie uns dies besprechen

  2. Aaron

    Ich denke, sie sind falsch. Lassen Sie uns versuchen, darüber zu diskutieren. Schreib mir per PN, es spricht mit dir.

  3. Tuyen

    Ich entschuldige mich, aber meiner Meinung nach haben Sie nicht Recht. Ich bin versichert. Ich kann es beweisen. Schreiben Sie mir in PM, wir werden reden.

  4. Earle

    Du hast nicht recht. Ich bin sicher. Ich kann meine Position verteidigen. Maile mir per PN.

  5. Reymond

    Du liegst absolut richtig. In diesem nichts drin und ich denke, das ist eine sehr gute Idee. Ich stimme mit Ihnen ein.

  6. Faki

    Ich gratuliere, der brillante Gedanke

  7. Akijind

    Schade, dass ich jetzt nicht ausdrücken kann - es ist sehr besetzt. Aber ich werde zurückkehren - ich werde unbedingt schreiben, was ich denke.



Eine Nachricht schreiben