Information

Gibt es einen statistischen Analysetest, den ich durchführen kann, der mir eine Schätzung der Gesamtbevölkerung aus meinen eigenen kleineren Datensätzen liefert?

Gibt es einen statistischen Analysetest, den ich durchführen kann, der mir eine Schätzung der Gesamtbevölkerung aus meinen eigenen kleineren Datensätzen liefert?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Meine Dissertation über die langfristigen Trends in der Mottenpopulation. Ich betrachte die Trends bestimmter Arten. Gibt es eine Methode, um eine Schätzung der Gesamtbevölkerung aus kleineren Stichproben zu erhalten?


Ich gehe davon aus, dass Sie fragen, wie die Populationsgröße basierend auf der Anzahl der gefangenen Individuen geschätzt werden kann. Ja, dafür gibt es viele Ansätze. Die R-Bibliothek SPECIES-R bietet eine Reihe von Methoden, dies zu berechnen. Sie sind im Manuskript SPECIES: An R Package for Species Richness Estimation beschrieben. Einige der beschriebenen Methoden sind:

  • Chao, A. (1984), Nonparametric Estimation of the Number of Classes in a Population, Scandinavian Journal of Statistics, 11, 265-270.
  • Norris, J. L. I. und Pollock, K. H. (1998), Non-parametric MLE for Poisson Species Abundance Models Allowing for Heterogeneity Between Species, Environmental and Ecological Statistics, 5, 391-402.
  • Chao, A. und Bunge, J. (2002), Estimating the Number of Species in a Stochastic Abundance Model, Biometrics, 58, 531-539.

und viele mehr.


Kostenlose öffentliche Datensätze zur Analyse

Hey, Daten sind überall. Das wussten Sie wahrscheinlich schon, denn es ist schwer zu übersehen, wenn es ständig in den Nachrichten ist, ein wachsendes Berufsfeld und Datenkompetenz auf jedem Arbeitsmarkt immer wertvoller wird. Daten sind jedoch nicht nur für große Unternehmen gedacht und Sie müssen keine eigenen Daten sammeln, um sie zu analysieren. Es gibt Unmengen von öffentlichen Datensätzen!

Wenn Sie lernen möchten, wie Sie Daten analysieren, Datenvisualisierungen erstellen oder einfach nur Ihre Datenkompetenz verbessern möchten, sind öffentliche Datensätze der perfekte Ausgangspunkt. Hier sind einige großartige öffentliche Datensätze, die Sie jetzt kostenlos analysieren können. Wenn Sie Hilfe bei der Umsetzung Ihrer Ergebnisse benötigen, haben wir auch Artikel zu Blogs zur Datenvisualisierung, denen Sie folgen können, und die besten Beispiele für Datenvisualisierung zur Inspiration.


Wann verwendet man einen T-Test?

Ein T-Test ist einer der beliebtesten statistische Tests für den Standort, d.h. es handelt sich um den/die Mittelwert(e) der Grundgesamtheit(en). Es gibt verschiedene Arten von t-Tests, die Sie durchführen können:

Im nächsten Abschnitt erklären wir, wann welche zu verwenden sind. Denken Sie daran, dass a t-Test kann nur für eine oder zwei Gruppen verwendet werden. Wenn Sie drei (oder mehr) Mittelwerte vergleichen müssen, verwenden Sie die Varianzanalyse (ANOVA) Methode.

Der t-Test ist ein parametrischer Test, was bedeutet, dass Ihre Daten müssen einige Annahmen erfüllen:

Wenn Ihre Stichprobe diesen Annahmen nicht entspricht, können Sie auf nichtparametrische Alternativen zurückgreifen, z. B. den Mann–Whitney-U-Test, den Wilcoxon-Vorzeichentest oder den Vorzeichentest.


Freiheitsgrade: 1-Stichproben-t-Test

Stellen Sie sich jetzt vor, Sie stehen nicht auf Hüte. Du interessierst dich für Datenanalyse.

Sie haben einen Datensatz mit 10 Werten. Wenn Sie nichts schätzen, kann jeder Wert eine beliebige Zahl annehmen, oder? Jeder Wert kann völlig frei variieren.

Angenommen, Sie möchten den Mittelwert der Grundgesamtheit mit einer Stichprobe von 10 Werten testen, indem Sie einen t-Test bei einer Stichprobe verwenden. Sie haben jetzt eine Einschränkung – die Schätzung des Mittelwerts. Was genau ist diese Einschränkung? Nach Definition des Mittelwerts muss folgende Beziehung gelten: Die Summe aller Werte in den Daten muss gleich n x bedeuten, wo n ist die Anzahl der Werte im Datensatz.

Wenn ein Datensatz also 10 Werte hat, ist die Summe der 10 Werte muss gleich dem Mittelwert x 10. Wenn der Mittelwert der 10 Werte 3,5 beträgt (Sie können eine beliebige Zahl auswählen), erfordert diese Einschränkung, dass die Summe der 10 Werte 10 x 3,5 = 35 betragen muss.

Mit dieser Einschränkung kann der erste Wert im Datensatz frei variieren. Unabhängig von dem Wert kann die Summe aller 10 Zahlen immer noch einen Wert von 35 haben. Der zweite Wert kann ebenfalls frei variieren, denn welcher Wert Sie auch immer wählen, er lässt immer noch die Möglichkeit zu, dass die Summe aller Werte ist 35.

Tatsächlich können die ersten 9 Werte alles Mögliche sein, einschließlich dieser beiden Beispiele:

34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9

Aber alle 10 Werte summieren sich zu 35 und haben einen Mittelwert von 3,5, der 10. Wert kann nicht variieren. Es muss eine bestimmte Nummer sein:

34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> 10 TH-Wert muss 61,3 sein
0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9 ----> 10 TH-Wert muss 30,5 sein

Sie haben also 10 - 1 = 9 Freiheitsgrade. Es spielt keine Rolle, welche Stichprobengröße Sie verwenden oder welchen Mittelwert Sie verwenden – der letzte Wert in der Stichprobe kann nicht frei variieren. Am Ende bist du n - 1 Freiheitsgrade, wobei n ist die Stichprobengröße.

Eine andere Möglichkeit, dies zu sagen, ist, dass die Anzahl der Freiheitsgrade gleich der Anzahl der "Beobachtungen" minus der Anzahl der erforderlichen Beziehungen zwischen den Beobachtungen (z. B. der Anzahl der Parameterschätzungen) ist. Bei einem 1-Stichproben-t-Test wird ein Freiheitsgrad für die Schätzung des Mittelwerts verwendet, und die verbleibenden n - 1 Freiheitsgrade Schätzungsvariabilität.

Beachten Sie, dass für kleine Stichprobengrößen (n), die kleineren Freiheitsgraden entsprechen (n - 1 für den 1-Stichproben-t-Test), hat die t-Verteilung dickere Schwänze. Dies liegt daran, dass die t-Verteilung speziell entwickelt wurde, um bei der Analyse kleiner Proben (z. B. in der Brauindustrie) konservativere Testergebnisse zu liefern. Mit zunehmender Stichprobengröße (n) nimmt die Anzahl der Freiheitsgrade zu und die t-Verteilung nähert sich einer Normalverteilung.


Arten von statistischen Analysen für unabhängige und abhängige Gruppen

Nachdem Sie die Art der Proben ausgewählt und das Experiment durchgeführt haben, müssen Sie die richtige statistische Analyse verwenden. Die Tabelle zeigt Paare von verwandten Analysen für unabhängige und abhängige Stichproben.


Mehrere Anmerkungen zur Tabelle.

Während sich Analysen für abhängige Gruppen in der Regel auf individuelle Veränderungen konzentrieren, bildet McNemars Test eine Ausnahme. Dieser Test vergleicht die Gesamtanteile von zwei abhängigen Gruppen.

Regression und ANOVA können sowohl unabhängige als auch abhängige Stichproben modellieren. Es ist nur eine Frage der Angabe des richtigen Modells.


Verwenden von Z-Scores zum Erkennen von Ausreißern

Z-Scores können die Ungewöhnlichkeit einer Beobachtung quantifizieren, wenn Ihre Daten der Normalverteilung folgen. Z-Scores sind die Anzahl der Standardabweichungen über und unter dem Mittelwert, um die jeder Wert fällt. Ein Z-Score von 2 zeigt beispielsweise an, dass eine Beobachtung zwei Standardabweichungen über dem Durchschnitt liegt, während ein Z-Score von -2 bedeutet, dass sie zwei Standardabweichungen unter dem Mittelwert liegt. Ein Z-Score von Null stellt einen Wert dar, der dem Mittelwert entspricht.

Um den Z-Score für eine Beobachtung zu berechnen, nehmen Sie die Rohmessung vor, subtrahieren den Mittelwert und dividieren durch die Standardabweichung. Mathematisch lautet die Formel für diesen Prozess wie folgt:

Je weiter der Z-Wert einer Beobachtung von Null entfernt ist, desto ungewöhnlicher ist er. Ein Standard-Cut-Off-Wert zum Finden von Ausreißern sind Z-Scores von +/-3 oder weiter von Null. Die untenstehende Wahrscheinlichkeitsverteilung zeigt die Verteilung der Z-Scores in einer Standardnormalverteilung. Z-Scores über +/- 3 sind so extrem, dass Sie die Schattierung unter der Kurve kaum sehen können.

In einer Population, die der Normalverteilung folgt, haben Z-Score-Werte, die extremer als +/- 3 sind, eine Wahrscheinlichkeit von 0,0027 (2 * 0,00135), was etwa 1 von 370 Beobachtungen entspricht. Wenn Ihre Daten jedoch nicht der Normalverteilung entsprechen, ist dieser Ansatz möglicherweise nicht korrekt.

Z-Scores und unser Beispieldatensatz

In unserem Beispieldatensatz unten zeige ich die Werte im Beispieldatensatz zusammen mit den Z-Werten an. Dieser Ansatz identifiziert dieselbe Beobachtung als Ausreißer.

Beachten Sie, dass Z-Scores bei kleinen Datensätzen irreführend sein können, da der maximale Z-Score auf (n&minus1) / &radic n.*

3,6 liegt nahe dem Maximalwert für eine Stichprobengröße von 15. Stichprobengrößen von 10 oder weniger Beobachtungen können keine Z-Scores aufweisen, die einen Cutoff-Wert von +/-3 überschreiten.

Beachten Sie auch, dass das Vorhandensein von Ausreißern die Z-Werte verwirft, da es den Mittelwert und die Standardabweichung aufbläst, wie wir zuvor gesehen haben. Beachten Sie, dass alle Z-Werte mit Ausnahme des Ausreißerwerts negativ sind. Wenn wir Z-Scores ohne den Ausreißer berechnet haben, sind sie anders! Beachten Sie, dass Z-Werte verzerrt sind, wenn Ihr Dataset Ausreißer enthält, sodass sie weniger extrem erscheinen (d. h. näher an Null).


SCHLUSSFOLGERUNGEN

Vor der Auswahl eines statistischen Tests muss ein Forscher lediglich die folgenden sechs Fragen beantworten, was zur richtigen Auswahl des Tests führt.

Wie viele unabhängige Variablen kovariieren (variieren im gleichen Zeitraum) mit der abhängigen Variablen?

Auf welcher Messebene befindet sich die unabhängige Variable?

Wie hoch ist die Bewertung der abhängigen Variablen?

Sind die Beobachtungen unabhängig oder abhängig?

Beziehen sich die Vergleiche auf Populationen auf Populationen, eine Stichprobe auf eine Population oder werden zwei oder mehr Stichproben verglichen?


Gibt es einen statistischen Analysetest, den ich durchführen kann, der mir eine Schätzung der Gesamtbevölkerung aus meinen eigenen kleineren Datensätzen liefert? - Biologie

Der eigentliche Test beginnt mit der Betrachtung von zwei Hypothesen. Sie heißen die Null Hypothese und der alternative Hypothese. Diese Hypothesen enthalten gegensätzliche Standpunkte.

h0: Die Nullhypothese: Es ist eine Aussage über die Bevölkerung, von der entweder angenommen wird, dass sie wahr ist, oder die verwendet wird, um ein Argument vorzubringen, es sei denn, sie kann zweifelsfrei als falsch nachgewiesen werden.

hein: Die Alternativhypothese: Es ist eine Behauptung über die Bevölkerung, die widersprüchlich ist zu h0 und was wir schließen, wenn wir ablehnen h0.

Da die Null- und Alternativhypothese widersprüchlich sind, müssen Sie die Beweise untersuchen, um zu entscheiden, ob Sie genügend Beweise haben, um die Nullhypothese abzulehnen oder nicht. Der Nachweis erfolgt in Form von Beispieldaten.

Nachdem Sie festgestellt haben, welche Hypothese die Stichprobe unterstützt, treffen Sie eine Entscheidung. Es gibt zwei Möglichkeiten für a Entscheidung. Sie sind “ablehnen h0” wenn die Stichprobeninformationen die Alternativhypothese begünstigen oder “nicht ablehnen h0” oder “Ablehnen ablehnen h0” wenn die Stichprobeninformationen nicht ausreichen, um die Nullhypothese abzulehnen.

h0 hein
gleich (=) ungleich (≠)
oder größer als (>) oder kleiner als (<)
größer oder gleich (≥) kleiner als (<)
kleiner oder gleich (≤) mehr als (>)

h0 hat immer ein Symbol mit einem Gleichen darin. hein hat nie ein Symbol mit einem Gleichen darin. Die Wahl des Symbols hängt vom Wortlaut des Hypothesentests ab. Beachten Sie jedoch, dass viele Forscher (einschließlich eines der Co-Autoren in der Forschungsarbeit) = in der Nullhypothese verwenden, sogar mit > oder < als Symbol in der Alternativhypothese. Diese Praxis ist akzeptabel, da wir nur die Entscheidung treffen, die Nullhypothese abzulehnen oder nicht abzulehnen.

Beispiel

h0: Nicht mehr als 30% der registrierten Wähler in Santa Clara County haben bei den Vorwahlen ihre Stimme abgegeben. P ≤ 30

hein: Mehr als 30% der registrierten Wähler in Santa Clara County haben bei den Vorwahlen ihre Stimme abgegeben. P > 30

Versuch es

Eine medizinische Studie wird durchgeführt, um zu testen, ob ein neues Medikament den Cholesterinspiegel um 25 % senkt. Geben Sie die Null- und die Alternativhypothese an.

h0 : Das Medikament reduziert den Cholesterinspiegel um 25 %. P = 0.25

hein : Das Medikament senkt den Cholesterinspiegel nicht um 25 %. P ≠ 0.25

Beispiel

Wir wollen testen, ob sich der durchschnittliche Notendurchschnitt der Studenten an amerikanischen Colleges von 2,0 (von 4,0) unterscheidet. Die Null- und Alternativhypothese sind:

Versuch es

Wir wollen testen, ob die Durchschnittsgröße von Achtklässlern 66 Zoll beträgt. Geben Sie die Null- und die Alternativhypothese an. Tragen Sie das richtige Symbol (=, ≠, ≥, <, ≤, >) für die Null- und Alternativhypothese ein. h0: μ __ 66 hein:μ __ 66

Beispiel

Wir wollen testen, ob College-Studenten im Durchschnitt weniger als fünf Jahre brauchen, um das College zu absolvieren. Die Null- und Alternativhypothese sind:

Versuch es

Wir wollen testen, ob es weniger als 45 Minuten dauert, einen Unterrichtsplan zu unterrichten. Geben Sie die Null- und die Alternativhypothese an. Geben Sie das richtige Symbol ( =, ≠, ≥, <, ≤, >) für die Null- und Alternativhypothese ein.
h0: μ __ 45 hein:μ __ 45

Beispiel

In einer Ausgabe von US-Nachrichten und Weltbericht, heißt es in einem Artikel über Schulstandards, dass etwa die Hälfte aller Schüler in Frankreich, Deutschland und Israel eine Einstufungsprüfung für Fortgeschrittene und ein drittes Bestehen ablegen. Derselbe Artikel besagte, dass 6,6% der US-Studenten fortgeschrittene Einstufungsprüfungen ablegen und 4,4% bestehen. Testen Sie, ob der Prozentsatz der US-Studenten, die Einstufungsprüfungen für Fortgeschrittene ablegen, mehr als 6,6 % beträgt. Geben Sie die Null- und die Alternativhypothese an.

Versuch es

Bei einer staatlichen Fahrerprüfung bestehen etwa 40 % den Test beim ersten Versuch. Wir wollen testen, ob mehr als 40% beim ersten Versuch bestehen. Tragen Sie das richtige Symbol (=, ≠, ≥, <, ≤, >) für die Null- und Alternativhypothese ein.
h0: P __ 0.40 hein: P __ 0.40


Arten von ANOVA

Von der einfachen Einweg-ANOVA bis hin zu Variationen für Sonderfälle, wie der Rang-ANOVA für nicht-kategoriale Variablen, gibt es eine Vielzahl von Ansätzen, um ANOVA für Ihre Datenanalyse zu verwenden. Hier ist eine Einführung in einige der gängigsten.

Was ist der Unterschied zwischen Einweg- und Zweiweg-ANOVA-Tests?

Dies wird dadurch definiert, wie viele unabhängige Variablen im ANOVA-Test enthalten sind. Einweg bedeutet, dass die Varianzanalyse eine unabhängige Variable hat. Bidirektional bedeutet, dass der Test zwei unabhängige Variablen hat. Ein Beispiel dafür kann die unabhängige Variable sein, die eine Getränkemarke ist (Einweg), oder unabhängige Variablen der Getränkemarke und wie viele Kalorien es hat oder ob es sich um ein Originalgetränk oder eine Diät handelt.

Faktorielle ANOVA

Faktorielle ANOVA ist ein Überbegriff, der ANOVA-Tests mit zwei oder mehr unabhängigen kategorialen Variablen abdeckt. (Eine bidirektionale ANOVA ist eigentlich eine Art faktorielle ANOVA.) Kategorisch bedeutet, dass die Variablen in nicht-hierarchischen Kategorien (wie Mountain Dew vs. Dr. Pepper) ausgedrückt werden, anstatt eine Rangskala oder einen numerischen Wert zu verwenden.

Welchs F-Test-ANOVA

Stats iQ empfiehlt einen nicht bewerteten Welch-F-Test, wenn mehrere Annahmen zu den Daten gelten:

  • Der Stichprobenumfang ist größer als das Zehnfache der Anzahl der Gruppen in der Berechnung (Gruppen mit nur einem Wert werden ausgeschlossen), und daher erfüllt der zentrale Grenzwertsatz die Anforderung an normalverteilte Daten.
  • Es gibt wenige oder keine Ausreißer in den kontinuierlichen/diskreten Daten.

Im Gegensatz zum etwas häufiger verwendeten F-Test für gleiche Varianzen geht der Welch-F-Test nicht davon aus, dass die Varianzen der verglichenen Gruppen gleich sind. Die Annahme gleicher Varianzen führt zu weniger genauen Ergebnissen, wenn die Varianzen tatsächlich nicht gleich sind, und die Ergebnisse sind sehr ähnlich, wenn die Varianzen tatsächlich gleich sind.

Rang ANOVA

Wenn Annahmen verletzt werden, ist die ANOVA ohne Rang möglicherweise nicht mehr gültig. In diesem Fall empfiehlt Stats iQ die geordnete ANOVA (auch „ANOVA für Ränge“ genannt). Stats iQ transformiert die Daten nach Rang (ersetzt die Werte durch ihre Rangordnung) und führt dann dieselbe ANOVA mit diesen transformierten Daten aus.

Die geordnete ANOVA ist robust gegenüber Ausreißern und nicht normalverteilten Daten. Die Rangtransformation ist eine etablierte Methode zum Schutz vor Annahmeverstößen (eine „nichtparametrische“ Methode) und wird am häufigsten in der Differenz zwischen der Pearson- und der Spearman-Korrelation gesehen. Die Rangtransformation mit anschließendem Welch-F-Test ähnelt in seiner Wirkung dem Kruskal-Wallis-Test.

Beachten Sie, dass die geordneten und nicht bewerteten ANOVA-Effektstärken (Cohens f) von Stats iQ unter Verwendung des F-Werts aus dem F-Test für gleiche Varianzen berechnet werden.

Spiele-Howell paarweiser Test

Stats iQ führt Games-Howell-Tests unabhängig vom Ergebnis des ANOVA-Tests durch (gemäß Zimmerman, 2010). Stats iQ zeigt paarweise Spiele-Howell-Tests ohne Rang oder Rang auf der Grundlage derselben Kriterien an, die für die Rangfolgen-ANOVA im Vergleich zur nicht eingestuften ANOVA verwendet werden.

Der Games-Howell ist im Wesentlichen ein t-Test für ungleiche Varianzen, der die erhöhte Wahrscheinlichkeit erklärt, zufällig statistisch signifikante Ergebnisse zu finden, wenn viele paarweise Tests durchgeführt werden. Im Gegensatz zum etwas häufiger verwendeten Tukey-B-Test geht der Games-Howell-Test nicht davon aus, dass die Varianzen der verglichenen Gruppen gleich sind. Die Annahme gleicher Varianzen führt zu weniger genauen Ergebnissen, wenn die Varianzen tatsächlich nicht gleich sind, und die Ergebnisse sind sehr ähnlich, wenn die Varianzen tatsächlich gleich sind (Howell, 2012).

Beachten Sie, dass während der nicht bewertete paarweise Test auf die Gleichheit der Mittelwerte der beiden Gruppen prüft, der bewertete paarweise Test nicht explizit auf Unterschiede zwischen den Mittelwerten oder Medianen der Gruppen prüft. Vielmehr wird geprüft, ob eine allgemeine Tendenz einer Gruppe größer ist als die der anderen.

Außerdem zeigt Stats iQ zwar keine Ergebnisse von paarweisen Tests für eine Gruppe mit weniger als vier Werten an, diese Gruppen werden jedoch in die Berechnung der Freiheitsgrade für die anderen paarweisen Tests einbezogen.


T-Test für gepaarte Stichproben: Definition, Formel und Beispiel

EIN gepaarte Stichproben t-test wird verwendet, um die Mittelwerte zweier Stichproben zu vergleichen, wenn jede Beobachtung in einer Stichprobe mit einer Beobachtung in der anderen Stichprobe gepaart werden kann.

Dieses Tutorial erklärt Folgendes:

  • Die Motivation zur Durchführung eines t-Tests mit gepaarten Stichproben.
  • Die Formel zum Durchführen eines t-Tests mit gepaarten Stichproben.
  • Die Annahmen, die erfüllt sein sollten, um einen t-Test mit gepaarten Stichproben durchzuführen.
  • Ein Beispiel für die Durchführung eines t-Tests mit gepaarten Stichproben.

T-Test mit gepaarten Stichproben: Motivation

Ein t-Test mit gepaarten Stichproben wird häufig in zwei Szenarien verwendet:

1. Eine Messung wird an einer Person vor und nach einer Behandlung durchgeführt – z.B. Der maximale vertikale Sprung von College-Basketballspielern wird vor und nach der Teilnahme an einem Trainingsprogramm gemessen.

2. Eine Messung wird unter zwei verschiedenen Bedingungen durchgeführt – z.B. die Reaktionszeit eines Patienten wird auf zwei verschiedene Medikamente gemessen.

In beiden Fällen sind wir daran interessiert, den Mittelwert zwischen zwei Gruppen zu vergleichen, in denen jede Beobachtung in einer Stichprobe mit einer Beobachtung in der anderen Stichprobe gepaart werden kann.

T-Test für gepaarte Stichproben: Formel

Ein t-Test mit gepaarten Stichproben verwendet immer die folgende Nullhypothese:

Die Alternativhypothese kann entweder zweiseitig, linksseitig oder rechtsseitig sein:

  • h1 (zweiseitig): μ1 μ2 (die Mittelwerte der beiden Grundgesamtheiten sind nicht gleich)
  • h1 (linksseitig): μ1 < μ2 (Der Mittelwert von Bevölkerung 1 ist kleiner als der Mittelwert von Bevölkerung 2)
  • h1 (rechtsseitig): μ1> μ2 (Der Mittelwert von Population 1 ist größer als der Mittelwert von Population 2)

Wir verwenden die folgende Formel, um die Teststatistik t zu berechnen:

  • x unterschied: Stichprobenmittelwert der Differenzen
  • S: Stichprobenstandardabweichung der Differenzen
  • n: Stichprobengröße (d. h. Anzahl der Paare)

Wenn der p-Wert, der der Teststatistik t mit (n-1) Freiheitsgraden entspricht, kleiner als Ihr gewähltes Signifikanzniveau ist (übliche Auswahlmöglichkeiten sind 0,10, 0,05 und 0,01), können Sie die Nullhypothese ablehnen.

T-Test für gepaarte Stichproben: Annahmen

Damit die Ergebnisse eines t-Tests mit gepaarten Stichproben gültig sind, sollten die folgenden Annahmen erfüllt sein:

  • Die Teilnehmer sollten zufällig aus der Bevölkerung ausgewählt werden.
  • Die Differenzen zwischen den Paaren sollten ungefähr normalverteilt sein.
  • Die Unterschiede sollten keine extremen Ausreißer aufweisen.

Gepaart Proben t-test : Beispiel

Angenommen, wir möchten wissen, ob ein bestimmtes Trainingsprogramm in der Lage ist, den maximalen vertikalen Sprung (in Zoll) von College-Basketballspielern zu erhöhen.

Um dies zu testen, können wir eine einfache Zufallsstichprobe von 20 College-Basketballspielern rekrutieren und jeden ihrer maximalen vertikalen Sprünge messen. Dann können wir jeden Spieler einen Monat lang das Trainingsprogramm verwenden lassen und dann am Ende des Monats erneut seinen maximalen vertikalen Sprung messen.

Um zu bestimmen, ob das Trainingsprogramm tatsächlich einen Effekt auf den maximalen vertikalen Sprung hatte oder nicht, führen wir einen t-Test mit gepaarten Stichproben auf dem Signifikanzniveau α = 0,05 mit den folgenden Schritten durch:

Schritt 1: Berechnen Sie die Summendaten für die Unterschiede.

  • x unterschied: Stichprobenmittelwert der Differenzen = -0.95
  • S: Stichprobenstandardabweichung der Differenzen = 1.317
  • n: Stichprobengröße (d. h. Anzahl der Paare) = 20

Schritt 2: Definieren Sie die Hypothesen.

Wir werden den t-Test mit gepaarten Stichproben mit den folgenden Hypothesen durchführen:

  • h0: μ1 = μ2 (die Mittelwerte der beiden Grundgesamtheiten sind gleich)
  • h1: μ1 μ2 (die Mittelwerte der beiden Grundgesamtheiten sind nicht gleich)

Schritt 3: Berechnen Sie die Teststatistik T.

t = x unterschied / (Sunterschied/√n) = -0.95 / (1.317/20) = -3.226

Schritt 4: Berechnen Sie den p-Wert der Teststatistik T.

Gemäß dem T-Score-zu-P-Wert-Rechner ist der p-Wert, der mit t = -3,226 und Freiheitsgraden = n-1 = 20-1 = 19 verbunden ist, 0.00445.

Schritt 5: Ziehen Sie eine Schlussfolgerung.

Da dieser p-Wert kleiner als unser Signifikanzniveau α = 0,05 ist, lehnen wir die Nullhypothese ab. Wir haben genügend Beweise dafür, dass der mittlere maximale vertikale Sprung der Spieler vor und nach der Teilnahme am Trainingsprogramm unterschiedlich ist.

Notiz: Sie können diesen gesamten t-Test für gepaarte Stichproben auch durchführen, indem Sie einfach den t-Test-Rechner für gepaarte Stichproben verwenden.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie Sie einen t-Test mit gepaarten Stichproben mit verschiedenen Statistikprogrammen durchführen:


Finden Sie kostenlose öffentliche Datensätze für Ihr Data Science-Projekt

Der Abschluss Ihres ersten Data Science-Projekts ist ein wichtiger Meilenstein auf dem Weg zum Data Scientist und hilft sowohl Ihre Fähigkeiten zu stärken als auch etwas zu bieten, das Sie während des Interviewprozesses diskutieren können. Es ist auch ein einschüchternder Prozess. Der erste Schritt besteht darin, einen geeigneten, interessanten Data-Science-Datensatz zu finden. Sie sollten entscheiden, wie groß und unordentlich ein Dataset Sie arbeiten möchten, während die Bereinigung von Daten ein wesentlicher Bestandteil der Data Science ist die Daten bereinigen.

Basierend auf den Erkenntnissen aus unserem Einführungskurs in Data Science und dem Data Science Career Track haben wir Datensätze unterschiedlicher Art und Komplexität ausgewählt, die unserer Meinung nach gut für erste Projekte geeignet sind (einige davon funktionieren auch für Forschungsprojekte!). Diese Datensätze decken eine Vielzahl von Quellen ab: demografische Daten, Wirtschaftsdaten, Textdaten und Unternehmensdaten.

Haben Sie sich jemals gefragt, was ein Data Scientist wirklich macht? Sehen Sie sich den umfassenden Leitfaden von Springboard zur Datenwissenschaft an. Wir bringen dir alles bei, was du wissen musst, um Data Scientist zu werden, vom Studium über die grundlegenden Fähigkeiten bis hin zum Gehaltsleitfaden und mehr!

1. Volkszählungsdaten der Vereinigten Staaten

Das US Census Bureau veröffentlicht unzählige demografische Daten auf Bundesstaat-, Stadt- und sogar Postleitzahlenebene. Es ist ein fantastischer Datensatz für Studenten, die daran interessiert sind, geographische Datenvisualisierungen zu erstellen, und kann auf der Website des Census Bureau abgerufen werden. Alternativ kann auf die Daten über eine API zugegriffen werden. Eine bequeme Möglichkeit, diese API zu verwenden, ist die Verwendung von choroplethr. Im Allgemeinen sind diese Daten sehr sauber, sehr umfassend und nuanciert und eine gute Wahl für Datenvisualisierungsprojekte, da Sie sie nicht manuell bereinigen müssen.

2. FBI-Kriminalitätsdaten

Die Kriminalitätsdaten des FBI sind faszinierend und einer der interessantesten Datensätze auf dieser Liste. Wenn Sie Zeitreihendaten analysieren möchten, können Sie damit Veränderungen der Kriminalitätsraten auf nationaler Ebene über einen Zeitraum von 20 Jahren darstellen . Alternativ können Sie die Daten auch geografisch betrachten.

3. CDC-Todesursache

Die Centers for Disease Control and Prevention unterhält eine Datenbank zur Todesursache. Die Daten können auf fast jede erdenkliche Weise segmentiert werden: Alter, Rasse, Jahr und so weiter. Da es sich um einen so großen Datensatz handelt, ist er gut für Datenverarbeitungsprojekte zu verwenden.

4. Qualität des Medicare-Krankenhauses

Die Centers for Medicare & Medicaid Services unterhalten eine Datenbank zur Versorgungsqualität in mehr als 4.000 Medicare-zertifizierten Krankenhäusern in den USA, die interessante Vergleiche ermöglicht. Da diese Daten auf mehrere Dateien verteilt sind und einige Recherchen erforderlich sind, um sie vollständig zu verstehen, könnte dies ein gutes Datenbereinigungsprojekt sein.

5. SEER-Krebsinzidenz

Die US-Regierung verfügt auch über Daten zur Krebsinzidenz, die wiederum nach Alter, Rasse, Geschlecht, Jahr und anderen Faktoren segmentiert sind. Es stammt aus dem Surveillance, Epidemiology, and End Results Program des National Cancer Institute. Die Daten reichen bis ins Jahr 1975 zurück und verfügen über 18 Datenbanken, sodass Sie viele Analysemöglichkeiten haben.

6. Büro für Arbeitsstatistik

Viele wichtige Wirtschaftsindikatoren für die Vereinigten Staaten (wie Arbeitslosigkeit und Inflation) finden Sie auf der Website des Bureau of Labor Statistics . Die meisten Daten können sowohl nach Zeit als auch nach Geografie segmentiert werden. Dieser große Datensatz kann für Datenverarbeitungs- und Datenvisualisierungsprojekte verwendet werden.

7. Büro für Wirtschaftsanalyse

Das Bureau of Economic Analysis verfügt auch über nationale und regionale Wirtschaftsdaten, einschließlich des Bruttoinlandsprodukts und der Wechselkurse. Es gibt eine große Bandbreite in den verschiedenen Datengruppen, die hier gefunden werden – Sie können nach Orten, Wirtschaftsrechnungen und Themen suchen – und diese Gruppen sind durchweg in noch kleinere Untergruppen organisiert.

8. Wirtschaftsdaten des IWF

Zugriff auf globale Finanzstatistiken und andere Daten finden Sie auf der Website des Internationalen Währungsfonds. Es gibt hier einige verschiedene Sets, sodass Sie sie für eine Vielzahl von Projekten wie Visualisierung oder sogar Reinigung verwenden können.

9. Dow Jones Wöchentliche Rückgabe

Die Vorhersage von Aktienkursen ist eine wichtige Anwendung der Datenanalyse und des maschinellen Lernens. Ein relevanter Datensatz, den es zu untersuchen gilt, sind die wöchentlichen Renditen des Dow Jones Index vom Center for Machine Learning and Intelligent Systems an der University of California, Irvine. Dies ist eines der Sets, das speziell für Machine-Learning-Projekte entwickelt wurde.

10. Data.gov.uk

Das offizielle Datenportal der britischen Regierung bietet Zugriff auf Zehntausende von Datensätzen zu Themen wie Kriminalität, Bildung, Verkehr und Gesundheit. Da es sich um eine offene Datenquelle mit Millionen von Einträgen handelt, können Sie die Datenbereinigung über verschiedene Gruppierungen hinweg üben.

11. Enron-E-Mails

Nach dem Zusammenbruch von Enron wurde ein kostenloser Datensatz von rund 500.000 E-Mails mit Nachrichtentext und Metadaten veröffentlicht. Der Datensatz ist mittlerweile berühmt und bietet ein hervorragendes Testgelände für textbezogene Analysen. Sie können auf der Seite auch andere Forschungsanwendungen dieses Datensatzes erkunden.

12. Google Books-Ngrams

Wenn Sie an wirklich massiven Daten interessiert sind, zählt der Ngram-Viewer-Datensatz die Häufigkeit von Wörtern und Phrasen pro Jahr in einer Vielzahl von Textquellen. Die resultierende Datei ist 2,2 TB groß! Dies mag für ein Visualisierungsprojekt schwierig zu verwenden sein, es ist jedoch ein hervorragender Datensatz für die Bereinigung, da er nuanciert ist und zusätzliche Forschung erfordert.

13. UNICEF

Wenn Daten über das Leben von Kindern auf der ganzen Welt von Interesse sind, ist UNICEF die glaubwürdigste Quelle. Die öffentlichen Datensätze der Organisation berühren unter anderem Ernährung, Impfung und Bildung, was eine großartige Ressource für Visualisierungsprojekte darstellt.

14. Reddit-Kommentare

Reddit hat einen wirklich interessanten Datensatz von jedem Kommentar veröffentlicht, der jemals auf der Website gemacht wurde. Es sind über ein Terabyte an unkomprimierten Daten. Wenn Sie also einen kleineren Datensatz für die Arbeit mit Kaggle wünschen, hat Kaggle die Kommentare vom Mai 2015 auf ihrer Website gehostet.

15. Wikipedia

Wikipedia bietet Anleitungen zum Herunterladen des Textes englischsprachiger Artikel, zusätzlich zu anderen Projekten der Wikimedia Foundation. Der Wikipedia-Datenbank-Download ist zum Spiegeln und für den persönlichen Gebrauch verfügbar und verfügt sogar über eine eigene Open-Source-Anwendung, mit der Sie die gesamte Wikipedia auf Ihren Computer herunterladen können, sodass Sie unbegrenzte Möglichkeiten zum Bearbeiten und Bereinigen von Projekten haben.

16. Leihclub

Der Lending Club stellt Daten über abgelehnte Kreditanträge sowie die Leistung der von ihm vergebenen Kredite zur Verfügung. Der kostenlose Datensatz eignet sich sowohl für Kategorisierungstechniken (falls ein bestimmter Kredit ausfällt) als auch für Regressionen (wie viel bei einem bestimmten Kredit zurückgezahlt wird).

17. Walmart

Walmart hat historische Verkaufsdaten für 45 Geschäfte in verschiedenen Regionen der USA veröffentlicht. Dies bietet eine riesige Menge an Daten zum Lesen und Analysieren und viele verschiedene Fragen, die Sie dazu stellen können – eine solide Ressource für Datenverarbeitungsprojekte.

18. Airbnb

Inside Airbnb bietet verschiedene Datensätze zu Airbnb-Angeboten in Dutzenden von Städten auf der ganzen Welt. Dieser Datensatz eignet sich aufgrund seiner Spezifität für die Reisebranche hervorragend zum Üben Ihrer Visualisierungsfähigkeiten.

19. Yelp

Yelp unterhält einen kostenlosen Datensatz zur Verwendung für persönliche, pädagogische und akademische Zwecke. Es enthält 6 Millionen Bewertungen von 189.000 Unternehmen in 10 Metropolregionen. Studenten sind herzlich eingeladen, an der Dataset-Challenge von Yelp teilzunehmen, die Ihnen einige Optionen und einen zusätzlichen Anreiz für verschiedene Arten von Datenprojekten bietet.

20. Google Trends-Daten

Google hat einen der interessantesten Datensätze zu analysieren. Während wir in diesem Beispiel „E-Learning“ verwenden, können Sie verschiedene Suchbegriffe untersuchen und bis ins Jahr 2004 zurückgehen. Alles, was Sie tun müssen, ist den Datensatz in eine CSV-Datei herunterzuladen, um die Daten außerhalb von Google Trends zu analysieren Website. Sie können Daten zu Interessenstufen für einen bestimmten Suchbegriff, Interesse nach Standort, verwandten Themen, Kategorien, Suchtypen (Video, Bilder usw.) und mehr herunterladen! Google listet auch eine große Sammlung öffentlich verfügbarer Datensätze im Google Public Data Explorer auf. Schau es dir unbedingt an!

21. Welthandelsorganisation

Für Studenten, die durch Analyse lernen möchten, bietet die Welthandelsorganisation viele Datensätze zum Herunterladen an, die Studenten Einblicke in Handelsströme und Vorhersagen geben. Diejenigen mit einem Händchen für Geschäftseinblicke werden diesen Datensatz besonders schätzen, da er unzählige Möglichkeiten bietet, nicht nur in die Datenwissenschaft einzusteigen, sondern auch Ihr Verständnis der Handelsbranche zu vertiefen.

22. Internationaler Währungsfonds

Auf dieser Website stehen mehrere kostenlose Excel-Datensätze zu verschiedenen wichtigen Wirtschaftsindikatoren zum Download bereit. Vom Bruttoinlandsprodukt (BIP) zur Inflation. Die Daten aus mehreren Dateien zu nehmen und sie für Klarheit und Muster zu verdichten, ist eine ausgezeichnete (und zufriedenstellende!) Möglichkeit, die Datenbereinigung zu üben.

23. Offene Daten der US-Energieinformationsbehörde

Diese Quelle verfügt über kostenlose und offene Daten, die in der Bulk-Datei, in Excel über das Add-In, in Google Sheets über ein Add-On und über Widgets verfügbar sind, die interaktive Datenvisualisierungen von UVP-Daten auf jeder Website einbetten. Die Website weist auch darauf hin, dass die UVP-Daten in maschinenlesbaren Formaten verfügbar sind, was sie zu einer großartigen Ressource für maschinelle Lernprojekte macht.

24. TensorFlow-Bilddatensatz: CelebA

Zum Üben mit maschinellem Lernen benötigen Sie einen speziellen Datensatz wie TensorFlow. Die TensorFlow-Bibliothek enthält alle Arten von Tools, Modellen und Anleitungen für maschinelles Lernen zusammen mit ihren Datensätzen. CelebA ist ein extrem großes, öffentlich zugängliches Online-Format und enthält über 200.000 Bilder von Prominenten.

25. TensorFlow-Textdatensatz

Ein weiteres TensorFlow-Set ist C4: Common Crawl’s Web Crawl Corpus . Dieses in mehr als 40 Sprachen verfügbare Open-Source-Repository für Webseitendaten umfasst Daten aus sieben Jahren und ist damit eine hervorragende Ressource für die Praxis von maschinellen Lerndatensätzen.

26. Unsere Welt in Daten

Unsere Welt in Daten ist eine interessante Fallstudie zu Open Data. Sie können nicht nur die zugrunde liegenden öffentlichen Datensätze finden, sondern es werden bereits Visualisierungen präsentiert, um die Daten zu spleißen. Die Site befasst sich hauptsächlich mit groß angelegten Ländervergleichen zu wichtigen statistischen Trends, von der Alphabetisierungsrate bis zum wirtschaftlichen Fortschritt.

27. Krypto-Daten-Download

Möchten Sie einen Einblick in die Entstehung von Kryptowährungen erhalten? Cryptodatadownload bietet kostenlose öffentliche Datensätze von Kryptowährungsbörsen und historische Daten, die den Austausch und die Preise von Kryptowährungen verfolgen. Verwenden Sie es, um historische Analysen durchzuführen oder versuchen Sie, es zusammenzusetzen, wenn Sie den Wahnsinn vorhersagen können.

28. Kaggle-Daten

Kaggle-Datensätze sind eine Ansammlung von von Nutzern eingereichten und kuratierten Datensätzen . It’s a bit like Reddit for datasets, with rich tooling to get started with different datasets, comment, and upvote functionality, as well as a view on which projects are already being worked on in Kaggle. A great all-around resource for a variety of open datasets across many domains.

29. Github Collection (Open Data)

GitHub is the central hub of open data and open-source code. With different open datasets that are hosted on GitHub itself (including data on every member of Congress from 1789 onwards and data on food inspections in Chicago), this collection lets you get familiar with Github and the vast amount of open data that resides on it.

30. Github (Awesome Public Data sets)

The Awesome collection of repositories on Github is a user-contributed collection of resources. In this case, the repository contains a variety of open data sources categorized across different domains. Use this resource to find different open datasets—and contribute back to it if you can.

31. Microsoft Azure Open Datasets

Microsoft Azure is the cloud solution provided by Microsoft: they have a variety of open public data sets that are connected to their Azure services. You can access featured datasets on everything from weather to satellite imagery.

32. Google BigQuery Datasets

Google BigQuery is Google’s cloud solution for processing large datasets in a SQL-like manner. You can have a preview of these very large public data sets with the subreddit Wiki dedicated to BigQuery with everything from very rich data from Wikipedia, to datasets dedicated to cancer genomics.

33. SafeGraph Data

SafeGraph is a popular source for all things location data. While their data is not free to everyone, academics can download the data for free for locations in the U.S., Canada, and the UK via the SafeGraph Shop.

This data is great for economists, social scientists, public health researchers, and anyone who is interested in knowing where a location is and how people move between these locations. It seems to be popular since SafeGraph data has been used in over 600 academic papers.

Is data science the right career for you?

Springboard offers a comprehensive data science bootcamp. You’ll work with a one-on-one mentor to learn about data science, data wrangling, machine learning, and Python—and finish it all off with a portfolio-worthy capstone project.

Not quite ready to dive into a data science bootcamp?

Springboard now offers a Data Science Prep Course, where you can learn the foundational coding and statistics skills needed to start your career in data science.



Bemerkungen:

  1. Hanbal

    Es gibt noch mehr Fehler

  2. Meztigor

    Sehr guter und hilfreicher Beitrag.Ich selbst habe kürzlich das Internet nach diesem Thema und alle damit verbundenen Diskussionen gesucht.

  3. Donavon

    cool))) gute Entschuldigung))))

  4. Grotaxe

    Ich kann jetzt nicht an der Diskussion teilnehmen - es gibt keine Freizeit. Aber ich werde bald notwendigerweise schreiben, denke ich.

  5. Tulkis

    Ein unvergleichliches Thema, ich bin sehr interessiert :)

  6. Khuzaymah

    An diesem Tag wie absichtlich

  7. Acey

    Darin liegt etwas. Früher dachte ich anders, danke für die Hilfe in dieser Angelegenheit.

  8. Abrecan

    Wenn dies kein großes Geheimnis ist;), woher kommt der Autor des Blogs?



Eine Nachricht schreiben