Information

Warum folgt die Anzahl der Mutationen pro Individuum einer Poisson-Verteilung?

Warum folgt die Anzahl der Mutationen pro Individuum einer Poisson-Verteilung?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe diese Rezension gelesen. Auf Seite 11, linke Spalte, erster Absatz, ist zu lesen:

[…] gibt es eine Poisson-Verteilung der Gleichgewichtszahl von Mutationen pro Individuum, wenn Fitnesseffekte multiplikativ sind.

ohne weitere Erläuterungen. Mit anderen Worten, die Variable $X$ sei die Anzahl der (schädlichen) Mutationen, die in einem Individuum gefunden wurden (unabhängig davon, ob die Mutation in den Gonaden der Eltern aufgetreten ist oder in der Abstammung älter ist). Die Variable $X$ ist Poisson-verteilt.

Warum ist diese Aussage wahr? Ich nehme an, dass die Aussage auch davon ausgeht, dass alle Mutationen die gleiche Wirkung auf die Fitness haben, ist das wahr?


Ein Poisson-Prozess folgt diesen Postulaten:

  1. $limlimits_{h o0+}frac{P(N_h=1)}h=lambda$
    d.h. die Eintrittswahrscheinlichkeit eines Ereignisses in einem sehr kleinen Zeitintervall ist gleich der makroskopischen Rate oder Intensität ($lambda,$).
  2. $P(N_hgeqslant2)=o(h)$
    d.h. die Wahrscheinlichkeit des Auftretens von mehr als einem Ereignis in einem infinitesimalen Intervall ist im Wesentlichen null.
  3. Veranstaltungen sind unabhängig.

Wenn Sie ein einzelnes Individuum betrachten (der Einfachheit halber eine einzelne Zelle annehmen), dann durchläuft die DNA Mutationen mit einer bestimmten Rate (von der wir annehmen, dass sie für alle Loci einheitlich ist). Jetzt ist jedes Mutationsereignis unabhängig vom vorherigen Ereignis und in einem sehr kleinen Zeitintervall ist die Wahrscheinlichkeit von zwei oder mehr Mutationen vernachlässigbar. Unter Berücksichtigung all dieser Tatsachen und Annahmen kann man sagen, dass sich die Mutation in einer einzelnen Zelle wie ein Poisson-Prozess verhalten würde.

Aus den Poisson-Postulaten können Sie den Ausdruck für die Poisson-Verteilung ableiten, der die Wahrscheinlichkeit von $k$ Ereignissen in einem gegebenen Zeitintervall, $t$, beschreibt. Daher folgt die Anzahl der Mutationen in einem Individuum für ein festes Zeitfenster ($t,$) einer Poisson-Verteilung.

$$P(N=k)=frac{(lambda t)^k e^{-lambda t}}{k!}$$

Sie können die Ableitung der Poisson-Verteilung aus den Postulaten aus vielen Quellen finden. Ich habe auf dieses Buch verwiesen:

Hogg, Robert V. und Allen T. Craig. Einführung in die mathematische Statistik. New York: Macmillan, 1978.

BEARBEITEN

Die Wirkung schädlicher Mutationen spricht im erwähnten Abschnitt des verlinkten Artikels über die Muller-Ratsche, die die Anhäufung schädlicher Mutationen und ihre Auswirkungen auf die Population (d. h. Extinktion) beschreibt. Wie jedes Mutationsereignis folgt auch die Akkumulation schädlicher Mutationen der Poisson-Verteilung. Mullers Ratsche sagt nur, dass schädliche Mutationen jenseits einer Toleranzgrenze zum Aussterben von sich ungeschlechtlich fortpflanzenden Organismen führen. Wenn jede schädliche Mutation einen starken Einfluss auf die Fitness hätte, könnte die Stichprobe aus der Population möglicherweise zu nicht-poissonschen Schätzungen führen.


Denn es ist eine Folge der funktionalen Form der Poisson-Verteilung, dass Mittelwert und Varianz gleich sind. Wenn diese Bedingung nicht erfüllt ist, ist das Modell unzureichend und es können Alternativen in Betracht gezogen werden, wie z. B. die negative binomiale Regression (dies wird als Überdispersion bezeichnet). Sehen:

Um dies zu sehen, betrachten wir die Anzahl der Unfälle für eine bestimmte Straßencharakteristik. Nehmen wir an, diese Zahl folgt einer Poisson-Verteilung mit einem Mittelwert von $mu$. Dieser Mittelwert gilt für eine bestimmte Anzahl gefahrener Kilometer, also führen wir die Rate $lambda$ ein, sagen wir 1 Crash pro km und die Gesamtzahl der gefahrenen km $T$. Eine Annahme der Poisson-Verteilung ist, dass die Geschwindigkeit über die gesamte gefahrene Strecke konstant bleibt, folglich gilt $mu=T imes lambda.$

Wir unterteilen die gefahrenen Kilometer in winzige $N$ kurze Intervalle der Größe $h$, die so kurz sind, dass jedes Teilintervall höchstens einen Crash enthält. Nun, die Wahrscheinlichkeit, dass Sie in diesem winzigen Intervall einen Crash sehen, ist wie das Werfen einer Münze. Wir bezeichnen diese Wahrscheinlichkeit als $p$. Dies ist als Bernoulli-Verteilung bekannt und wir nehmen an, dass die Varianz $p imes (1 - p)$ beträgt. Auf der anderen Seite haben wir zuvor gelernt, dass die Rate $lambda$ konstant ist, so dass wir erwarten, in diesem Teilintervall $lambda imes h$ Ereignis zu sehen, d. h. $p=lambda imes h$.

Wenn wir nun annehmen, dass die Wahrscheinlichkeit, in diesem winzigen Teilintervall einen Absturz zu sehen, extrem gering ist, dann nähert sich $1 - p$ 1 (z. B. $h= ext<1 Meter>$). Wir haben zuvor gelernt, dass die Varianz für die Bernoulli-Verteilung $p imes (1-p)$ ist und wenn $p$ extrem niedrig ist, dann $p imes (1-p) simeq p=lambda imes h.$ Dies ist sehr interessant, da wir gerade gezeigt haben, dass sowohl Mittelwert als auch Varianz in diesem winzigen Teilintervall gleich $lambda imes h$ sind.

Wenn Sie diesen Ansatz auf $n$ aufeinanderfolgende Intervalle erweitern (wie etwa $n$ Münzen werfen), erhalten Sie eine sogenannte Binomialverteilung und in diesem Fall ist der Mittelwert $np$ und die Varianz $np(1-p )simeq np$ wenn $p$ klein ist. Um es auf den Punkt zu bringen: Für $N$ aufeinanderfolgende Intervalle der Größe $h$ mit extrem niedrigem $p$ sind Mittelwert und Varianz gleich.

In der Praxis ist dies in Beobachtungsstudien in der Regel nicht der Fall. Der Grund dafür ist, dass wir nicht alle Faktoren für die Heterogenität in der Studie berücksichtigen können. Beispielsweise kann die durchschnittliche Anzahl von Unfällen tagsüber und nachts unterschiedlich sein. Würden wir jedoch beide aggregieren, ohne die verschiedenen Faktoren zu berücksichtigen, könnte die Grenzvarianz größer werden als erwartet. Dies wird als Überdispersion bezeichnet.


5 Antworten 5

Ich werde die folgende Notation verwenden, um so konsistent wie möglich mit dem Wiki zu sein (falls Sie zwischen meiner Antwort und den Wiki-Definitionen für das Poisson und Exponential hin und her wechseln möchten.)

$N_t$: die Anzahl der Ankünfte während des Zeitraums $t$

$X_t$: Die Zeit, die für eine weitere Ankunft benötigt wird, vorausgesetzt, dass jemand zum Zeitpunkt $t$ . angekommen ist

Per Definition sind die folgenden Bedingungen äquivalent:

Das Ereignis auf der linken Seite erfasst das Ereignis, dass im Zeitintervall $[t,t+x]$ niemand angekommen ist, was bedeutet, dass unsere Anzahl der Ankünfte zum Zeitpunkt $t+x$ mit der Anzahl zum Zeitpunkt identisch ist $t$, das ist das Ereignis auf der rechten Seite.

Nach der Komplementregel gilt auch:

Unter Verwendung der Äquivalenz der beiden oben beschriebenen Ereignisse können wir das Obige wie folgt umschreiben:

$P(X_t lex) = 1 - P(N_ - N_t = 0)$

Mit dem Poisson pmf vereinfacht sich das Obige, wobei $lambda$ die durchschnittliche Anzahl der Ankünfte pro Zeiteinheit und $x$ eine Menge von Zeiteinheiten ist, zu:

Einsetzen in unsere ursprüngliche Gleichung haben wir:

Das obige ist die cdf eines exponentiellen pdf.

Bei einem Poisson-Prozess treten Treffer zufällig unabhängig von der Vergangenheit auf, jedoch mit einer bekannten langfristigen Durchschnittsrate von $lambda$ an Treffern pro Zeiteinheit. Mit der Poisson-Verteilung können wir die Wahrscheinlichkeit ermitteln, eine bestimmte Anzahl von Treffern zu erhalten.

Anstatt die Anzahl der Treffer zu betrachten, betrachten wir nun die Zufallsvariable $L$ (für Lifetime), die Zeit, die Sie auf den ersten Treffer warten müssen.

Die Wahrscheinlichkeit, dass die Wartezeit länger als ein vorgegebener Zeitwert ist, ist $P(L gt t) = P( ext)=frac><0!>=e^<-lambda t>$ (nach der Poisson-Verteilung, wobei $Lambda = lambda t$ ).

$P(L le t) = 1 - e^<-lambda t>$ (die kumulative Verteilungsfunktion). Wir können die Dichtefunktion erhalten, indem wir die Ableitung davon bilden:

Jede Zufallsvariable mit einer solchen Dichtefunktion heißt exponentiell verteilt.

Die anderen Antworten erklären die Mathematik gut. Ich denke, es hilft, ein physikalisches Beispiel zu betrachten. Wenn ich an einen Poisson-Prozess denke, komme ich immer wieder auf die Idee zurück, dass Autos auf einer Straße vorbeifahren. Lambda ist die durchschnittliche Anzahl von Autos, die pro Zeiteinheit passieren, sagen wir 60/Stunde (Lambda = 60). Wir wissen jedoch, dass die tatsächliche Zahl variieren wird - an manchen Tagen mehr, an manchen Tagen weniger. Mit der Poisson-Verteilung können wir diese Variabilität modellieren.

Heute entsprechen durchschnittlich 60 Autos pro Stunde durchschnittlich 1 Auto pro Minute. Aber auch hier wissen wir, dass die Zeit zwischen den Ankünften variieren wird: Manchmal mehr als 1 Minute, manchmal weniger. Die Exponentialverteilung ermöglicht es uns, diese Variabilität zu modellieren.

Abgesehen davon folgen Autos, die auf einer Straße vorbeifahren, nicht immer einem Poisson-Prozess. Wenn zum Beispiel eine Ampel gleich um die Ecke ist, werden die Ankünfte gebündelt anstatt konstant. Auf einer offenen Autobahn kann ein langsamer Sattelzug eine lange Reihe von Autos aufhalten, was wiederum zu Staus führt. In diesen Fällen funktioniert die Poisson-Verteilung möglicherweise noch über längere Zeiträume, aber die Exponentialfunktion wird bei der Modellierung der Ankunftszeiten stark versagen.

Beachten Sie auch, dass es je nach Tageszeit große Unterschiede gibt: während der Pendelzeiten viel langsamer um 3 Uhr morgens. Stellen Sie sicher, dass Ihr Lambda den spezifischen Zeitraum widerspiegelt, den Sie in Betracht ziehen.


Methoden

Das Model

Wir betrachten eine endliche, streng asexuelle haploide Population (mit konstanter Populationsgröße n), die 10 Subpopulationen umfasst, von denen jede N/10 Individuen und eine andere Mutationsrate, wobei alles andere gleich ist. Der Grundgedanke der Methode ist, dass diese Subpopulationen unter natürlicher Selektion und zufälliger Drift um ihre Existenz konkurrieren. Am Ende einer Simulation bleibt nur eine Subpopulation übrig und der Rest ist ausgestorben. Die Mutationsrate der verbleibenden Population wird in dieser Konkurrenz zur "festen" Mutationsrate. Durch viele Simulationen des Prozesses können wir die am häufigsten festgestellte Mutationsrate als die „optimale“ Mutationsrate definieren.

Jeder der zehn Subpopulationen wird eine eindeutige Mutationsrate pro Genom pro Generation zugeordnet (siehe Parameter). Sowohl schädliche als auch nützliche Mutationen treten in jeder Subpopulation auf, wobei Fraktionen für nützliche und schädliche Mutationen dargestellt werden durch P B und P D (d. h. 1- P B ), bzw. Die Wirkungen (Selektionskoeffizienten) von sowohl nützlichen als auch schädlichen Mutationen werden aus kontinuierlichen Wahrscheinlichkeitsverteilungen gezogen. Wir bezeichnen S B als die Auswirkungen von nützlichen Mutationen (in diesem Fall Fitness w wird um den Faktor 1+ . erhöht S B ), während S D stellt die Auswirkungen schädlicher Mutationen dar (in diesem Fall Fitness w wird um den Faktor 1 verringert- S D )[21].

Wir nehmen an, dass S B folgt einer Exponentialverteilung: f ( s b , λ ) = λ e − λ s b mit 1/λ als Mittelwert der Verteilung. Diese Annahme hat eine gute theoretische Unterstützung durch die Extremwerttheorie und wird häufig in Populationsgenetikmodellen verwendet [22–24]. Die Auswirkungen schädlicher Mutationen können komplex sein und es gibt noch keine allgemeine Annahme über die Verteilung von S D in analytischen Berechnungen stützen empirische Studien jedoch eine Gammaverteilung mit einem Formparameter kleiner als eins (andere Verteilungen werden nicht unbedingt ausgeschlossen)[25, 26]. In der vorliegenden Studie gehen wir davon aus, dass S D folgt einer schiefen Gammaverteilung f ( s d , α , β ) = s d α − 1 e − s d / β / ( β α Γ ( α ) ) (α≤1). Die in unseren Simulationen verwendete Gammaverteilung wird mit dem Wert 1.0 abgeschnitten, was notwendig ist, um eine negative Fitness zu vermeiden. Darüber hinaus gehen wir davon aus, dass die mittleren Effekte nützlicher Mutationen ( s b ¯ ) viel geringer sind als die mittleren Effekte schädlicher ( s d ¯ ), was in den meisten Fällen vernünftig erscheint [27, 28].

Parameter

In unseren Simulationen sind die Fraktionsgrößen und die Auswirkungen von sowohl nützlichen als auch schädlichen Mutationen die wichtigsten quantitativen Parameter. Zahlreiche experimentelle Studien an Mikroben haben etwas Licht in diesen Bereich gebracht, und einige Schätzungen dieser Parameter sind in Tabelle 1 zusammengefasst[29–35]. Diese Daten liefern die besten verfügbaren Annahmen der in den Simulationen verwendeten Parameter. Ein Beispiel für die Verteilung von Mutationseffekten und die entsprechende Fitnessvariation durch von uns übernommene Mutationen ist in Abbildung 1 dargestellt. Ein weiterer wesentlicher Parameter der Simulationen sind die den zehn Subpopulationen anfangs zugeordneten Mutationsraten. Und die logarithmische Form der Mutationsraten (lg(U)) ist ungefähr gleichmäßig zwischen -4 und -1 verteilt. Darüber hinaus verwenden wir mehrere Bereiche mit unterschiedlichen Mutationsraten, die in Tabelle 2 gezeigt sind, um zu sehen, ob dieser anfängliche Bereich die optimale Mutationsrate beeinflusst.

Ein Beispiel für die Verteilung von Mutationseffekten. (A) Die Auswirkungen schädlicher Mutationen folgen einer Gammaverteilung mit α = 0,6 (Formparameter), β = 0,5 (Skalenparameter) und der mittlere Effekt beträgt s ¯ d = 0,3 . (B) Die Auswirkungen von nützlichen Mutationen folgen einer exponentiellen Verteilung mit λ = 100 und der mittlere Effekt ist s ¯ b = 0,01 . (C) Die Verteilung der Fitnessänderungen durch sowohl schädliche als auch nützliche Mutationen mit P D = 97% und P B = 3%.

Numerische Simulationen

Während der gesamten Studie gehen wir davon aus, dass Generationen diskret sind und sich nicht überlappen. In jeder Generation wird die Anzahl neuer Mutationen (m) in einer Person erscheinen, die dem . gehört ich-das Teilpopulation wird aus einer Poisson-Verteilung gezogen p ( m , U i ) = U im e − U i i / m ! , wo U ich ist die Genommutationsrate der ich-das Teilpopulation. Die schädliche Mutationsrate ist dann gegeben durch U ich ×P D und die vorteilhafte Mutationsrate ist U ich ×P B . Da eine schädliche (oder nützliche) Mutation auftritt, ist die Fitness w des Individuums wird um 1 verringert (oder erhöht) S D (oder 1+ S B ), wo S D (oder S B ) wird zufällig aus einer Gamma- (oder Exponential-)Verteilung gezogen. Hier gehen wir davon aus, dass keine Epistase auftritt, daher haben alle Mutationen unabhängige Auswirkungen auf die Fitness und wirken multiplikativ. Es ist möglich, dass ein Individuum innerhalb einer einzigen Generation mehrere Mutationen trägt. In diesem Fall ist die Fitness einer Person im n-th Generation (w n ) ist eine Funktion der Mutationsnummern, die das Individuum trägt (m), ihre Mutationseffekte (S J ) und die Fitness des Elternteils in der (n-1)-NS Generation (w n-1 ). Diese Funktion kann beschrieben werden als

Nachkommen werden mit Wiederholung gemäß einer Multinomialverteilung beprobt, gewichtet nach der Fitness ihrer jeweiligen Eltern. Wir kennzeichnen jeden Nachkommen mit einer eindeutigen Kennung für seine jeweilige Unterpopulation.

Wir verfolgen die Anzahl der Individuen jeder Subpopulation, bis die Populationsgröße einer Subpopulation . erreicht n und die Größe anderer Subpopulationen wird null. An diesem Punkt wird der Prozess gestoppt und die entsprechende Mutationsrate der verbleibenden Subpopulation wird aufgezeichnet. Darüber hinaus wird auch die Anzahl der Generationen, die ein Wettbewerb dauert, verfolgt. Wir führen Simulationen durch, die sowohl die Populationsgröße als auch die Mutationseffekte variieren, um zu bewerten, wie und inwieweit diese die Wettbewerbsergebnisse beeinflussen (siehe Ergebnisse). Einige Anfangsbedingungen der Population werden ebenfalls gelockert, um die Robustheit der Methode zu testen (siehe Diskussion).


Inhalt

Wahrscheinlichkeitsmassenfunktion Bearbeiten

Eine diskrete Zufallsvariable X hat eine Poisson-Verteilung mit dem Parameter λ > 0 , wenn sie eine Wahrscheinlichkeits-Massenfunktion hat durch: [2] : 60

Die positive reelle Zahl λ ist gleich dem Erwartungswert von X und auch seiner Varianz [3]

Die Poisson-Verteilung kann auf Systeme mit einer großen Anzahl möglicher Ereignisse angewendet werden, von denen jedes selten vorkommt. Die Anzahl solcher Ereignisse, die während eines festen Zeitintervalls auftreten, ist unter den richtigen Umständen eine Zufallszahl mit einer Poisson-Verteilung.

Beispiel Bearbeiten

Die Poisson-Verteilung kann nützlich sein, um Ereignisse zu modellieren, wie z

  • Die Anzahl der Meteoriten mit einem Durchmesser von mehr als 1 Meter, die in einem Jahr auf die Erde treffen
  • Die Anzahl der Patienten, die zwischen 22 und 23 Uhr in einer Notaufnahme eintreffen
  • Die Anzahl der Laserphotonen, die in einem bestimmten Zeitintervall auf einen Detektor treffen

Annahmen und Gültigkeit Bearbeiten

Die Poisson-Verteilung ist ein geeignetes Modell, wenn die folgenden Annahmen zutreffen: [4]

  • k ist die Häufigkeit, mit der ein Ereignis in einem Intervall auftritt, und k kann die Werte 0, 1, 2, .
  • Das Eintreten eines Ereignisses hat keinen Einfluss auf die Wahrscheinlichkeit, dass ein zweites Ereignis eintritt. Das heißt, Ereignisse treten unabhängig voneinander auf.
  • Die durchschnittliche Häufigkeit, mit der Ereignisse eintreten, ist unabhängig von Ereignissen. Der Einfachheit halber wird dies normalerweise als konstant angenommen, kann aber in der Praxis mit der Zeit variieren.
  • Zwei Ereignisse können nicht genau zum gleichen Zeitpunkt auftreten, stattdessen tritt in jedem sehr kleinen Teilintervall genau ein Ereignis ein oder nicht ein.

Wenn diese Bedingungen zutreffen, ist k eine Poisson-Zufallsvariable und die Verteilung von k eine Poisson-Verteilung.

Die Poisson-Verteilung ist auch die Grenze einer Binomialverteilung, bei der die Erfolgswahrscheinlichkeit für jeden Versuch gleich λ geteilt durch die Anzahl der Versuche ist, wenn sich die Zahl der Versuche unendlich nähert (siehe Verwandte Verteilungen).

Beispiele für Wahrscheinlichkeiten für Poisson-Verteilungen Bearbeiten

An einem bestimmten Fluss treten durchschnittlich alle 100 Jahre Überschwemmungen auf. Berechnen Sie die Wahrscheinlichkeit von k = 0, 1, 2, 3, 4, 5 oder 6 Überflutungen in einem 100-Jahres-Intervall unter der Annahme, dass das Poisson-Modell geeignet ist.

Da die durchschnittliche Ereignisrate ein Überflutungshochwasser pro 100 Jahre beträgt, λ = 1

Die Wahrscheinlichkeit für 0 bis 6 Überflutungen in einem Zeitraum von 100 Jahren.

Ugarte und Kollegen berichten, dass die durchschnittliche Anzahl von Toren in einem Fußball-WM-Spiel ungefähr 2,5 beträgt und das Poisson-Modell angemessen ist. [5] Da die durchschnittliche Ereignisrate 2,5 Tore pro Spiel beträgt, λ = 2.5.

Die Wahrscheinlichkeit für 0 bis 7 Tore in einem Spiel.

Einmal in einem Intervall-Ereignisse: Der Sonderfall von λ = 1 und k = 0 Bearbeiten

Angenommen, Astronomen schätzen, dass große Meteoriten (über einer bestimmten Größe) durchschnittlich alle 100 Jahre die Erde treffen (λ = 1 Ereignis pro 100 Jahre), und dass die Anzahl der Meteoritentreffer einer Poisson-Verteilung folgt. Wie groß ist die Wahrscheinlichkeit von k = 0 Meteoriteneinschlägen in den nächsten 100 Jahren?

Unter diesen Annahmen beträgt die Wahrscheinlichkeit, dass in den nächsten 100 Jahren keine großen Meteoriten die Erde treffen, etwa 0,37. Die verbleibenden 1 − 0,37 = 0,63 ist die Wahrscheinlichkeit von 1, 2, 3 oder mehr großen Meteoriteneinschlägen in den nächsten 100 Jahren. In einem obigen Beispiel trat alle 100 Jahre einmal ein Überlaufhochwasser auf (λ = 1). Die Wahrscheinlichkeit, dass in 100 Jahren keine Überflutungen auftreten, betrug nach derselben Berechnung etwa 0,37.

Im Allgemeinen gilt, wenn ein Ereignis durchschnittlich einmal pro Intervall auftritt (λ = 1), und die Ereignisse folgen einer Poisson-Verteilung, dann P(0 Ereignisse im nächsten Intervall) = 0,37 . Zusätzlich, P(genau ein Ereignis im nächsten Intervall) = 0,37, wie in der Tabelle für Überflutungen gezeigt.

Beispiele, die die Poisson-Annahmen verletzen Bearbeiten

Die Zahl der Schüler, die pro Minute beim Studentenwerk ankommen, wird wahrscheinlich keiner Poisson-Verteilung folgen, da die Rate nicht konstant ist (niedrige Rate während der Unterrichtszeit, hohe Rate zwischen den Unterrichtszeiten) und die Ankünfte einzelner Schüler nicht unabhängig sind (Studenten neigen dazu, in Gruppen zu kommen).

Die Anzahl der Erdbeben der Stärke 5 pro Jahr in einem Land folgt möglicherweise nicht einer Poisson-Verteilung, wenn ein großes Erdbeben die Wahrscheinlichkeit von Nachbeben ähnlicher Stärke erhöht.

Beispiele, in denen mindestens ein Ereignis garantiert ist, sind nicht Poission-verteilt, können aber unter Verwendung einer Zero-truncated Poisson-Verteilung modelliert werden.

Zählverteilungen, bei denen die Anzahl von Intervallen mit null Ereignissen höher ist als von einem Poisson-Modell vorhergesagt, können unter Verwendung eines auf null aufgeblasenen Modells modelliert werden.

Beschreibende Statistik Bearbeiten

  • Erwartungswert und Varianz einer Poisson-verteilten Zufallsvariablen sind beide gleich .
  • Der Variationskoeffizient beträgt λ − 1 / 2 > , während der Dispersionsindex 1 beträgt. [6] : 163
  • Die mittlere absolute Abweichung vom Mittelwert beträgt [6] : 163
  • Der Modus einer Poisson-verteilten Zufallsvariablen mit nicht ganzzahligem λ ist gleich ⌊ λ ⌋ , was die größte ganze Zahl kleiner oder gleich ist λ. Dies wird auch als floor(λ) geschrieben. Wenn λ eine positive ganze Zahl ist, sind die Modi λ und λ − 1.
  • Alle Kumulanten der Poisson-Verteilung sind gleich dem Erwartungswert λ. Die nfaktorielles Moment der Poisson-Verteilung ist λn .
  • Der Erwartungswert eines Poisson-Prozesses wird manchmal in das Produkt von zerlegt Intensität und Exposition (oder allgemeiner ausgedrückt als Integral einer "Intensitätsfunktion" über Zeit oder Raum, manchmal als "Belichtung" bezeichnet). [7]

Median Bearbeiten

Höhere Momente Bearbeiten

Summen von Poisson-verteilten Zufallsvariablen Bearbeiten

Andere Eigenschaften Bearbeiten

  • Die Poisson-Verteilungen sind unendlich teilbare Wahrscheinlichkeitsverteilungen. [14] : 233 [6] : 164
  • Die gerichtete Kullback-Leibler-Divergenz von Pois ⁡ ( λ 0 ) (lambda _<0>)> von Pois ⁡ ( λ ) (lambda)> ist gegeben durch
  • Schranken für die Tail-Wahrscheinlichkeiten einer Poisson-Zufallsvariablen X ∼ Pois ⁡ ( λ ) (lambda )> kann mit einem gebundenen Chernoff-Argument abgeleitet werden. [15] : 97-98
  • Die Upper-Tail-Wahrscheinlichkeit kann (um einen Faktor von mindestens zwei) wie folgt verschärft werden: [16]
  • Ungleichungen, die sich auf die Verteilungsfunktion einer Poisson-Zufallsvariablen beziehen X ∼ Pois ⁡ ( λ ) (lambda )> zur Standardnormalverteilungsfunktion Φ ( x ) lauten wie folgt: [16]

Giftrennen Bearbeiten

Die obere Schranke wird unter Verwendung einer Standard-Chernoff-Schranke bewiesen.

Allgemeines Bearbeiten

  • Wenn X 1 ∼ P o i s ( λ 1 ) sim mathrm (lambda _<1>),> und X 2 ∼ P o i s ( λ 2 ) sim mathrm (lambda_<2>),> unabhängig sind, dann folgt die Differenz Y = X 1 − X 2 -X_<2>> einer Skellam-Verteilung.
  • Wenn X 1 ∼ P o i s ( λ 1 ) sim mathrm (lambda _<1>),> und X 2 ∼ P o i s ( λ 2 ) sim mathrm (lambda _<2>),> unabhängig sind, dann ist die Verteilung von X 1 > bedingt durch X 1 + X 2 +X_<2>> a Binomialverteilung.
  • Wenn X ∼ P o i s ( λ ) (lambda ),> und die Verteilung von Y , bedingt durch x = k, ist eine Binomialverteilung, Y ∣ ( X = k ) ∼ B i n o m ( k , p ) (k,p)> , dann folgt die Verteilung von Y einer Poisson-Verteilung Y ∼ P o i s ( λ ⋅ p ) (lambdacdot p),> . Tatsächlich, wenn < Y i >>> , bedingt von X = k, folgt einer Multinomialverteilung, < Y i >∣ ( X = k ) ∼ M u l t i n o m ( k , p i ) >mid (X=k)sim mathrm left(k,p_ ight)> , dann jedes Y i > folgt einer unabhängigen Poisson-Verteilung Y i ∼ P o i s ( λ ⋅ p i ), ρ ( Y i , Y j ) = 0 sim mathrm (lambdacdot p_), ho (Y_,Y_)=0> .
  • Die Poisson-Verteilung kann als Grenzfall für die Binomialverteilung abgeleitet werden, da die Anzahl der Versuche ins Unendliche geht und die erwartete Anzahl der Erfolge fest bleibt – siehe Gesetz der seltenen Ereignisse unten. Daher kann es als Näherung der Binomialverteilung verwendet werden, wenn n ausreichend groß ist und P ist ausreichend klein. Als Faustregel gilt, dass die Poisson-Verteilung eine gute Näherung der Binomialverteilung ist, wenn n mindestens 20 ist und P kleiner oder gleich 0,05 ist, und eine ausgezeichnete Näherung, wenn n ≥ 100 und np ≤ 10. [18]
  • Die Poisson-Verteilung ist ein Spezialfall der diskreten zusammengesetzten Poisson-Verteilung (oder Stotter-Poisson-Verteilung) mit nur einem Parameter. [19][20] Die diskrete zusammengesetzte Poisson-Verteilung kann aus der Grenzverteilung der univariaten Multinomialverteilung abgeleitet werden. Es ist auch ein Sonderfall einer zusammengesetzten Poisson-Verteilung.
  • Für ausreichend große Werte von λ (z. B. λ>1000) ist die Normalverteilung mit Mittelwert λ und Varianz λ (Standardabweichung λ >> ) eine hervorragende Annäherung an die Poisson-Verteilung. Wenn λ größer als etwa 10 ist, dann ist die Normalverteilung eine gute Näherung, wenn eine geeignete Kontinuitätskorrektur durchgeführt wird, d. h. wenn P(xx), wo x eine nicht negative ganze Zahl ist, wird ersetzt durch P(xx + 0.5).
    : Wenn X ∼ P o i s ( λ ) (lambda),> , dann
  • Wenn für jeden T > 0 die Anzahl der Ankünfte im Zeitintervall [0, T] folgt der Poisson-Verteilung mit Mittelwert t, dann sind die Abfolge der Zwischenankunftszeiten unabhängige und identisch verteilte exponentielle Zufallsvariablen mit dem Mittelwert 1/λ. [23] : 317–319
  • Die kumulativen Verteilungsfunktionen der Poisson- und Chi-Quadrat-Verteilungen hängen wie folgt zusammen: [6] : 167

Poisson-Approximation Bearbeiten

Bivariate Poisson-Verteilung Bearbeiten

Diese Verteilung wurde auf den bivariaten Fall ausgedehnt. [25] Die erzeugende Funktion für diese Verteilung ist

Die Randverteilungen sind Poisson(θ1) und Gift(θ2) und der Korrelationskoeffizient ist auf den Bereich

Kostenlose Poisson-Verteilung Bearbeiten

Diese Definition ist analog zu einer der Methoden, auf denen die klassische Poisson-Verteilung aus einem (klassischen) Poisson-Prozess erhalten wird.

Das mit dem freien Poissongesetz verbundene Maß ist gegeben durch [27]

Einige Transformationen dieses Gesetzes Bearbeiten

Wir geben Werte einiger wichtiger Transformationen des freien Poisson-Gesetzes an, die Berechnung kann z.B. im Buch Vorlesungen zur Kombinatorik der freien Wahrscheinlichkeit von A. Nica und R. Speicher [28]

Die R-Transformation des freien Poissongesetzes ist gegeben durch

Die Cauchy-Transformation (die das Negative der Stieltjes-Transformation ist) ist gegeben durch

Parameterschätzung Bearbeiten

Da jede Beobachtung einen Erwartungswert hat, gilt auch der Stichprobenmittelwert. Daher ist die Maximum-Likelihood-Schätzung ein unverzerrter Schätzer von λ. Es ist auch ein effizienter Schätzer, da seine Varianz die Cramér-Rao-Untergrenze (CRLB) erreicht. [ Zitat benötigt ] Daher ist sie minimal-varianzfrei. Außerdem kann bewiesen werden, dass die Summe (und damit der Stichprobenmittelwert, da er eine Eins-zu-Eins-Funktion der Summe ist) eine vollständige und ausreichende Statistik für λ ist.

Um den Parameter λ zu finden, der die Wahrscheinlichkeitsfunktion für die Poisson-Population maximiert, können wir den Logarithmus der Likelihood-Funktion verwenden:

Auflösen nach λ gibt einen stationären Punkt.

So λ ist der Durchschnitt der kich Werte. Erhalten des Vorzeichens der zweiten Ableitung von L am stationären Punkt bestimmt, welche Art von Extremwert λ ist.

Auswertung der zweiten Ableitung am stationären Punkt gibt:

was ist das Negative von n mal der Kehrwert des Mittelwerts von kich. Dieser Ausdruck ist negativ, wenn der Durchschnitt positiv ist. Ist dies erfüllt, maximiert der stationäre Punkt die Wahrscheinlichkeitsfunktion.

Konfidenzintervall Bearbeiten

Das Konfidenzintervall für den Mittelwert einer Poisson-Verteilung kann unter Verwendung der Beziehung zwischen den kumulativen Verteilungsfunktionen der Poisson- und Chi-Quadrat-Verteilungen ausgedrückt werden. Die Chi-Quadrat-Verteilung selbst ist eng mit der Gamma-Verteilung verwandt, und dies führt zu einem alternativen Ausdruck. Gegeben eine Beobachtung k aus einer Poisson-Verteilung mit Mittelwert μ, ein Konfidenzintervall für μ mit Konfidenzniveau 1 – α is

wobei χ 2 ( p n ) (pn)> die Quantilfunktion ist (entspricht einem unteren Schwanzbereich P) der Chi-Quadrat-Verteilung mit n Freiheitsgrade und F − 1 ( pn , 1 ) (pn,1)> ist die Quantilfunktion einer Gammaverteilung mit Formparameter n und Skalenparameter 1. [6] : 176- 178 [30] Dieses Intervall ist 'exakt' in dem Sinne, dass seine Überdeckungswahrscheinlichkeit nie kleiner als die nominale 1 – α ist.

Wenn Quantile der Gammaverteilung nicht verfügbar sind, wurde eine genaue Annäherung an dieses genaue Intervall vorgeschlagen (basierend auf der Wilson-Hilferty-Transformation): [31]

Für die Anwendung dieser Formeln im gleichen Kontext wie oben (anhand einer Probe von n Messwerte kich jeweils gezogen aus einer Poisson-Verteilung mit Mittelwert λ), würde man setzen

berechne ein Intervall für μ = n, und leiten Sie dann das Intervall für λ.

Bayes'sche Inferenz Bearbeiten

Bei der Bayes'schen Inferenz ist die konjugierte Prior für den Geschwindigkeitsparameter λ der Poisson-Verteilung ist die Gamma-Verteilung. [32] Lass

bezeichne das λ verteilt sich entsprechend der Gammadichte g parametrisiert in Form eines Formparameters α und ein inverser Skalenparameter β:

Dann, gegeben die gleiche Probe von n Messwerte kich wie zuvor und ein Prior von Gamma(α, β), ist die posteriore Verteilung

Die posterior-prädiktive Verteilung für eine einzelne zusätzliche Beobachtung ist eine negative Binomialverteilung, [33] : 53 manchmal auch als Gamma-Poisson-Verteilung bezeichnet.

Gleichzeitige Schätzung mehrerer Poisson-Mittelwerte Bearbeiten

Anwendungen der Poisson-Verteilung finden sich in vielen Bereichen, darunter: [36]

    Beispiel: Telefonanrufe, die in einer Anlage ankommen. Beispiel: Photonen, die an einem Teleskop ankommen. Beispiel: die Molmassenverteilung einer lebenden Polymerisation. [37] Beispiel: die Anzahl der Mutationen auf einem DNA-Strang pro Längeneinheit. Beispiel: Kunden, die an einem Schalter oder Callcenter ankommen. Beispiel: Anzahl der Schäden oder Schäden, die in einem bestimmten Zeitraum aufgetreten sind. Beispiel: ein asymptotisches Poisson-Modell des seismischen Risikos für große Erdbeben. [38] Beispiel: Anzahl der Zerfälle in einem bestimmten Zeitintervall in einer radioaktiven Probe. Beispiel: die Anzahl der Photonen, die in einem einzelnen Laserpuls emittiert werden. Dies ist eine große Schwachstelle für die meisten Quantum-Schlüsselverteilungsprotokolle, die als Photon Number Splitting (PNS) bekannt sind.

Die Poisson-Verteilung entsteht im Zusammenhang mit Poisson-Prozessen. Sie gilt für verschiedene Phänomene mit diskreten Eigenschaften (d. h. solche, die 0, 1, 2, 3, . Mal während eines bestimmten Zeitraums oder in einem bestimmten Gebiet auftreten können), wenn die Wahrscheinlichkeit des Auftretens des Phänomens zeitlich konstant ist oder Platz. Beispiele für Ereignisse, die als Poisson-Verteilung modelliert werden können, sind:

  • Die Zahl der jährlich in jedem Korps der preußischen Kavallerie durch Pferdetritte getöteten Soldaten. Dieses Beispiel wurde in einem Buch von Ladislaus Bortkiewicz (1868–1931) verwendet. [39] : 23-25
  • Die Anzahl der Hefezellen, die beim Brauen von Guinness-Bier verwendet werden. Dieses Beispiel wurde von William Sealy Gosset (1876-1937) verwendet. [40][41]
  • Die Anzahl der Anrufe, die innerhalb einer Minute bei einem Callcenter eingehen. Dieses Beispiel wurde von A.K. Erlang (1878–1929). [42]
  • Online-Datenverkehr.
  • Die Anzahl der Tore in Sportarten, an denen zwei konkurrierende Teams beteiligt sind. [43]
  • Die Zahl der Todesfälle pro Jahr in einer bestimmten Altersgruppe.
  • Die Anzahl der Sprünge eines Aktienkurses in einem bestimmten Zeitintervall.
  • Unter der Annahme von Homogenität, wie oft pro Minute auf einen Webserver zugegriffen wird.
  • Die Anzahl der Mutationen in einem bestimmten DNA-Abschnitt nach einer bestimmten Strahlungsmenge.
  • Der Anteil der Zellen, die bei einer gegebenen Infektionsmultiplizität infiziert werden.
  • Die Anzahl der Bakterien in einer bestimmten Flüssigkeitsmenge. [44]
  • Die Ankunft von Photonen auf einer Pixelschaltung bei einer bestimmten Beleuchtung und über einen bestimmten Zeitraum.
  • Das Zielen von V-1-Flugbomben auf London während des Zweiten Weltkriegs wurde 1946 von R. D. Clarke untersucht. [45]

Gallagher zeigte 1976, dass die Anzahl der Primzahlen in kurzen Intervallen einer Poisson-Verteilung gehorcht [46], vorausgesetzt, dass eine bestimmte Version der unbewiesenen Primzahl-R-Tupel-Vermutung von Hardy-Littlewood [47] wahr ist.

Gesetz der seltenen Ereignisse Bearbeiten

In einigen der obigen Beispiele – wie der Anzahl der Mutationen in einer bestimmten DNA-Sequenz – sind die gezählten Ereignisse tatsächlich das Ergebnis diskreter Versuche und würden genauer unter Verwendung der Binomialverteilung modelliert, d

In solchen Fällen n ist sehr groß und P ist sehr klein (und damit die Erwartung np ist von mittlerer Größe). Dann kann die Verteilung durch die weniger umständliche Poisson-Verteilung angenähert werden [ Zitat benötigt ]

Diese Näherung wird manchmal als Gesetz der seltenen Ereignisse, [48] : 5 seit jeder der n einzelne Bernoulli-Ereignisse treten selten auf. The name may be misleading because the total count of success events in a Poisson process need not be rare if the parameter np is not small. For example, the number of telephone calls to a busy switchboard in one hour follows a Poisson distribution with the events appearing frequent to the operator, but they are rare from the point of view of the average member of the population who is very unlikely to make a call to that switchboard in that hour.

Das Wort law is sometimes used as a synonym of probability distribution, and convergence in law meint convergence in distribution. Accordingly, the Poisson distribution is sometimes called the "law of small numbers" because it is the probability distribution of the number of occurrences of an event that happens rarely but has very many opportunities to happen. The Law of Small Numbers is a book by Ladislaus Bortkiewicz about the Poisson distribution, published in 1898. [39] [49]

Poisson point process Edit

The Poisson distribution arises as the number of points of a Poisson point process located in some finite region. More specifically, if D is some region space, for example Euclidean space R D , for which |D|, the area, volume or, more generally, the Lebesgue measure of the region is finite, and if n(D) denotes the number of points in D, then

Poisson regression and negative binomial regression Edit

Poisson regression and negative binomial regression are useful for analyses where the dependent (response) variable is the count (0, 1, 2, . ) of the number of events or occurrences in an interval.

Other applications in science Edit

The correlation of the mean and standard deviation in counting independent discrete occurrences is useful scientifically. By monitoring how the fluctuations vary with the mean signal, one can estimate the contribution of a single occurrence, even if that contribution is too small to be detected directly. For example, the charge e on an electron can be estimated by correlating the magnitude of an electric current with its shot noise. If n electrons pass a point in a given time T on the average, the mean current is I = e N / t since the current fluctuations should be of the order σ I = e N / t =e>/t> (i.e., the standard deviation of the Poisson process), the charge e can be estimated from the ratio t σ I 2 / I ^<2>/I> . [ Zitat benötigt ]

An everyday example is the graininess that appears as photographs are enlarged the graininess is due to Poisson fluctuations in the number of reduced silver grains, not to the individual grains themselves. By correlating the graininess with the degree of enlargement, one can estimate the contribution of an individual grain (which is otherwise too small to be seen unaided). [ Zitat benötigt ] Many other molecular applications of Poisson noise have been developed, e.g., estimating the number density of receptor molecules in a cell membrane.

In Causal Set theory the discrete elements of spacetime follow a Poisson distribution in the volume.

The Poisson distribution poses two different tasks for dedicated software libraries: Evaluating the distribution P ( k λ ) , and drawing random numbers according to that distribution.

Evaluating the Poisson distribution Edit

f ( k λ ) = exp ⁡ [ k ln ⁡ λ − λ − ln ⁡ Γ ( k + 1 ) ] ,

which is mathematically equivalent but numerically stable. The natural logarithm of the Gamma function can be obtained using the lgamma function in the C standard library (C99 version) or R, the gammaln function in MATLAB or SciPy, or the log_gamma function in Fortran 2008 and later.

Some computing languages provide built-in functions to evaluate the Poisson distribution, namely

    : function dpois(x, lambda) : function POISSON( x, mean, cumulative) , with a flag to specify the cumulative distribution : univariate Poisson distribution as PoissonDistribution[ λ ] , [50] bivariate Poisson distribution as MultivariatePoissonDistribution[ θ 12 > ,< θ 1 − θ 12 - heta _<12>> , θ 2 − θ 12 - heta _<12>> >] ,. [51]

Random drawing from the Poisson distribution Edit

The less trivial task is to draw random integers from the Poisson distribution with given λ .

Solutions are provided by:

Generating Poisson-distributed random variables Edit

A simple algorithm to generate random Poisson-distributed numbers (pseudo-random number sampling) has been given by Knuth: [52] : 137-138

The complexity is linear in the returned value k, which is λ on average. There are many other algorithms to improve this. Some are given in Ahrens & Dieter, see § References below.

For large values of λ, the value of L = e −λ may be so small that it is hard to represent. This can be solved by a change to the algorithm which uses an additional parameter STEP such that e −STEP does not underflow: [ Zitat benötigt ]

The choice of STEP depends on the threshold of overflow. For double precision floating point format, the threshold is near e 700 , so 500 shall be a safe STEP.

Other solutions for large values of λ include rejection sampling and using Gaussian approximation.

Inverse transform sampling is simple and efficient for small values of λ, and requires only one uniform random number du per sample. Cumulative probabilities are examined in turn until one exceeds du.

The distribution was first introduced by Siméon Denis Poisson (1781–1840) and published together with his probability theory in his work Recherches sur la probabilité des jugements en matière criminelle et en matière civile(1837). [54] : 205-207 The work theorized about the number of wrongful convictions in a given country by focusing on certain random variables n that count, among other things, the number of discrete occurrences (sometimes called "events" or "arrivals") that take place during a time-interval of given length. The result had already been given in 1711 by Abraham de Moivre in De Mensura Sortis seu de Probabilitate Eventuum in Ludis a Casu Fortuito Pendentibus . [55] : 219 [56] : 14-15 [57] : 193 [6] : 157 This makes it an example of Stigler's law and it has prompted some authors to argue that the Poisson distribution should bear the name of de Moivre. [58] [59]

In 1860, Simon Newcomb fitted the Poisson distribution to the number of stars found in a unit of space. [60] A further practical application of this distribution was made by Ladislaus Bortkiewicz in 1898 when he was given the task of investigating the number of soldiers in the Prussian army killed accidentally by horse kicks [39] : 23-25 this experiment introduced the Poisson distribution to the field of reliability engineering.


A more realistic model!

Now let’s consider per-capita birth and death rates in the population. This way, if the population is bigger, the total births will increase!

Click on this link to load up the next population modeling demonstration.

In the upper right-hand corner of the screen, click on the “Clone Insight” link at the top and click on the “Clone” button on the following screen (so you can make edits to this model!). If you want, you can change the name of the model by clicking on the whitespace anywhere in your InsightMaker workspace and then clicking the “Edit Info” button on the left-hand context menu.

Your model should look something like this:

Hover your cursor over the two [Flows] (Births and Deaths). Do these equations make sense?

Make sure the initial number of moose is set to 50, the birth rate is set to 0.5, and the death rate is set to 0.4. Now click [Run Simulation]. How would you describe the results?

Q: what happens if you set the birth rate equal to the death rate?

Q: what happens if you set the birth rate less than the death rate?

One of the most fundamental quantities in population ecology is called the “intrinsic rate of growth”, or R. R is simply the difference between birth and death rate:

Q: What is the intrinsic rate of growth for this population (when birth rate is set to 0.5 and the death rate is set to 0.4)?

Q: What is the next thing you would like to change to make the model more realistic?


by Joe Felsenstein and Michael Lynch

The blogs of creationists and advocates of ID have been abuzz lately about exciting new work by William Basener and John Sanford. In a peer-reviewed paper at Journal of Mathematical Biology, they have presented a mathematical model of mutation and natural selection in a haploid population, and they find in one realistic case that natural selection is unable to prevent the continual decline of fitness. This is presented as correcting R.A. Fisher’s 1930 “Fundamental Theorem of Natural Selection”, which they argue is the basis for all subsequent theory in population genetics. The blog postings on that will be found here, here, here, here, here, here, and here.

One of us (JF) has argued at The Skeptical Zone that they have misread the literature on population genetics. The theory of mutation and natural selection developed during the 1920s, was relatively fully developed before Fisher’s 1930 book. Fisher’s FTNS has been difficult to understand, and subsequent work has not depended on it. But that still leaves us with the issue of whether the B and S simulations show some startling behavior, with deleterious mutations seemingly unable to be prevented from continually rising in frequency. Let’s take a closer look at their simulations.

Basener and Sanford show equations, mostly mostly taken from a paper by Claus Wilke, for changes in genotype frequencies in a haploid, asexual species experiencing mutation and natural selection. They keep track of the distribution of the values of fitness on a continuous scale time scale. Genotypes at different values of the fitness scale have different birth rates. There is a distribution of fitness effects of mutations, as displacements on the fitness scale. An important detail is that the genotypes are haploid and asexual — they have no recombination, so they do not mate.

After giving the equations for this model, they present runs of a simulation program. In some runs with distributions of mutations that show equal numbers of beneficial and deleterious mutations all goes as expected — the genetic variance in the population rises, and as it does the mean fitness rises more and more. But in their final case, which they argue is more realistic, there are mostly deleterious mutations. The startling outcome in the simulation in that case is there absence of an equilibrium between mutation and selection. Instead the deleterious mutations go to fixation in the population, and the mean fitness of the population steadily declines.

Why does that happen? For deleterious mutations in large populations, we typically see them come to a low equilibrium frequency reflecting a balance between mutation and selection. But they’re not doing that at high mutation rates!

The key is the absence of recombination in these clonally-reproducing haploid organisms. In effect each haploid organism is passed on whole, as if it were a copy of a single gene. So the frequencies of the mutant alleles should reflect the balance between the selection coefficient against the mutant (which is said to be near 0.001 in their simulation) versus the mutation rate. But they have one mutation per generation per haploid individual. Thus the mutation rate is, in effect, 1000 times the selection coefficient against the mutant allele. The selection coefficient of 0.001 means about a 0.1% decline in the frequency of a deleterious allele per generation, which is overwhelmed when one new mutant per individual comes in each generation.

In the usual calculations of the balance between mutation and selection, the mutation rate is smaller than the selection coefficient against the mutant. With (say) 20,000 loci (genes) the mutation rate per locus would be 1/20,000 = 0.00005. That would predict an equilibrium frequency near 0.00005/0.001, or 0.05, at each locus. But if the mutation rate were 1, we predict no equilibrium, but rather that the mutant allele is driven to fixation because the selection is too weak to counteract that large a rate of mutation. So there is really nothing new here. In fact 91 years ago J.B.S. Haldane, in his 1927 paper on the balance between selection and mutation, wrote that “To sum up, if selection acts against mutation, it is ineffective provided that the rate of mutation is greater than the coefficient of selection.”

If Basener and Sanford’s simulation allowed recombination between the genes, the outcome would be very different — there would be an equilibrium gene frequency at each locus, with no tendency of the mutant alleles at the individual loci to rise to fixation.

If selection acted individually at each locus, with growth rates for each haploid genotype being added across loci, a similar result would be expected, even without recombination. But in the Basener/Stanford simulation the fitnesses do not add — instead they generate linkage disequilibrium, in this case negative associations that leave us with selection at the different loci opposing each other. Add in recombination, and there would be a dramatically different, and much more conventional, result.

Technical Oddities

Most readers may want to stop there. We add this section for those more familiar with population genetics theory, simply to point out some mysteries connected with the Basener/Stanford simulations:

1. One odd assumption that they make is that any fitness class that has a frequency below 1 part in a billion gets set to 0. This is not a reasonable way to take genetic drift into account, as all fitness classes are subject to random fluctuations. We imagine such a treatment is a minor issue, relative to the enormous mutation pressure imposed in their study. But someone should check this, which can be done as their Javascript source can be downloaded and then made comprehensible by a Javascript beautifier.

2. The behavior of their iterations in some cases is, well, weird. In the crucial final simulation, the genetic variance of fitness rises, reaches a limit, bounces sharply off it, and from then on decreases. We’re not sure why, and suspect a program bug, which we haven’t noticed. We have found that if we run the simulation for many more generations, such odd bouncings of the mean and variance off of upper and lower limits are ultimately seen. We don’t think that this has much to do with mutation overwhelming selection, though.

3. We note one mistake in the Basener and Sanford work. The organisms’ death rates are 0.1 per time step. That would suggest a generation time of about 10 time steps. But Basener and Stanford take there to be one generation per unit of time. That is incorrect. However the mutation rate and the selection coefficient are still 1 and 0.001 per generation, even if the generations are 10 units of time.

Joe Felsenstein, originally trained as a theoretical population geneticist, is an evolutionary biologist who is Professor Emeritus in the Department of Genome Sciences and the Department of Biology at the University of Washington, Seattle. He is the author of the books “Inferring Phylogenies” and “Theoretical Evolutionary Genetics”. He frequently posts and comments here.

Michael Lynch is the director of the Biodesign Center for Mechanisms of Evolution at Arizona State University, and author of “The Origins of Genome Architecture” and, with Bruce Walsh, of “Genetics and Analysis of Quantitative Traits”. Six of his papers are cited in the Basener/Stanford paper.


Notes on Poisson Distribution and Binomial Distribution

A Binomial Distribution is used to model the probability of the number of successes we can expect from n trials with a probability p. The Poisson Distribution is a special case of the Binomial Distribution as n goes to infinity while the expected number of successes remains fixed. The Poisson is used as an approximation of the Binomial if n is large and p is small.

As with many ideas in statistics, “large” and “small” are up to interpretation. A rule of thumb is the Poisson distribution is a decent approximation of the Binomial if n > 20 and np < 10. Therefore, a coin flip, even for 100 trials, should be modeled as a Binomial because np =50. A call center which gets 1 call every 30 minutes over 120 minutes could be modeled as a Poisson distribution as np = 4. One important distinction is a Binomial occurs for a fixed set of trials (the domain is discrete) while a Poisson occurs over a theoretically infinite number of trials (continuous domain). This is only an approximation remember, all models are wrong, but some are useful!


3 Poisson Regression

No, but seriously, here’s the entire Poisson section on Robert I. Kabacoff’s quickR blog at http://www.statmethods.net/advstats/glm.html:

It’s about cases (i.e., counts) of disease among high school students by number of days after outbreak. Here’s the data, called ‘cases.’ Each time, run the whole chunk at once or it won’t work.

Behold, the Poisson distribution! Notice the mode at one extreme and the tail off to the other side. This is characteristic of Poisson distributions.


Central Limit Theorem with a Skewed Distribution

The Poisson distribution is another probability model that is useful for modeling discrete variables such as the number of events occurring during a given time interval. For example, suppose you typically receive about 4 spam emails per day, but the number varies from day to day. Today you happened to receive 5 spam emails. What is the probability of that happening, given that the typical rate is 4 per day? The Poisson probability is:

The mean for the distribution is μ (the average or typical rate), "X" is the actual number of events that occur ("successes"), and "e" is the constant approximately equal to 2.71828. So, in the example above

Now let's consider another Poisson distribution. with μ=3 and σ=1.73. The distribution is shown in the figure below.

This population is not normally distributed, but the Central Limit Theorem will apply if n > 30. In fact, if we take samples of size n=30, we obtain samples distributed as shown in the first graph below with a mean of 3 and standard deviation = 0.32. In contrast, with small samples of n=10, we obtain samples distributed as shown in the lower graph. Note that n=10 does not meet the criterion for the Central Limit Theorem, and the small samples on the right give a distribution that is not quite normal. Also note that the sample standard deviation (also called the "standard error") is larger with smaller samples, because it is obtained by dividing the population standard deviation by the square root of the sample size. Another way of thinking about this is that extreme values will have less impact on the sample mean when the sample size is large.

Content �. All Rights Reserved.
Date last modified: July 24, 2016.
Wayne W. LaMorte, MD, PhD, MPH


Schau das Video: poisson (August 2022).