Information

Warum wird angenommen, dass Gene multivariat normal sind?

Warum wird angenommen, dass Gene multivariat normal sind?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich frage mich, warum Genexpressionsdaten sehr häufig durch multivariate Normalverteilungen modelliert werden. Was ist der Grund für diese starke Annahme, dass die Gene multivariaten Gaußschen folgen? Gibt es andere spezifische Gründe für die Genetik als die Gründe für allgemeine Gaußsche Annahmen (die Einfachheit der Berechnung usw.)?


Normalerweise werden die Messwerte für einen solchen Parameter als normal angenommen, wenn nicht erwartet wird, dass sich etwas nach einem Schema verhält. Dies ist nicht nur bei der Genexpression der Fall, sondern bei allen Arten von Messungen wie Abmessungen eines Objekts, Leuchtkraft einer Glühbirne, Reichweite einer Kugel usw. Bei jeder Messung wird der Zufallsfehler unter Verwendung der Normalverteilung modelliert. Ich habe keine sehr intuitive Erklärung dafür, warum zufällige Fehler der Normalverteilung folgen, aber mathematisch kommt es aus dem zentralen Grenzwertsatz.

Jetzt ist jedes Gen eine Variable und die Messung jedes Gens erleidet einen zufälligen Fehler; Daher wird eine multivariate Normalverteilung verwendet.

Wenn wir in einem t-Test oder z-Test eine Nullhypothese verwerfen, verwerfen wir in Wirklichkeit unsere sparsame Vorstellung, dass eine Stichprobe aus einer gegebenen Normalverteilung gezogen wird. Dies bedeutet zweierlei:

  1. Die Stichprobe gehört zu einer anderen Normalverteilung (andere $mu$ und $sigma$)
  2. Die Stichprobe folgt einer anderen Verteilung

Aber ein t-Test wird nie in der Lage sein, den genauen Grund aufzuzeigen. Alles, was es Ihnen sagt, ist, dass die Probe ist nicht aus einer bestimmten Normalverteilung.


Gene, die sich auf demselben Chromosom befinden, nennt man verknüpfte Gene. Allele für diese Gene neigen dazu, sich während der Meiose zu segregieren, es sei denn, sie werden durch Crossing-over getrennt.Überqueren tritt auf, wenn zwei homologe Chromosomen während der Meiose I genetisches Material austauschen. Je näher zwei Gene auf einem Chromosom beieinander liegen, desto geringer ist die Wahrscheinlichkeit, dass ihre Allele durch Crossing-over getrennt werden. Unter dem folgenden Link können Sie sich eine Animation ansehen, die zeigt, wie Gene auf demselben Chromosom durch Crossing-Over getrennt werden können: www.biostudio.com/d_%20Meioti. ed%20Genes.htm.

Verknüpfung erklärt, warum bestimmte Merkmale häufig gemeinsam vererbt werden. Zum Beispiel sind Gene für Haarfarbe und Augenfarbe miteinander verbunden, sodass bestimmte Haar- und Augenfarben tendenziell zusammen vererbt werden, wie etwa blondes Haar mit blauen Augen und braunes Haar mit braunen Augen. Welche anderen menschlichen Eigenschaften scheinen zusammen aufzutreten? Glaubst du, dass sie von verbundenen Genen kontrolliert werden könnten?

Geschlechtsgebundene Gene

Gene, die sich auf den Geschlechtschromosomen befinden, werden als bezeichnet geschlechtsgebundene Gene. Die meisten geschlechtsgebundenen Gene befinden sich auf dem X-Chromosom, da das Y-Chromosom relativ wenige Gene besitzt. Genau genommen sind Gene auf dem X-Chromosom X-chromosomale Gene, aber der Begriff geschlechtsgebunden wird oft verwendet, um sich auf sie zu beziehen.

Zuordnungsverknüpfung

Die Kopplung kann beurteilt werden, indem bestimmt wird, wie oft ein Crossing-over zwischen zwei Genen auf demselben Chromosom auftritt. Gene auf verschiedenen (nicht homologen) Chromosomen sind nicht verknüpft. Sie sortieren sich während der Meiose unabhängig voneinander, sodass sie eine 50-prozentige Chance haben, in verschiedenen Gameten zu landen. Wenn Gene in weniger als 50 Prozent der Fälle in verschiedenen Gameten auftauchen (dh sie werden tendenziell zusammen vererbt), wird angenommen, dass sie sich auf demselben (homologen) Chromosom befinden. Sie können durch Crossing-Over getrennt werden, dies geschieht jedoch wahrscheinlich weniger als 50 Prozent der Zeit. Je niedriger die Frequenz des Crossing-overs ist, desto näher werden die Gene auf demselben Chromosom vermutet. Frequenzen der Überkreuzung können verwendet werden, um eine Verknüpfungskarte wie die in zu erstellen Abbildung unter. EIN Verknüpfung Karte zeigt die Lage von Genen auf einem Chromosom.

Verknüpfungskarte für das menschliche X-Chromosom. Diese Kopplungskarte zeigt die Lage mehrerer Gene auf dem X-Chromosom. Einige der Gene kodieren für normale Proteine. Andere kodieren für abnormale Proteine, die zu genetischen Störungen führen. Welches Genpaar würde Ihrer Meinung nach eine geringere Crossing-Over-Frequenz aufweisen: die Gene, die für Hämophilie A und G6PD-Mangel kodieren, oder die Gene, die für Protan und Xm kodieren?


Inhalt

Generierung und Parameter Bearbeiten

heißt Log-Normalverteilung mit den Parametern μ und σ . Dies sind der Erwartungswert (oder Mittelwert) und die Standardabweichung des natürlichen Logarithmus der Variablen, nicht der Erwartungswert und die Standardabweichung von X selbst.

Wahrscheinlichkeitsdichtefunktion Bearbeiten

Eine positive Zufallsvariable x ist lognormalverteilt (d.h. X ∼ Lognormal ⁡ ( μ x , σ x 2 ) (mu_,sigma_^<2>)> [1] ), wenn der natürliche Logarithmus von x ist normalverteilt mit Mittelwert μ und Varianz σ 2 > :

Kumulative Verteilungsfunktion Bearbeiten

Dies kann auch wie folgt ausgedrückt werden: [2]

Multivariate log-normale Bearbeitung

Da die multivariate Log-Normalverteilung nicht weit verbreitet ist, befasst sich der Rest dieses Eintrags nur mit der univariaten Verteilung.

Charakteristische Funktion und momenterzeugende Funktion Bearbeiten

Alle Momente der Log-Normalverteilung existieren und

Es wurden jedoch eine Reihe von alternativen divergenten Reihendarstellungen erhalten. [10] [11] [12] [13]

wobei W die Lambert-W-Funktion ist. Diese Näherung wird über ein asymptotisches Verfahren abgeleitet, bleibt aber im gesamten Konvergenzbereich von φ scharf.

Wahrscheinlichkeit in verschiedenen Domänen Bearbeiten

Der Wahrscheinlichkeitsgehalt einer logarithmischen Normalverteilung in einem beliebigen Bereich kann mit der gewünschten Genauigkeit berechnet werden, indem zuerst die Variable in eine Normale transformiert und dann unter Verwendung des Strahlverfolgungsverfahrens numerisch integriert wird. [15] (Matlab-Code)

Wahrscheinlichkeiten von Funktionen einer log-normalen Variablen Bearbeiten

Da die Wahrscheinlichkeit einer Log-Normalen in jedem Bereich berechnet werden kann, bedeutet dies, dass die cdf (und folglich pdf und inverse cdf) jeder Funktion einer log-normalen Variablen auch berechnet werden kann. [15] (Matlab-Code)

Geometrische oder multiplikative Momente Bearbeiten

Beachten Sie, dass das geometrische Mittel kleiner ist als das arithmetische Mittel. Dies liegt an der AM-GM-Ungleichung und ist eine Folge davon, dass der Logarithmus eine konkave Funktion ist. Eigentlich,

Arithmetische Momente Bearbeiten

Für jede reelle oder komplexe Zahl n , das n -tes Moment einer logarithmisch normalverteilten Variablen x ist gegeben durch [4]

Insbesondere das arithmetische Mittel, das erwartete Quadrat, die arithmetische Varianz und die arithmetische Standardabweichung einer log-normalverteilten Variablen x sind jeweils gegeben durch: [2]

Diese Schätzung wird aufgrund der Verwendung der geometrischen Varianz manchmal als "geometrischer CV" (GCV) [19] [20] bezeichnet. Im Gegensatz zur arithmetischen Standardabweichung ist der arithmetische Variationskoeffizient unabhängig vom arithmetischen Mittel.

Die Parameter μ und σ erhält man, wenn das arithmetische Mittel und die arithmetische Varianz bekannt sind:

Eine Wahrscheinlichkeitsverteilung ist nicht eindeutig durch die Momente E[x n ] = e + 1 / 2 n 2 σ 2 für n 1 . Das heißt, es existieren andere Verteilungen mit der gleichen Menge von Momenten. [4] Tatsächlich gibt es eine ganze Familie von Verteilungen mit den gleichen Momenten wie die Log-Normalverteilung. [ Zitat benötigt ]

Modus, Median, Quantile Bearbeiten

Der Modus ist der Punkt des globalen Maximums der Wahrscheinlichkeitsdichtefunktion. Insbesondere durch Lösen der Gleichung ( ln ⁡ f ) ′ = 0 erhalten wir:

Insbesondere ist der Median einer logarithmischen Normalverteilung gleich ihrem multiplikativen Mittelwert, [21]

Teilerwartung Bearbeiten

wobei Φ die kumulative Normalverteilungsfunktion ist. Die Ableitung der Formel wird in der Diskussion dieses Wikipedia-Eintrags bereitgestellt. [ wo? ] Die partielle Erwartungsformel hat Anwendungen in Versicherungs- und Wirtschaftswissenschaften, sie wird verwendet, um die partielle Differentialgleichung zu lösen, die zur Black-Scholes-Formel führt.

Bedingte Erwartung Bearbeiten

Alternative Parametrierungen Bearbeiten

  • LogNormal1(μ,σ) mit Mittelwert μ und Standardabweichung σ, beide auf der Log-Skala [24] P ( x μ , σ ) = 1 x σ 2 π exp ⁡ [ − ( ln ⁡ x − μ ) 2 2 σ 2 ] >,<oldsymbol >)=>>>exp left[-><2sigma ^<2>>> ight]>
  • LogNormal2(μ,υ) mit Mittelwert μ und Varianz υ, beide auf der Log-Skala P ( x μ , v ) = 1 xv 2 π exp ⁡ [ − ( ln ⁡ x − μ ) 2 2 v ] < displaystyle P(x<oldsymbol >,<oldsymbol >)=>>>>exp left[-><2v>> ight]>
  • LogNormal3(m,σ) mit Median, m, auf der natürlichen Skala und Standardabweichung, σ, auf der log-Skala [24] P ( xm , σ ) = 1 x σ 2 π exp ⁡ [ − ln 2 ⁡ ( x / m ) 2 σ 2 ] >,<oldsymbol >)=>>>exp left[-(x/m)><2sigma ^<2>>> ight]>
  • LogNormal4(m,cv) mit Median m und Variationskoeffizient cv, beide auf der natürlichen Skala P ( xm , cv ) = 1 x ln ⁡ ( cv 2 + 1 ) 2 π exp ⁡ [ − ln 2 ⁡ ( x / m ) 2 ln ⁡ ( cv 2 + 1 ) ] >,<oldsymbol >)=+1)>>>>>exp left[-(x/m)><2ln(cv^<2>+1 )>> ight]>
  • LogNormal5(μ,τ) mit Mittelwert μ und Präzision τ, beide auf der Log-Skala [25] P ( x μ , τ ) = τ 2 π 1 x exp ⁡ [ − τ 2 ( ln ⁡ x − μ ) 2 ] >,<oldsymbol < au >>)=<2pi >>>>exp left[-<2>>(ln x-mu )^<2> ight]>
  • LogNormal6(m,σg) mit Median, m und geometrischer Standardabweichung, σg, beide auf der natürlichen Skala [26] P ( xm , σ g ) = 1 x ln ⁡ ( σ g ) 2 π exp ⁡ [ − ln 2 ⁡ ( x / m ) 2 ln 2 ⁡ ( σ g ) ] < Anzeigestil P(x<oldsymbol >,<oldsymbol >>)=)>>>exp left[-(x/m)><2ln ^<2>(sigma _)>> ight]>
  • LogNormal7(μnn) mit Mittelwert, μn, und Standardabweichung, σn, beide auf der natürlichen Skala [27] P ( x μ N , σ N ) = 1 x 2 π ln ⁡ ( 1 + σ N 2 / μ N 2 ) exp ⁡ ( − [ ln ⁡ x − ln ⁡ μ N 1 + σ N 2 / μ N 2 ] 2 2 ln ⁡ ( 1 + σ N 2 / μ N 2 ) ) >>,>>)=^<2>/mu_^<2> ight)>>>>exp left(-ln x-ln >^<2>/mu_^<2>>>>^<2>><2ln(1+sigma _^<2>/mu_^<2>)>> ight)>

Beispiele zur Umparametrierung Bearbeiten

Betrachten Sie die Situation, in der Sie ein Modell mit zwei verschiedenen optimalen Entwurfswerkzeugen ausführen möchten, zum Beispiel PFIM [28] und PopED. [29] Ersteres unterstützt die LN2- bzw. LN7-Parametrisierung. Daher ist die Umparametrierung erforderlich, da die beiden Tools sonst unterschiedliche Ergebnisse liefern würden.

Alle übrigen Umparametrierungsformeln sind im Lastenheft auf der Projektwebsite zu finden. [30]

Multiple, Reziproke, Power Edit

Multiplikation und Division unabhängiger, lognormaler Zufallsvariablen Bearbeiten

Multiplikativer zentraler Grenzwertsatz Bearbeiten

Tatsächlich müssen die Zufallsvariablen nicht identisch verteilt sein. Es reicht für die Verteilungen von ln ⁡ ( X i ) )> alle haben endliche Varianz und erfüllen die anderen Bedingungen einer der vielen Varianten des zentralen Grenzwertsatzes.

Dies ist allgemein als das Gesetz von Gibrat bekannt.

Andere Bearbeiten

Ein Datensatz, der sich aus der Log-Normalverteilung ergibt, hat eine symmetrische Lorenz-Kurve (siehe auch Lorenz-Asymmetriekoeffizient). [31]

Log-Normalverteilungen sind unendlich teilbar, [33] aber keine stabilen Verteilungen, aus denen man leicht ziehen kann. [34]

  • Wenn X ∼ N ( μ , σ 2 ) >(mu,sigma^<2>)> eine Normalverteilung ist, dann gilt exp ⁡ ( X ) ∼ Lognormal ⁡ ( μ , σ 2 ) . (mu,sigma^<2>).>
  • Wenn X ∼ Lognormal ⁡ ( μ , σ 2 ) (mu,sigma^<2>)> log-normal verteilt, dann gilt ln ⁡ ( X ) ∼ N ( μ , σ 2 ) >(mu ,sigma ^<2>)> ist eine normale Zufallsvariable. [1]
  • Sei X j ∼ Lognormal ⁡ ( μ j , σ j 2 ) sim operatorname (mu_,sigma_^<2>) > seien unabhängige log-normalverteilte Variablen mit möglicherweise variierenden σ und μ Parametern, und Y = ∑ j = 1 n X j ^X_> . Die Verteilung von Y hat keinen geschlossenen Ausdruck, kann aber durch eine andere logarithmische Normalverteilung Z am rechten Ende einigermaßen angenähert werden. [35] Seine Wahrscheinlichkeitsdichtefunktion in der Umgebung von 0 wurde charakterisiert [34] und ähnelt keiner logarithmischen Normalverteilung. Eine häufig verwendete Approximation von L. F. Fenton (aber zuvor von R. I. Wilkinson angegeben und von Marlow [36] mathematisch begründet) wird erhalten, indem der Mittelwert und die Varianz einer anderen logarithmischen Normalverteilung angepasst werden:

Für eine genauere Näherung kann man die Monte-Carlo-Methode verwenden, um die kumulative Verteilungsfunktion, die pdf und den rechten Schwanz zu schätzen. [37] [38]

Die Summe der korrelierten log-normalverteilten Zufallsvariablen kann auch durch eine log-Normalverteilung angenähert werden [ Zitat benötigt ]

  • Wenn X ∼ Lognormal ⁡ ( μ , σ 2 ) (mu ,sigma ^<2>)> dann hat X + c a Drei-Parameter-Log-Normal Verteilung mit Unterstützung x ∈ ( c , + ∞ ) . [39] E ⁡ [ X + c ] = E ⁡ [ X ] + c [X+c]=Betreibername [X]+c> , Var ⁡ [ X + c ] = Var ⁡ [ X ] [X+c]=Betreibername [X]> .
  • Die Log-Normalverteilung ist ein Spezialfall der halbbeschränkten SU-Verteilung nach Johnson. [40]
  • Wenn X ∣ Y ∼ Rayleigh ⁡ ( Y ) (Y),> mit Y ∼ Lognormal ⁡ ( μ , σ 2 ) (mu ,sigma ^<2>)> , dann X ∼ Suzuki ⁡ ( μ , σ ) (mu,sigma)> (Suzuki-Distribution).
  • Ein Ersatz für die Log-Normale, dessen Integral durch elementarere Funktionen ausgedrückt werden kann [41] kann basierend auf der logistischen Verteilung erhalten werden, um eine Näherung für die CDF . zu erhalten

Schätzung der Parameter Bearbeiten

Zur Bestimmung der Maximum-Likelihood-Schätzer der Log-Normalverteilungsparameter μ und σ, können wir das gleiche Verfahren wie bei der Normalverteilung verwenden. Beachten Sie, dass

Statistik Bearbeiten

Der effizienteste Weg, logarithmisch verteilte Daten zu analysieren, besteht darin, die bekannten Verfahren auf Basis der Normalverteilung auf logarithmisch transformierte Daten anzuwenden und die Ergebnisse gegebenenfalls zurückzutransformieren.

Streuintervalle Bearbeiten

der Wahrscheinlichkeit. Unter Verwendung von geschätzten Parametern sollten in diesen Intervallen ungefähr die gleichen Prozentsätze der Daten enthalten sein.

Konfidenzintervall für μ ∗ > Bearbeiten

Extremales Entropieprinzip zur Fixierung des freien Parameters σ Edit

Die Log-Normalverteilung ist wichtig bei der Beschreibung von Naturphänomenen. Viele natürliche Wachstumsprozesse werden durch die Anhäufung vieler kleiner prozentualer Veränderungen angetrieben, die sich im logarithmischen Maßstab addieren. Unter geeigneten Regularitätsbedingungen wird die Verteilung der resultierenden akkumulierten Änderungen zunehmend durch eine Log-Normale angenähert, wie im obigen Abschnitt "Multiplikativer zentraler Grenzwertsatz" erwähnt. Dies ist auch als Gibrats Gesetz bekannt, nach Robert Gibrat (1904–1980), der es für Unternehmen formulierte. [46] Wenn die Akkumulationsrate dieser kleinen Veränderungen im Laufe der Zeit nicht variiert, wird das Wachstum unabhängig von der Größe. Selbst wenn das nicht stimmt, sind die Größenverteilungen von Dingen, die im Laufe der Zeit wachsen, in jedem Alter normalerweise logarithmisch.

Eine zweite Rechtfertigung basiert auf der Beobachtung, dass fundamentale Naturgesetze Multiplikationen und Divisionen positiver Variablen implizieren. Beispiele sind das einfache Gravitationsgesetz, das Masse und Abstand mit der resultierenden Kraft verbindet, oder die Formel für Gleichgewichtskonzentrationen von Chemikalien in einer Lösung, die Konzentrationen von Edukten und Produkten verbindet. Die Annahme von Log-Normalverteilungen der beteiligten Variablen führt in diesen Fällen zu konsistenten Modellen.

Auch wenn keine dieser Begründungen zutrifft, ist die Log-Normalverteilung oft ein plausibles und empirisch adäquates Modell. Beispiele sind die folgenden:

Menschliches Verhalten Bearbeiten

  • Die Länge der Kommentare in Internet-Diskussionsforen folgt einer logarithmischen Normalverteilung. [47]
  • Die Verweildauer der Nutzer bei Online-Artikeln (Witze, Nachrichten etc.) folgt einer logarithmischen Normalverteilung. [48]
  • Die Länge von Schachpartien folgt tendenziell einer logarithmischen Normalverteilung. [49]
  • Die Einsetzdauern akustischer Vergleichsreize, die einem Standardreiz zugeordnet sind, folgen einer logarithmischen Normalverteilung. [18] sowohl allgemeine als auch individuelle Lösungen scheinen einer logarithmischen Normalverteilung zu folgen. [Zitat benötigt]

In Biologie und Medizin Bearbeiten

  • Maße von lebendem Gewebe (Länge, Hautfläche, Gewicht). [50]
  • Bei hochgradig übertragbaren Epidemien wie SARS im Jahr 2003 wird gezeigt, dass die Anzahl der hospitalisierten Fälle, wenn öffentliche Interventionskontrollmaßnahmen beteiligt sind, die log-Normalverteilung ohne freie Parameter erfüllt, wenn eine Entropie angenommen wird und die Standardabweichung durch die Prinzip der maximalen Entropieproduktionsrate. [51]
  • Die Länge der inerten Anhängsel (Haare, Krallen, Nägel, Zähne) von biologischen Exemplaren in Wuchsrichtung. [Zitat benötigt]
  • Der normalisierte RNA-Seq-Readcount für jede genomische Region kann durch die Log-Normalverteilung gut angenähert werden.
  • Die PacBio-Sequenzierungsleselänge folgt einer logarithmischen Normalverteilung. [52]
  • Bestimmte physiologische Messungen, wie der Blutdruck von erwachsenen Menschen (nach Trennung auf männliche/weibliche Subpopulationen). [53]
  • In den Neurowissenschaften ist die Verteilung der Feuerraten über eine Neuronenpopulation oft ungefähr log-normal. Dies wurde zuerst im Kortex und Striatum [54] und später im Hippocampus und entorhinalen Kortex [55] und anderswo im Gehirn beobachtet. [56][57] Auch die intrinsischen Gewichtsverteilungen und die synaptischen Gewichtsverteilungen scheinen log-normal zu sein [58].

In kolloidaler Chemie und Polymerchemie Bearbeiten

Folglich werden Referenzbereiche für Messungen bei gesunden Personen genauer geschätzt, indem eine logarithmische Normalverteilung angenommen wird, als wenn eine symmetrische Verteilung um den Mittelwert angenommen wird.


9.2 Mehrdimensionale Skalierung und Ordination

Manchmal sind Daten nicht als Punkte in einem Merkmalsraum dargestellt. Dies kann vorkommen, wenn uns (Un-)Ähnlichkeitsmatrizen zwischen Objekten wie Drogen, Bildern, Bäumen oder anderen komplexen Objekten zur Verfügung gestellt werden, die keine offensichtlichen Koordinaten in (^n) haben.

In Kapitel 5 haben wir gesehen, wie man produziert Cluster aus Distanzen. Hier ist unser Ziel, die Daten in Karten in niedrigdimensionalen Räumen (z. B. Ebenen) zu visualisieren, die an die erinnern, die wir aus den ersten Hauptachsen in PCA erstellen.

Wir beginnen mit einem Beispiel, das zeigt, was wir mit einfachen geografischen Daten tun können. In Abbildung 9.1 sind eine Heatmap und Clusterung der ungefähren Straßenentfernungen zwischen einigen europäischen Städten dargestellt.

Abbildung 9.1: Eine Heatmap der Entfernungen zwischen einigen Städten. Die Funktion hat die Reihenfolge der Städte neu geordnet und die nächstgelegenen gruppiert.

Angesichts dieser Entfernungen zwischen Städten liefert die multidimensionale Skalierung (MDS) eine „Karte“ ihrer relativen Standorte. In diesem Fall wurden die Entfernungen natürlich ursprünglich als Straßenentfernungen gemessen (außer bei Fähren), sodass wir tatsächlich erwarten, eine zweidimensionale Karte zu finden, die die Daten gut darstellt. Bei biologischen Daten sind unsere Karten wahrscheinlich weniger eindeutig. Wir rufen die Funktion auf mit:

Wir erstellen eine Funktion, die wir wiederverwenden können, um das MDS-Screeplot aus dem Ergebnis eines Aufrufs der cmdscale-Funktion zu erstellen:

Abbildung 9.2: Sceeplot der ersten 5 Eigenwerte. Der Abfall nach den ersten beiden Eigenwerten ist gut sichtbar.

Machen Sie ein Barplot aus alle die von der cmdscale-Funktion ausgegebenen Eigenwerte: Was fällt Ihnen auf?

Sie werden feststellen, dass es im Gegensatz zu PCA sind einige negative Eigenwerte, diese sind darauf zurückzuführen, dass die Daten nicht aus einem euklidischen Raum stammen.

Um die Punkte auf der Karte zu positionieren, haben wir sie auf die neuen Koordinaten projiziert, die aus den Entfernungen erstellt wurden (wir werden die Funktionsweise des Algorithmus im nächsten Abschnitt besprechen). Beachten Sie, dass die relativen Positionen in Abbildung 9.3 zwar korrekt sind, die Ausrichtung der Karte jedoch unkonventionell ist: z. B. befindet sich Istanbul im Südosten Europas oben links.

Abbildung 9.3: MDS-Karte europäischer Städte anhand ihrer Entfernungen.

Wir kehren die Vorzeichen der Hauptkoordinaten um und zeichnen die Karte neu. Wir lesen auch die wahren Längen- und Breitengrade der Städte ein und tragen diese zum Vergleich daneben ein (Abbildung 9.4).

Abbildung 9.4: Links: wie Abbildung 9.3, jedoch mit vertauschten Achsen. Rechts: wahre Breiten- und Längengrade.

Welche Städte scheinen auf der PCoA-Karte im linken Feld von Abbildung 9.4 die schlechteste Darstellung zu haben?

Es scheint, dass die Städte im äußersten Westen: Dublin, Madrid und Barcelona schlechtere Prognosen haben als die zentralen Städte. Dies liegt wahrscheinlich daran, dass die Daten in diesen Gebieten spärlicher sind und es für die Methode schwieriger ist, die Außenstädte zu „triangulieren“.

Wir haben die Längen- und Breitengrade in das rechte Feld von Abbildung 9.4 gezeichnet, ohne dem Seitenverhältnis viel Aufmerksamkeit zu schenken. Was ist das richtige Seitenverhältnis für diesen Plot?

Es gibt keine einfache Beziehung zwischen den Entfernungen, die einer Längenänderung von 1 Grad und einer Breitenänderung von 1 Grad entsprechen, daher ist die Wahl schwierig. Selbst unter der vereinfachenden Annahme, dass unsere Erde kugelförmig ist und einen Radius von 6371 km hat, ist es kompliziert: Ein Breitengrad entspricht immer einer Entfernung von 111 km ( (6371 imes2pi/360) ), ebenso wie einer Längengrad auf dem Äquator. Auf dem Breitengrad von Barcelona (41,4 Grad) werden dies jedoch 83 km, auf dem von Sankt Petersburg (60 Grad) 56 km. Pragmatisch könnten wir einen Wert für das Seitenverhältnis wählen, der irgendwo dazwischen liegt, beispielsweise der Kosinus für 50 Grad. Informieren Sie sich im Internet über die Haversine-Formel.

Notiz: MDS erzeugt eine ähnliche Ausgabe wie PCA, jedoch haben die Daten nur eine „Dimension“ (die Stichprobenpunkte). Es gibt keine „doppelte“ Dimension und Biplots sind nicht verfügbar. Dies ist ein Nachteil bei der Interpretation der Karten. Die Interpretation kann erleichtert werden, indem die Extrempunkte und ihre Unterschiede sorgfältig untersucht werden.

9.2.1 Wie funktioniert die Methode?

Schauen wir uns an, was passieren würde, wenn wir wirklich mit Punkten beginnen würden, deren Koordinaten bekannt wären. . Diese Koordinaten tragen wir in die beiden Spalten einer Matrix mit 24 Zeilen ein. Nun berechnen wir die Entfernungen zwischen den Punkten basierend auf diesen Koordinaten. Um von den Koordinaten (X) zu Entfernungen zu gelangen, schreiben wir [d^2_ = (x_i^1 - x_j^1)^2 + dots + (x_i^p - x_j^p)^2.] Wir nennen die Matrix der quadrierten Distanzen DdotD in R und (Dullet D) im Text würde ⊕ (D^2) D multipliziert mit sich selbst bedeuten, was anders ist. . Wir wollen Punkte finden, deren Abstandsquadrat dem beobachteten (Dullet D) möglichst nahe kommt.

Die relativen Abstände hängen nicht vom Ursprungspunkt der Daten ab. Wir zentrieren die Daten, indem wir eine Matrix (H) verwenden: die Zentriermatrix definiert als (H=I-frac<1>>^t) . Lassen Sie uns das überprüfen Zentrierung Eigenschaft von (H) mit:

Nennen Sie B0 die Matrix, die Sie erhalten, indem Sie die Zentriermatrix sowohl rechts als auch links von DdotD anwenden. Betrachten Sie die Punkte, die um den durch die (HX)-Matrix gegebenen Ursprung zentriert sind, und berechnen Sie ihr Kreuzprodukt, wir nennen dies B2 . Was müssen Sie mit B0 machen, damit es gleich B2 wird?

Daher haben wir bei gegebenen quadrierten Abständen zwischen den Zeilen ( (Dullet D) ) und dem Kreuzprodukt der zentrierten Matrix (B=(HX)(HX)^t) gezeigt:

Dies ist immer wahr, und wir verwenden es, um ein (X) zurückzuentwickeln, das Gleichung (9.1) erfüllt, wenn wir zunächst (Dullet D) erhalten.

Von (Dullet D) nach (X) mit singulären Vektoren.

Wir können von einer Matrix (Dullet D) zu (X) zurückgehen, indem wir die Eigenzerlegung von (B) gemäß Gleichung (9.1) nehmen. Auf diese Weise können wir auch auswählen, wie viele Koordinaten oder Spalten wir für die (X)-Matrix haben möchten. Dies ist der Art und Weise, wie PCA die beste Rang-(r)-Approximation liefert, sehr ähnlich.
Notiz: Wie in PCA können wir dies mit der Singulärwertzerlegung von (HX) (oder der Eigenzerlegung von (HX(HX)^t) schreiben):

⊕ [S^ <(r) >= egin s_1 &0 &0 &0 &. 0&s_2&0 & 0 &. 0& 0& . &. &. 0 & 0 & . & s_r &. . &. &. & 0 & 0 end] Dies liefert die beste Näherungsdarstellung in einem euklidischen Raum der Dimension (r) . ⊕ Die Methode wird oft als Hauptkoordinatenanalyse oder PCoA bezeichnet, was die Verbindung zu PCA betont. Der Algorithmus liefert uns die Koordinaten von Punkten, die ungefähr die gleichen Entfernungen wie die von der (D)-Matrix bereitgestellten haben.

Klassischer MDS-Algorithmus.

Zusammenfassend können wir bei einer gegebenen (n imes n)-Matrix mit quadrierten Zwischenpunktabständen (Dullet D) Punkte und ihre Koordinaten ( ilde) durch die folgenden Operationen:

Zentrieren Sie den Interpunktabstand zum Quadrat und multiplizieren Sie ihn mit (-frac<1><2>) :
(B = -frac<1><2>H Dullet D H) .

Diagonale (B) : (quad B = U Lambda U^t) .

Extrahieren ( ilde) : (quad ilde = ULambda^<1/2>) .

Die richtige zugrunde liegende Dimensionalität finden.

Nehmen wir als Beispiel Objekte, für die wir Ähnlichkeiten (Surrograte für Entfernungen) haben, für die jedoch kein natürlicher zugrunde liegender euklidischer Raum existiert. In einem psychologischen Experiment aus den 1950er Jahren bat Ekman (1954) 31 Probanden, die Ähnlichkeiten von 14 verschiedenen Farben zu bewerten. Sein Ziel war es, die zugrunde liegende Dimensionalität der Farbwahrnehmung zu verstehen. Die Ähnlichkeits- oder Verwechslungsmatrix wurde auf Werte zwischen 0 und 1 skaliert. Die oft verwechselten Farben hatten Ähnlichkeiten nahe 1. Wir transformieren die Daten in eine Unähnlichkeit, indem wir die Werte von 1 subtrahieren.

Wir berechnen die MDS-Koordinaten und Eigenwerte. Wir kombinieren die Eigenwerte in dem in Abbildung 9.5 gezeigten Screeplot:

Abbildung 9.5: Das Screeplot zeigt uns, dass das Phänomen zweidimensional ist und gibt eine klare Antwort auf Ekmans Frage.

Wir zeichnen die verschiedenen Farben mit den ersten beiden Hauptkoordinaten wie folgt:

Abbildung 9.6: Die Anordnung der Streupunkte in den ersten beiden Dimensionen hat eine Hufeisenform. Die Beschriftungen und Farben zeigen, dass der Bogen den Wellenlängen entspricht.

Abbildung 9.6 zeigt die Ekman-Daten in den neuen Koordinaten. Es gibt ein auffälliges Muster, das nach Erklärung bedarf. Diese Hufeisen- oder Bogenstruktur in den Punkten ist oft ein Indikator für eine sequentielle latente Ordnung oder einen Gradienten in den Daten (Diaconis, Goel und Holmes 2007) . Wir werden dies in Abschnitt 9.5 wiederholen.

9.2.2 Robuste Versionen von MDS

Robustheit: Eine Methode ist robust, wenn sie nicht zu sehr von einigen Ausreißern beeinflusst wird. Zum Beispiel ändert sich der Median einer Menge von (n)-Zahlen nicht viel, selbst wenn wir die Zahlen um beliebig große Beträge ändern, um den Median drastisch zu verschieben, müssen wir mehr als die Hälfte der Zahlen ändern. Im Gegensatz dazu können wir den Mittelwert um einen großen Betrag ändern, indem wir einfach eine der Zahlen manipulieren. Wir sagen, dass die Bruchstelle des Medians ist 1/2, während der des Mittelwerts nur (1/n) beträgt. Sowohl Mittelwert als auch Median sind Schätzer der Lage einer Verteilung (d. h. was ein „typischer“ Wert der Zahlen ist), aber der Median ist robuster. Der Median basiert allgemeiner auf den Rängen, auf Rängen basierende Methoden sind oft robuster als solche, die auf den tatsächlichen Werten basieren. Viele nichtparametrische Tests basieren auf Reduktionen von Daten auf ihre Ränge. Die mehrdimensionale Skalierung zielt darauf ab, die Differenz zwischen den quadrierten Abständen, die durch (Dullet D) gegeben sind, und den quadrierten Abständen zwischen den Punkten mit ihren neuen Koordinaten zu minimieren. Leider neigt dieses Ziel dazu, anfällig für Ausreißer zu sein: Ein einzelner Datenpunkt mit großen Abständen zu allen anderen kann die gesamte Analyse dominieren und damit verzerren. Oft verwenden wir etwas Robusteres, und eine Möglichkeit, dies zu erreichen, besteht darin, die tatsächlichen Werte der Entfernungen außer Acht zu lassen und nur darum zu bitten, dass die relativen Rankings der ursprünglichen und der neuen Entfernungen so ähnlich wie möglich sind. Ein solcher rangbasierter Ansatz ist robust: seine Empfindlichkeit gegenüber Ausreißern wird reduziert.

Wir werden die Ekman-Daten verwenden, um zu zeigen, wie nützlich robuste Methoden sind, wenn wir uns über die „Skala“ unserer Messungen nicht ganz sicher sind. Robuste Ordination, auch nicht metrische mehrdimensionale Skalierung (kurz NMDS) genannt, versucht nur, die Punkte so in einen neuen Raum einzubetten, dass die Auftrag der rekonstruierten Entfernungen in der neuen Karte entspricht der Reihenfolge der ursprünglichen Entfernungsmatrix.

Nicht metrisches MDS sucht nach einer Transformation (f) der gegebenen Unähnlichkeiten in der Matrix (d) und einer Menge von Koordinaten in einem niedrigdimensionalen Raum ( die Karte ) so dass der Abstand in dieser neuen Abbildung ( ilde) und (f(d) hickapprox ilde) . Die Güte der Approximation lässt sich anhand der standardisierten Residualsummenquadratfunktion (Spannung) messen:

NMDS ist nicht sequentiell in dem Sinne, dass wir die zugrunde liegende Dimensionalität zu Beginn spezifizieren müssen und die Optimierung durchgeführt wird, um die Rekonstruktion der Abstände gemäß dieser Zahl zu maximieren. Es gibt keinen Begriff des Prozentsatzes der Variation, der durch einzelne Achsen erklärt wird, wie in PCA bereitgestellt. Wir können jedoch ein Simili-Screeplot erstellen, indem wir das Programm für alle aufeinanderfolgenden Werte von (k) ( (k=1, 2, 3, . ) ) ausführen und untersuchen, wie gut die Spannung abfällt. Hier ist ein Beispiel für die Betrachtung dieser sukzessiven Approximationen und ihrer Anpassungsgüte. Wie bei der Diagnose für Clustering nehmen wir die Anzahl der Achsen nach der Stress hat einen steilen Abfall.

Da jede Berechnung eines NMDS-Ergebnisses eine neue Optimierung erfordert, die sowohl zufällig als auch vom (k)-Wert abhängt, verwenden wir ein ähnliches Verfahren wie beim Clustering in Kapitel 4. Wir führen die metaMDS-Funktion aus, sagen wir 100 mal für jeden der vier möglichen Werte von (k) und notieren Sie die Spannungswerte.

Schauen wir uns die Boxplots der Ergebnisse an. Dies kann ein nützliches Diagnosediagramm für die Wahl von (k) sein (Abbildung 9.7).

Abbildung 9.7: Mehrere Wiederholungen in jeder Dimension wurden durchgeführt, um die Stabilität der Spannung zu bewerten. Wir sehen, dass die Spannung bei zwei oder mehr Dimensionen dramatisch abfällt, was darauf hindeutet, dass hier eine zweidimensionale Lösung angemessen ist.

Wir können die Abstände und ihre Näherungen auch mit einem sogenannten Shepard-Plot für (k=2) vergleichen, zum Beispiel berechnet mit:

Abbildung 9.8: Der Shepard-Plot vergleicht die ursprünglichen Distanzen oder Unähnlichkeiten (entlang der horizontalen Achse) mit den rekonstruierten Distanzen, in diesem Fall für (k=2) (vertikale Achse).

Sowohl der Shepard-Plot in Abbildung 9.8 als auch der Screeplot in Abbildung 9.7 weisen auf eine zweidimensionale Lösung für Ekmans Farbverwirrungsstudie hin.

Vergleichen wir die Ausgabe der beiden verschiedenen MDS-Programme, der klassischen metrischen Methode der kleinsten Quadrate und der nichtmetrischen Rangapproximation. Das rechte Panel von Abbildung 9.9 zeigt das Ergebnis der nichtmetrischen Rang-Approximation, das linke Panel entspricht Abbildung 9.6. Die Projektionen sind in beiden Fällen nahezu identisch. For these data, it makes little difference whether we use a Euclidean or nonmetric multidimensional scaling method.

Figure 9.9: Comparison of the output from the classical multidimensional scaling on the left (same as Figure 9.6) and the nonmetric version on the right.


Diskussion

In this article, we propose scDesign2, a transparent simulator for single-cell gene expression count data. Our development of scDesign2 is motivated by the pressing challenge to generate realistic synthetic data for various scRNA-seq protocols and other single-cell gene expression count-based technologies. Unlike existing simulators including our previous simulator scDesign, scDesign2 achieves six properties: protocol adaptiveness, gene preservation, gene correlation capture, flexible cell number and sequencing depth choices, transparency, and computational and sample efficiency. This achievement of scDesign2 is enabled by its unique use of the copula statistical framework, which combines marginal distributions of individual genes and the global correlation structure among genes. As a result, scDesign2 has the following methodological advantages that contribute to its high degree of transparency. First, it selects a marginal distribution from four options (Poisson, ZIP, NB, and ZINB) for each gene in a data-driven manner to best capture and summarize the expression characteristics of that gene. Second, it uses a Gaussian copula to estimate gene correlations, which will be used to generate synthetic single-cell gene expression counts that preserve the correlation structures. Third, it can generate gene expression counts according to user-specified sequencing depth and cell number.

We have performed a comprehensive set of benchmarking and real data studies to evaluate scDesign2 in terms of its accuracy in generating synthetic data and its efficacy in guiding experimental design and benchmarking computational methods. Based on four scRNA-seq protocols and 12 cell types, our benchmarking results demonstrate that scDesign2 better captures gene expression characteristics in real data than eight existing scRNA-seq simulators do. In particular, among the four simulators that aim to preserve gene correlations, scDesign2 achieves the best accuracy. Moreover, we demonstrate the capacity of scDesign2 in generating synthetic data of other single-cell count-based technologies including MERFISH and pciSeq, two single-cell spatial transcriptomics technologies. After validating the realistic nature of synthetic data generated by scDesign2, we use real data applications to demonstrate how scDesign2 can guide the selection of cell number and sequencing depth in experimental design, as well as how scDesign2 can benchmark computational methods for cell clustering and rare cell type identification.

In the last stage of manuscript finalization, we found another scRNA-seq simulator SPsimSeq [79] (published in Bioinformatics as a 2.3-page software article), which can capture gene correlations. However, unlike scDesign2, SPsimSeq cannot generate scRNA-seq data with varying sequencing depths. To compare scDesign2 with SPsimSeq, we have benchmarked their synthetic data against the corresponding real data in two sets of analyses: (1) gene correlation matrices of the previously used 12 cell type–protocol combinations (3 cell types × 4 scRNA-seq protocols) and (2) 2D visualization plots of the 4 multi-cell type scRNA-seq datasets and one MERFISH dataset. The results are summarized in Additional file 2. We find that in most cases (10 out 12 cases in the first set of analysis 5 out 5 cases in the second set of analysis), the synthetic data of scDesign2 better resemble the real data than the synthetic data of SPsimSeq do.

Since scRNA-seq data typically contain tens of thousands of genes, the estimation of the copula gene correlation matrix is a high dimensional problem. This problem can be partially avoided by only estimating the copula correlation matrix of thousands of moderately to highly expressed genes. We use a simulation study to demonstrate why this approach is reasonable (Additional file 1: Figures S42 and S43), and a more detailed discussion is in the “Methods” section. To summarize, the simulation results suggest that, to reach an average estimation accuracy of ±0.3 of true correlation values among the top 1000 highly expressed genes, at least 20 cells are needed. To reach an accuracy level of ±0.2 for the top 1500 highly expressed genes, at least 50 cells are needed. With 100 cells, an accuracy level of ±0.1 can be reached for the top 200 highly expressed genes, and a slightly worse accuracy level can be reached for the top 2000 genes.

In the implementation of the scDesign2 R package, we control the number of genes for which copula correlations need to be estimated by filtering out the genes whose zero proportions exceed a user-specified cutoff. For all the results in this paper, the cutoff is set as 0.8. In Additional file 1: Table S1, we summarize the number of cells (n), i.e., the sample size, and the number of genes included for copula correlation estimation (P) in each of the 12 datasets used for benchmarking simulators. Based on Additional file 1: Figures S42 and S43, we see that P appears to be too large for the CEL-Seq2, Fluidigm C1, and Smart-Seq2 datasets. This suggests that the results in this paper may be further improved by setting a more stringent cutoff for gene selection.

For future methodological improvement, there are other ways to address this high-dimensional estimation problem. For example, we can consider implementing sparse estimation (e.g., [97]) for the copula correlation matrix. Moreover, we can build a hierarchical model to borrow information across cell types/clusters. This will be useful for improving the model fitting for small cell types/clusters that may share similar gene correlation structures.

The current implementation of scDesign2 is restricted to single-cell datasets composed of discrete cell types, because the generative model of scDesign2 assumes that cells of the same type follow the same distribution of gene expression. However, many single-cell datasets exhibit continuous cell trajectories instead of discrete cell types. A nice property of the probabilistic model used in scDesign2 is that it is generalizable to account for continuous cell trajectories. First, we can use the generalized additive model (GAM) [52, 98, 99] to model each gene’s marginal distribution of expression as a function of cell pseudotime, which can be computationally inferred from real data [53, 54, 56]. Second, the copula framework can be used to incorporate gene correlation structures along the cell pseudotime. Combining these two steps into a generative model, this extension of scDesign2 has the potential to overcome the current challenge in preserving gene correlations encountered by existing simulators for single-cell trajectory data, such as Splatter Path [69], dyngen [77], and PROSSTT [68]. Another note is that scDesign2 does not generate synthetic cells based on outlier cells that do not cluster well with any cells in well-formed clusters. This is not necessarily a disadvantage, neither is it a unique feature to scDesign2. In fact, all model-based simulators that learn a generative model from real data must ignore certain outlier cells that do not fit well to their model. Some outlier cells could either represent an extremely rare cell type or are just “doublets” [100–103], artifacts resulted from single-cell sequencing experiments. Hence, our stance is that ignorance of outlier cells is a sacrifice that every simulator has to make the open question is the degree to which outlier cells should be ignored, and proper answers to this question must resort to statistical model selection principles.

Regarding the use of scDesign2 to guide the design of scRNA-seq experiments, although scDesign2 can model and simulate data from various scRNA-seq protocols and other single-cell expression count-based technologies, the current scDesign2 implementation is not yet applicable to cross-protocol data generation (i.e., training scDesign2 on real data of one protocol and generating synthetic data for another protocol) because of complicated differences in data characteristics among protocols. To demonstrate this issue, we use a multi-protocol dataset of peripheral blood mononuclear cells (PBMCs) generated for benchmarking purposes [20]. We select data of five cell types measured by three protocols, 10x Genomics, Drop-Seq, and Smart-Seq2, and we train scDesign2 on the 10x Genomics data. Then, we adjust the fitted scDesign2 model for the Drop-Seq and Smart-Seq2 protocols by rescaling the mean parameters in the fitted model to account for the total sequencing depth and cell number, which are protocol-specific (see the “Methods” for details). After the adjustment, we use the model for each protocol to generate synthetic data. Additional file 1: Figure S44 illustrates the comparison of real data and synthetic data for each protocol. From the comparison, we observe that the synthetic cells do not mix well with the real cells for the two cross-protocol scenarios only for 10x Genomics, the same-protocol scenario, do the synthetic cells mix well with the real cells.

To further illustrate the different data characteristics of different protocols, we compare individual genes’ mean expression levels in the aforementioned three protocols. We refer to Drop-Seq and Smart-Seq2 as the target protocols, and 10x Genomics as the reference protocol. First, we randomly partition the two target-protocol datasets and the reference-protocol dataset into two halves each we repeat the partitions for 100 times and collect 100 sets of partial datasets, with each set containing two target-protocol partial datasets (one Drop-Seq and one Smart-Seq2) and two reference-protocol partial datasets (split from the 10x Genomics dataset)—one of the latter is randomly picked and referred to as the “reference data.” Second, For every gene in each cell type, we take each set of partial datasets and compute two cross-protocol ratios, defined as the gene’s mean expression levels in the target-protocol partial datasets divided by its mean expression level in the reference data, and a within-protocol ratio, defined as the ratio of the gene’s mean expression level in the other reference-protocol partial dataset divided by that in the reference data together, with the 100 sets of partial dataset, every gene in each cell type has 100 ratios for each of the two cross-protocol comparisons and 100 ratios for the within-protocol comparison. We apply this procedure to the top 50 and 2000 highly expressed genes in five cell types. Additional file 1: Figures S45 and S46 show that, with the within-protocol ratios as a baseline control for each cell type and each target protocol, the cross-protocol ratios exhibit a strongly gene-specific pattern moreover, there is no monotone relationship between the cross-protocol ratios and the mean expression levels of genes. This result confirms that there does not exist a single scaling factor to convert all genes’ expression levels from one protocol to another. However, an interesting phenomenon is that, for each target protocol, the cross-protocol ratios have similar patterns across cell types. This phenomenon sheds light on a future research direction of cross-protocol simulation for the cell types that exist in only one protocol, if the two protocols have shared cell types. In this scenario, we may train a model for each cell type in each protocol, learn a gene-specific but cell type-invariant scaling factor from the shared cell types, and simulate data for the cell types missing in one protocol.

We note that the above analysis is only conducted for the genes’ mean expression levels. The difficulty of cross-protocol simulation is in fact even larger because realistic simulation requires the rescaling of the other distributional parameter(s) in a two-parameter distribution such as NB and ZIP or a three-parameter distribution such as ZINB. Existing work has provided extensive empirical evidence on the vast differences between protocols in terms of data characteristics [42, 86].

In applications 2 and 3, we have demonstrated how to use scDesign2 to guide experimental design and benchmark computational methods for the tasks of cell clustering and rare cell type detection. Note that in these analyses, the optimized sequencing depths and cell numbers are only applicable to the same experimental protocols and biological samples. Yet, this limitation does not disqualify scDesign2 as a useful tool to guide experimental design. For example, researchers usually perform a coarse-grained, low-budget experiment to obtain a preliminary dataset, and then they may use scDesign2 to guide the optimal design of the later, more refined experiment. As another example, if scRNA-seq data need to be collected from many individuals, researchers usually first perform a pilot study on a small number of individuals. Then, they may train scDesign2 using the pilot data to guide the design of the subsequent, large-scale experiments. In addition to guiding the experimental design, scDesign2 is useful as a general benchmarking tool for various experimental protocols and computational methods. For example, the analyses we performed in applications 2 and 3 are easily generalizable to other computational methods for a more comprehensive benchmarking.

Although we only use cell clustering and rare cell type detection to demonstrate scDesign2’s use in guiding experimental design and benchmarking computational methods, we want to emphasize that scDesign2 has broad applications beyond these two tasks. Inheriting the flexible and transparent modeling nature of our previous simulator scDesign, scDesign2 can also benchmark other computational analyses we have demonstrated in our scDesign paper [35], including differential gene expression analysis and cell dimensionality reduction. Moreover, beyond its role as a simulator, scDesign2 may benefit single-cell gene expression data analysis by providing its estimated parameters about gene expression and gene correlations. Here, we discuss three potential directions. First, scDesign2 can assist differential gene expression analysis. Its estimated marginal distributions of individual genes in different cell types can be used to investigate more general patterns of differential expression (such as different variances and different zero proportions), in addition to comparing gene expression means between two groups of cells [104]. Second, its estimated gene correlation structures can be used to construct cell type-specific gene networks [105] and incorporated into gene set enrichment analysis to enhance statistical power [106, 107]. Third, scDesign2 has the potential to improve the alignment of cells from multiple single-cell datasets [108]. Its estimated gene expression parameters can guide the calculation of cell type or cluster similarities between batches, and its estimated gene correlation structures can be used to align cell types or clusters across batches based on the similarity in gene correlation structures. [109].


LIKELIHOOD FUNCTION

Consider system (23) in conjunction with the normality assumptions (25) and (26), and regard the vector Λyich as “data.” The model for the entire data vector can be written as 35 where du comprises additive genetic effects for all individuals and all traits (du may include additive genetic effects of individuals without records), and Z is an incidence matrix of appropriate order. If all individuals have records for all traits, Z is an identity matrix of order NK × NK otherwise, columns of 0's for effects of individuals without phenotypic measurements would be included in Z. In view of the normality assumptions (25) and (26), one can write and where EIN is a matrix of additive genetic relationships (or of twice the coefficients of coancestry) between individuals in a genealogy, and indicates Kronecker product. Beachten Sie, dass I ⊗ R0 reflects the assumption that all individuals with records possess phenotypic values for each of the K Züge. This is not a requirement, but it simplifies somewhat the treatment that follows.

Gegeben du, the vectors Λyich are mutually independent (since all eich vectors are independent of each other), so the joint density of all Λyich is 36 where Zich is an incidence matrix that “picks up” the K breeding values of individual ich (duich) and relates these to its phenotypic records jaich. Making a change of variables from Λyich zu jaich (ich = 1, 2, … , n), the determinant of the Jacobian of the transformation is |Λ|. Hence, the density of is 37 This is the density of the product of the n normal distributions highlighting that the data generation process can be represented in terms of the reduced model (24), with the only novelty here being the presence of the incidence matrix Zich, with the latter being a K × K identity matrix in (24). Hence, the entire data vector can be modeled as 38 where xΛ is an matrix (again, assuming that each of the n individuals has measurements for the K traits), and ZΛ has order NK × (n + P)K, wo P is the number of individuals in the genealogy lacking phenotypic records (the corresponding columns of ZΛ being null). Observe that (38) is in the form of a standard multiple-trait mixed-effects linear model, save for the fact that the incidence matrices depend on the unknown structural coefficients contained in Λ. Hence 39 where is a block-diagonal matrix consisting of n blocks of order K × K, and all such blocks are equal to Λ −1 R0Λ′ −1 . It follows that ja|Λ, β, du, R0n(xΛβ + ZΛdu, RΛ). Hence, if simultaneity or recursiveness holds, the estimator of the residual variance-covariance matrix from a reduced model analysis is actually estimating Λ −1 R0Λ′ −1 this has a bearing on the interpretation of the parameter estimates.

Since it is assumed that du|g0n(0, A ⊗ G0), the likelihood function is given by 40 This likelihood has the same form as that for a standard multivariate mixed-effects model, except that, here, additional parameters (the nonnull elements of Λ) appear in both the location and dispersion structures of the reduced model (38). A pertinent issue, then, is whether or not all parameters in the model, that is, Λ, β, R0, und g0, can be identified (d.h., estimated uniquely) from the likelihood. This is discussed in the following section.


  • Incomplete Dominance: The hybrid phenotype is a mixture of the expression of both alleles, resulting in a third intermediate phenotype. Example: Red flower (RR) X White flower (rr) = Pink flower (Rr)
  • Co-dominance: The hybrid phenotype is a combination of the expressed alleles, resulting in a third phenotype that includes both phenotypes. (Example: Red flower (RR) X White flower (rr) = Red and white flower (Rr)
  • Incomplete Dominance: The phenotype may be expressed to varying degrees in the hybrid. (Example: A pink flower may have lighter or darker coloration depending on the quantitative expression of one allele versus the other.)
  • Co-dominance: Both phenotypes are fully expressed in the hybrid genotype.

Yeah, it is

The whole thing got started in about 2009, when Pozhitkov was a postdoctoral researcher at the Max Planck Institute for Evolutionary Biology in Germany. It was there that he got a chance to pursue a project he’d been thinking about for more than a decade.

Pozhitkov acquired about 30 zebrafish from the institute’s colony. (These tropical fish are commonly used in research because, among other things, they have transparent embryos, ideal for observing development.) He killed the animals by shocking them with a quick immersion in a cooler of ice water, then put them back in their regular 82-degree Fahrenheit tank.

Over the course of the next four days, he periodically scooped a few fish out of the tank, froze them in liquid nitrogen, and then analyzed their messenger RNA. These are threadlike molecules that do the work of translating DNA into proteins each strand of messenger RNA is a transcript of some section of DNA. Later Pozhitkov and his colleagues repeated the same process with mice, although their death was meted out by broken neck rather than cold shock.

When Pozhitkov’s colleague Peter Noble, then a biochemist at the University of Washington, dug into the data on how active the messenger RNA was on each day after death, something amazed him. In both the fish and the mice, the translation of genes into proteins generally declined after death, as would be expected. But the count of messenger RNA indicated that about 1 percent of genes actually erhöht in transcription after death. Some were chugging along four days after life ceased.

It wasn’t that the researchers had expected a total cessation of activity the moment the zebrafish and mice shuffled off this mortal coil. But to detect increases in transcription rather than just the blinking off of the lights one by one? That was “the most bizarre thing I’ve ever seen,” Noble says.

Not everyone was impressed. Noble and Pozhitkov heard a lot of criticism after the story made the rounds, first on the preprint site bioRxiv in 2016 and then in a paper in Offene Biologie in 2017. The main critique was that they might have misinterpreted a statistical blip. Because cells die off at different rates, perhaps the transcripts recorded in still-living cells merely made up a greater proportion of all the total transcripts, says Peter Ellis, a lecturer in molecular biology at the University of Kent. Think of the transcripts as socks in a drawer, he says. If you lost some of the red ones, the remaining white socks would make up a larger percentage of your total sock collection, but you wouldn’t have acquired more of them.

“The most bizarre thing I’ve ever seen.”

Since that original publication, though, there are hints that something more is going on in the cells that are still churning after the organism dies. In a study published in February in Naturkommunikation, other researchers examined human tissue samples and found hundreds of genes that alter their expression after death. Some genes declined in activity, but others increased. A gene that promotes growth, EGR3, began ramping up its expression four hours after death. Some fluctuated back and forth, like the gene CXCL2, which codes for a signaling protein that calls white blood cells to the site of inflammation or infection.

These changes weren’t merely the passive result of transcripts degrading at different rates like red socks being sporadically lost, says the University of Porto’s Pedro Ferreira, who led the study. Something, he says, was going on that actively regulated gene expression “even after the death of the organism.”


Surprising behavior of transcription factors challenges theories of gene regulation

Transforming progenitor cells into committed T-cell precursors in real time. Inset: Live imaging of a clone of future T cells, from progenitor stage (left) to commitment (right) in 3 days (courtesy, Mary A. Yui). Background: field of cells corresponding to a mixture of these stages, all processed to show individual molecules of RNA encoding key regulatory proteins. Runx1 (cyan dots) is expressed at similar levels in cells at early, middle, and late stages alike (courtesy, Wen Zhou). Credit: B. Shin

How cells develop and the diseases that arise when development goes wrong have been a decades-long research focus in the laboratory of Distinguished Professor of Biology Ellen Rothenberg. In particular, the lab studies the development of immune cells known as T cells, which act as "intelligence agents"—they circulate throughout the body, detect threats, and determine what kind of response the immune system should make. However, when the many stages of T cell development do not occur perfectly, leukemia occurs.

"Many of the genes that we study in normal developing T cells are the same genes that, when regulated incorrectly, lead to the cells becoming T-cell leukemia," says Rothenberg. "Understanding the precision of this process is really important. There's also an interesting aspect of irreversibility: Some of the genes we study only have activity at a specific time period in development, and then they turn off forever. But in leukemia, we see that these genes 'leak' back on again at a later stage when they are supposed to be off. We want to know the details of the process for turning genes on and keeping genes off, which will help us understand what goes wrong in leukemia."

Now, a new study from the Rothenberg lab examines certain proteins that supervise gene regulation in developing T cells and finds that these proteins behave in a manner quite different from that assumed in previous theory. The work suggests that theories of gene regulation may need to be reevaluated.

A paper describing the research appears in the journal Proceedings of the National Academy of Sciences on January 21, 2021. The study's first authors are Caltech postdoctoral scholar Boyoung Shin and former Caltech postdoctoral scholar Hiroyuki Hosokawa, now a faculty member at Tokai University in Japan.

Nearly every cell in the human body contains the same copy of the genome, but differences in the expression of particular genes give rise to different cell types, like muscles, neurons, and immune system cells. Gene expression can be thought of like a light bulb with a dimmer switch. Similar to how a light bulb on a dimmer switch can be turned on brightly, or dimly, or not at all, a gene can be expressed strongly, weakly, or be silenced. The "hands" that adjust these genomic dimmer switches are proteins called transcription factors, which bind to the genome to dial expression up or down.

There are many different kinds of transcription factors, with each acting upon defined sets of genes, sometimes with multiple transcription factors working together to regulate gene expression. The Rothenberg laboratory focused on two very similar transcription factors, Runx1 and Runx3, to find if they play a role during the cascade of sharp changes in gene expression that cause stem cell–like progenitors to become transformed into future T cells.

"The Runx transcription factors have traditionally been underappreciated in these early T cells—they are present in the cell at constant, steady levels throughout development, so scientists have reasoned that they must be unimportant in regulating genes that need to change in expression dramatically over time," says Rothenberg.

In previous studies, other researchers experimentally knocked out one of the Runx factors and subsequently found that little changed in the cell, leading to the conclusion that Runx was not very important. But in this new study, Rothenberg's team found that the two Runx transcription factors cover for each other, so that effects only show up when they are both removed—and those results now show that these transcription factors behave in very unexpected ways.

The conventional genetics theory is that when a factor regulates a target gene, the activity of the factor is correlated with the level of the target gene. But Rothenberg's study found that this was not the case for Runx factors. Although the Runx factors themselves stay active at steady levels through key developmental events, the great majority of genes that respond to the Runx factors change dramatically in expression during this period. In fact, the Runx factors act upon "incredibly important" genes for T cell development, according to Rothenberg, and regulate them strongly.

The findings open up new questions, such as how can the Runx factors cause these dramatic changes in gene expression when levels of Runx themselves do not change?

The team also found that the positions where the Runx factors bind to the genome change markedly over time, bringing Runx to different target DNA sites. At any one time, the study found, the factors are only acting on a fraction of the genes they could regulate they shift their "attention" from one set to another over time. Interestingly, in many of these shifts, large groups of Runx proteins leave their initial sites and travel to occupy clusters of new sites grouped across large distances of the genome, as they act on different genes at different times.

"There's no good explanation yet for this group behavior, and we find that Runx are interacting with the physical genomic architecture in a complex way, as they're regulating genes that have totally different expression patterns than the transcription factors themselves," says Shin. "What is controlling the deployment of the transcription factors? We still don't know, and it's far more interesting than what we thought."

"This work has big implications for researchers trying to model gene networks and shows that transcription factors are more versatile in their actions than people have assumed," Rothenberg says.

The paper is titled "Runx1 and Runx3 drive progenitor to T-lineage transcriptome conversion in mouse T cell commitment via dynamic genomic site switching."

More information: Boyoung Shin et al. Runx1 and Runx3 drive progenitor to T-lineage transcriptome conversion in mouse T cell commitment via dynamic genomic site switching, Proceedings of the National Academy of Sciences (2021). DOI: 10.1073/pnas.2019655118


Zusätzliche Informationen

Abbildung S1.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of skin pigmentation [67] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between skin pigmentation and the selected trait with the effect of selection held constant at (B).

Abbildung S2.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of BMI [74] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between BMI and the selected trait with the effect of selection held constant at (B).

Abbildung S3.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of T2D [75] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between height and the selected trait with the effect of selection held constant at (B).

Abbildung S4.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of CD [26] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between CD and the selected trait with the effect of selection held constant at (B).

Abbildung S5.

Power of tests described in the main text to detect a signal of selection on the mapped genetic basis of UC [26] as an increasing function of the strength of selection (A), and a decreasing function of the genetic correlation between UC and the selected trait with the effect of selection held constant at (B).

Abbildung S6.

The two components of for the skin pigmentation dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Abbildung S7.

The two components of for the BMI dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S8.

The two components of for the T2D dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S9.

The two components of for the CD dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S10.

The two components of for the UC dataset, as described by the left and right terms in (14). The null distribution of each component is shows as a histogram. The expected value is shown as a black bar, and the observed value as a red arrow.

Figure S11.

The genetic values for height in each HGDP population plotted against the measured sex averaged height taken from [127]. Only the subset of populations with an appropriately close match in the named population in [127]'s Appendix I are shown, values used are given in Supplementary table S1.

Figure S12.

The genetic skin pigmentation score for a each HGDP population plotted against the HGDP populations values on the skin pigmentation index map of Biasutti 1959. Data obtained from Supplementary table of [69]. Note that Biasutti map is interpolated, and so values are known to be imperfect. Values used are given in Supplementary table S2.

Figure S13.

The genetic skin pigmentation score for a each HGDP population plotted against the HGDP populations values from the [68] mean skin reflectance (685nm) data (their Table 6). Only the subset of populations with an appropriately close match were used as in the Supplementary table of [69]. Values and populations used are given in Table S2.

Abbildung S14.

The distribution of genetic height score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic height score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Abbildung S15.

The distribution of genetic skin pigmentation score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic skin pigmentation score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S16.

The distribution of genetic BMI score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic BMI score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S17.

The distribution of genetic T2D risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic T2D risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S18.

The distribution of genetic CD risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic CD risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Figure S19.

The distribution of genetic UC risk score across all 52 HGDP populations. Grey bars represent the confidence interval for the genetic UC risk score of an individual randomly chosen from that population under Hardy-Weinberg assumptions.

Tabelle S1.

Genetic height scores as compared to true heights for populations with a suitably close match in the dataset of [127]. See Figure S11 for a plot of genetic height score against sex averaged height.

Tabelle S2.

Genetic skin pigmentation score as compared to values from Biasutti [69], [128] and [68]. We also calculate a genetic skin pigmentation score including previously reported associations at KITLG and OCA2 for comparisson. See also Figures S12 and S13.

Table S3.

Conditional analysis at the regional level for the height dataset.

Table S4.

Conditional analysis at the individual population level for the height dataset.

Table S5.

Conditional analysis at the regional level for the skin pigmentation dataset.

Table S6.

Conditional analysis at the individual population level for the skin pigmentation dataset.

Tabelle S7.

Condtional analysis at the regional level for the BMI dataset.

Tabelle S8.

Conditional analysis at the individual population level for the BMI dataset.

Tabelle S9.

Conditional analysis at the regional level for the T2D dataset.

Tabelle S10.

Conditional analysis at the individual population level for the T2D dataset.

Table S11.

Conditional analysis at the regional level for the CD dataset.

Table S12.

Conditional analysis at the individual population level for the CD dataset.

Table S13.

Conditional analysis at the regional level for the UC dataset.

Table S14.

Conditional analysis at the individual population level for the UC dataset.

Table S15.

Corresponding statistics for all analyses presented in Table 2.

Table S16.

Corresponding statistics for all analyses presented in Table 2.


Schau das Video: Bivariate Normal Distribution (Kann 2022).