Information

17.5: De-novo-Motiventdeckung - Biologie

17.5: De-novo-Motiventdeckung - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Wie zu Beginn dieses Kapitels diskutiert, besteht das Kernproblem bei der Motivfindung darin, die Kriterien dafür zu definieren, was ein gültiges Motiv ist und wo es sich befindet. Alternativ könnte man ChIP-seq verwenden, um nach Motiven zu suchen, aber dieses Verfahren beruht nicht nur darauf, einen bekannten Transkriptionsfaktor von Interesse zu haben, sondern erfordert auch die Entwicklung von Antikörpern, um diesen Transkriptionsfaktor zu erkennen, was kostspielig und zeitaufwendig sein kann.

Im Idealfall könnte man Motive de novo entdecken oder ohne sich auf ein bereits bekanntes Genset oder Transkriptionsfaktor zu verlassen. Obwohl dies ein schwieriges Problem zu sein scheint, kann es tatsächlich durch die Nutzung der genomweiten Konservierung erreicht werden. Da biologische Funktionen normalerweise artenübergreifend konserviert sind und unterschiedliche evolutionäre Signaturen aufweisen, kann man Sequenzen von nahen Arten angleichen und gezielt in konservierten Regionen (auch bekannt als Insel der Erhaltung) suchen, um die Auffindungsrate funktioneller Motive zu erhöhen.

Motivfindung durch genomweite Konservierung

Konservierungsinseln überlappen oft bekannte Motive, so dass genomweite Scans durch evolutionär konservierte Regionen uns helfen können, Motive de novo zu entdecken. Jedoch werden nicht alle konservierten Regionen Motive sein; zum Beispiel können Nukleotide, die Motive umgeben, auch konserviert sein, obwohl sie selbst nicht Teil eines Motivs sind. Die Unterscheidung von Motiven von im Hintergrund konservierten Regionen kann erfolgen, indem nach Anreicherungen gesucht wird, die spezifischer nach kmeren selektieren, die an regulatorischen Motiven beteiligt sind. Beispielsweise kann man regulatorische Motive finden, indem man nach konservierten Sequenzen sucht, die in intergenischen Regionen stromaufwärts von Genen angereichert sind, im Vergleich zu Kontrollregionen, wie etwa kodierenden Sequenzen, da man erwarten würde, dass Motive in oder um Promotoren von Genen angereichert sind. Man kann dieses Modell auch erweitern, um entartete Motive zu finden: Wir können nach der Erhaltung kleinerer, nicht entarteter Motive suchen, die durch eine Lücke variabler Länge getrennt sind, wie in der Abbildung unten gezeigt. Wir können dieses Motiv auch durch eine gierige Suche erweitern, um dem lokalen Maximum-Likelihood-Motiv näher zu kommen. Schließlich kann die Evolution von Motiven auch zeigen, welche Motive entartet sind; da ein bestimmtes Motiv eher degeneriert ist, wenn es im Laufe der Evolution oft durch ein anderes Motiv ersetzt wird, kann die Motivclusterung offenbaren, welche kmer wahrscheinlich demselben Motiv entsprechen.

Tatsächlich hat die Strategie ihre biologische Relevanz. 2003 argumentierte Professor Kellis, dass es einen gewissen selektiven Druck geben muss, damit eine bestimmte Sequenz an bestimmten Orten auftritt. Seine Doktorarbeit. Dissertation zum Thema finden Sie an folgender Stelle:

Validierung entdeckter Motive mit funktionellen Datensätzen

Diese vorhergesagten Motive können dann mit funktionellen Datensätzen validiert werden. Vorhergesagte Motive mit mindestens einem der folgenden Merkmale sind eher echte Motive: -Anreicherung in koregulierten Genen. Dies kann man weiter auf größere Gengruppen ausdehnen; zum Beispiel wurde festgestellt, dass Motive in Genen angereichert sind, die in spezifischen Geweben exprimiert werden -Überlappung mit TF-Bindungsexperimenten -Anreicherung in Genen aus dem gleichen Komplex -Positionsfehler in Bezug auf die Transkriptionsstartstelle (TSS): Motive sind in Gen-TSSs angereichert -Upstream vs Motive bleiben erhalten und bekannte Motive sind möglicherweise nicht genau richtig)


HOMER

HOMER enthält einen neuartigen Motiverkennungsalgorithmus, der für die Analyse regulatorischer Elemente in Genomikanwendungen entwickelt wurde (nur DNA, kein Protein). Es handelt sich um einen differentiellen Motiverkennungsalgorithmus, was bedeutet, dass er zwei Sätze von Sequenzen nimmt und versucht, die regulatorischen Elemente zu identifizieren, die im Verhältnis zum anderen spezifisch in einem Satz angereichert sind. Es verwendet die ZOOPS-Bewertung (null oder ein Vorkommen pro Sequenz) in Verbindung mit den hypergeometrischen Anreicherungsberechnungen (oder Binomial), um die Motivanreicherung zu bestimmen. HOMER versucht auch sein Bestes, um sequenzierte Verzerrungen im Datensatz zu berücksichtigen. Es wurde mit Blick auf die ChIP-Seq- und Promotor-Analyse entwickelt, kann aber auf so ziemlich jedes Problem bei der Suche nach Nukleinsäuren angewendet werden.

Es gibt mehrere Möglichkeiten, eine Motivanalyse mit HOMER durchzuführen. Die folgenden Links stellen die verschiedenen Workflows für die Ausführung der Motivanalyse vor. Kurz gesagt, HOMER enthält zwei Tools, findMotifs.pl und findMotifsGenome.pl , die alle Schritte zum Entdecken von Motiven in Promoter- bzw. Genomregionen verwalten. Diese Skripte versuchen es dem Benutzer leicht zu machen, eine Liste von Genen oder genomischen Positionen auf angereicherte Motive zu analysieren. Wenn Sie jedoch bereits über die Sequenzdateien verfügen, die Sie analysieren möchten (d. h. FASTA-Dateien), können findMotifs.pl (und homer2 ) diese direkt verarbeiten.

Unabhängig davon, wie Sie HOMER aufrufen, werden dieselben grundlegenden Schritte ausgeführt, um regulatorische Elemente zu entdecken:

Vorverarbeitung:

1. Extraktion von Sequenzen (findMotifs.pl/findMotifsGenome.pl)

2. Hintergrundauswahl (findMotifs.pl/findMotifsGenome.pl)

3. GC-Normalisierung (findMotifs.pl/findMotifsGenome.pl)

Sequenzen in den Ziel- und Hintergrundsätzen werden dann basierend auf ihrem GC-Gehalt (5%-Intervalle) eingeteilt. Hintergrundsequenzen werden gewichtet, um der gleichen GC-Gehaltsverteilung zu ähneln, die in den Zielsequenzen beobachtet wurde. Dies hilft zu vermeiden, dass HOMER einfach Motive findet, die GC-reich sind, wenn Sequenzen von CpG-Inseln analysiert werden. Um eine CpG%-Normalisierung statt einer GC%(G+C)-Normalisierung durchzuführen, verwenden Sie " -cpg ". Ein Beispiel für die GC%-Verteilung von Regionen aus einem ChIP-Seq-Experiment:


4. Autonormalization (Neu mit v3.0, homer2/findMotifs.pl/findMotifsGenome.pl)

Häufig weisen die Zielsequenzen ein anderes Ungleichgewicht im Sequenzgehalt als GC% auf. Dies kann durch biologische Phänomene wie Codon-Bias in Exons oder experimentelle Bias verursacht durch bevorzugte Sequenzierung von A-reichen Abschnitten usw. verursacht werden. Wenn diese Quellen für Bias stark genug sind, wird HOMER sie als Merkmale festhalten, die sich signifikant unterscheiden die Ziel- und Hintergrundsequenzen. HOMER bietet jetzt die Autonormalisierung als eine Technik zum Entfernen (oder teilweisen Entfernen) von Unebenheiten in kurzen Oligosequenzen (d. h. AA) durch Zuweisen von Gewichten zu Hintergrundsequenzen. Das Verfahren versucht, den Unterschied in der Häufigkeit kurzer Oligos (über alle Oligos summiert) zwischen Ziel- und Hintergrunddatensätzen zu minimieren. Es berechnet die gewünschten Gewichtungen für jede Hintergrundsequenz, um den Fehler zu minimieren. Aufgrund der Komplexität des Problems verwendet HOMER einen einfachen Hill-Climbing-Ansatz, indem jeweils kleine Anpassungen des Hintergrundgewichts vorgenommen werden. Es bestraft auch große Änderungen der Hintergrundgewichtung, um triviale Lösungen zu vermeiden, die die Gewichtung von Ausreißersequenzen auf Extremwerte erhöhen oder verringern. Die Länge von kurzen Oligos wird durch die Option " -nlen <#>" gesteuert.


Motive de novo entdecken (homer2)

HOMER verwendet standardmäßig die neue homer2-Version des Programms zur Motivfindung. Wenn Sie beim Ausführen eines der HOMER-Programme die alte Version verwenden möchten, fügen Sie " -homer1 " zur Befehlszeile hinzu.

5. Eingabesequenzen in eine Oligo-Tabelle parsen

6. Oligo-Autonormalisierung (optional)

200 bp) können Sie das Autonormalisierungskonzept auch auf die Oligo-Tabelle anwenden. Die Idee besteht immer noch darin, die kleineren Oligos (d. h. 1,2,3 bp) innerhalb der Oligos mit der größeren Motivlänge (d. h. 10,12,14 bp usw.) auszugleichen. Dies ist etwas gefährlicher, da die Gesamtzahl der Oligos mit Motivlänge sehr groß sein kann (d. h. 500k für 10 bp, viel mehr für längere Motive), was bedeutet, dass viele Gewichte "angepasst" werden müssen. Dies kann jedoch hilfreich sein, wenn ein extremer Sequenzfehler vorliegt, bei dem Sie möglicherweise Probleme beim Bereinigen des Datensatzes haben (die Option " -olen <#> ").

7. Globale Suchphase

Nachdem die Oligotabelle erstellt (und möglicherweise normalisiert) wurde, führt HOMER eine globale Suche nach angereicherten "Oligos" durch. Die Grundidee ist, dass, wenn ein "Motiv" angereichert werden soll, auch die als Teil des Motivs betrachteten Oligos angereichert werden sollten. Zuerst durchsucht HOMER jedes mögliche Oligo auf Anreicherung. Um die Sensitivität zu erhöhen, lässt HOMER dann Fehlpaarungen im Oligo zu, wenn nach Anreicherung gesucht wird. Um diesen Prozess zu beschleunigen, der bei längeren Oligos mit einer großen Anzahl möglicher Fehlpaarungen sehr ressourcenaufwendig sein kann, überspringt HOMER Oligos, wenn mehrere Fehlpaarungen zugelassen werden, wenn sie nicht vielversprechend waren, beispielsweise wenn sie mehr Hintergrundinstanzen als Zielinstanzen hatten, oder wenn das Zulassen von mehr Fehlanpassungen zu einem niedrigeren Anreicherungswert führt. " -mis <#> " steuert, wie viele Nichtübereinstimmungen zulässig sind.

Berechnung der Motivanreicherung:

Die Motivanreicherung wird unter Verwendung der kumulativen hypergeometrischen oder der kumulativen Binomialverteilung berechnet. Diese beiden Statistiken gehen davon aus, dass die Klassifizierung von Eingabesequenzen (d. h. Ziel vs. Hintergrund) unabhängig vom Vorkommen von Motiven darin ist. Die Statistik berücksichtigt die Gesamtzahl der Zielsequenzen, Hintergrundsequenzen und wie viele von jedem Typ das Motiv enthalten, das auf Anreicherung überprüft wird. Aus diesen Zahlen können wir die Wahrscheinlichkeit berechnen, die gegebene Anzahl (oder mehr) von Zielsequenzen mit dem Motiv zufällig zu beobachten, wenn wir annehmen, dass keine Beziehung zwischen den Zielsequenzen und dem Motiv besteht. Die hypergeometrischen und binomialen Verteilungen sind ähnlich, außer dass die hypergeometrischen Stichproben ohne Ersetzung annimmt, während die Binomialverteilung von Stichproben mit Ersetzung ausgeht. Das Problem der Motivanreicherung wird durch die Hypergeometrie genauer beschrieben, jedoch hat das Binomial Vorteile. Der Unterschied zwischen ihnen ist normalerweise gering, wenn eine große Anzahl von Sequenzen vorhanden ist und die Hintergrundsequenzen >> Zielsequenzen sind. In diesen Fällen wird das Binomial bevorzugt, da es schneller zu berechnen ist. Daher ist dies die Standardstatistik für findMotifsGenome.pl, bei der die Anzahl der Sequenzen normalerweise höher ist. Wenn Sie jedoch Ihren eigenen Hintergrund mit einer begrenzten Anzahl von Sequenzen verwenden, ist es möglicherweise eine gute Idee, zur Hypergeometrie zu wechseln (verwenden Sie " -h ", um die Verwendung der Hypergeometrie zu erzwingen). findMotifs.pl erwartet eine kleinere Zahl für die Promoter-Analyse und verwendet standardmäßig die Hypergeometrie.

Ein wichtiger Hinweis: Da HOMER für einen Großteil der internen Berechnungen der Motivanreicherung eine Oligo-Tabelle verwendet, bei der nicht explizit bekannt ist, wie viele der Originalsequenzen das Motiv enthalten, nähert es diese Zahl anhand der Gesamtzahl der beobachteten Motivvorkommen im Hintergrund an und Zielsequenzen. Es wird davon ausgegangen, dass die Vorkommen gleichmäßig auf die Ziel- oder Hintergrundsequenzen mit Ersatz verteilt wurden, wenn einige der Sequenzen wahrscheinlich mehr als ein Vorkommen aufweisen. Es verwendet die erwarteten Zahlenfolgen, um die Anreicherungsstatistik zu berechnen (die endgültige Ausgabe spiegelt die tatsächliche Anreicherung basierend auf den ursprünglichen Folgen wider).

8. Matrixoptimierung

9. Maskieren und wiederholen

Nachdem das erste "vielversprechende Oligo" zu einem Motiv optimiert wurde, werden die durch das Motiv an gebundenen Sequenzen aus der Analyse entfernt und das nächste vielversprechende Oligo wird für das 2. Motiv optimiert, und so weiter. Dies wird solange wiederholt, bis die gewünschte Anzahl Motive gefunden ist (" -S <#> ", Standard: 25). Hier besteht ein wichtiger Unterschied zwischen der alten (homer) und der neuen (homer2) Version. Die alte Version von Homer würde einfach die Oligos maskieren, die durch das Motiv aus der Oligo-Tabelle gebunden sind. Wenn das Motiv beispielsweise GAGGAW wäre, würden GAGGAA und GAGGAT aus der Oligo-Tabelle entfernt, um zu vermeiden, dass das nächste Motiv die gleichen Sequenzen findet. Wenn jedoch GAGGAW in den Daten angereichert wurde, besteht eine gute Chance, dass jedes 6-mer Oligo wie nGAGGA oder AGGAWn auch in den Daten etwas angereichert wäre. Dies würde dazu führen, dass Homer mehrere Versionen desselben Motivs findet und die Ergebnisse ein wenig verwirren.

Um dieses Problem in der neuen Version von HOMER (homer2) zu vermeiden, überprüft HOMER, sobald ein Motiv optimiert ist, die Originalsequenzen erneut und maskiert die Oligos, die die Instanz des Motivs bilden, sowie Oligos, die unmittelbar an die Stelle angrenzen, die sich überlappen mit mindestens einem Nukleotid. Dies trägt zu deutlich saubereren Ergebnissen bei und ermöglicht eine höhere Empfindlichkeit bei gemeinsam angereicherten Motiven. Um zur alten Methode der Motivmaskierung mit homer2 zurückzukehren, geben Sie " -quickMask " in der Befehlszeile an. Sie können die alte Version auch mit " -homer1 " ausführen.

Screening zur Anreicherung bekannter Motive (homer2):

10. Motivbibliothek laden

11. Screen jedes Motiv

Ausgabe der Motivanalyse:

12. Motivdateien (homer2, findMotifs.pl, findMotifsGenome.pl)

Die eigentliche Ausgabe von HOMER sind "*.motif"-Dateien, die die notwendigen Informationen enthalten, um zukünftige Instanzen von Motiven zu identifizieren. Sie werden in den Ausgabeverzeichnissen von findMotifs.pl und findMotifsGenome.pl gemeldet. Eine typische Motivdatei sieht etwa so aus:

>ASTTCCTCTT 1-ASTTCCTCTT 8.059752-23791.535714 0 T:17311.0(44 .
0.726 0.002 0.170 0.103
0.002 0.494 0.354 0.151
0.016 0.017 0.014 0.954
0.005 0.006 0.027 0.963
0.002 0.995 0.002 0.002
0.002 0.989 0.008 0.002
0.004 0.311 0.148 0.538
0.002 0.757 0.233 0.009
0.276 0.153 0.030 0.542
0.189 0.214 0.055 0.543

Die erste Reihe beginnt mit einem ">", gefolgt von verschiedenen Informationen, und die anderen Reihen sind die positionsspezifischen Wahrscheinlichkeiten für jedes Nukleotid (A/C/G/T). Die Kopfzeile ist eigentlich durch Tabulatorzeichen getrennt und enthält die folgenden Informationen:

  1. ">" + Konsenssequenz (wird eigentlich für nichts verwendet, kann leer sein) Beispiel: >ASTTCCTCTT
  2. Motivname (sollte eindeutig sein, wenn sich mehrere Motive in derselben Datei befinden) Beispiel: 1-ASTTCCTCTT oder NFkB
  3. Log-Odds-Erkennungsschwellenwert, der verwendet wird, um gebundene vs. ungebundene Sites zu bestimmen (obligatorisch) Beispiel: 8.059752
  4. log P-Wert der Anreicherung, Beispiel: -23791.535714
  5. 0 (Ein Platzhalter aus Gründen der Abwärtskompatibilität, der in der alten Version verwendet wurde, um "lückenhafte" Motive zu beschreiben, stellte sich heraus, dass er nicht sehr nützlich war :)
  6. Vorkommensinformationen durch Kommas getrennt, Beispiel: T:17311.0(44,36%),B:2181,5(5,80%),P:1e-10317
    1. T:#(%) - Anzahl der Zielsequenzen mit Motiv, % der Gesamtanzahl der Ziele
    2. B:#(%) - Anzahl der Hintergrundsequenzen mit Motiv, % des gesamten Hintergrunds
    3. P:# - endgültiger Anreicherungs-p-Wert
    1. Tpos: durchschnittliche Position des Motivs in Zielsequenzen (0 = Beginn der Sequenzen)
    2. Tstd: Standardabweichung der Position in Zielsequenzen
    3. Bpos: durchschnittliche Position des Motivs in Hintergrundsequenzen (0 = Beginn der Sequenzen)
    4. Bstd: Standardabweichung der Position in Hintergrundsequenzen
    5. StrandBias: Log-Verhältnis von + Strangvorkommen zu - Strangvorkommen.
    6. Multiplizität: Die durchschnittliche Anzahl von Vorkommen pro Sequenz in Sequenzen mit 1 oder mehr Bindungsstellen.

    13. De-novo-Motivausgabe (findMotifs.pl/findMotifsGenome.pl/compareMotifs.pl)

    HOMER nimmt die identifizierten Motive aus dem Schritt der De-novo-Motivfindung und versucht, sie sinnvoll zu verarbeiten und zu präsentieren. Eine HTML-Seite wird im Ausgabeverzeichnis namens homerResults.html zusammen mit einem Verzeichnis namens "homerResults/" erstellt, das alle Bild- und anderen Unterstützungsdateien zum Erstellen der Seite enthält. Diese Seiten werden explizit durch Ausführen eines Unterprogramms namens "vergleicheMotifs.pl" erstellt.

    Vergleich von Motivmatrizen:

    Motive werden zunächst auf Redundanz geprüft, um zu vermeiden, dass immer wieder dieselben Motive präsentiert werden. Dies geschieht, indem jedes Motivpaar an jeder Position (und ihren umgekehrten Gegensätzen) ausgerichtet wird und ihre Ähnlichkeit bewertet wird, um ihre beste Ausrichtung zu bestimmen. Ab HOMER v3.3 werden Matrizen mit dem Korrelationskoeffizienten von Pearson verglichen, indem jede Matrix in einen Vektor von Werten umgewandelt wird. Neutrale Frequenzen (0,25) werden dort verwendet, wo die Motivmatrizen nicht überlappen.

    Der alte Vergleich wurde durchgeführt, indem die Wahrscheinlichkeitsmatrizen unter Verwendung der nachstehenden Formel verglichen wurden, die die Erwartungen der Berechnungen durch Verwürfeln der Nukleotididentitäten als Kontrolle verwaltet. (freq1 und freq2 sind die Matrizen für Motiv1 und Motiv2)


    Als nächstes werden Motive mit einer Bibliothek bekannter Motive verglichen. Für diesen Schritt werden alle Motive in JASPAR und die "bekannten" Motive zum Vergleich herangezogen. Sie können eine benutzerdefinierte Motivbibliothek mit " -mcheck <motif library file> " angeben, wenn Sie findMotifs[Genome].pl verwenden, oder " -known <motif library file> ", wenn Sie CompareMotifs.pl direkt aufrufen.

    Standardmäßig sucht es nach der Datei "/path-to-homer/data/knownTFs/all.motifs", um das Motiv zum Vergleich mit den de novo-Motiven zu finden. Wenn "-rna" angegeben ist, wird die Datei "/path-to-homer/data/knownTFs/all.rna.motifs" geladen.

    Ein Beispiel für den ausgegebenen HTML-Code ist unten dargestellt:


    Je nachdem, wie das findMotifs[Genome].pl-Programm ausgeführt wurde, können die "Bekannten Motivanreicherungsergebnisse" und "Gene-Ontologie-Anreicherungsergebnisse" auf etwas verweisen oder nicht. Motive werden nach dem p-Wert sortiert und grundlegende Statistiken zum Motiv (in den Motivdateien vorhanden) werden angezeigt.

    Die letzte Spalte enthält einen Link zur "Motivdatei", der wichtig ist, wenn Sie in anderen Sequenzen nach dem Motiv suchen möchten.

    In der Spalte Beste Übereinstimmung/Details zeigt HOMER das bekannte Motiv an, das am ehesten mit dem de novo-Motiv übereinstimmt. Es ist sehr wichtig, dass Sie DIESE AUFGABE MIT EINEM SALZKORN AUFNEHMEN. Leider ist die beste Übereinstimmung manchmal immer noch nicht gut. Außerdem ist es üblich, dass das "bekannte" Motiv von vornherein nicht gut ist. Um die Aufgabe weiter zu untersuchen, klicken Sie auf den Link "Weitere Informationen", der eine Seite anzeigt, die wie folgt aussieht:

    Grundlegende Informationen: Der Abschnitt enthält grundlegende Informationen, inklusive Links zur Motivdatei (normal und umgekehrt gegenüber) und der pdf-Version des Motivlogos.


    Gefolgt von Matches zu bekannten Motiven. Dieser Abschnitt zeigt die Ausrichtungen zwischen dem De-novo-Motiv und bekannten Motiven. Es ist wichtig zu prüfen, ob diese Ausrichtungen vernünftig aussehen:


    Durch Anklicken der "ähnlichen Motive" werden die anderen bei der Motivfindung gefundenen de novo Motive angezeigt, die dem Motiv ähneln, aber einen geringeren Anreicherungswert aufweisen. Er enthält eine ähnliche "Kopfzeile" wie der Link "Weitere Informationen", zeigt aber darunter die als ähnlich angesehenen Motive. Es ist normalerweise eine gute Idee, diese Liste zu überprüfen - manchmal wird ein bestimmtes Motiv in der Liste falsch gruppiert, weil es einige Reste teilt.


    Hintergrund

    Die Entdeckung und Charakterisierung von DNA- und Proteinsequenzmotiven sind grundlegende Probleme der Computerbiologie. Mit dem Begriff „Motiv“ bezeichnen wir hier eine positionsspezifische Wahrscheinlichkeitsmatrix, die eine kurze Sequenz von Aminosäuren oder Nukleotiden beschreibt, die für das Funktionieren der Zelle wichtig sind. Beispielsweise erfordert die Regulation der Transkription eine sequenzspezifische Bindung von Transkriptionsfaktoren an bestimmte cis-wirkende Motive, die sich typischerweise stromaufwärts von Transkriptionsstartstellen befinden [1]. Andererseits könnten Proteinsequenzmotive aktiven Zentren in Enzymen oder Bindungsstellen in Rezeptoren entsprechen [2].

    Es wurde eine Vielzahl statistischer Methoden entwickelt, um Sequenzmotive auf unüberwachte Weise aus Sammlungen funktionell verwandter Sequenzen zu identifizieren [3]. Darüber hinaus können Datenbanken wie JASPAR [4], TRANSFAC [5] und BLOCKS [6] verwendet werden, um eine interessierende Sequenz nach bekannten DNA- oder Proteinmotiven zu durchsuchen. In dieser Arbeit entwickeln wir eine statistische Methode, um zwei DNA- oder Proteinmotive miteinander zu vergleichen. Diese Art des Vergleichs ist im Kontext der Motivfindung wertvoll. Stellen Sie sich zum Beispiel vor, Sie erhalten eine Sammlung von Promotorregionen von Genen, die ähnliche mRNA-Expressionsprofile teilen, und dass ein Motiverkennungsalgorithmus ein Motiv innerhalb dieser Promotoren identifiziert. Die erste Frage, die Sie sich stellen würden, ist oft, ob dieses neue Motiv einem zuvor identifizierten Motiv der Transkriptionsfaktor-Bindungsstelle ähnelt. Um diese Frage zu beantworten, benötigen Sie ein Computerprogramm, das eine Motivdatenbank nach Übereinstimmungen mit Ihrem neuen (Anfrage-)Motiv durchsucht. Das Programm muss alle möglichen relativen Versätze zwischen den beiden Motiven berücksichtigen und für DNA-Motive muss es auch umgekehrte Komplementübereinstimmungen berücksichtigen. Eine beispielhafte Ausrichtung zwischen zwei ähnlichen Motiven ist in 1 gezeigt. Eine alternative Verwendung für ein Motivvergleichsprogramm wäre die Identifizierung und anschließende Eliminierung oder Zusammenführung von stark redundanten Motiven innerhalb einer bestehenden Motivdatenbank.

    Ein ausgerichtetes Paar ähnlicher Motive. Das Abfrage- und das Zielmotiv werden beide vom JASPAR-Motiv NF-Y abgeleitet, wobei dem im Text beschriebenen Simulationsprotokoll gefolgt wird. Tomtom weist ein . zu E Wert von 3,81 × e -10 für dieses spezielle Spiel. Die Figur wurde mit einer Version von seqlogo [26] erstellt, die modifiziert wurde, um ausgerichtete Logo-Paare anzuzeigen.

    Wir sind nicht die ersten, die eine Methode zur Quantifizierung der Ähnlichkeiten zwischen Motivpaaren beschreiben. Pietrokovski [7] verglich Proteinmotive mit einem einfachen Algorithmus basierend auf dem Pearson-Korrelationskoeffizienten (PCC). Anschließend wandten Hughes und Mitarbeiter [8] eine ähnliche Methode auf DNA-Motive an. Wang und Stormo [9] führten eine alternative Motivspaltenvergleichsfunktion ein, die als durchschnittliche Log-Likelihood-Ratio (ALLR) bezeichnet wird. Vor kurzem führten Schones und Mitarbeiter [10] zwei Motivähnlichkeitsfunktionen ein, von denen eine auf dem Pearson χ 2-Test und der andere auf dem exakten Fisher-Irwin-Test (FIET). Sie zeigten, dass diese beiden neuen Funktionen eine bessere Unterscheidungskraft haben als die PCC- und ALLR-Ähnlichkeitsfunktionen. Darüber hinaus haben mehrere Forschungsgruppen die Kullback-Leibler-Divergenz (KLD) verwendet, um Motive zu vergleichen [11-13], und Choi und Mitarbeiter [14] verwendeten die euklidische Distanz (ED), um Proteinprofile zu vergleichen. Schließlich verwendeten Sandelin und Wasserman [15] ihre eigene Spaltenvergleichsfunktion (SW) im Rahmen eines dynamischen Programmierungs-Alignment-Ansatzes, um DNA-Motive zu vergleichen. Dieses Verfahren unterscheidet sich signifikant von allen anderen DNA-Motiv-basierten Ansätzen in dem Sinne, dass es Lücken in der Motiv-Motiv-Ausrichtung erlaubt.

    In diesem Bericht konzentrieren wir uns auf ungeöffnete Anordnungen von Motiven. Wir beschreiben eine allgemeine Methode zur genauen Modellierung der empirischen Nullverteilung von Scores aus einer willkürlichen, additiven Spaltenvergleichsfunktion. Wir schätzen die Nullverteilung der Bewertungen für jede Spalte in einem "Abfrage"-Motiv unter Verwendung der beobachteten Bewertungen der Ausrichtung mit jeder Motivspalte in einer Datenbank von "Ziel"-Motiven. Unter Verwendung eines dynamischen Programmieralgorithmus, der von früheren Arbeiten zum Durchsuchen einer Sequenzdatenbank mit einem Motiv inspiriert wurde [16-18], schätzen wir die Nullverteilung der Summe der Scores für jeden Bereich zusammenhängender Spalten im Abfragemotiv. Dadurch kann der Benutzer feststellen, ob der Motivvergleichswert zwischen dem Abfragemotiv und einem bestimmten Zielmotiv statistisch signifikant ist. Bisherige Methoden beginnen mit der Definition eines Scores zwischen zwei Motivspalten und kombinieren dann diese Scores entweder durch Summieren (wie wir es tun) [7–9, 14] oder indem sie den Mittelwert [11-13] oder geometrischen Mittelwert [10] von bilden die Spalte punktet. Unsere Bewertungsmethode unterscheidet sich dadurch, dass sie die P Werte der Match-Scores für die Spalten des Abfragemotivs, die auf alle möglichen Arten (ohne Lücken) mit einem bestimmten Zielmotiv ausgerichtet sind. Diese 'Ausgleich' P Werte werden unter Verwendung der aus der Zieldatenbank geschätzten kumulativen Dichtefunktionen berechnet, wie oben beschrieben. Das Minimum P Wert unter diesen Offset P Werte wird verwendet, um den Gesamtwert zu berechnen P Wert der Übereinstimmung zwischen dem Abfragemotiv und dem Zielmotiv unter Annahme der Unabhängigkeit vom Offset P Werte. Dies wird das "Motiv" genannt P Wert. Schließlich wenden wir eine Bonferroni-Korrektur auf das Motiv an P Werte abzuleiten an E Wert.

    Dieser Algorithmus ist in einem Softwaretool namens Tomtom implementiert, das als Teil der MEME Suite von Motivanalysetools öffentlich verfügbar ist [19–21]. Tomtom kann rechnen E Werte basierend auf einer der sieben Spaltenvergleichsfunktionen: PCC, ALLR, PCS, FIET, KLD, ED oder SW. In dieser Arbeit demonstrieren wir die Genauigkeit der statistischen Schätzungen von Tomtom. Wir validieren auch die Genauigkeit des Tomtom-Motivabrufs durch ein Simulationsexperiment. Die Ergebnisse zeigen, dass Tomtoms P Wertschätzung führt zu verbesserten Rankings im Vergleich zu Ad hoc Normalisierungsschemata.


    Ergebnisse

    RADAR meistert Herausforderungen bei der Modellierung von MeRIP-seq-Daten und ermöglicht komplexe Studiendesigns

    Unter Verwendung von BAM-Dateien als Eingabe unterteilt RADAR zunächst Transkripte (verkettete Exons) in aufeinanderfolgende 50-bp-Bins und quantifiziert die Pre-IP- und Post-IP-Read-Counts für jeden Bin (Abb. 1a). Im Gegensatz zu aktuellen Methoden der differentiellen Methylierungsanalyse [8,9,10,11], die zur Normalisierung auf Bibliotheksgrößen skalieren, die durch stark exprimierte Gene stark verzerrt werden können [16] (zusätzliche Datei 1: Abbildung S1), verwendet RADAR die Median-of-Ratio-Methode [17], die in DEseq2 implementiert ist, um die INPUT-Bibliothek aus Gründen der Robustheit zu normalisieren. Für die IP-Bibliothek normalisiert RADAR die aus den IP-Zahlen dividiert durch die INPUT-Zahlen berechnete Faltanreicherung, die sowohl die IP-Effizienz als auch die Größenvariation der IP-Bibliothek berücksichtigt.

    Einzigartige Merkmale von m 6 A-seq (MeRIP-seq) Daten. RADAR unterteilt verkettete Exons eines Gens in aufeinanderfolgende Bins und modelliert die durch Immunpräzipitation (IP) angereicherten Read-Counts in solchen Bins. ein zeigt ein Paar von Read-Counts im INPUT und die IP-Bibliothek im ichte bin als Cich und Tich. Im RADAR-Workflow wird die Leseanzahl auf Genebene der Eingabebibliothek ( _>_m> ) ersetzt die Leseanzahl auf Bin-Ebene Cich als Darstellung der Prä-IP-RNA-Spiegel der ichte bin. B vergleicht die relative Variation der (lokalen) Read-Counts auf Gen-Ebene und Bin-Ebene verschiedener Bin-Größen in vier m 6 A-seq-Datensätzen, was darauf hindeutet, dass unerwünschte Variationen unter Verwendung von Gen-Level-Zählungen als Schätzungen der Prä-IP-RNA reduziert werden können Ebenen. Panel C vergleicht den Mittelwert und die Varianz der regulären RNA-seq (vor-IP-Zählungen) und m 6 A-seq (post-IP-Read-Zählungen angepasst an die prä-IP-RNA-Spiegel-Variation) in vier m 6 A-seq-Datensätzen. Die angepasste Krümmung von m 6 A-seq kann sich von der von RNA-seq unterscheiden, was darauf hindeutet, dass m 6 A-seq eine andere Mittelwert-Varianz-Beziehung von RNA-seq haben kann. In Patientenproben werden häufig biologische und experimentelle Störfaktoren angetroffen. D zeigt die ersten beiden Hauptkomponenten (PCs) der m 6 A-Anreicherung in jedem Datensatz, wobei die Proben durch zu berücksichtigende Kovariaten gefärbt sind. m 6 Eine Anreicherung wurde durch die IP-Proben-Read-Counts repräsentiert, die für die RNA-Level-Variation vor der IP (INPUT) angepasst wurden. e zeigt die ersten beiden PCs nach der Regression bekannter Kovariaten – Alter im Eierstockkrebs-Datensatz und Charge im T2D-Datensatz. Nach der Regression der Kovariate werden die Proben im PCA-Plot nach Krankheitszuständen getrennt

    Nach der ordnungsgemäßen Normalisierung aller Proben berechnet RADAR dann den Methylierungsgrad für jeden Behälter, der auf seinem Prä-IP-RNA-Expressionsgrad für jede Probe konditioniert ist. Im Gegensatz zu früheren Methoden [8,9,10,11], die Read-Counts auf Peak-Level in der INPUT-Bibliothek zur Messung des prä-IP-RNA-Expressionsniveaus verwenden, verwenden wir Read-Counts auf Gen-Ebene als robustere Darstellung, was ist als die Gesamtzahl der Reads über alle Bins definiert, die dasselbe Gen umfassen (Abb. 1a). Diese Wahl wird durch die Beobachtung motiviert, dass die mediane Read Coverage innerhalb jedes Peaks sehr gering ist – 18 Reads pro Peak (7 Reads in einem 50-bp-Bin) (Zusätzliche Datei 1: Abbildung S2) in einer typischen MeRIP-seq-Eingabestichprobe von 20 Millionen (zuordenbare) Lesevorgänge (Zusatzdatei 1: Abbildung S3). Eine übermäßige Verteilung niedriger Zählungen aufgrund von Zufallsstichproben im Sequenzierungsprozess kann zu erheblichen unerwünschten Schwankungen bei der Schätzung des prä-IP-RNA-Spiegels führen. Dies kann durch die ungleichmäßige Verteilung der Lesevorgänge, die durch lokale Sequenzmerkmale wie GC-Inhalt und Mapping-Fähigkeit verursacht wird, weiter verschlimmert werden. Die Verwendung von Gen-Level-Zählungen als Schätzung des Prä-IP-RNA-Expressionslevels kann die Streuung durch Erhöhen der Anzahl von Reads (durchschnittlich 272 Reads) und gleichzeitiges Verringern der Auswirkungen von Sequenzmerkmalen innerhalb eines Gens ( 1a ) mildern. Durch den Vergleich der Varianz der Read Counts zwischen den Replikaten auf Genebene mit der auf Bin-Ebene zeigen wir, dass die Varianz zwischen den Stichproben auf Gen-Ebene viel geringer ist als auf Bin-Ebene in allen drei Datensätzen (Abb. 1b).

    RADAR modelliert die Read-Count-Verteilung unter Verwendung eines Poisson-Random-Effect-Modells anstelle einer negativen Binomialverteilung, die üblicherweise in der RNA-Seq-Analyse [13, 15, 17] sowie in DRME und QNB für die MeRIP-Seq-Analyse verwendet wird [9, 10]. Negative binomialverteilungsbasierte Modelle gehen von einer quadratischen Beziehung zwischen mittleren Read-Counts und ihrer Varianz über alle Gene aus. Wir beobachten in realen m 6 A-Seq-Datensätzen, dass sich die mittlere Varianz-Beziehung der Post-IP-Zählungen über die Gene hinweg signifikant von denen der regulären RNA-Seq-Zählungen (d. h. Prä-IP-Zählungen) unterscheidet. Erstere folgt nicht immer einer ähnlichen quadratischen Krümmung und kann sehr unterschiedliche Variabilitätsmuster aufweisen (Abb. 1c, Zusatzdatei 1: Abbildung S4). Um diese Einschränkungen zu überwinden, wendet RADAR ein flexibleres generalisiertes lineares Modell-Framework (siehe Abschnitt „Material und Methoden“) an, das die Variabilität durch zufällige Effekte erfasst.

    Ein weiterer wichtiger Fortschritt von RADAR im Vergleich zu bestehenden MeRIP-seq-Datenanalysetools [8,9,10,11] ist die Flexibilität, Kovariaten einzubeziehen und ein komplexeres Studiendesign zu ermöglichen. In epitranskriptomischen Profiling-Studien mit heterogenen Patientenproben werden häufig phänotypische Kovariaten wie Alter und Geschlecht sowie experimentelle Kovariaten wie Chargeninformationen angetroffen. Kovariaten wie Wurf und Alter sind in Tierversuchen üblich. Im Ovarialkarzinom-Datensatz wird beispielsweise das Alter der Gewebespender teilweise mit der Prädiktorvariable – dem Krankheitsstatus – verwechselt. Im T2D-Inseln-Datensatz wird die Varianz der ersten beiden Hauptkomponenten mit der Sequenzierungscharge verwechselt (Abb. 1d). Nach Regression des Batch-Effekts lässt sich die verbleibende Varianz besser durch den Krankheitsstatus erklären (Abb. 1e). Dies weist auf die Bedeutung der Kontrolle potenzieller Störfaktoren bei der Durchführung von differentiellen Methylierungstests hin. Das generalisierte lineare Modell-Framework in RADAR ermöglicht die Einbeziehung von Kovariaten und bietet Unterstützung für komplexe Studiendesigns.

    Vergleichende Benchmarks verschiedener Methoden anhand simulierter Datensätze

    Um die Leistung von RADAR im Vergleich zu aktuellen Methoden zu bewerten, haben wir RADAR und andere Methoden für die MeRIP-seq-Differentialanalyse angewendet, einschließlich exomePeak, Fishers exakter Test, MeTDiff und QNB auf simulierte Datensätze. We considered four scenarios: the proposed random effect model with/without covariates and the quad-negative binomial (QNB) model adopted from QNB [9, 10] with/without covariates. For each scenario, we evaluated the sensitivity and false discovery rate (FDR) of different methods using ten simulated copies. We first simulated a dataset of eight samples using the random effect model (“Materials and method” section Eq. (1), denoted as the simple case). The INPUT library was directly drawn from the T2D dataset. We simulated IP read count adjusted for pre-IP expression level of each bin according to Eq. (1) where μ is equal to mean log read count in the “control” group of T2D dataset. The final IP read counts were obtained by rescaling simulated data by the average IP/INPUT ratio observed in the T2D data. In total, we simulated three datasets of 26,324 sites in which 20% of sites are true positives with effect sizes of 0.5, 0.75, or 1, respectively.

    For DM loci with an effect size of 0.5, RADAR achieved 29.1% sensitivity and 12.0% FDR at an FDR cutoff of 10%. At the same cutoff, exomePeak and Fisher’s test achieved 72.8% sensitivity/52.5% FDR and 72.2% sensitivity/50.5% FDR, respectively. MeTDiff achieved 10.5% sensitivity and 16.2% FDR. QNB, on the contrary, did not own any power for the small effect size. When the effect size increased, RADAR achieved much higher sensitivity, 77.8% for an effect size of 0.75 and 95.7% for an effect size of 1, while FDR were well calibrated at 10.4% and 10.1%, respectively. exomePeak and Fisher’s test both achieved 89% and 96% sensitivity for effect sizes of 0.75 and 1, respectively, but at the cost of unsatisfactory FDRs, which were greater than 46%. MeTPeak exhibited well-calibrated FDR (12.3% and 11.4%) and moderate sensitivity of 50.4% and 81.5% for effect sizes of 0.75 and 1, respectively. QNB only had low power for an effect size of 1 (beta = 1, 13.9% sensitivity and 0.5% FDR). Overall, for the simple case without covariates, RADAR achieved high sensitivity while maintained low FDR at varying true effect sizes (Fig. 2a). We then applied the above analysis at varying FDR cutoff and found RADAR achieved the highest sensitivity at a fixed level of empirical FDR (Additional file 1: Figure S5A). We note exomePeak and Fisher’s test achieved high sensitivity at all effect sizes as combining read counts across replicates of the same group helped to gain power. As a tradeoff, failing to account for within-group variability resulted in high FDR. On the contrary, RADAR and MeTDiff exhibited well-calibrated FDR while achieved high sensitivity at same levels as exomePeak for large effect sizes. QNB was overconservative and possessed little power.

    Benchmarking RADAR on two simulation models. We benchmarked RADAR and other alternative methods on simulated data. Using two simulation models—a random effect (RADAR) model and a quad-negative-binomial (QNB) model, we simulated dataset of eight replicates of varying true effect sizes (0.5, 0.75, and 1) with and without covariates. We tested different methods on simulated dataset and compared the results at an FDR cutoff of 0.1 with simulated true sites. We show the sensitivity (fraction of true sites detected by the method at an FDR cutoff of 0.1) and false discovery rate (fraction of detected differential sites that are not true sites) of each method applied on data simulated by the random effect model without covariates (ein) and with covariates (B) and the quad-negative-binomial model without covariates (C) and with covariates (D), bzw. The FDR cutoff used to select DM sites is labeled by a dashed line

    We next applied the aforementioned methods to the proposed model with a covariate (effect size equal to 2, denoted as the difficult case) (Fig. 2b). As a result, at an FDR cutoff of 10%, RADAR achieved 38.4%, 79.7%, and 95.7% sensitivity with empirical FDRs slightly higher than those in the simple case (18.2%, 14.4%, and 13.7% for effect sizes of 0.5, 0.75, and 1, respectively). MeTDiff, with similar performance as RADAR in the simple case, lost power in the difficult case due to incapability of accounting for confounding factors. exomePeak, Fisher’s test, and QNB behaved similarly as in the simple case. The advantage of RADAR over other methods is robust to the choice of FDR cutoff as shown in Additional file 1: Figure S5B. In summary, RADAR outperformed existing alternatives in both cases.

    Taking the covariate model with a DM effect size of 0.75 as an example, we also checked the distributions of effect size estimates and P values obtained from each method. In all methods, effect sizes were overall correctly estimated with estimates for “true” sites centered at 0.75 (Additional file 1: Figure S6A) and that for null sites centered at zero (Additional file 1: Figure S6B). However, we note the distribution of beta estimates is narrower for RADAR, especially in the difficult case, suggesting a more confident estimation. P values of exomePeak and Fisher’s test at null sites were enriched near zero, indicating over-detection of false-positive signals (Additional file 1: Figure S6C). We also observed many large P values obtained by QNB for “true” sites in both cases and MeTDiff in the difficult case, which suggested a high false-negative rate (Additional file 1: Figure S6D).

    We then repeated simulation studies using the QNB model. Instead of setting the variances of INPUT and IP libraries equal as presented in the QNB paper, we let the variance of IP read count be larger than that of INPUT. This setting better reflects our observation in the real data as extra noise can be introduced during immunoprecipitation process for IP reads generation (Additional file 1: Figure S4). In the simple case without covariates, RADAR exhibited the lowest empirical FDR (18.9% and 18.5%) despite slightly lower sensitivity comparing to other methods (73.5% and 82.3%) when the effect sizes were relatively large (for effect sizes of 0.75 and 1). QNB performed better when the effect size was small with 58.6% sensitivity and 15.6% FDR for an effect size of 0.5 (Fig. 2c). The results were consistent when we evaluated their performance with different FDR cutoffs. Overall, QNB performed slightly better than RADAR with an effect size of 0.5. RADAR achieved similar sensitivity but better calibrated FDR when effect sizes equal to 0.75 and 1 (Additional file 1: Figure S5C). In the model with covariates, RADAR exhibited the lowest empirical FDR, with 25.8%, 23.0%, and 22.5% at effect sizes of 0.5, 0.75, and 1, respectively, while other methods either failed to detect the signal or had a higher empirical FDR. Specifically, MeTDiff had sensitivity below 0.5% at varying effect sizes and QNB reached FDRs of 64.1%, 55.8%, and 50.5% for effect sizes of 0.5, 0.75, and 1, respectively, at an FDR cutoff of 10% (Fig. 2d). The advantage of RADAR over alternative methods hold in the difficult case at varying cutoffs (Additional file 1: Figure S5D). In summary, RADAR outperformed other existing methods in most scenarios, particularly when covariates were present.

    Comparative benchmarks of different methods using four real m 6 A-seq datasets

    Next, we compared the performance of different methods using four real m 6 A-seq datasets: ovarian cancer (GSE119168), T2D (GSE120024), mouse liver (GSE119490), and mouse brain (GSE113781). To evaluate the sensitivity of different methods, we first checked the distributions of P values obtained from corresponding DM tests (Fig. 3). In the ovarian cancer, T2D, and mouse liver data, Fisher’s test and exomePeak detected the most signals as the P values are most dense near zero. In these three datasets, RADAR also returned a desirable shape for the P value histogram in which P values were enriched near zero while uniformly distributed elsewhere. MeTDiff returned a desired shape only in the ovarian cancer and mouse liver datasets. QNB were overconservative in the ovarian cancer and T2D dataset. All methods failed to return enriched P values near zero for the mouse brain dataset, suggesting there was no or little signal in this dataset. This is consistent with the original publication that very few differential peaks were detected in this study [7].

    Sensitivity of benchmarked methods on real m 6 A-seq data. We benchmarked RADAR and other alternative methods on four m 6 A-seq data with different characteristics. Each panel shows the histogram of P-values obtained from DM tests using RADAR, MeTDiff, QNB, Fisher’s exact test and exomePeak on each dataset, respectively

    To ensure that well-performed methods achieved high sensitivity while maintaining a low FDR, we further performed permutation analyses to obtain the null distribution of P values for each dataset. Specifically, we shuffled the phenotype labels of samples such that the new labels were not associated with the true ones or any other important confounding factors. We expected the P values from a permutation test to follow a uniform distribution and the enriched P values near zero would be considered as false discoveries. For each dataset, we combined test statistics from 15 permuted copies and compared their distribution with the original tests (Fig. 4). P values from Fisher’s test and exomePeak were strongly enriched near zero and only slightly lower than those from the original tests. This suggests the strong signals detected by these two methods are likely to be false discoveries, consistent with the conclusion from simulation analysis. On the contrary, the histograms of P values from RADAR were close to flat in all datasets, indicating that strong signals detected by RADAR were more likely to be true. MeTDiff exhibited well-calibrated P values in the ovarian cancer and T2D data but enriched for small P values in the mouse liver data with an indicated high FDR. QNB test returned conservative P value estimates in all datasets. Taking together these analyses, we demonstrated that RADAR outperforms the alternatives by achieving high sensitivity and specificity simultaneously in real datasets.

    Benchmarking false-positive signals using permutation analysis on real m 6 A-seq data. To assess empirical FDR of the test, we permuted the phenotype labels of samples so that the new labels were not associated with true ones. Each panel shows the histograms of P values obtained from DM tests on 15 permuted copies (blue) and those from the tests on the original dataset (red)

    To better demonstrate that RADAR detects DM sites with better sensitivity and specificity in real data, we show examples of DM site that is only detected by RADAR as well as likely false discovery sites identified by exomePeak and Fisher’s test but not by RADAR in the T2D dataset. We plot sequence coverage of individual samples for the DM sites in the RNF213 gene (Additional file 1: Figure S7A) and show despite large variability in control samples, m 6 A enrichment of T2D samples is consistently lower on this locus. Conversely, in the bogus DM sites detected by alternative methods (Additional file 1: Figure S7B, C), enrichment differences are mainly driven by one or two outlier samples in one group.

    To further demonstrate the advantage of using gene-level read counts over local read counts to account for RNA expression level, we repeated the above analysis using post-IP counts adjusted by the local read counts of INPUT. We showed that in the T2D dataset, gene-level adjustment not only enabled stronger signal detection, but also lowered FDR as we observed that the permutation analysis using local count adjustment resulted in undesired stronger signals around zero in the P value histogram (Additional file 1: Figure S8). In the ovarian cancer and the mouse liver datasets, local count adjustment achieved higher signal detection but at the cost of a higher FDR. This analysis suggested that using gene-level read counts as the estimates of pre-IP RNA expression levels could effectively reduce FDR and lead to more accurate DM locus detections.

    Attributed to the robust representation of pre-IP RNA expression level using gene-level read counts, RADAR’s performance is more robust to the sequencing depth of INPUT samples. To demonstrate this, we applied RADAR on data created by sub-sampling the read counts of INPUT samples in the T2D dataset so that the sequencing depth is half of the full dataset (average 17.5 million reads). We compared the DM sites detected in the reduced dataset with the results obtained from the full dataset (Additional file 1: Figure S9A). Using a 10% FDR cutoff, RADAR-detected DM sites in the reduced dataset showed the highest overlap with that in the full dataset. MeTDiff and QNB only had a few overlapping DM sites between the sub-sampled and full dataset. Fisher’s test and exomePeak had slightly fewer overlaps comparing to RADAR but had more false discoveries. We further compared the log fold change (logFC) estimates from reduced and full datasets to check their consistency. As a result, we found reduced sequencing depth had the least impact on the logFC estimated by RADAR while the estimates by others are much less reproducible with a shallower sequencing depth (Additional file 1: Figure S9A).

    Unlike earlier pipelines that perform DM tests only on peaks identified from peak calling, RADAR directly tests on all filtered bins and reports DM sites. To check if the DM sites reported by RADAR are consistent with known characteristics of m 6 A, we performed de novo motif search on these sites and found DM sites detected in ovarian cancer, mouse liver, and T2D datasets are enriched for known m 6 A consensus motif (Additional file 1: Figure S10A) [18], suggesting DM sites reported by RADAR are mostly true. We also examined the topological distribution of these DM sites by metagene analysis (Additional file 1: Figure S10B). The distributions in ovarian cancer and mouse liver datasets are consistent with the topological distribution of common m 6 A sites, indicating methylation changes that occurred in these two datasets were not spatially biased. Interestingly, DM sites detected in T2D dataset are strongly enriched at 5′UTR, suggesting T2D-related m 6 A alteration are more likely to occur at 5′UTR.

    RADAR analyses of m 6 A-seq data connect phenotype with m 6 A-modulated molecular mechanisms

    Finally, we investigated whether DM test results obtained from RADAR would lead to better downstream interpretation. In the ovarian cancer dataset, we performed KEGG pathway enrichment analysis on the differential methylated genes (DMGs) detected by RADAR (Fig. 5a). We found the detected DMGs were enriched with molecular markers related to ovarian cancer dissemination [19, 20]. For instance, we identified key regulators of the PI3K (enrichment P value 7.8 × 10 −5 ) and MAPK pathways (enrichment P value 1.1 × 10 −4 ), including hypo-methylated PTEN and hyper-methylated BCL2 (Additional file 1: Figure S11). Other notable DMGs include key markers of ovarian cancer such as MUC16 (CA-125) and PAX8, as well as genes that play key roles in ovarian cancer biology such as CCNE1 and MTHFR. Conversely, DMGs detected by MeTDiff were only enriched in three KEGG pathways (Fig. 5b), most likely due to its inadequate power. We showed through permutation analysis that exomePeak and Fisher’s test results included a significant portion of false positives and could lead to biased downstream interpretations.

    Pathways enriched in differential methylated genes identified in ovarian cancer and T2D datasets. We performed KEGG pathway enrichment analysis using ClusterProfiler [37] on DMGs identified in the ovarian cancer dataset by RADAR (ein) and MeTDiff (B), bzw. The enrichment maps represent identified pathways as a network with edges weighted by the ratio of overlapping gene sets

    In the T2D dataset, DMGs identified by RADAR were enriched in related pathways including insulin signaling pathways, type II diabetes mellitus, mTOR pathways, and AKT pathways (Additional file 1: Table S1), indicating a role that m 6 A might play in T2D. We further analyzed these DMGs in related pathways and found the methylome of insulin/IGF1-AKT-PDX1 signaling pathway been mostly hypo-methylated in T2D islets (Additional file 1: Figure S12). Impairment of this pathway resulting in downregulation of PDX1 has been recognized as a mechanism associated with T2D where PDX1 is a critical gene regulating β cell identity and cell cycle and promoting insulin secretion [21,22,23,24]. Indeed, follow-up experiment on a cell line model validated the role of m 6 A in tuning cell cycle and insulin secretion in β cells and animal model lacking methyltransferase Mettl14 in β cells recapitulated key T2D phenotypes (results presented in a separate manuscript, [25]). To summarize, RADAR-identified DMGs enabled us to pursue an in-depth analysis of the role that m 6 A methylation plays in T2D. On the contrary, due to the incapability to take sample acquisition batches as covariates, the alternative methods were underpowered to detect DM sites in T2D dataset and could not lead to any in-depth discovery of m 6 A biology in T2D islets. These examples suggest that MeRIP-seq followed by RADAR analysis could further advance functional studies of RNA modifications.

    Validation of RADAR-detected DM sites by the SELECT method

    Recently, Xiao et al. developed an elongation and ligation-based qPCR amplification method (termed SELECT) for single nucleotide-specific detection of m 6 A [26]. This method relies on mechanism different from antibody pull-down-based MeRIP-seq to detect m 6 A, making it a suitable method for validating DM sites discovered by RADAR analysis. We selected six DM sites (Additional file 1: Table S2) including two sites only detected by RADAR and four sites in genes important in β cell for experimental validation using the SELECT method. Among six validated sites, the β cells regulator PDX1 and RADAR-specific DM sites showed significant m 6 A level alteration with P values 0.009 and 0.017, respectively (Fig. 6). Three other sites, IGF1R in the insulin/IGF1-AKT-PDX1 signaling pathway, MAFA—another important regulator of β cell function, and RADAR-specific DM site in CPEB2, showed m 6 A changes consistent with RADAR result despite not reaching statistical significance. The sites in the TRIB3 gene are similarly methylated in control and T2D samples as measured by SELECT. Overall, five out of six experimentally validated sites were supported by orthogonal evidence by SELECT, confirming the reliability of RADAR-detected differential methylation sites.

    Experimental validation of RADAR-detected DM sites using the SELECT method. We applied antibody independent method SELECT on T2D samples (n = 4). Shown are SELECT results of six putative DM sites for validation. SELECT measures the relative abundance of non-methylated RNA molecules of target locus as represented by the elongation and ligation “read through” of oligo probes. Thus, SELECT results—“relative read through”—are inversely correlated with m 6 A level


    3 BENCHMARK RESULTS

    We performed a benchmark study of GimmeMotifs on 18 TF ChIP-seq datasets. The ROC AUC and MNCP of the best performing motif were calculated and compared with the best motif of two other ensemble methods: SCOPE (Carlson et al., 2007) and W-ChipMotifs (Jin et al., 2009) (Supplementary Tables S1 and S2) . The results show that GimmeMotifs consistently produces accurate results (median ROC AUC 0.830). The method also significantly improves on the results of SCOPE (ROC AUC 0.613). The recently developed W-ChIPmotifs shows comparable results to GimmeMotifs (ROC AUC 0.824), although this tool does not cluster similar redundant motifs. In addition, the focus of GimmeMotifs is different. While the web interface of W-ChipMotifs is very useful for casual use, the command-line tools of GimmeMotifs can be integrated in more sophisticated analysis pipelines.


    Danksagung

    The authors acknowledge Jacqueline E. Boyle for genotyping mice staff at Monash ARL for animal husbandry Jelena Kezic of Monash Histology Platform for processing and Haemotoxylin and Eosin staining of embryos and yolk sacs and Geza Paukovics, Phil Donaldson and Eva Orlowski from AMREP flow cytometry facility for their assistance in flow cytometry. The authors would also like to thank Bertie Gottgens, University of Cambridge, for reading the manuscript and providing insightful feedback.


    17.5: De novo motif discovery - Biology

    Understanding gene regulatory networks has become one of the central research problems in bioinformatics. More than thirty algorithms have been proposed to identify DNA regulatory sites during the past thirty years. However, the prediction accuracy of these algorithms is still quite low. Ensemble algorithms have emerged as an effective strategy in bioinformatics for improving the prediction accuracy by exploiting the synergetic prediction capability of multiple algorithms.

    Ergebnisse

    We proposed a novel clustering-based ensemble algorithm named EMD for de novo motif discovery by combining multiple predictions from multiple runs of one or more base component algorithms. The ensemble approach is applied to the motif discovery problem for the first time. The algorithm is tested on a benchmark dataset generated from E coli RegulonDB. The EMD algorithm has achieved 22.4% improvement in terms of the nucleotide level prediction accuracy over the best stand-alone component algorithm. The advantage of the EMD algorithm is more significant for shorter input sequences, but most importantly, it always outperforms or at least stays at the same performance level of the stand-alone component algorithms even for longer sequences.

    Abschluss

    We proposed an ensemble approach for the motif discovery problem by taking advantage of the availability of a large number of motif discovery programs. We have shown that the ensemble approach is an effective strategy for improving both sensitivity and specificity, thus the accuracy of the prediction. The advantage of the EMD algorithm is its flexibility in the sense that a new powerful algorithm can be easily added to the system.

    Publication Info

    Veröffentlicht in BMC Bioinformatik, Volume 7, Issue 342, 2006.

    © BMC Bioinformatics 2006, BioMed Central

    Hu, J., Yang, Y. D., & Kihara, D. (2006). EMD: An ensemble algorithm for discovering regulatory motifs in DNA sequences. BMC Bioinformatik, 7(342).


    Computational Biology: Toward Deciphering Gene Regulatory Information in Mammalian Genomes

    Department of Statistics, Harvard University, 1 Oxford Street, Cambridge, Massachusetts 02138, U.S.A.

    Departments of Statistics and Health Research and Policy, Stanford University, 390 Serra Mall, Stanford, California 94305, U.S.A.

    Department of Statistics, Harvard University, 1 Oxford Street, Cambridge, Massachusetts 02138, U.S.A.

    Departments of Statistics and Health Research and Policy, Stanford University, 390 Serra Mall, Stanford, California 94305, U.S.A.

    Abstrakt

    Zusammenfassung Computational biology is a rapidly evolving area where methodologies from computer science, mathematics, and statistics are applied to address fundamental problems in biology. The study of gene regulatory information is a central problem in current computational biology. This article reviews recent development of statistical methods related to this field. Starting from microarray gene selection, we examine methods for finding transcription factor binding motifs and cis-regulatory modules in coregulated genes, and methods for utilizing information from cross-species comparisons and ChIP-chip experiments. The ultimate understanding of cis-regulatory logic in mammalian genomes may require the integration of information collected from all these steps.


    Ectopic DNMT3L triggers assembly of a repressive complex for retroviral silencing in somatic cells

    Mammalian genomes are replete with retrotransposable elements, including endogenous retroviruses. DNA methyltransferase 3-like (DNMT3L) is an epigenetic regulator expressed in prospermatogonia, growing oocytes, and embryonic stem (ES) cells. Here, we demonstrate that DNMT3L enhances the interaction of repressive epigenetic modifiers, including histone deacetylase 1 (HDAC1), SET domain, bifurcated 1 (SETDB1), DNA methyltransferase 3A (DNMT3A), and tripartite motif-containing protein 28 (TRIM28 also known as TIF1β and KAP1) in ES cells and orchestrates retroviral silencing activity with TRIM28 through mechanisms including, but not limited to, de novo DNA methylation. Ectopic expression of DNMT3L in somatic cells causes methylation-independent retroviral silencing activity by recruitment of the TRIM28/HDAC1/SETDB1/DNMT3A/DNMT3L complex to newly integrated Moloney murine leukemia virus (Mo-MuLV) proviral DNA. Concurrent with this recruitment, we also observed the accumulation of histone H3 lysine 9 trimethylation (H3K9me3) and heterochromatin protein 1 gamma (HP1γ), as well as reduced H3K9 and H3K27 acetylation at Mo-MuLV proviral sequences. Ectopic expression of DNMT3L in late-passage mouse embryonic fibroblasts (MEFs) recruited cytoplasmically localized HDAC1 to the nucleus. The formation of this epigenetic modifying complex requires interaction of DNMT3L with DNMT3A as well as with histone H3. In fetal testes at embryonic day 17.5, endogenous DNMT3L also enhanced the binding among TRIM28, DNMT3A, SETDB1, and HDAC1. We propose that DNMT3L may be involved in initiating a cascade of repressive epigenetic modifications by assisting in the preparation of a chromatin context that further attracts DNMT3A-DNMT3L binding and installs longer-term DNA methylation marks at newly integrated retroviruses.

    Importance: Almost half of the mammalian genome is composed of endogenous retroviruses and other retrotransposable elements that threaten genomic integrity. These elements are usually subject to epigenetic silencing. We discovered that two epigenetic regulators that lack enzymatic activity, DNA methyltransferase 3-like (DNMT3L) and tripartite motif-containing protein 28 (TRIM28), collaborate with each other to impose retroviral silencing. In addition to modulating de novo DNA methylation, we found that by interacting with TRIM28, DNMT3L can attract various enzymes to form a DNMT3L-induced repressive complex to remove active marks and add repressive marks to histone proteins. Collectively, these results reveal a novel and pivotal function of DNMT3L in shaping the chromatin modifications necessary for retroviral and retrotransposon silencing.

    Copyright © 2014, American Society for Microbiology. Alle Rechte vorbehalten.

    Figuren

    DNMT3L and the ZFP809-TRIM28 pathway…

    DNMT3L and the ZFP809-TRIM28 pathway are both required for epigenetic silencing of Mo-MuLV…

    DNMT3L- and ZFP809-TRIM28-mediated Mo-MuLV silencing…

    DNMT3L- and ZFP809-TRIM28-mediated Mo-MuLV silencing in C57BL/6 background ES cells. (A) Wild-type and…

    DNMT3L facilitated the formation of…

    DNMT3L facilitated the formation of the DNMT3A/SETDB1/HDAC1 protein complex in ES cells 2…

    DNMT3L-induced retroviral silencing activity depends…

    DNMT3L-induced retroviral silencing activity depends on PBSpro sequence and functional DNMT3L harboring proper…

    DNMT3L induces retroviral silencing activity…

    DNMT3L induces retroviral silencing activity in 3T3 cells. (A) Relative mRNA expression level…

    Mo-MuLV LUC and Mo-MuLV LUC/PBSQ…

    Mo-MuLV LUC and Mo-MuLV LUC/PBSQ have the same infection titers. (A) RAT2 cells…

    DNMT3L can recruit epigenetic modifiers…

    DNMT3L can recruit epigenetic modifiers to induce repressive histone modifications on Mo-MuLV LTR…

    Ectopic DNMT3L induces the formation…

    Ectopic DNMT3L induces the formation of a repressive chromatin modifier complex in DNMT3L-expressing…

    DNMT3L induces HDAC1 translocation to…

    DNMT3L induces HDAC1 translocation to the nucleus in later-passage MEFs. The subcellular localization…

    DNMT3L facilitates the formation of…

    DNMT3L facilitates the formation of the protein complex containing DNMT3A, SETDB1, and HDAC1…


    DNA motif discovery using chemical reaction optimization

    DNA motif discovery means to find short similar sequence elements within a set of nucleotide sequences. It has become a compulsory need in bioinformatics for its useful applications such as compression, summarization, and clustering algorithms. Motif discovery is an NP-hard problem and exact algorithms cannot solve it in polynomial time. Many optimization algorithms were proposed to solve this problem. However, none of them can show its supremacy by overcoming all the obstacles. Chemical Reaction Optimization (CRO) is a population based metaheuristic algorithm that can easily fit for the optimization problem. Here, we have proposed an algorithm based on Chemical Reaction Optimization technique to solve the DNA motif discovery problem. The four basic operators of CRO have been redesigned for this problem to search the solution space locally as well as globally. Two additional operators (repair functions) have been proposed to improve the quality of the solutions. They have been applied to the final solution after the iteration stage of CRO to get a better one. Using the flexible mechanism of elementary operators of CRO along with the additional operators (repair functions), it is possible to determine motif more precisely. Our proposed method is compared with other traditional algorithms such as Gibbs sampler, AlignACE (Aligns Nucleic Acid Conserved Elements), MEME (Multiple Expectation Maximization for Motif Elicitation), and ACRI (Ant-Colony-Regulatory-Identification) by testing real-world datasets. The experimental results show that the proposed algorithm can give better results than other traditional algorithms in quality and in less running time. Besides, statistical tests have been performed to show the superiority of the proposed algorithm over other state-of-the-arts in this area.

    Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


    Schau das Video: Denovo Motif Search Using MEME (Kann 2022).