Information

Verfügbarer Datensatz für Proteinsequenz-Alignment und HMM-Modell

Verfügbarer Datensatz für Proteinsequenz-Alignment und HMM-Modell


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich bin neu in der Biologie und finde, dass mein Algorithmus beim Proteinsequenz-Alignment verwendet werden kann, da es sich um ein abgeleitetes HMM-Modell handelt. Ich finde, dass Leute HMM verwenden, um verrauschte Kopien der Konsensussequenz unterschiedlicher Länge zu erzeugen. Es gibt eine Abbildung, die den Prozess zeigt:

Es scheint, dass Professor Richard Durbin einige Datensätze veröffentlichen könnte. Aber wie finde ich verfügbare Datensätze? Ich habe mich im Biovokabular verloren und finde keine Datensätze. Ich frage mich auch, ob dieses Thema in dieser Community sehr gering ist oder nicht?

Update: Da ich das Vokabular missbrauchen kann, ist es möglicherweise besser, das Originalwort zu posten, das ich gelesen habe.


DNA- und Proteinsequenzen (beide sind für die Verwendung in HMMs sinnvoll) sind aus einer Vielzahl von Quellen erhältlich, wie z. B. EMBL, NCBI und anderen.

Um sie in ein Modell wie ein HMM einzugeben, das auf Vergleiche zwischen verschiedenen Sequenzen zurückgreift, müssen Sie höchstwahrscheinlich a Sequenzausrichtung, das ist ein Datenformat, in dem die Sequenzen zu einer Matrix verarbeitet werden (im Allgemeinen nicht abgegrenzt, sondern jede Spalte ist ein einzelnes Zeichenfolgenzeichen), wobei Spalten oder Positionen der Matrix wird davon ausgegangen, dass sie dieselbe Position in der Sequenz einnehmen. Diese Positionen können "Lücken" sein, die normalerweise durch "-" dargestellt werden. Das Diagramm oben in der Durbin-Figur ist eine solche Ausrichtung.

Es gibt viele, viele Werkzeuge zum Alignment von Sequenzen, sowohl von Proteinen als auch von DNA (DNA ist ein "Nukleotid"; RNA ist auch eine "Nukleotid"-Sequenz, aber DNA wird in den meisten Anwendungen viel häufiger ausgerichtet).

Einige der gebräuchlichen Werkzeuge zum Generieren mehrerer Sequenz-Alignments sind ClustalO und MAFFT. Insbesondere sind Sie (glaube ich) nicht so an Tools wie BLAST interessiert, bei denen es hauptsächlich darum geht, einzelne Sequenzen anhand von Datenbanken mit lokalem Alignment zu durchsuchen, anstatt mehrere Sequenz-Alignments für die Eingabe in andere Programme zu generieren.

Ich glaube, dass Sie mit etwas Recherche existierende Datenbanken mit mehreren Sequenzausrichtungen finden können. Die Leute speichern sie normalerweise nicht und legen sie in Datenbanken oder Repositories ab, da die von Ihnen verwendeten Daten normalerweise sehr spezifisch für das Problem sind, an dem Sie interessiert sind, und sie sind recht einfach zu generieren. Die meisten Datenbanken sind aus diesem Grund wahrscheinlich ziemlich alt; Ich habe eine solche alte Datenbank (hier beschrieben) mit ein bisschen googeln gefunden.


HHblits: blitzschnelle iterative Proteinsequenzsuche durch HMM-HMM-Alignment

Die sequenzbasierte Proteinfunktions- und Strukturvorhersage hängt entscheidend von der Sensitivität der Sequenzsuche und der Genauigkeit der resultierenden Sequenz-Alignments ab. Wir präsentieren ein quelloffenes, universelles Tool, das sowohl Abfrage- als auch Datenbanksequenzen durch Profile Hidden Markov Models (HMMs) darstellt: „HMM-HMM–based lightning-fast iterative sequence search“ (HHblits http://toolkit.genzentrum. lmu.de/hhblits/). Im Vergleich zum Sequenzsuchwerkzeug PSI-BLAST ist HHblits aufgrund seines diskretisierten Profilvorfilters schneller, hat eine 50–100% höhere Empfindlichkeit und erzeugt genauere Alignments.


Zusammenfassung des Autors

Der sequenzbasierte Proteinhomologienachweis wurde ausgiebig untersucht, bleibt jedoch für entfernte Homologe mit abweichenden Sequenzen eine große Herausforderung. Bisher verwenden die empfindlichsten Methoden den HMM-HMM-Vergleich, der eine Proteinfamilie unter Verwendung von HMM (Hidden-Markov-Modell) modelliert und dann Homologe unter Verwendung des HMM-HMM-Alignments erkennt. HMM kann keine langreichweitigen Interaktionsmuster von Resten modellieren und enthält daher nur sehr wenige Informationen über die globale 3D-Struktur einer Proteinfamilie. Daher ist der HMM-Vergleich für entfernt verwandte Homologe nicht empfindlich genug. In diesem Artikel präsentieren wir eine MRF-MRF-Vergleichsmethode für den Homologienachweis. Insbesondere modellieren wir eine Proteinfamilie mit Markov Random Fields (MRF) und detektieren dann Homologe durch MRF-MRF-Alignment. Im Vergleich zu HMM sind MRFs in der Lage, weitreichende Interaktionsmuster von Resten zu modellieren und enthalten somit Informationen für die gesamte 3D-Struktur einer Proteinfamilie. Folglich ist der MRF-MRF-Vergleich viel empfindlicher als der HMM-HMM-Vergleich. Um den MRF-MRF-Vergleich zu implementieren, haben wir eine neue Bewertungsfunktion entwickelt, um die Ähnlichkeit zweier MRFs zu messen, sowie einen effizienten ADMM-Algorithmus zur Optimierung der Bewertungsfunktion. Experimente bestätigen, dass der MRF-MRF-Vergleich den HMM-HMM-Vergleich sowohl hinsichtlich der Ausrichtungsgenauigkeit als auch der Fernhomologieerkennung, insbesondere für hauptsächlich Beta-Proteine, tatsächlich übertrifft.

Zitat: Ma J, Wang S, Wang Z, Xu J (2014)MRFalign: Proteinhomologieerkennung durch Ausrichtung von Markov-Zufallsfeldern. PLoS Comput Biol 10(3): e1003500. https://doi.org/10.1371/journal.pcbi.1003500

Editor: Thomas Lengauer, Max-Planck-Institut für Informatik, Deutschland

Empfangen: 27. Oktober 2013 Akzeptiert: 8. Januar 2014 Veröffentlicht: 27. März 2014

Urheberrechte ©: © 2014 Ma et al. Dies ist ein Open-Access-Artikel, der unter den Bedingungen der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium gestattet, sofern der ursprüngliche Autor und die Quelle angegeben werden.

Finanzierung: Diese Arbeit wird vom National Institutes of Health Grant R01GM089753, dem NSF CAREER Award CCF-1149811 und dem Alfred P. Sloan Research Fellowship unterstützt. Die Autoren danken auch dem Beagle-Team der University of Chicago und TeraGrid für die Unterstützung der Computerressourcen. Die Geldgeber spielten keine Rolle beim Studiendesign, der Datenerhebung und -analyse, der Entscheidung zur Veröffentlichung oder der Erstellung des Manuskripts.

Konkurrierende Interessen: Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.

Dieser Methodenartikel ist mit RECOMB 2014 verbunden.


Methoden

Directed Sequence Design und Suchdatenbank

Natürliche Linkersequenzen, die mit zwei entfernt verwandten Proteinen intermediär verwandt sind, erleichtern den Homologienachweis in routinemäßig eingesetzten Sequenzsuchverfahren. Wie in einer früheren Veröffentlichung [22] beschrieben, macht der Mangel an natürlichen Linkern im Proteinsequenzraum Verfahren zum Nachweis von Homologie unwirksam. Um diese Einschränkung zu überwinden, wurde früher ein Ansatz entwickelt, Lücken im Suchraum zu füllen, indem gezielt proteinartige Linkersequenzen zwischen allen bekannten Familien von Proteinfaltungen entworfen werden, die in der SCOP-Datenbank (Structural Classification of Proteins) [32] bereitgestellt werden [22] . Kurz gesagt wurde bei diesem Ansatz jede Proteindomänenfamilie für jede bekannte Faltung in der SCOP-Datenbank als eine Sammlung von Profilen dargestellt. HMM-HMM-Alignments wurden zwischen verwandten Proteinfamilien durchgeführt, um ein kombiniertes Modell zu generieren, das die inhärenten Präferenzen und Häufigkeiten von Resten zwischen den ausgerichteten Familien erfasst. Ein Roulette-Rad-basierter Ansatz wurde dann verwendet, um bevorzugte Reste an jeder Position im Alignment zwischen jedem verwandten Proteinfamilienpaar auszuwählen. Bei Wiederholung entlang des Alignments erzeugte der Ansatz eine „künstliche Linker“-Sequenz, die die beobachteten Restneigungen zwischen den Alignment-Familien sinnvoll einbezog. Unter Verwendung dieses gerichteten Designansatzes wurden 3611010 entworfene Sequenzen zwischen 3901 Familien für 374 Faltungen in der SCOP-Datenbank generiert [32]. Sie stehen einzeln als eigenständige herunterladbare Flatfiles im NrichD-Server [29] zur Verwendung in Verbindung mit jedem Sequenzsuchverfahren zur Verfügung.

Datensatz abfragen

Die Datenbank der Sequenzfamilien (Pfam 30) [30] ist basierend auf Sequenzähnlichkeit in 16306 Proteinfamilien in der Pfam-Datenbank gruppiert, die 1293837 Samensequenzen entsprechen. Die den Proteinfamilien entsprechenden Domänen werden durch ein multiples Sequenz-Alignment repräsentiert, das die Saatsequenzen darstellt. Um nur einen repräsentativen Satz zu erhalten, wurde Blastclust auf die Mitglieder jeder Familie mit 60% Sequenzidentität und 90% Sequenzlängenabdeckung angewendet, wodurch die Anzahl der Sequenzen, die alle Pfam-Familien repräsentieren, auf 234727 verringert wurde.

Fold-Assoziation für PFAM-Domänen ist nicht immer direkt, da mehrere SCOP-Domänen mit einer einzigen Sequenzdomäne assoziiert sein können und und umgekehrt. Um die SCOP-Domänen-Assoziationen für verschiedene PFAM-Familien zu identifizieren, haben wir PFAM-SCOP-Assoziationen durch Integration einer Reihe von Datensätzen zusammengefasst. Zuerst haben wir die verfügbaren SCOP-Domänendefinitionen für jedes Protein mit bekannter Struktur verwendet, das mit einem PFAM-Eintrag auf der Grundlage der PDB-ID(s) assoziiert ist, wie in der SCOPe 2.06 [33]-Datenbank bereitgestellt. Zweitens hat das RCSB auf Basis des HMMER-Webservices ein Verfahren entwickelt, das die PDB-Pfam-Mappings von SIFTS [34] übernimmt und um zusätzliche Mappings ergänzt [35, 36]. Diese wird auf der RCSB-Ressource als herunterladbare Datei bereitgestellt. Drittens enthalten akademische Ressourcen wie PDBfam PFAM-Anmerkungen für

99,4 % der Ketten mit mehr als 50 Resten [37]. Wie in 1 gezeigt, führten die gepoolten Assoziationen von PFAM-PDB-SCOP aus den drei Quellen zu 4058-fachen Assoziationen aus 7726 Pfam-Sequenzfamilien mit bekannter Struktur.

Schematische Darstellung des Arbeitsablaufs: Protokoll zur Strukturerkennung von Familien unbekannter Struktur angenommen. Ein Konsens wurde aus der Strukturkartierung für die Sequenzfamilien von Xu und Dunbrack [34] und der PDB-zu-Pfam-Kartierung, die in Pfam [30] verfügbar ist, gezogen.

Basierend auf unserer Zuordnung von Pfam-Domänenfamilien zu den SCOP-Strukturdomänen wurde unser Datensatz in zwei Sätze unterteilt: „Bewertungs“-Satz entsprechend den Pfam-Familien, für die eine strukturelle (und gefaltete) Assoziation verfügbar ist, und „Anwendungs“-Satz entsprechend den Familien, für die derzeit ist keine Strukturverknüpfung vorhanden.

Bewertungsset

7726 Sequenzfamilien wurden mit Strukturen assoziiert und für 4058 Familien standen SCOP-Faltungsdefinitionen für die zugewiesenen Regionen zur Verfügung. Wir betrachteten strukturelle Domänenassoziationen, die in Pfam und PDBfam [34] angegeben sind, mit einer zusätzlichen Bedingung von besser als 60% Längenabdeckung der SCOP-Domäne, um willkürliche oder falsche strukturelle Assoziationen auszuschließen (Zusatzdatei 1: Tabelle S1). Diese bildeten die „bekannten“ strukturellen Assoziationen und wurden verwendet, um die Stärke unseres Ansatzes zu testen. Clans gruppieren verwandte Proteinfamilien, die sequentiell divergierende Familien bilden, die eine gemeinsame evolutionäre Vorfahren haben. Es gibt 595 Clans in Pfam 30. Die Ableitung der Struktur für jedes einzelne Mitglied des Clans übersetzt sich in die Struktur und folglich in die Faltenassoziation zu den anderen Familien im Clan [30]. Die Anzahl der Familien in jedem Clan reicht von 2 bis 254.

Anwendungsdatensatz

Die verbleibenden 8580 Familien, für die keine Strukturassoziation verfügbar war, wurden auf Strukturerkennung auf Faltungsebene untersucht, indem die Saatsequenzen aus dem Alignment extrahiert wurden. Wir nahmen iterativ eine repräsentative Abfragesequenz pro Cluster (blastclust) aus jeder Familie, bis wir mit jackhmmer [24] Treffer in unserer Datenbank bei den für den Bewertungssatz verwendeten Parametern fanden.

Suchmethode: Auswertung und Bewertung

Der Arbeitsablauf ist in Abb. 1 schematisch dargestellt. Wir haben ein empfindliches Homologie-Erkennungsprogramm verwendet und es weiter verjüngt, indem wir eine Sequenzdatenbank bereitgestellt haben, die sowohl natürliche als auch entworfene Sequenzen enthält [29]. Diese Suchdatenbank, die 3611010 entworfene Sequenzen mit 4694921 natürlichen Sequenzen integriert, ist als Ressource in der NrichD-Datenbank verfügbar als SCOP(v1.75)-NrichD mit insgesamt 8305931 Sequenzen. Der verwendete Suchalgorithmus jackhmmer ist ein profilbasiertes iteratives Sequenzsuchverfahren, das nach der ersten Suche ein HMM (Hidden-Markov-Modell) [24] aufbaut und es in den nachfolgenden Iterationen als Abfrage verwendet und nach jeder Runde neu codiert . Wir setzen einen E-Wert-Filter von 10 –4 für die gemeldeten Treffer und maximal 5 Iterationen, während wir sicherstellen, dass das Profildriften am wenigsten auftritt, indem sichergestellt wird, dass das Abfrageprotein in jeder Iteration vorhanden ist. Die Sequenzdomäne kann mit einzelnen oder mehreren strukturellen Domänen assoziiert sein, die denselben oder unterschiedlichen strukturellen Faltungen entsprechen. Wir haben Fälle minimiert, in denen ein äquivalenter Abschnitt einer Sequenzdomäne mit verschiedenen SCOP-Falten assoziiert war, indem wir strenge Sequenzlängenabdeckungsfilter verwendet haben. Zur Beurteilung der Leistungsfähigkeit unseres Ansatzes wurden die Familien im „Assessment-Set“ berücksichtigt. Wir haben die Bedeutung unseres Ansatzes quantifiziert, indem wir Präzision, Sensitivität und Spezifität gemessen und Kriterien identifiziert haben, um diese zu maximieren. Dies sind statistische Leistungsmaße und werden durch die folgenden Gleichungen dargestellt:

Für eine gegebene Abfrage-Pfam-Familie wird die Anzahl der korrekten Faltzuordnungen, die die auferlegten Schwellenwerte qualifizieren, als TP (wahr positiv) quantifiziert, während diejenigen, die fehlschlagen, als FN (falsch negativ) bezeichnet werden. In ähnlicher Weise wird für eine bestimmte Abfrage-Pfam-Familie die Anzahl der falschen Faltzuordnungen, die die auferlegten Schwellenwerte qualifizieren, als FP (falsch positiv) bezeichnet, während diejenigen, die keine Treffer aus anderen Faltungen als der richtigen Faltung sind, als TN (wahr negativ) betrachtet werden.

Für jede Pfam-Familie wird basierend auf den Faltungen der Treffer, die durch Jackhmmer-Suchen erhalten wurden, eine SCOP-Faltung mit der Abfragesequenz verknüpft. Um die Ergebnisse zu analysieren, die für Sequenzfamilien ohne zuvor bekannte Struktur erhalten wurden, waren die aus der Bewertung bestimmten Kriterien eine Abfragelängenabdeckung von besser als 60% und ein E-Wert von besser als 10 –4 . Darüber hinaus wurden weitere Einschränkungen hinzugefügt, um falsch positive Ergebnisse auszuschließen. Für das Assessment-Dataset haben wir festgestellt, dass die korrekte Faltung mit der höchsten normalisierten Häufigkeit für eine bestimmte Abfrage verbunden war.

Die normalisierte Faltungsfrequenz ist gegeben durch ( frac,iinleft[1,n ight]. )

wo n ist die Gesamtzahl der folds, die mit einer Abfragesequenz und fold(ich) stellt die Anzahl von Homologen dar, die aus dieser Falte in der Profilsuche identifiziert wurden. n ist die Gesamtzahl der Assoziationen über Folds für die Abfrage.

Basierend auf der obigen Beobachtung könnten wir unter Verwendung der normalisierten Faltungsfrequenz die Assoziationen in unserem Anwendungsdatensatz weiter einordnen als –

Zuversichtlich* - Wenn die Faltung mit der höchsten Häufigkeit auch eine Assoziation mit einer Abfrageabdeckung von mehr als oder gleich 95 % aufweist.

Zuversichtlich – Wenn die Falte mit der höchsten Frequenz die beste Abdeckung zwischen 60 und 95 % bietet.

Konflikt – Wenn die höchste Faltungshäufigkeit nicht die beste Abfrageabdeckung ergab.

Keine Mehrdeutigkeit - Wenn einer Abfrage nur eine einzige strukturelle Faltung zugeordnet ist, betrachten wir die Assoziation als beste Abfrageabdeckung.


Ergebnisse

Identifizierung und Analyse von Tyrosin-Rekombinasen

Frühere Struktur- und Sequenzanalysen zeigten, dass YRs im Allgemeinen zwei funktionelle Hauptdomänen aufweisen: Die Core-binding (CB) Domäne bindet die Rekombinations-DNA-Stelle, und die katalytische (CAT) Domäne katalysiert alle DNA-Spaltungs- und Verbindungsreaktionen, die für die Rekombination erforderlich sind (Esposito & Scocca , 1997 Nunes-Düby et al., 1998 Swalla et al., 2003). Einige YRs besitzen eine zusätzliche N-terminale armbindende (AB) Domäne, die akzessorische DNA-Sequenzen, sogenannte Armstellen, in der Nähe der Rekombinationsstellen erkennt. Kristallstrukturen zeigten, dass die CAT-Domäne in verschiedenen YRs eine ähnliche Faltung aufweist (Guo et al., 1997 Subramanya et al., 1997 Tirumalai et al, 1997 Skaar et al., 2015 ) und vergleichende Sequenzanalysen ergaben zwei hochkonservierte Regionen (als Boxen bezeichnet) und drei Patches mit weniger signifikanter Konservierung (Esposito & Scocca, 1997 Nunes-Düby et al., 1998). Konservierte Regionen umfassen die katalytischen Reste, d. h. das Tyrosinnukleophil und die katalytische Pentade RKHRH (Jayaram et al., 2015 ) sowie den hydrophoben Proteinkern. Die CB-Domäne ist auf Sequenzebene viel weniger konserviert, aber ihre strukturelle Architektur ist ebenfalls erhalten (Swalla et al., 2003). Die AB-Domäne wiederum ist sehr variabel mit beträchtlicher Struktur- und Sequenzdiversität zwischen den Mitgliedern der YR-Familie (Clubb et al., 1999 Fadeev et al., 2009 Szwagierczak et al., 2009 ).

Um die Vielfalt der YRs zu analysieren, haben wir die folgende Strategie angewendet. Zuerst führten wir eine iterative Jackhmmer-Suche gegen die UniProt-Referenzproteomdatenbank unter Verwendung des prototypischen XerD-Proteins aus Escherichia coli als Erstanfrage. In jedem Zyklus dieser Suche wurden die Treffersequenzen abgeglichen und ein Profil-Hidden-Markov-Modell (Profil-HMM) erstellt. Profile HMM ist ein Wahrscheinlichkeitsmodell, das verwendet wird, um charakteristische Sequenzmerkmale des Alignments zu beschreiben. Dieses Profil-HMM wurde dann im nächsten Suchzyklus als neue Abfrage verwendet. Dieses iterative Verfahren ermöglicht die Identifizierung entfernt verwandter Homologe der ursprünglichen Abfrage (Johnson et al., 2010 Potter et al., 2018). Die resultierenden Sequenzen wurden dann geclustert und die Vertreter der Cluster wurden ausgerichtet. Das Alignment wurde verkürzt, um nur die CB- und CAT-Regionen zu enthalten, die in allen YR-Proteinen ubiquitär vorhanden sind. Dieses resultierende Alignment wurde dann verwendet, um den phylogenetischen Baum mit dem PhyML-Paket zu rekonstruieren (Abb. 1A und Anhang Abb. S1). Die Baumtopologie wurde durch parametrische aBayes und nicht-parametrische SH-LRT-Tests (Anisimova et al., 2011). Basierend auf der Phylogenie haben wir dann YRs in Untergruppen mit signifikanten Zweigunterstützungen (über 0,98 und 0,85 für aBayes und SH-LRT, bzw. Anhang Tabelle S1) unterteilt. Für jede Untergruppe haben wir ein unverwechselbares Profil-HMM erstellt, mit dem wir dann alle YR-Homologe in der UniProt-Referenzproteomsammlung gefunden haben. Für die resultierenden Sequenzen erstellten wir Sequenzlogos, um konservierte Regionen innerhalb von Untergruppen zu visualisieren (Anhang Abb. S2–S4) und analysierten die spezifischen Unterschiede zwischen Untergruppen (Abb. 2). Wir kartierten alle YR-Proteine ​​auf ihre Ursprungsgenome und verfolgten die taxonomische Verteilung jeder Untergruppe (Abb. 1B, Datensatz EV1). Schließlich extrahierten wir die fünfzig am häufigsten vorkommenden YR-Proteine ​​und charakterisierten ihre Verteilung, Klassifizierung und mutmaßliche Funktion (Abb. 1C, Datensatz EV2).

Abbildung 1. Diversität und Verteilung von Tyrosin-Rekombinasen (YRs)

  1. Stammbaum mit maximaler Wahrscheinlichkeit von YRs. Zwei Hauptgruppen von YRs, einfache und armbindende (AB)-Domänen enthaltende YRs, sind blau bzw. rot hervorgehoben. YR-Untergruppen werden als Blätter im Baum angezeigt. Die statistische Unterstützung der Verzweigung wurde von aBayes bewertet und für alle Untergruppen liegt der Wert bei über 0,98.
  2. Taxonomische Verteilung von YRs.Oben ist ein schematischer Baum der YR-Phylogenie entsprechend Tafel (A) gezeigt (nur Knoten mit statistischer Unterstützung von mehr als 0,98 sind gezeigt). Die Phylogenie der Bakterientaxa ist links dargestellt. Die Häufigkeit von YRs aus einer bestimmten Untergruppe in einem bestimmten Taxon wird durch Punkte unterschiedlicher Größe im Diagramm angezeigt (farbig wie in (A)). Die genauen Genomzahlen sind im Datensatz EV1 angegeben.
  3. Die fünfzig am häufigsten vorkommenden YR-Proteine, die in den von NCBI erhältlichen genomischen Sequenzen gefunden werden. Die Balken zeigen die YR-Häufigkeit in verschiedenen Bakterientaxa mit unterschiedlichen Farben an. Die YRs werden nach dem Untergruppennamen (fett gedruckt) und der funktionalen Klassifizierung benannt. Die Namen einfacher und AB-Domänen enthaltender YRs sind wie in (A) eingefärbt. NCBI-GI-Nummern für alle Sequenzen sind im Datensatz EV2 verfügbar.

Quelldaten sind für diese Zahl online verfügbar.

Abbildung 2. Konservierungsanalyse von Tyrosin-Rekombinase (YR)-Untergruppen

Für jede der Untergruppen wurden Sekundärstrukturen eines repräsentativen Familienmitglieds unter Verwendung von Jpred vorhergesagt oder aus entsprechenden Protein Data Bank (PDB)-Einträgen abgerufen. Helices und Stränge werden als Rechtecke bzw. Pfeile dargestellt. Das Tyrosinnukleophil und die katalytische RKHRH-Pentade sind markiert. Charakteristische strukturelle Variationen von YRs, die innerhalb verschiedener Untergruppen konserviert sind, sind rot hervorgehoben. AB – Armbindungsdomäne CB – Kernbindungsdomäne CAT – Katalytische Domäne DUF3701 – Domäne unbekannter Funktion (Pfam-Zugangsnummer – PF12482).

Diese Analyse zeigte, dass alle YRs in zwei phylogenetische Hauptgruppen eingeteilt werden können: einfache YRs, die aus einer CB- und einer CAT-Domäne bestehen, und komplexe YRs, die eine zusätzliche AB-Domäne enthalten (Abb. 1A und 2). Innerhalb dieser Hauptgruppen wurden kleinere Untergruppen identifiziert, die eine allgemein konservierte Domänenarchitektur teilen, sich jedoch in spezifischen Struktur- und Sequenzmerkmalen unterscheiden (Anhang Abb. S1). Insbesondere weisen YRs innerhalb von Untergruppen eine charakteristische taxonomische Verteilung auf und teilen ähnliche vorhergesagte Funktionen. In den folgenden Abschnitten fassen wir die wichtigsten Sequenzmerkmale und funktionellen Merkmale aller Hauptgruppen und Untergruppen zusammen.

Einfache Jahreszahlen

Die erste große YR-Gruppe, die in unserer Studie aufgedeckt wurde, umfasst einfache YRs. Mitglieder dieser Gruppe umfassen normalerweise nur CB- und CAT-Domänen und können weiter in vierzehn Untergruppen eingeteilt werden (Abb. 1A und 2, Anhang Abb. S1).

Die größte Untergruppe, Xer, enthält hauptsächlich Rekombinasen, die für die Auflösung von Chromosomendimeren in Bakterien und Archaeen verantwortlich sind, wie XerC/D, XerH, XerS und XerA (Carnoy & Roten, 2009 Cortez et al., 2010 Nolivos et al., 2010 Debowski et al., 2012). Sequenzvergleiche zeigten, dass Proteine ​​dieser Untergruppe hochkonserviert sind, wobei zahlreiche Reste auch außerhalb der Tasche des aktiven Zentrums und des hydrophoben Kerns konserviert sind (Anhang Abb. S2–S4). Die Untergruppe ist weit verbreitet und ihre Mitglieder sind in fast allen analysierten Bakterien- und Archaeenklassen vorhanden (Abb. 1B, Datensatz EV1), was mit der essentiellen Rolle dieser Proteine ​​übereinstimmt. In den verbleibenden Taxa können andere klassenspezifische einfache YRs die Xer-Funktion kompensieren. Zum Beispiel fanden wir in Halobakterien eine spezifische Art einfacher YRs namens Arch1, die Xer ähneln, aber eine kurze unterschiedliche Sequenzinsertion enthalten (Abb. 2 und Anhang Abb. S3). In ähnlicher Weise fehlt Oscillatoriophycideae ein Xer-Protein und sie enthalten stattdessen Mitglieder der separaten Cyan-Untergruppe (benannt nach Cyanobakterien, einem Stamm der Klasse). Darüber hinaus vereint die Cand-Untergruppe Xer-bezogene YRs aus nicht klassifizierten „Kandidaten“-Stämmen, einer „mikrobiellen dunklen Materie“ (Rinke et al., 2013 ).

Armbindende Domäne enthaltende Tyrosinrekombinasen

Die zweite große YR-Gruppe vereint Proteine, die zusätzlich zu den CB- und CAT-Domänen eine AB-Domäne enthalten (Anhang Abb. S1). Die am besten charakterisierten Mitglieder dieser Gruppe wirken als Integrasen von Phagen oder ICEs. Diese AB-Domänen enthaltende YR-Gruppe besteht aus sechs Hauptuntergruppen, die in den folgenden Abschnitten ausführlich diskutiert werden.

IntTn916 Untergruppe

Die größte Untergruppe der AB-Domänen enthaltenden YRs ist die IntTn916 Untergruppe. Es ist das vielfältigste unter den AB-Domänen enthaltenden YRs und enthält Integrasen zahlreicher gut dokumentierter ICEs und Phagen. Seine Mitglieder sind in grampositiven Bakterien am stärksten vertreten, aber wir fanden auch einige Beispiele in anderen Taxa, wie Fusobakterien, Synergista und Chlamydien (Abb. 1B). Diese Untergruppe enthält einige der am häufigsten vorkommenden YRs, die AB-Domänen enthalten, wie die mykobakterielle phiRV2-Prophagen-Integrase (Cole et al., 1998) und die Integrase des Tetracyclin-Resistenz tragenden Tn916-Transposons (Franke & Clewell, 1981), die jeweils in den Genomen von etwa 4000 Bakterienstämmen gefunden wurden (Fig. 1C).

Im Allgemeinen enthalten Mitglieder der Untergruppe eine AB-Domäne an ihrem N-Terminus, die drei Beta-Stränge und eine Alpha-Helix aufweist (Abb. 2 und 3), wie in der NMR-Struktur der Tn916-Integrase-AB-Domäne (Wojciak et al., 1999). In einigen Fällen wurde die AB-Domäne von Pfam nicht direkt vorhergesagt (Anhang Abb. S1), aber unsere anschließende Sequenzanalyse ergab, dass die AB-Domäne in der gesamten Untergruppe erhalten bleibt (Abb. 3). Ein weiteres charakteristisches Merkmal des IntTn916 Untergruppe ist eine konservierte beta-strängige Insertion zwischen dem zweiten und dritten beta-Strang in der CAT-Domäne (Abb. 2 und Anhang Abb. S3). Jüngste strukturelle und biochemische Arbeiten an der Tn1549-Integrase zeigten, dass dieses Proteinsegment wichtig ist, um das DNA-Substrat für die Rekombination zu formen (Rubio-Cosials et al., 2018 ).

Abbildung 3. Sequenzkonservierung der Armbindungsdomänen von Tyrosinrekombinasen (YRs)

Für jede Untergruppe wurden nach einer HMM-Suche in der UniProt-Referenzproteomdatenbank Weblogos erstellt und Sekundärstrukturen mit Jpred vorhergesagt oder aus entsprechenden PDB-Einträgen abgerufen (siehe unter den Logos). Die Logos sind nach Rückstandstyp gefärbt und die typische Zusammensetzung der YR-Domäne ist über den Logos wie in Abb. 2 dargestellt.

Bemerkenswerterweise bilden die Phagen- und ICE-bezogenen Mitglieder dieser Untergruppe keine separaten Cluster, sondern die meisten Cluster enthalten Integrasen sowohl von ICEs als auch von Phagen (Anhang Abb. S6). Zum Beispiel bilden viele Actinomyceten-ICE-Integrasen Cluster zusammen mit den Integrasen aus aktinobakteriellen Phagen (siehe Cluster pSAM2 in Anhang Abb. S6). Interessanterweise integrieren viele YRs innerhalb der Cluster ihre jeweiligen MGEs an spezifischen genomischen Stellen, mit einer wiederkehrenden Präferenz für die konservierten Flanken essentieller Gene, wie z. B. tRNA-kodierende Gene (Anhang Abb. S6). Eine bemerkenswerte Ausnahme ist der spezifische Cluster, der die Integrasen Tn916 und Tn1549 umfasst, die ohne strikte Sequenzspezifität in AT-reiche Regionen inserieren (Trieu-Cuot et al., 1993 Scott et al., 1994 Wang et al., 2000 Lambertsen et al, 2018). Diese Eigenschaft könnte zum Erfolg der jeweiligen MGEs bei der Verbreitung auf ein breites Spektrum von Bakterien beigetragen haben.

IntBPP-1 Untergruppe

Die IntBPP-1 ist eine kleinere AB-Domäne enthaltende YR-Untergruppe, die eng mit Int . verwandt istTn916. Seine Mitglieder werden in Gammaproteobakterien, Betaproteobakterien und Phagen gefunden (Fig. 1B). Beispiele für diese Untergruppe umfassen mutmaßliche Integrasen des Phagen Bordetella BPP-1, des Phagen Stx2a und des Phagen Salmonella Gifsy-2 (McClelland et al., 2001 Liu et al., 2004 Ogur et al., 2015 ), wobei letzteres eines der am häufigsten vorkommenden Proteine ​​in dieser Untergruppe ist (Abb. 1C). IntBPP-1 YRs weisen eine AB-Domäne auf, die in Pfam als DUF3596 annotiert ist (PF12167 Anhang Abb. S1) und weist eine kanonische Struktur aus drei beta-Strangen/einer Helix auf (Abb. 3). Ähnlich wie IntTn916 Mitglieder, die IntBPP-1 Untergruppe weist eine beta-strängige Insertion zwischen dem zweiten und dritten beta-Strang in der CAT-Domänenfalte auf (Abb. 2 und Anhang Abb. S3). Mitglieder der Familie haben auch eine schwächere Konservierung des ersten Histidins in der katalytischen RKHRH-Pentade (Anhang Abb. S4).

IntCTnDOT Untergruppe

Die zweitgrößte AB-Domäne enthaltende YR-Untergruppe ist IntCTnDOT. Es enthält Proteine ​​von Bacteroidetes (Abb. 1B), wie Integrasen des ICE CTnDOT und das mobilisierbare Element NBU1 (Shoemaker et al., 1996 Whittle et al., 2002 ), sowie YRs von der Salmonella genomischen Insel 1 (SG1) (Doublet et al., 2005 douard et al., 2010 ) (Datensatz EV3). Die anfängliche Pfam-Annotation deutete darauf hin, dass YRs in dieser Untergruppe nur CB- und CAT-Domänen enthalten, mit einer wesentlich größeren vorhergesagten CB-Domäne als diejenige, die in einfachen YRs gefunden wird. Sekundärstrukturvorhersagen schlugen jedoch zuvor vor, dass die Integrase eines Prototyp-CTnDOT-Elements aus Bacteroides eine kanonische AB-Domäne (Kim et al., 2010 ) (Abb. 3) und anschließende biochemische Experimente bestätigten seine Interaktion mit subterminalen Arm-DNA-Stellen im Transposon (DiChiara et al., 2007 Holz et al., 2010). In Übereinstimmung zeigte unsere vergleichende Analyse, dass das N-terminale Segment aller IntCTnDOT Mitglieder besteht aus zwei konservierten Domänen: einer kanonischen CB-Domäne und einer Upstream-AB-Domäne (Abb. 3 und Anhang Abb. S1). Dementsprechend haben wir die entsprechende Pfam-Annotation aktualisiert, die nun in der neuen Version (Pfam 32.0) zur Verfügung steht.

Bei der Analyse von Sequenzlogos stellten wir außerdem fest, dass YRs der IntCTnDOT Untergruppe zeigen eine schwächere Konservierung des ersten Argininrestes in der ansonsten streng erhaltenen katalytischen RKHRH-Pentade (Kasten I in Anhang Abb. S2) in der CAT-Domäne. Arginin ist in dieser Position in NBU1-, NBU2- und Tn4555-Integrasen vorhanden, fehlt jedoch in den Integrasen der CTnDOT-, ERL(S)- und Tn5520-Elemente (Cheng et al., 2000). Frühere biochemische Experimente zeigten, dass in der CTnDOT-Integrase dieser Rest funktionell durch ein weiteres Arginin ersetzt wird, das sich weiter stromabwärts in der Proteinsequenz befindet (Kim et al., 2010). Konsequenterweise fanden wir, dass dieses alternative Arginin in vielen Integrasen im Int . konserviert istCTnDOT Untergruppe (siehe konserviertes R in IntCTnDOT Logo im Anhang Abb. S3). Somit tragen YRs dieser Untergruppe das katalytische Arginin an einem von zwei alternativen Orten, was zu einer schwächeren Gesamtkonservierung führt.

IntSXT Untergruppe

Die nächste große Untergruppe der AB-Domänen enthaltenden YRs ist IntSXT, das Integrasen mehrerer ICEs, genomischer Inseln und Phagen umfasst. Ein charakteristisches Merkmal dieser Untergruppe ist das Vorhandensein einer N-terminalen DUF4102-Domäne (Anhang Abb. S1). Dies wurde zuvor als AB-Domäne genomischer Inselintegrasen (Szwagierczak et al., 2009 ) und enthält einen zusätzlichen Beta-Strang und eine Alpha-Helix im Vergleich zu AB-Domänen anderer YRs (Abb. 2 und 3). Die phylogenetische Analyse ergab, dass zwei von sechs Clustern innerhalb des IntSXT Untergruppe enthält Integrasen sowohl von ICEs als auch von Phagen (Anhang Abb. S7). Mitglieder großer Cluster teilen unterschiedliche genomische Insertionsprofile und integrieren ihre MGEs in der Nähe von essentiellen Genen. Zum Beispiel Integrasen der P4- und Sf6-Phagen-Cluster zusammen mit verschiedenen ICE-YRs, die alle stromabwärts von tRNA-Genen inserieren (P4-Cluster, Anhang Abb. S7) (Boyd et al., 2009 Van Houdt et al., 2012). In ähnlicher Weise bilden Integrasen des epsilon15-Phagen, des CMGI-3-Elements und verwandter Elemente einen separaten Cluster, und alle zielen auf die 3′-Flanke des guaA Gen, das an der GMP-Biosynthese beteiligt ist (Kropinski et al., 2007 Bi et al., 2012 ) (epsilon15-Cluster, Anhang Abb. S7). Das gleiche Muster wird für Integrasen des enterobakteriellen cdt1-Phagen, des SXT-Elements und eng verwandter ICEs beobachtet, die alle neben dem inserieren prfC Gen, das einen Faktor kodiert, der an der Termination der Translation beteiligt ist (Hochhut & Waldor, 1999 Asakura et al., 2007 ) (SXT-Cluster Anhang Abb. S7). Somit können die Mitglieder jedes IntSXT Cluster scheinen ihre diversen MGEs an bestimmte Orte zu treiben, möglicherweise aufgrund charakteristischer Merkmale in den Integrasesequenzen. Ihre Vorliebe für die Flanken konservierter Gene könnte dazu beitragen, ihre Verbreitung zwischen den Arten zu fördern und ihre charakteristische taxonomische Verteilung zu erklären. Außerdem legt die gemischte Verteilung von ICE und Phagenintegrasen nahe, dass diese Elemente häufig ihre Integrasen austauschen. Dies wird auch durch frühere Beobachtungen gestützt, dass ICEs mit unterschiedlichen Konjugationsmaschinen eng verwandte Integrasen haben (Cury et al., 2017 ).

IntP2 Untergruppe

Die IntP2 Untergruppe der AB-Domänen enthaltenden YRs enthält Integrasen von proteobakteriellen Phagen, wie HP1 und P2. Ein weiteres interessantes Mitglied dieser Untergruppe ist die Plasmid-getragene Rci-Rekombinase, die die R64-Plasmid-Konjugation reguliert, indem sie verschiedene Gensegmente neu mischt, um verschiedene Pili-Proteine ​​zu erzeugen (Komano et al., 1987 Gyohda & Komano, 2000 Roche et al., 2010). Die CAT-Domänen von YRs in dieser Untergruppe sind denen einfacher YRs sehr ähnlich, wie auch an zuvor bestimmten Kristallstrukturen (Hickman et al., 1997 Skaar et al., 2015). Die meisten YRs in dieser Untergruppe enthalten eine AB-Domäne mit einer klassischen Faltung (Fig. 3), mit Ausnahme der Rci-Rekombinasen, denen die AB-Domäne fehlt. In Übereinstimmung mit früheren Sequenzanalysen (Boyd et al., 2009 ), legen unsere phylogenetischen Rekonstruktionen nahe, dass IntP2 YRs sind mit der Lambda-Phagen-Integrase verwandt, jedoch wird diese Clusterbildung durch die statistische Analyse nicht gut unterstützt (Abb. 1A und Anhang Abb. S1). Obwohl die gut untersuchte Lambda-Phagen-Integrase oft als Prototyp für die Tyrosin-Rekombinase-Superfamilie verwendet wird (Landy, 2015), hat unsere Analyse gezeigt, dass sie sich deutlich von anderen YRs unterscheidet. Es enthält erhebliche Veränderungen sogar in der CAT-Domäne, einschließlich einer Insertion von zwei Beta-Strängen nach dem dritten Beta-Strang der kanonischen Falte und dem Austausch der C-terminalen Alpha-Helix durch einen Beta-Strang (Abb. 2, Anhang Abb S3 und S4).

IntDes Untergruppe

Schließlich IntDes ist eine kleine Untergruppe von AB-Domänen tragenden YRs. Seine Mitglieder werden nur in der Gattung Desulfovibrio von Deltaproteobacteria gefunden (Fig. 1B). Diese Untergruppe weist spezifische Sequenzstörungen im katalytischen Kern auf: Nämlich der erste Argininrest der RKHRH-Pentade ist im Vergleich zu anderen YRs verschoben und das erste Histidin ist durch ein Tyrosin ersetzt (Anhang Abb. S2 und S4). Die biologische Funktion dieser YRs ist bis heute unbekannt.

Identifizierung und Klassifizierung integrativer und konjugativer Elemente

Die überwiegende Mehrheit der von uns analysierten YRs bleibt in genomischen Datenbanken ohne Anmerkungen. Dies behindert insbesondere die Identifizierung und Charakterisierung von YR-tragenden MGEs. Um zu testen, ob unser Klassifikationssystem helfen kann, die YR-Funktion vorherzusagen, haben wir als nächstes überprüft, ob die nicht annotierten YRs, die in ICE-bezogenen Untergruppen gefunden wurden, tatsächlich Integrasen von ICEs sind. Dazu haben wir die genomische Nachbarschaft der YRs untersucht, um bekannte Proteine ​​der konjugativen Maschinerie zu identifizieren (wie in Guglielmini et al., 2014 Abby et al., 2016). Wenn eine Integrase in der Nähe (± 100 kb) von bekannten Konjugationsmaschinerieproteinen gefunden wurde, dann wurde die entsprechende Region als mutmaßlicher ICE angesehen ( 4A ). ICEs, die aus der ICEberg-Datenbank abgerufen wurden, wurden für das Benchmarking verwendet. Diese Analyse ergab insgesamt 59 bisher nicht kommentierte ICEs (Anhang Abb. S8, Datensatz EV4). Die mutmaßlichen ICEs wurden dann durch manuelle Identifizierung ihrer terminalen Wiederholungssequenzen weiter validiert. Wir identifizierten sicher terminale Wiederholungen in 50 von 59 vorhergesagten ICEs. Bei 49 davon wurde die Konjugationsmaschinerie innerhalb der vorhergesagten Grenzen des Elements gefunden, was ihre Identität weiter bestätigt. In einem vorhergesagten Element befand sich die Konjugationsmaschinerie außerhalb der Grenzen (Datensatz EV4), was auf ein zufälliges gleichzeitiges Auftreten von YR- und Konjugationsgenen in diesem Fall schließen lässt.

Abbildung 4. Identifizierung und Charakterisierung von ICE auf Tyrosin-Rekombinase-Basis

  1. Überblick über die Berechnungspipeline für die ICE-Identifikation. Die genomischen Regionen der Tyrosin-Rekombinase (YR)-Gene wurden 100 kb stromaufwärts und stromabwärts erweitert und auf das Vorhandensein von konjugationsbezogenen Genen und Wiederholungssequenzen analysiert.
  2. Strukturelle Vielfalt von YR-tragenden ICEs. Alle ICEs gruppierten sich basierend auf ihrer YR-Klassifizierung in fünf Untergruppen (links). Die Anzahl der ICEs in jeder der Untergruppen wird als Balken mit Zahlen (Mitte) angezeigt. Gezeigt werden schematische Darstellungen von ICE-Architekturen, ausgerichtet nach ihren Integrase-Genen (rotes Symbol, rechts). Offene Protein-Leserahmen verschiedener Typen von Konjugationsmaschinen sind mit unterschiedlichen Farben dargestellt, wie unten in der Abbildung angegeben.

Um die nachgewiesenen ICEs weiter zu charakterisieren, zielten wir darauf ab, die naive Insertionsstelle (d. h. die bakterielle Genomsequenz vor der Integration) der identifizierten ICEs zu rekonstruieren und nach solchen ununterbrochenen Stellen in eng verwandten Genomen zu suchen. Da sich funktionelle ICEs zu neuen genomischen Standorten bewegen können, kann die erfolgreiche Identifizierung naiver Standorte die endgültige Bestätigung ihrer Identität und ihres mobilen Charakters liefern. Die Identifizierung solcher naiver Stellen erfordert jedoch eine kürzliche Mobilität des ICE und kann auch durch eine begrenzte Verfügbarkeit vollständiger Genomsequenzdaten für verwandte Arten in öffentlichen Datenbanken in Frage gestellt werden. Nichtsdestotrotz fanden wir für 18 der 49 ICEs naive Standorte, was diese Elemente weiter validiert und ihre jüngsten Aktivitäten anzeigt (Datensatz EV4, Anhang Abb. S9).

YRs in den neuen ICEs gehörten zu fünf YR-Untergruppen (Abb. 4B, Datensatz EV4), wobei die meisten Beispiele in der Int . gefunden wurdenTn916 (23), IntP2 (17) und IntSXT (14) Untergruppen. Um die nachgewiesenen ICEs weiter zu analysieren, rekonstruierten wir als nächstes die Phylogenie ihrer YRs und zeichneten die genetische Struktur ihrer jeweiligen Konjugationsmaschinen auf (Fig. 4B und Anhang Fig. S8). ICEs mit eng verwandten YRs waren im Allgemeinen mit eng verwandten Konjugationssystemen assoziiert, aber ICE-Gruppen mit etwas weiter entfernt verwandten YR-Proteinen enthielten oft nicht verwandte Typen von Konjugationsmodulen ( 4B und Anhang 8 ). Zum Beispiel ICE-Gruppen, die YRs aus den verschiedenen IntTn916 und IntSXT Untergruppen zeigten verschiedene Konjugationssysteme. Einige Cluster der IntSXT YRs und die unterschiedlichen IntKX YRs, die mit demselben Konjugationssystem assoziiert sind, genannt MPFg (Abb. 4B und Anhang Abb. S8), die sich auf verschiedenen Seiten des YR befinden. Insgesamt deutet dies in Übereinstimmung mit früheren Berichten auf einen wiederkehrenden Austausch von Konjugationsmodulen zwischen entfernt verwandten ICEs hin (Cury et al., 2017 ).

Um die Charakterisierung der Mobilisierungsmaschinerie der ICEs zu vervollständigen, suchten wir außerdem nach Excisionase (Xis)-Genen in neu identifizierten und zuvor berichteten ICEs (Fig. 4B und Anhang Fig. S8). Xis reguliert die Direktionalität der Rekombinationsreaktion in einigen der bekannten YR-haltigen Systeme (Connolly et al., 2002 Wood & Gardner, 2015). Wir fanden heraus, dass nur AB-haltige YRs mit Xis-Proteinen assoziiert sind, was auf eine mögliche Kooperation zwischen der AB-Domäne und Xis hindeuten könnte. In Übereinstimmung mit dieser Idee wurde kürzlich eine physikalische Wechselwirkung für die Integrase und Xis des Lambda-Phagen (Cho et al., 2002 Laxmikanthan et al., 2016). Wir konnten Xis in keinem der 15 ICEs mit einfachen YRs aus dem Int . entdeckenKX Untergruppe.

Zusammenfassend bestätigt die erfolgreiche Identifizierung neuer ICEs den Vorhersagewert unseres Klassifikationssystems für die automatisierte Annotation der YR-Funktion und demonstriert seine Nützlichkeit zur Verbesserung der Charakterisierung des Bakterienmobiloms.


Diskussion

Viele MSA-Programme sind frei verfügbar. Die Auswahl des am besten geeigneten Programms für jeden Datensatz ist jedoch nicht trivial. Die Merkmale der abzugleichenden Sequenzen, wie die gemeinsame Identität, sowie deren Anzahl und Länge sind Aspekte, die in jedem MSA-abhängigen Projekt bewertet werden müssen. Jede Parametrisierung des MSA-Programms, wie die Wahl der Substitutionsmatrizen und zum Beispiel Gap Opening/Extended Penalties, wenn verfügbar, beeinflusst auch stark das endgültige Alignment [24]. Das Ausführen von MSA-Programmen mit Standardparametern wird normalerweise bevorzugt, wenn keine Informationen über die abzugleichenden Sequenzen verfügbar sind und/oder für Benutzer ohne Vorkenntnisse auf diesem speziellen Gebiet der Sequenzanalyse. Vor diesem Hintergrund haben wir uns entschieden, eine Auswahl von Programmen hauptsächlich mit ihren Standardoptionen zu vergleichen. Obwohl die hier präsentierten Ergebnisse mit der aktuellen kostengünstigen Hardware und den Zeitplänen der meisten Forschungsprojekte kompatibel sind, dürfen sie nur als Richtlinien verwendet werden, und wir empfehlen den Benutzern, die Parameter jedes Programms sorgfältig zu studieren, um das bestmögliche Ergebnis zu erzielen. Die BAliBASE-Suite ist ein zuverlässiger Benchmarking-Datensatz, könnte aber dennoch als klein angesehen werden, um bestimmte MSA-Projekte zu erfüllen [21]. Daher ist es unerlässlich, die eigenen Grenzen jedes Programms zu verstehen, um zuverlässige Ergebnisse zu erzielen.

Wie in verwandten Papieren [21, 22] angegeben, übertraf kein verfügbares MSA-Programm alle anderen in allen Testfällen. Für die ersten fünf Referenzsätze zeigten unsere Ergebnisse, dass T-Coffee, Probcons, MAFFT und Probalign in allen BAliBASE-Datensätzen in Bezug auf die Ausrichtungsgenauigkeit definitiv überlegen waren, im Einklang mit ähnlichen Publikationen [7, 8, 21, 22]. Alle vier Programme haben einen auf Konsistenz basierenden Ansatz in ihren Algorithmen und stellen somit eine erfolgreiche Verbesserung des Sequenz-Alignments dar. Trotz der Erfüllung bestimmter Konsistenzkriterien basiert DIALIGN-TX auf lokalen paarweisen Ausrichtungen und ist bekanntermaßen von globalen Ausrichtungsgeräten übertroffen [5]. Wir haben jedoch festgestellt, dass der konsistenzbasierte Ansatz allein nicht die höchste Qualität der Ausrichtung bietet. CLUSTAL OMEGA schnitt beim Alignment einiger Datensätze mit langen N/C-terminalen Enden von Sequenzen voller Länge (BB) gut ab und weist keine Konsistenz auf. Das Vorhandensein dieser nicht konservierten Reste an den terminalen Enden trug andererseits dazu bei, die Scores in den von T-Coffee und Probcons erzeugten Alignments zu reduzieren, die die höchsten SP/TC-Scores beim Alignieren der verkürzten Sequenzen (BBS) erzeugten. Trotz eines iterativen Verfeinerungsschritts, der die Ergebnisse verbessern könnte, ist Probcons immer noch ein globales Alignment-Programm und daher anfälliger für Alignment-Fehler, die durch das Vorhandensein nicht konservierter Reste an den terminalen Enden induziert werden [20]. Sicherlich können MAFFT, Probalign und sogar CLUSTAL OMEGA gegenüber T-Coffee und Probcons bevorzugt werden, wenn Sequenzen mit diesen langen terminalen Erweiterungen ausgerichtet werden. Die Kombination einer iterativen Verfeinerungsstrategie mit Konsistenz aus lokalen Alignments in MAFFT (L-INS-i-Methode) könnte dazu beigetragen haben, das Alignment der Sequenzen voller Länge zu verhindern und zu korrigieren [22]. Ebenso sind die suboptimalen Ausrichtungen (bestimmt durch Variationen der Temperatur Parameter), der durch die Partitionsfunktion von Probalign generiert wird, könnte ebenso gut die Fähigkeit dieses Programms verbessern, mit Sequenzen mit nicht konservierten terminalen Erweiterungen umzugehen [8]. Offensichtlich verbesserte das Profil-HMM langer Sequenzen auch die von CLUSTAL OMEGA erzeugten Alignments.

Bezüglich der verbleibenden Referenzsätze von BAliBASE (6, 7 und 9) beobachteten wir, dass die vier oben erwähnten auf Konsistenz basierenden Programme immer noch bessere Alignments erzeugten, obwohl MUSCLE verbesserte Ergebnisse lieferte. In einigen Teilmengen von Referenz 9 war MUSCLE entweder nahe oder besser als einige der vier besten SP/TC-Scoring-Programme. Bei diesem Referenzsatz könnte das Alignment von Sequenzen mit linearen Motiven, die von MUSCLE erzeugt wurden, erleichtert werden durch Kimuras Distanz, die zweite Stufe der schrittweisen Ausrichtung dieses Programms. Die Kimura-Distanz besagt, dass nur exakte Übereinstimmungen zum Match-Score beitragen. Obwohl schnell, hat das Verfahren Einschränkungen, da es nicht berücksichtigt, welche Änderungen von Aminosäuren zwischen den Sequenzen auftreten. Diese Einschränkung kann zum Nutzen rückgängig gemacht werden, da das Programm unter Annahme derselben Strafe für jede Aminosäuresubstitution in frühen Schritten des progressiven Alignments eine Abstandserhöhung zwischen Paaren von nahen Sequenzen mit Fehlern oder Wildcard-Resten (beliebige Aminosäure) am linearen vermeiden würde Motive.

In den größten BAliBASE-Datensätzen war die Nutzung der Multi-Core-Fähigkeit von T-Coffee unabdingbar, um die Ausrichtungsgenauigkeit zu bewerten, da seine Rechenzeit im Single-Core-Modus die voreingestellte Schwelle von 2,5 Stunden bei weitem überschritt . Im größten Datensatz (der letzten Teilmenge von Referenz 9) brauchte T-Coffee mehr als neun Tage, um die Ausrichtung abzuschließen. Die Parallelisierung von T-Coffee ist sicherlich als große Verbesserung eines MSA-Programms zu sehen, da auch in Heim-Desktop-Computern immer mehr Rechenkerne vorhanden sind, ganz zu schweigen von immer schnelleren RAM-Modulen. Interessanterweise war MAFFT das einzige Programm unter den vier besten SP/TC-Scoring-Programmen, das in der Lage war, alle Referenzsätze in weniger als 2,5 Stunden mit den im Abschnitt Methodik beschriebenen vordefinierten Einstellungen abzugleichen. Dies ist höchstwahrscheinlich auf die Flexibilität des „Auto“-Modus von MAFFT zurückzuführen, um die am besten geeignete Ausrichtungsmethode entsprechend der Datensatzgröße auszuwählen, indem vom Modus mit hoher Genauigkeit (L-INS-i) zum Modus mit hoher Geschwindigkeit und geringerer Genauigkeit (FFT .) gewechselt wird -NS-2) [25]. Obwohl es sich nicht um die in dieser Arbeit verwendete Version handelt, wurden auch für MAFFT kürzlich Verbesserungen bei der Parallelisierung erzielt [26], was auf eine Tendenz hindeutet, die verfügbare Hardware vollständig auszunutzen und die Ausführungszeit von MSA-Programmen zu reduzieren. Neben der Parallelisierung gibt es noch viel Raum für Verbesserungen auf dem Gebiet des multiplen Sequenz-Alignments in der Leistung. CLUSTAL OMEGA implementierte beispielsweise eine modifizierte Version von mBed [27], die schnelle und genaue Führungsbäume erzeugte und es schaffte, die Rechenzeit und den Speicherbedarf zu reduzieren, um das Alignment großer Datensätze abzuschließen. Abgesehen von der Leistung gibt es auch viel Raum für Genauigkeitsverbesserungen, da einige in dieser Studie präsentierte Ergebnisse noch weit von den BAliBASE-Referenzausrichtungen entfernt waren.


HMMBinder: DNA-bindende Protein-Vorhersage mit HMM-Profil-basierten Funktionen

DNA-bindende Proteine ​​spielen oft eine wichtige Rolle bei verschiedenen Prozessen innerhalb der Zelle. In den letzten zehn Jahren wurde eine breite Palette von Klassifikationsalgorithmen und Merkmalsextraktionstechniken verwendet, um dieses Problem zu lösen. In diesem Artikel schlagen wir eine neue Methode zur Vorhersage von DNA-bindenden Proteinen namens HMMBinder vor. HMMBinder verwendet Monogramm- und Bigramm-Merkmale, die aus den HMM-Profilen der Proteinsequenzen extrahiert wurden. Nach unserem besten Wissen ist dies die erste Anwendung von HMM-Profil-basierten Funktionen für das Vorhersageproblem von DNA-bindenden Proteinen. Wir haben Support Vector Machines (SVM) als Klassifikationstechnik in HMMBinder verwendet. Unsere Methode wurde an Standard-Benchmark-Datensätzen getestet. Wir zeigen experimentell, dass unsere Methode die in der Literatur gefundenen State-of-the-Art-Methoden übertrifft.

1. Einleitung

DNA-bindende Proteine ​​spielen bei verschiedenen zellulären Prozessen eine entscheidende Rolle. Sie sind essentiell für die Regulation der Transkription, Rekombination, Genomumlagerungen, Replikation, Reparatur und DNA-Modifikation [1]. Proteine, die sowohl in Eukaryoten als auch in Prokaryoten eine Bindung mit DNA eingehen, während sie wie Aktivatoren oder Repressoren wirken, sind DNA-bindende Proteine. Es wurde beobachtet, dass die Prozentsätze von Prokaryoten- und Eukaryoten-Protein, die an DNA binden können, nur 2–3% bzw. 4–5% betragen [2, 3]. Es gab eine Vielzahl von experimentellen Methoden, wie z in vitro Methoden [4, 5] wie Filterbindungsassays, Chromatin-Immunpräzipitation auf Mikroarrays (ChIP-Chip) genetische Analyse und Röntgenkristallographie, die verwendet werden, um DNA-bindende Proteine ​​vorherzusagen. Diese Verfahren haben sich jedoch als teuer und zeitaufwendig erwiesen. Daher besteht ein wachsender Bedarf, ein schnelles und kostengünstiges Berechnungsverfahren zu finden, um dieses Problem zu lösen.

Die meisten der in der Literatur verwendeten Computermethoden zur Vorhersage von DNA-bindenden Proteinen formulierten das Problem als ein überwachtes Lernproblem. Praktisch ist die Zahl der bekannten DNA-bindenden Proteine ​​im Vergleich zu den großen nicht-DNA-bindenden Proteinen und unbekannten Proteinen sehr gering. Die Vorhersage von DNA-bindenden Proteinen wird oft als ein binäres Klassenklassifikationsproblem modelliert, bei dem eine gegebene Proteinsequenz als Eingabe die Aufgabe darin besteht, vorherzusagen, ob das Protein DNA-bindend ist oder nicht. Beachten Sie, dass die Herausforderung hier darin besteht, einen geeigneten Datensatz für das Training und das Testen auszuwählen, der die unausgewogene Situation berücksichtigt. In der Literatur wurden viele überwachte Lernalgorithmen verwendet, um das Problem zu lösen. Darunter Artificial Neural Networks (ANN) [6], Support Vector Machines (SVM) [7, 8], Ensemble-Methoden [9], Nave Bayes Classifier [10], Random Forest [11], Convolutional Neural Networks [12] , Logistische Regression [13], AdaBoost-Klassifikator [5] und so weiter sind gut angesehen. Support Vector Machines (SVM) sind einer der leistungsfähigsten Klassifikatoren für die Identifizierung von DNA-bindenden Proteinen [7, 8, 14, 15].

Für die Vorhersage von DNA-bindenden Proteinen wurden eine Vielzahl von webbasierten Werkzeugen und Methoden entwickelt und stehen zur Verfügung. In diesem Beitrag möchten wir einige davon erwähnen: DNABinder [7], DNA-Prot [16], iDNA-Prot [11], iDNA-Prot

dis [14], DBPPred [17], iDNAPro-PseAAC [8], PseDNA-Pro [18], Kmer1 + ACC [19], Local-DPP [20], SVM-PSSM-DT [21], PNImodeler [22 ], CNNsite [12] und BindUP [23]. Die meisten dieser Verfahren haben sequenz-, profil- oder strukturbasierte Merkmale verwendet. Bei strukturmerkmalbasierten Methoden in der Literatur wurden Strukturmotive, elektrostatisches Potential, das Dipolmoment und

-Modelle nur aus Kohlenstoff [13, 24, 25]. Auf der anderen Seite hingen sequenzbasierte Methoden oft von den PSSM-Profil-basierten Informationen oder Pseudo-Aminosäure-Zusammensetzungen ab [8, 14, 15, 17, 20, 26, 27]. In [28] wurden HMM-basierte Profile verwendet, um Merkmale für die Proteinfaltenerkennung zu generieren.

In diesem Artikel schlagen wir HMMBinder vor, ein neuartiges Werkzeug zur Vorhersage von DNA-bindenden Proteinen, das HMM-Profil-basierte Merkmale einer Proteinsequenz verwendet. Unsere Methode verwendet aus dem HMM-Profil abgeleitete Monogramm- und Bigramm-Merkmale, die im Vergleich zu PSSM- oder sequenzbasierten Merkmalen eine Wirksamkeit zeigen. Wir verwenden auch SVM als Klassifikator und Standard-Benchmark-Datensätze, um unsere Methode zu testen. Unter Verwendung der Standardbewertungsmetriken verbessert sich unsere Methode deutlich gegenüber den Methoden des Standes der Technik und den in der Literatur verwendeten Merkmalen. Wir haben auch einen Webserver entwickelt, der unter http://brl.uiu.ac.bd/HMMBinder öffentlich zugänglich ist.

Der Rest des Artikels ist gemäß der in [29] vorgeschlagenen allgemeinen 5-Schritte-Richtlinie zur Vorhersage von Proteinattributen organisiert. Zunächst werden für dieses Problem ausgewählte Benchmark-Datensätze beschrieben, gefolgt von einer Beschreibung der Proteinrepräsentation durch Extraktion von Merkmalen. Dann beschreiben wir den Klassifikationsalgorithmus, den wir für unseren Ansatz ausgewählt haben, gefolgt von den in diesem Papier verwendeten Leistungsbewertungstechniken. Zuletzt beschreiben wir den Webserver, den wir für dieses Problem entwickelt haben. Der Ergebnisteil präsentiert die Details der experimentellen Ergebnisse, gefolgt von einer analytischen Diskussion. Der Beitrag schließt mit einer Zusammenfassung und einem Hinweis auf zukünftige Arbeiten.

2. Methoden und Materialien

In diesem Abschnitt stellen wir die Details der Materialien und Methoden dieses Papiers zur Verfügung. Abbildung 1 zeigt ein Systemdiagramm unserer vorgeschlagenen Methode. Für die Trainingsphase werden alle Proteinsequenzen HHBlits [30] zugeführt, einer Sequenz-zu-Sequenz-Alignment-Software mit der neuesten UniProt-Datenbank. HHBlits erzeugt eine HMM-Datei als Ausgabe, die dann von unserer Feature-Extraktionsmethode verwendet wird, um Monogramm- und Bigramm-Features zu generieren. Monogramm- und Bigramm-Features werden miteinander verkettet und dann als Trainings-Feature-Set zum Trainieren des Klassifikators verwendet. Als Klassifikationsalgorithmus verwenden wir SVM mit linearem Kernel und für die Testphase wird ein trainiertes Modell gespeichert. Die Testphase ist auch der Trainingsphase ähnlich, jedoch werden dem Klassifikator keine Labels für den Testdatensatz gegeben. Dieses gespeicherte Modell wird auch für die Webserver-Implementierung von HMMBinder verwendet.

2.1. Datensätze

Die Auswahl von Benchmark-Datensätzen ist für das Klassifizierungs- und Vorhersagedesign von entscheidender Bedeutung. In diesem Papier verwenden wir einen beliebten Benchmark-Datensatz namens Benchmark1075 um unser Modell zu trainieren. Später testen wir die Leistung durch Kreuzvalidierung und auf einem separaten unabhängigen Testset, bekannt als unabhängig186 Datensatz. Dieser Abschnitt bietet einen kurzen Überblick über diese beiden Datensätze. Beide dieser Datensätze werden in der Literatur zur Vorhersage von DNA-bindenden Proteinen häufig verwendet [8, 14, 18, 20, 31].

2.1.1. Datensatz-Benchmark1075

Dieser Datensatz wurde erstmals in [14] eingeführt. Dieser Datensatz besteht aus 1075 Proteinsequenzen. Darunter sind 525 DNA-bindende und 550 nicht-DNA-bindende Proteinsequenzen. Alle Proteinsequenzen wurden aus PDB entnommen [32]. Dieser Datensatz ist einer der größten DNA-bindenden Proteinvorhersagedatensätze und daher für Trainingszwecke geeignet.

2.1.2. Datensatzunabhängig186

Louet al. [17] konstruierten diesen unabhängigen Datensatz, bestehend aus 93 DNA-bindenden und 93 nicht-DNA-bindenden Proteinsequenzen. Sie verwendeten BLASTCLUST [33] für den Benchmark-Datensatz, um die Sequenzen zu entfernen, die mehr als 25 % Ähnlichkeit aufweisen.

2.2. Merkmalsextraktion

für ein binäres Klassifikationsproblem verwendet wird, besteht aus zwei Arten von Instanzen: positiv und negativ. Formal,

Als nächstes besteht die Aufgabe darin, jede Proteininstanz als für das Training geeignete Merkmalsvektoren darzustellen. Die Idee ist, jede der Proteininstanzen als Vektor von Merkmalen darzustellen.

, wird als Merkmalsvektor mit Dimension . dargestellt

. Die meisten Verfahren in der Literatur zur Vorhersage von DNA-bindenden Proteinen verwenden entweder sequenz- und PSSM-Profil-basierte Merkmale oder strukturbasierte Merkmale. Nach unserem besten Wissen wurden keine Funktionen mit HMM-Profilen angewendet. In diesem Artikel haben wir HHBlits [30] verwendet, um HMM-Profile zu generieren. HMM-Profile sind vergleichsweise effektiver [30, 34] für die Homologie-Fernerkennung. HMM-Profile wurden unter Verwendung von vier Iterationen von HHBlits mit einem Cutoff-Wert von 0,001 unter Verwendung der neuesten UniProt-Datenbank generiert [35]. HMM-Profile sind

Matrix hergestellt von HHBlits. Diese 20 Werte sind die Substitutionswahrscheinlichkeit jedes Typs von Aminosäurerest entlang der Proteinsequenz an jeder Position. Diese Werte werden zunächst mit der folgenden Formel in lineare Wahrscheinlichkeiten umgerechnet:

Wir haben zwei Arten von Merkmalen generiert, Monogramm und Bigramm, unter Verwendung der generierten HMM-Profilmatrix, die hier notiert ist als

. Wir bieten eine kurze Beschreibung der Monogramm- und Bigramm-Merkmale, die aus der HMM-Profilmatrix extrahiert wurden.

2.2.1. Monogramm-Funktionen

Monogrammmerkmale [36] werden unter Verwendung der normalisierten Summe der spaltenweisen Substitutionswahrscheinlichkeitswerte berechnet. Die Größe dieser Merkmalsgruppe beträgt 20 aufgrund von 20 verschiedenen Aminosäuren. Das Merkmal kann formal wie folgt definiert werden:


Schlussfolgerungen

Obwohl die relative Leistung der MSA-Methoden vom Datensatz abhing, produzierte UPP in den meisten Fällen Alignments mit niedrigeren SP-Fehlerraten und höheren TC-Werten als MAFFT, Muscle und Clustal-Omega. Mit UPP-Ausrichtungen berechnete ML-Bäume waren auch genauer als ML-Bäume für die anderen Ausrichtungen. Interessanter ist jedoch der Vergleich zwischen UPP und PASTA. Da UPP PASTA verwendet, um sein Backbone-Alignment und seinen Baum zu berechnen, ist UPP vom Design her identisch mit PASTA für fragmentfreie Datensätze mit höchstens 1000 Sequenzen. Interessant ist der Vergleich zwischen UPP und PASTA hinsichtlich der Ausrichtungsgenauigkeit: UPP-Ausrichtungen haben tendenziell niedrigere SP-Fehlerraten als PASTA-Ausrichtungen, aber auch niedrigere TC-Werte, was darauf hindeutet, dass diese beiden Kriterien nicht so gut korrelieren. ML-Bäume, die auf PASTA-Alignments (für fragmentfreie Datensätze) basieren, sind jedoch in der Regel genauer als ML-Bäume, die auf UPP-Alignments basieren. Bei Datensätzen mit fragmentarischen Sequenzen weist UPP fast die gleichen SP-Fehlerraten auf, die es mit den vollständigen Sequenzen erreicht, während die SP-Fehlerraten von PASTA mit der Fragmentierung erheblich ansteigen ΔDie Fehlerraten des FN-Baums steigen mit der Fragmentierung tendenziell nicht so stark an, obwohl dies bei PASTA der Fall ist. Somit ist UPP sehr robust gegenüber fragmentarischen Daten, während PASTA dies nicht ist. Während also PASTA für Datensätze ohne Fragmente einen Vorteil gegenüber UPP hat, bietet UPP Vorteile gegenüber PASTA für Datensätze mit Fragmenten.

Um die Leistung von UPP zu verstehen, ist es nützlich, die verwendete Ausrichtungsstrategie zu berücksichtigen. Zuerst berechnet es ein Backbone-Alignment mit PASTA für einen relativ kleinen Datensatz (höchstens 1000 Sequenzen), was es ermöglicht, mit einem hochgenauen Alignment zu beginnen. Dann verwendet UPP, anstatt ein einzelnes Profil-HMM zu verwenden, um sein Backbone-Alignment darzustellen, eine Sammlung von Profil-HMMs, jedes auf einer Teilmenge der Sequenzen. Die Teilmengen werden aus lokalen Regionen des Backbone-Baums erhalten, der ein für die Backbone-Sequenzen geschätzter ML-Baum ist. Daher neigen die Sequenzen in diesen Teilmengen dazu, eng verwandt zu sein.Die induzierten Subset-Alignments für diese kleineren lokalisierten Regionen sind daher besser für HMMs geeignet, insbesondere wenn der vollständige Datensatz insgesamt erhebliche Heterogenität aufweist.

Diese Beobachtungen helfen zu erklären, warum die Verwendung mehrerer HMMs, jedes für eine Region innerhalb des Backbone-Baums, verbesserte Ausrichtungen im Vergleich zur Verwendung eines einzelnen HMM liefert. UPP beschränkt jedoch auch das Rückgrat auf die Sequenzen voller Länge, und dieser algorithmische Schritt ist entscheidend, um die Robustheit gegenüber fragmentarischen Sequenzen zu verbessern. Daher erhöhen diese Aspekte des algorithmischen Designs von UPP – die Beschränkung des Rückgrats auf Sequenzen voller Länge und die Verwendung eines Ensembles von HMMs anstelle eines einzelnen HMM – die Empfindlichkeit gegenüber entfernter Homologie (insbesondere für fragmentarische Sequenzen) und reduzieren den Ausrichtungs-SP-Fehler und den Baumfehler. aber jeder zielt auf einen anderen Aspekt der algorithmischen Leistung ab.

UPP weist eine große Skalierbarkeit in Bezug auf Laufzeit (die nahezu linear skaliert), Parallelität und Ausrichtungsgenauigkeit auf. Unsere Studie zeigte zum Beispiel, dass der Ausrichtungs-SP-Fehler für das Backbone-Alignment ziemlich nahe am Ausrichtungs-SP-Fehler für das von UPP zurückgegebene Alignment liegt. Somit ermöglicht UPP, dass große Datensätze fast genauso genau ausgerichtet werden wie kleinere Datensätze.

Insgesamt ist UPP eine MSA-Methode, die eine sehr hohe Genauigkeit für Sequenzdatensätze bieten kann, die als zu schwer auszurichten gelten, einschließlich Datensätze mit hohen Evolutionsraten, fragmentarischen Sequenzen oder vielen Tausend Sequenzen – sogar bis zu einer Million Sequenzen. UPP schneidet sowohl bei phylogenetischen als auch bei strukturellen Benchmarks gut ab (siehe [25] für eine weitere Diskussion dieser verwandten, aber unterschiedlichen Aufgaben). Schließlich ist UPP parallelisiert (für gemeinsam genutzten Speicher) und verfügt über eine Checkpointing-Funktion, erfordert jedoch keine Supercomputer, um eine hervorragende Genauigkeit für ultragroße Datensätze in angemessenen Zeitrahmen zu erreichen.


Hintergrund

In der Bioinformatik ist das multiple Sequenz-Alignment eine grundlegende Idee. Es zielt darauf ab, mehr als zwei biomolekulare Sequenzen auszurichten und wird für verschiedene biologische Analyseaufgaben verwendet, beispielsweise für die Vorhersage der Proteinstruktur und die phylogenetische Inferenz [1]. Die Verwendung von MSA zum Auffinden von Sequenzunterschieden kann bei der Konstruktion und Annotation biologischer Ontologien helfen, beispielsweise der größten Ontologie der Welt, Gene Ontology [2], an der Forscher viele Arbeiten durchführen [3–7]. Um Wissen über das Alignment zu extrahieren und zu teilen, etablierten die Forscher einige Ontologien, die auf einem multiplen Sequenz-Alignment basieren [8]. Darüber hinaus könnte ein multiples Sequenz-Alignment helfen, SNP zu nennen und damit krankheitsbezogene Genvarianten zu finden [9–13].

Es gibt viele Arten von Methoden für das multiple Sequenz-Alignment, und die meisten von ihnen sind progressiv [1]. Wenn wir eine progressive Methode verwenden, um eine Reihe von Sequenzen auszurichten, müssen wir zunächst für jede gepaarte Sequenz eine paarweise Ausrichtung durchführen und dann den Abstand des Paares berechnen. Aus den Distanzen jedes Paares wurde eine Distanzmatrix gebildet. Anschließend wurde auf Basis der Distanzmatrix ein Leitbaum generiert. Als letzter Schritt wurde aufgrund der vorgegebenen Reihenfolge, die der Leitbaum bietet, die Profil-Profil-Ausrichtung sukzessive durchgeführt.

Für zwei Sequenzen wendet die paarweise Ausrichtungsaufgabe einfach die dynamische Programmierung an. Und die Bewertungsfunktion für die dynamische Programmierung basiert normalerweise auf einer Substitutionsmatrix, zum Beispiel BLOSUM62 und PAM250 für Proteinsequenzen. Bei den multiplen Sequenz-Alignment-Problemen, wenn wir gegebene Sequenzen ausrichten müssen x und ja, auch die Algorithmen wenden dynamische Programme an, jedoch basiert die Bewertungsfunktion nicht mehr einfach auf einer bestimmten Substitutionsmatrix, da wenn Rest xich sollte mit Resten ausgerichtet werden jaJ geht es nicht nur um Sequenzen x und ja aber auch besorgt um andere. Zahlreiche Algorithmen verwenden die Posterior-Wahrscheinlichkeit P(xichjaJ|x,ja) um die Substitutionswerte zu berechnen. P(xichjaJ|x,ja) stellen die Wahrscheinlichkeit dar, dass Rest an Position xich der Reihe nach x und Rückstand auf Position jaJ der Reihe nach ja werden im „echten“ multiplen Sequenz-Alignment abgeglichen [14].

Zur Berechnung der Posterior-Wahrscheinlichkeit wird eine Vielzahl von Ansätzen mit unterschiedlichen Algorithmen praktiziert. Unter dieser beträchtlichen Anzahl von progressiven Alignment-Algorithmen verwenden die meisten von ihnen das Hidden-Markov-Modell, um die Posterior-Wahrscheinlichkeit zu berechnen, zum Beispiel ProbCons [15]. Aber inzwischen wenden einige Algorithmen andere Wahrscheinlichkeitskonsistenz-Ansätze an, zum Beispiel die Partitionsfunktion, die von Probalign [16] zur Berechnung der Posterior-Wahrscheinlichkeit verwendet wurde.

Howellet al. [17] und McCaskill et al. [18] verwenden die Partitionsfunktion, um die RNA-Sekundärstruktur vorherzusagen. Songet al. [19] verwenden die Partitionsfunktion, um RNA-Pseudoknotenstrukturen auszurichten. Die Verwendung von Partitionsfunktionen für die Ausrichtung wurde von Miyazawa [20] entwickelt. Wolfsheimeret al. [21] untersuchten die Parameter-Partitionsfunktion für das Alignment. MSARC verwendet ein Rest-Clustering-Verfahren basierend auf einer Partitionsfunktion, um mehrere Sequenzen auszurichten [22]. Retzlaffet al. [23] verwenden die Partitionsfunktion als Teil der Berechnung für teilweise lokale Mehrweg-Ausrichtungen. Die Partitionsfunktion ist ein nützliches Modell für die Ausrichtung.

Einige Algorithmen wenden integrierte Ansätze an, zum Beispiel berechnen MSAProbs [24] und QuickProbs [25] die Posterior-Wahrscheinlichkeit gemäß der Kombination von HMM und Partitionsfunktion, während für GLProbs [26] basierend auf dem Mittelwert der Identität von Sequenzen in einer Menge , wurde die Posterior-Wahrscheinlichkeit adaptiv berechnet. Diese Veröffentlichungen zeigten, dass ein bevorzugtes Ergebnis durch die Kombination von zwei oder mehr Arten von Posterior-Wahrscheinlichkeiten erzielt wird, während diejenige, die einen einzigen Typ verwendet, ein schlechteres Ergebnis liefert.

Um die Parameter von HMM in MSA-Problemen zu optimieren, werden viele Arten von Optimierungsalgorithmen von verschiedenen Algorithmen wie Particle Swarm Optimization [27-30], Evolutionary Algorithms [31] und Simulated Annealing [32] verwendet, um die Genauigkeit der Ausrichtung verbessert.

Won et al. [33] verwenden eine evolutionäre Methode, um die HMM-Struktur für die Vorhersage der Proteinsekundärstruktur zu lernen. Rasmussenet al. [27] verwenden eine Hybridmethode aus Partikelschwarmoptimierung und evolutionärem Algorithmus, um das Hidden-Markov-Modell für das Alignment mehrerer Sequenzen zu trainieren. Lange et al. [28] und Sun et al. [29] verwenden eine Methode zur Optimierung des Teilchenschwarms mit Quantenverhalten, um das HMM für MSA zu trainieren. Und Sunet al. [30] verwenden auch Methoden zur Optimierung des Partikelschwarms mit zufälliger Drift, um das HMM für MSA zu trainieren.

Dennoch wurde die Kombination der Partitionsfunktion und des optimierten HMM in diesen Studien ignoriert. Daher wird in diesem Papier ein neuartiger Algorithmus für MSA namens ProbPFP vorgestellt. ProbPFP integriert die Ausbeute der Posterior-Wahrscheinlichkeiten durch Partikelschwarm-optimiertes HMM und die Ausbeute nach der Verteilungsfunktion.

Wir verglichen ProbPFP mit 13 herausragenden oder klassischen Ansätzen, d. h. Probalign [16], ProbCons [15], DIALIGN [34], Clustal Ω [35], PicXAA [36], KALIGN2 [37], COBALT [38], CONTRAlign [39], Align-m [40], MUSCLE [41], MAFFT [42], T-Kaffee [43] und ClustalW [44], nach dem Gesamtspalten-Score und dem Summen-der-Paar-Score. Die Ergebnisse zeigten, dass ProbPFP die maximalen Mittelwerte unter den beiden Benchmark-Datensätzen SABmark [40] und OXBench [45] sowie den zweithöchsten Mittelwert im Datensatz BAliBASE [46] erhielt.


Verweise

Adams, J. A. Kinetische und katalytische Mechanismen von Proteinkinasen. Chem.-Nr. Rev. 101, 2271–2290 (2001).

Blume-Jensen, P. & Hunter, T. Oncogenic Kinase signalling. Natur 411, 355–365 (2001).

Lahiry, P., Torkamani, A., Schork, N.J. & Hegele, R.A. Kinasemutationen bei menschlichen Erkrankungen: Interpretation der Genotyp-Phänotyp-Beziehungen. Nat. Rev. Genet. 11, 60–74, https://doi.org/10.1038/nrg2707 (2010).

Zhang, J., Yang, P.L. & Gray, N.S. Targeting Cancer with Small Molecule Kinase Inhibitors. Nat. Rev. Krebs 9, 28–39, https://doi.org/10.1038/nrc2559 (2009).

Manning, G., Whyte, D.B., Martinez, R., Hunter, T. &. Sudarsanam, S. The Protein Kinase Complement of the Human Genome. Wissenschaft 298, 1912–1934 (2002).

Ten Eyck, L.F., Taylor, S.S. &. Kornev, A.P. Konservierte räumliche Muster über die Proteinkinasefamilie hinweg. Biochim. Biophys. Acta 1784, 238–243, https://doi.org/10.1016/j.bbapap.2007.11.002 (2008).

Middelbeek, J., Clark, K., Venselaar, H., Huynen, M.A. & Van Leeuwen, F.N. Die Alpha-Kinase-Familie: ein außergewöhnlicher Zweig des Proteinkinasebaums. Zelle. Mol.-Nr. Leben Sci. 67, 875–890 (2010).

Stefely, J. A. et al. Mitochondriales ADCK3 verwendet eine atypische Proteinkinase-ähnliche Faltung, um die Coenzym-Q-Biosynthese zu ermöglichen. Mol.-Nr. Zelle 57, 83–94, https://doi.org/10.1016/j.molcel.2014.11.002 (2015).

LaRonde-LeBlanc, N. & Wlodawer, A. Ein Familienporträt der RIO-Kinasen. J. Biol. Chem.-Nr. 280, 37297–37300 (2005).

Xiao, J., Tagliabracci, V.S., Wen, J., Kim, S.-A. &. Dixon, J. E. Kristallstruktur der Golgi-Casein-Kinase. Proceedings of the National Academy of Sciences 110, 10574–10579 (2013).

Blackford, A. N. &. Jackson, S. P. ATM, ATR und DNA-PK: die Dreieinigkeit im Herzen der DNA-Schadensreaktion. Mol.-Nr. Zelle 66, 801–817 (2017).

Steussy, C. N. et al. Struktur der Pyruvat-Dehydrogenase-Kinase: Neues Faltungsmuster für eine Serin-Proteinkinase. J. Biol. Chem.-Nr. 276, 37443–37450 (2001).

Ogden, T.H. & Rosenberg, M.S. Multiple Sequence Alignment Accuracy and phylogenetic Inference. Syst. Biol. 55, 314–328 (2006).

Jiang, Y. et al. Eine erweiterte Evaluierung von Methoden zur Vorhersage der Proteinfunktion zeigt eine Verbesserung der Genauigkeit. Genombiologie 17, 184 (2016).

Chartier, M., Chenard, T., Barker, J. & Najmanovich, R. Kinome Render: ein eigenständiges und über das Internet zugängliches Werkzeug zur Kommentierung des menschlichen Proteinkinombaums. PeerJ 1, e126, https://doi.org/10.7717/peerj.126 (2013).

Möbitz, H. Das ABC der Proteinkinase-Konformationen. Biochimica et Biophysica Acta (BBA)-Proteine ​​und Proteomik 1854, 1555–1566 (2015).

Brooijmans, N., Chang, Y. W., Mobilio, D., Denny, R. A. &, Humblet, C. Eine angereicherte Strukturkinase-Datenbank, um kinomweite strukturbasierte Analysen und Wirkstoffforschung zu ermöglichen. Protein Sci. 19, 763–774 (2010).

McSkimming, D. I., Rasheed, K. & Kannan, N. Klassifizieren von Kinase-Konformationen mit einem maschinellen Lernansatz. BMC Bioinformatik 18, 86 (2017).

Creixell, P. et al. Demaskierung von Determinanten der Spezifität im menschlichen Kinom. Zelle 163, 187–201 (2015).

Rahman, R., Ung, P.M.-U. & Schlessinger, A. KinaMetrix: eine Web-Ressource zur Untersuchung von Kinase-Konformationen und Inhibitor-Raum. Nukleinsäuren Res. 47, D361–D366 (2018).

van Linden, O.P., Kooistra, A.J., Leurs, R., de Esch, I.J. & de Graaf, C. KLIFS: Eine wissensbasierte Strukturdatenbank zur Navigation im Kinase-Ligand-Interaktionsraum. J. Med. Chem.-Nr. https://doi.org/10.1021/jm400378w (2013).

Hartmann, S. & Vision, T. J. Verwendung von ESTs für die Phylogenomik: Kann man aus einer lückenhaften Ausrichtung einen phylogenetischen Baum genau ableiten? BMC Evol. Biol. 8, 95 (2008).

Kwon, A. et al. Den Ursprung und die Evolution von Pseudokinasen im Baum des Lebens verfolgen. Wissenschaft Signal. 12, eaav3810 (2019).

Magrane, M. und UniProt-Konsortium. UniProt Knowledgebase: eine Drehscheibe integrierter Proteindaten. Datenbank 2011, bar009 (2011).

Hildebrand, A., Remmert, M., Biegert, A. & Söding, J. Schnelle und genaue automatische Strukturvorhersage mit HHpred. Proteine 77(Beilage 9), 128–132, https://doi.org/10.1002/prot.22499 (2009).

Ye, Y. & Godzik, A. FATCAT: ein Webserver für flexiblen Strukturvergleich und Strukturähnlichkeitssuche. Nukleinsäuren Res. 32, W582–585 (2004).

Yamaguchi, H., Matsushita, M., Nairn, A.C. &. Kuriyan, J. Kristallstruktur der atypischen Proteinkinasedomäne eines TRP-Kanals mit Phosphotransferaseaktivität. Mol.-Nr. Zelle 7, 1047–1057 (2001).

Zhao, Y. et al. Kristallstrukturen von PI3Kalpha komplexiert mit PI103 und seinen Derivaten: Neue Wege für das Design von Inhibitoren. ACS Med. Chem.-Nr. Lette. 5, 138–142, https://doi.org/10.1021/ml400378e (2014).

Ferreira-Cerca, S., Kiburu, I., Thomson, E., LaRonde, N. &. Hurt, E. Dominante Rio1-Kinase/ATPase-katalytische Mutante induziert das Einfangen von späten Prä-40S-Biogenesefaktoren in 80S-ähnlichen Ribosomen. Nukleinsäuren Res. 42, 8635–8647, https://doi.org/10.1093/nar/gku542 (2014).

Maurice, F., Pérébaskine, N., Thore, S. & Fribourg, S. In vitro Dimerisierung der humanen RIO2-Kinase. RNA-Biologie Im Druck, 1–10, https://doi.org/10.1080/15476286.2019.1653679 (2019).

Tso, S.-C. et al. Strukturbasiertes Design und Mechanismen allosterischer Inhibitoren für mitochondriale verzweigtkettige α-Ketosäure-Dehydrogenase-Kinase. Proceedings of the National Academy of Sciences 110, 9728–9733 (2013).

Kato, M., Li, J., Chuang, J. L. & Chuang, D. T. Ausgeprägte strukturelle Mechanismen zur Hemmung von Pyruvat-Dehydrogenase-Kinase-Isoformen durch AZD7545, Dichloracetat und Radicicol. Struktur 15, 992–1004, https://doi.org/10.1016/j.str.2007.07.001 (2007).

Cheng, H. et al. ECOD: eine evolutionäre Klassifikation von Proteindomänen. PLOS-Computer. Biol. 10, e1003926 (2014).

Tsutakawa, S.E., Jingami, H. &. Morikawa, K. Erkennung einer TG-Fehlpaarung: die Kristallstruktur einer sehr kurzen Patch-Reparatur-Endonuklease im Komplex mit einem DNA-Duplex. Zelle 99, 615–623 (1999).

Braschi, B. et al. Gennamen. org: die HGNC- und VGNC-Ressourcen im Jahr 2019. Nukleinsäuren Res. 47, D786–D792 (2018).

Tai, C.-H., Vincent, J.J., Kim, C. & Lee, B. SE: ein Algorithmus zum Ableiten einer Sequenzausrichtung aus einem Paar überlagerter Strukturen. BMC Bioinformatik 10, S4 (2009).

Sievers, F. et al. Schnelle, skalierbare Generierung hochwertiger Protein-Mehrfachsequenz-Alignments mit Clustal Omega. Mol.-Nr. Syst. Biol. 7, 539 (2011).

Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M. & Barton, G. J. Jalview Version 2 – ein multipler Sequenz-Alignment-Editor und eine Analyse-Workbench. Bioinformatik 25, 1189–1191 (2009).

Zhang, W. et al. Kristallstrukturen der Gon7/Pcc1- und Bud32/Cgi121-Komplexe liefern ein Modell für den vollständigen Hefe-KEOPS-Komplex. Nukleinsäuren Res. 43, 3358–3372, https://doi.org/10.1093/nar/gkv155 (2015).

Padyana, A. K., Qiu, H., Roll-Mecak, A., Hinnebusch, A. G. & Burley, S. K. Strukturelle Grundlage für die Autohemmung und Mutationsaktivierung der eukaryotischen Initiationsfaktor 2alpha Proteinkinase GCN2. J. Biol. Chem.-Nr. 280, 29289–29299, https://doi.org/10.1074/jbc.M504096200 (2005).

Kumar, A. et al. Struktur von PINK1 und Mechanismen von Parkinson-assoziierten Mutationen. eLife 6, https://doi.org/10.7554/eLife.29985 (2017).

Christie, M., Boland, A., Huntzinger, E., Weichenrieder, O. & Mol.-Nr. Zelle 51, 360–373, https://doi.org/10.1016/j.molcel.2013.07.011 (2013).

Nagae, M. et al. 3D-Strukturanalyse von Protein O-Mannosylkinase, POMK, einem ursächlichen Genprodukt der Dystroglycanopathie. Gene Zellen 22, 348–359, https://doi.org/10.1111/gtc.12480 (2017).

Xu, Q. et al. Identifizierung dreidimensionaler Strukturen von Autophosphorylierungskomplexen in Kristallen von Proteinkinasen. Sci-Signal 8, rs13, https://doi.org/10.1126/scisignal.aaa6711 (2015).

Crooks, G.E., Hon, G., Chandonia, J.-M. & Brenner, S.E. WebLogo: ein Sequenzlogogenerator. Genom-Res. 14, 1188–1190 (2004).

Modi, V. & Dunbrack, R.L. Definition einer neuen Nomenklatur für die Strukturen aktiver und inaktiver Kinasen. Proceedings of the National Academy of Sciences 116, 6818–6827 (2019).

Jaccard, P. Die Verteilung der Blumen in der alpinen Zone. Revue générale des sciences pures et appliqué 15(Dezember), 961–967 (1907).

Xiong, S. et al. Strukturelle Grundlage für die Autohemmung der NDR1-Kinasedomäne durch ein atypisch langes Aktivierungssegment. Struktur 26, 1101–1115. e1106 (2018).

Hanks, S.K., Quinn, A.M. & Hunter, T. Die Proteinkinasefamilie: konservierte Merkmale und abgeleitete Phylogenie der katalytischen Domänen. Wissenschaft 241, 42–52 (1988).

Jäger, T. In Methoden Enzymol. vol. 200 3–37 (Elsevier, 1991).

Talavera, G. & Castresana, J. Verbesserung der Phylogenien nach dem Entfernen divergenter und mehrdeutig ausgerichteter Blöcke aus Proteinsequenz-Alignments. Syst. Biol. 56, 564–577 (2007).

Kumar, S., Stecher, G., Li, M., Knyaz, C. & Tamura, K. MEGA X: molekulare Evolutionsgenetikanalyse über Computerplattformen hinweg. Mol.-Nr. Biol. Entwicklung 35, 1547–1549 (2018).

Letunic, I. & Bork, P. Interaktiver Lebensbaum (iTOL) v3: ein Online-Tool zur Anzeige und Annotation von phylogenetischen und anderen Bäumen. Nukleinsäuren Res. 44, W242-W245 (2016).

Lemoine, F. et al. Erneuerung des phylogenetischen Bootstrap von Felsenstein im Zeitalter von Big Data. Natur 556, 452 (2018).

de Cárcer, G., Manning, G. & Malumbres, M. Von Plk1 bis Plk5: funktionelle Evolution von Polo-ähnlichen Kinasen. Zellzyklus 10, 2255–2262 (2011).

Needham, E. J., Parker, B. L., Burykin, T., James, D. E. & Humphrey, S. J. Illuminating the dark phosphoproteome. Wissenschaft Signal. 12, eaau8645 (2019).

Sauder, J. M., Arthur, J. W. &. Dunbrack, R. L. Jr. Großmaßstäblicher Vergleich von Proteinsequenz-Alignment-Algorithmen mit Struktur-Alignments. Proteine: Struktur, Funktion und Genetik 40, 6–22 (2000).

Yona, G. & Levitt, M. Innerhalb der Dämmerungszone: ein sensibles Profil-Profil-Vergleichstool basierend auf der Informationstheorie. J.Mol. Biol. 315, 1257–1275 (2002).

Fox, G., Sievers, F. & Higgins, D.G. Using de novo Proteinstrukturvorhersagen, um die Qualität von sehr großen multiplen Sequenz-Alignments zu messen. Bioinformatik 32, 814–820 (2015).

Le, Q., Sievers, F. & Higgins, D.G. Protein-Multiple-Sequenz-Alignment-Benchmarking durch Vorhersage der Sekundärstruktur. Bioinformatik 33, 1331–1337 (2017).

Tokumitsu, H., Wayman, G. A., Muramatsu, M. & Soderling, T. R. Calcium/Calmodulin-abhängige Proteinkinase-Kinase: Identifizierung von regulatorischen Domänen. Biochemie 36, 12823–12827 (1997).

Osawa, M. et al. Eine neue Zielerkennung durch Calmodulin im Komplex mit Ca 2+-Calmodulin-abhängiger Kinasekinase. Nat. Struktur. Mol.-Nr. Biol. 6, 819 (1999).

Tokumitsu, H., Muramatsu, M.-a., Ikura, M. &. Kobayashi, R. Regulationsmechanismus der Ca2+/Calmodulin-abhängigen Proteinkinasekinase. J. Biol. Chem.-Nr. 275, 20090–20095 (2000).

Dai, G. et al. Die Calmodulin-Aktivierung der Polo-like Kinase 1 ist während des mitotischen Eintritts erforderlich. Biochem. Zellbiol. 91, 287–294 (2013).

Kauselmann, G. et al. Die Polo-ähnlichen Proteinkinasen Fnk und Snk assoziieren mit einem Ca2+- und Integrin-bindenden Protein und werden dynamisch mit synaptischer Plastizität reguliert. Das EMBO-Journal 18, 5528–5539 (1999).

Plotnikova, O.V., Pugacheva, E.N., Dunbrack, R.L. & Golemis, E.A. Rapid calcium-dependent activation of Aurora-A Kinase. Naturkommunikation 1, 64, https://doi.org/10.1038/ncomms1061 (2010).

Mallampalli, R.K., Glasser, J.R., Coon, T.A. &. Chen, B.B. Calmodulin schützt Aurora B am Mittelkörper, um die Genauigkeit der Zytokinese zu regulieren. Zellzyklus 12, 663–673 (2013).

Brinkworth, R.I., Breinl, R.A. &. Kobe, B. Strukturelle Basis und Vorhersage der Substratspezifität in Protein-Serin/Threonin-Kinasen. Proceedings of the National Academy of Sciences 100, 74–79 (2003).

Anastassiadis, T., Deacon, S.W., Devarajan, K., Ma, H. &. Peterson, J.R. Umfassender Assay der katalytischen Kinaseaktivität zeigt Merkmale der Kinaseinhibitorselektivität. Nat. Biotechn. 29, 1039 (2011).

Bischof, A.C. et al. Ein chemischer Schalter für Inhibitor-sensitive Allele jeder Proteinkinase. Natur 407, 395 (2000).

Ye, Y. & Godzik, A. Flexible Strukturausrichtung durch Verkettung ausgerichteter Fragmentpaare, die Drehungen ermöglichen. Bioinformatik 19(Beilage 2), 246–255 (2003).

Söding, J., Biegert, A. & Lupas, A. N. Der interaktive HHPred-Server für die Erkennung von Proteinhomologie und Strukturvorhersage. Nukleinsäuren Res. 33, W244–248, https://doi.org/10.1093/nar/gki408 (2005).

Yamaguchi, M. et al. Kryo-EM von mitotischem Checkpoint-Komplex-gebundenem APC/C zeigt die reziproke und konformative Regulation der Ubiquitin-Ligation. Mol.-Nr. Zelle 63, 593–607, https://doi.org/10.1016/j.molcel.2016.07.003 (2016).

Dong, C. et al. Die Kristallstruktur eines inaktiven Dimers der PDZ-bindenden Kinase. Biochem. Biophys. Res. Komm. 476, 586–593, https://doi.org/10.1016/j.bbrc.2016.05.166 (2016).

Eddy, S. R. In Genominformatik 2009: Genominformatik-Reihe Vol. 2, No. 23 205–211 (World Scientific, 2009).

Das molekulare Grafiksystem PyMOL. (Schrödinger, Inc., San Carlos, CA, 2002).

R: Eine Sprache und Umgebung für statistische Berechnungen. (R Foundation for Statistical Computing, Wien, Österreich, 2015).


Schau das Video: Aminosäuren: Aufbau und Gruppen (Kann 2022).