Information

Identität und Ähnlichkeit für Multiple Sequence Alignment (MSA) von Proteinen

Identität und Ähnlichkeit für Multiple Sequence Alignment (MSA) von Proteinen


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich muss Homologie-Modelle für ein Transmembranprotein (Natriumkanal) erstellen und bin gerade dabei, die Sequenzen des Templates mit den gefundenen homologen Proteinen abzugleichen. Ich verwende T-Coffee, um die Ausrichtung durchzuführen. Ich hätte gerne einige numerische Deskriptoren der verschiedenen Sequenzen und mir wurde gesagt, dass ich den Prozentsatz der Ähnlichkeit und Identität einbeziehen soll. Wie kann ich sie berechnen? Gibt es dafür ein Online-Tool? Dankeschön.


Ich habe T-Coffee noch nie benutzt, aber es sieht so aus, als ob die Webserver-Version eine Gesamtpunktzahl sowie eine Punktzahl für jede einzelne Sequenz liefert; Wissen Sie, ob diese Zahlen mit den numerischen Deskriptoren zusammenhängen, die Sie benötigen? Ein guter Anfang wäre, die Dokumentation zu lesen. Eine weitere gute Anlaufstelle wäre die Google Groups-Seite für T-Coffee.


Die Prozentsätze der SARS-CoV-2-Proteinähnlichkeit und -identität mit SARS-CoV- und BatCoV-RaTG13-Proteinen können als Indikatoren für den Virusursprung verwendet werden

Es gibt drei Arten von Proteinen in Coronaviren: nichtstrukturelle, strukturelle und akzessorische Proteine. Coronavirus-Proteine ​​sind für die virale Replikation und für die Bindung und Invasion von Wirten und die Regulierung des Wirtszellstoffwechsels und der Immunität unerlässlich. Diese Studie untersuchte die Ähnlichkeit der Aminosäuresequenz und den Identitätsanteil von 10 Proteinen in SARS-CoV-2, SARS-CoV und den Rhinolophus affinis Fledermaus-Coronavirus (BatCoV RaTG13). Die untersuchten Proteine ​​waren das 1ab-Polyprotein, das Spike-Protein, orf3a, das Hüllprotein, das Membranprotein, orf6, orf7a, orf7b, orf8 und das Nukleokapsid-Protein. Der Online-Sequenz-Alignment-Dienst der European Molecular Biology Open Software Suite (EMBOSS) wurde verwendet, um die Prozentsätze der Proteinähnlichkeit und -identität in den drei Viren zu bestimmen. Die Ergebnisse zeigten, dass die Ähnlichkeits- und Identitätsprozentsätze der SARS-CoV-2- und BatCoV-RaTG13-Proteine ​​beide über 95 % lagen, während die Identitäts- und Ähnlichkeitsprozentsätze von SARS-CoV-2 und SARS-CoV beide über 38 % lagen. Die Proteine ​​von SARS-CoV-2 und BatCoV RaTG13 weisen im Vergleich zu denen von SARS-CoV-2 und SARS-CoV eine hohe Identität und Ähnlichkeit auf.

Die Proteine ​​von SARS-CoV-2 sind denen von BatCoV RaTG13 am ähnlichsten und ähnlichsten als den Proteinen von SARS-CoV

Ergänzende Angaben

Die Online-Version enthält ergänzendes Material, das unter 10.1007/s42485-021-00060-3 verfügbar ist.


Einführung

Die computergestützte Vorhersage der Proteinstruktur ist eines der wichtigsten und schwierigsten Probleme in der Bioinformatik und Strukturbiologie. Das Verständnis der Proteinstruktur kann Informationen über die Proteinfunktion erschließen und kann beim Design und der Entwicklung von künstlichen Proteinen und Wirkstoffmolekülen helfen 1,2 . Kürzlich wurde eine signifikante Verbesserung der Vorhersage der Proteinstruktur aufgrund von Verbesserungen beim Kontakt und in jüngerer Zeit bei der Vorhersage der Distanzkarte 3 beobachtet. Die vorhergesagten Kontakte/Abstände werden verwendet, um die rechnerische Proteinfaltung voranzutreiben, bei der die atomare 3D-Proteinstruktur ohne die Notwendigkeit von Templatstrukturen vorhergesagt wird 4 .

Das Kernprinzip der modernen Kontaktvorhersage ist das Erkennen koevolutionärer Beziehungen zwischen Resten aus multiplen Sequenz-Alignments (MSAs) 5 . Frühere Ansätze zur Vorhersage von Kontaktkarten verwendeten eine direkte Kopplungsanalyse, um diese Beziehungen zu identifizieren. Diese Verfahren umfassen CCMPred 6 , PSICOV 7 , Gremlin 8 , EV fold 9 und plmDCA 10 . Die nächste Methodenwelle, die den aktuellen Stand der Technik repräsentiert, nutzt Deep Learning zur Vorhersage von Kontakten/Abständen. Deep-Learning-basierte Methoden haben die Kontaktvorhersage deutlich verbessert. Dies geht aus der jüngsten gemeinschaftsweiten Bewertung zur Strukturvorhersage, CASP13 3 (Critical Assessment of Structure Prediction), hervor, in der leistungsstärkste Methoden in der Strukturvorhersage einschließlich AlphaFold 11 und Methoden in der Kontaktvorhersage einschließlich RaptorX 12 , TripletRes 13 und ZHOU Contact 14 basieren alle auf Deep Learning. Raptor-X und Alphafold zeigten auch, dass die Vorhersage von Distanzverteilungen anstelle von binären Kontakten die Leistung weiter verbessern kann. Die aktuellen Ansätze sind jedoch immer noch nicht genau genug, um durchgängig eine Strukturmodellierung mit hohen GDT-TS-Strukturbewertungswerten zu erreichen 3 . Somit ist noch eine weitere Verbesserung erforderlich.

Einer der Schlüssel für eine genaue Distanz-/Kontaktvorhersage ist die Qualität der MSAs 15,16 . Neuere Arbeiten haben einen konservativen E-Wert-Cutoff verwendet, um MSAs zu generieren, da die Verwendung eines großen E-Wert-Cutoffs zu verrauschteren und manchmal inkorrekten Koevolutionsinformationen in der MSA führen kann. Andererseits kann ein größerer E-Wert-Cutoff ein MSA ergeben, das mehr Sequenzen enthält, was insbesondere dann nützliche Informationen liefern kann, wenn ein Abfrageprotein nicht viele nahe Homologe aufweist. Die Schwierigkeit besteht darin, dass der geeignete Grad an Sequenzähnlichkeit von der Proteinfamilie 17,18 abhängt.

Hier schlagen wir einen neuen Deep-Learning-basierten Ansatz vor, AttentiveDist, bei dem das Modell mehrere Ausrichtungsinformationen durch einen Aufmerksamkeitsmechanismus verwenden kann. AttentiveDist verwendet eine Reihe von MSAs, die mit unterschiedlichen E-Wert-Cutoffs erhalten werden, wobei das Deep-Learning-Modell die Bedeutung jedes MSA mithilfe eines Aufmerksamkeitsmechanismus bestimmt. Aufmerksamkeitsmechanismen in Deep-Learning-Modellen werden häufig in der Verarbeitung natürlicher Sprache 19, 20 und Computer Vision 21, 22 verwendet, um zu bestimmen, welche Bereiche im Satz bzw. Bild für eine bestimmte Aufgabe wichtig sind. Um das Modell besser zu verallgemeinern, verwendeten wir einen Multitasking-Ansatz, der Rückgratwinkel und Orientierungswinkel 23 zusammen mit dem Abstand zwischen den Resten vorhersagte. Wir zeigen auch, dass die Strukturvorhersage aus einer vorhergesagten Distanzkarte mit Rosetta 24 verbessert werden kann, indem vorhergesagte Seitenkettenzentrumsabstände zwischen den Resten und Wasserstoffbrückenbindungen der Hauptkette verwendet werden. Die vorhergesagten Distanzen und Winkel werden unter Verwendung von neuronalen Netzwerk-vorhergesagten Hintergrundverteilungen in Potentiale umgewandelt.

Wir zeigen, dass die auf Deep Learning basierende Vorhersage des Abstands zwischen den Resten von der Verwendung mehrerer MSAs profitiert. Wir verglichen Entfernungsvorhersagen unter Verwendung von Kombinationen einzelner MSAs mit unterschiedlichen E-Wert-Cutoffs mit dem aufmerksamkeitsbasierten Ansatz und zeigten, dass letzterer eine bessere Genauigkeit erreichte. Wir zeigen auch, dass die Aufmerksamkeit, die verschiedenen MSA-basierten Funktionen in AttentiveDist gewidmet wird, mit den koevolutionären Informationen in der MSA korreliert. Schließlich zeigen wir, dass bei der Strukturmodellierung zusätzliche Beschränkungen von vorhergesagten Seitenkettenabständen zwischen den Resten und Wasserstoffbrücken in der Hauptkette die Strukturvorhersage verbessern.


INTEGRATION DER SEKUNDÄRSTRUKTUR

Die Faustregel, dass die Struktur konservierter ist als die Sequenz, ist eine gut dokumentierte Tatsache ( 21 – 24 ). Als Ergebnis haben viele Studien gezeigt, dass seine Verwendung zur Steuerung des Sequenz-Alignments die Alignment-Qualität verbessert, insbesondere zwischen entfernten Sequenzen (6 – 8, 11 – 15, 25). Zu diesem Zweck haben wir für den Alignment-Algorithmus ein Sekundärstruktur-Scoring-Schema entwickelt, das Austauschgewichte aus vier Matrizentypen kombiniert: Sequenz- oder Profilpositionen, die nicht der gleichen Sekundärstrukturklasse zugeordnet sind, werden mit einer generischen Matrix bewertet (Standard: BLOSUM62 ), andernfalls verwenden die Positionen, die übereinstimmende Helix-, Strang- oder Coil-Zuordnungen aufweisen, die Helix-, Strang- bzw. Coil-spezifischen Matrizen von Lüthy (26). Die Nutzung der Sekundärstrukturinformationen verbessert die PRALINE . erheblich BASIC Ausrichtungsqualität und steigert zusätzlich die PRALINE PSI Alignments in den sehr schwierigen Alignment-Fällen <20% Sequenzidentität (V. A. Simossis und J. Heringa, zur Veröffentlichung eingereicht). In Tabelle 1 wird deutlich gezeigt, dass die Verwendung der Sekundärstruktur für PRALINE . vorteilhaft ist BASIC (>4 % Verbesserung in Fällen mit <60 % Identität), wenn auch nicht so signifikant wie die Verbesserungen bei PRALINE PSI .

Die Sekundärstruktur-Integrationsoptionen von PRALINE beinhalten die Verwendung einer der sieben aufgeführten Vorhersagemethoden [PHDpsi ( 27 ), PROFsec (B. Rost, unveröffentlichte Daten), SSPRO 2.01 ( 28 ), YASPIN ( 20 ), PSIPRED ( 19 ), JNET ( 29 ) und PREDATOR ( 30 , 31 )], um die Sekundärstruktur der Eingabesequenzen vorherzusagen. Darüber hinaus kann der Benutzer optional auch die Proteindatenbank (PDB) durchsuchen, um 3D-Strukturinformationen für die Eingabesequenzen zu finden und die von DSSP abgeleitete Sekundärstruktur für das Alignment zu verwenden. Wenn sowohl DSSP als auch ein Prädiktionsverfahren ausgewählt werden, werden die Prädiktionen nur für diejenigen Sequenzen in das Alignment integriert, die keinen PDB-Eintrag haben. Schließlich kann in derselben Liste wie bei den sieben Vorhersageverfahren alternativ ein optimal segmentierter ( 24 ) oder Mehrheitswahlkonsens verwendet werden, der derzeit die Vorhersagen von PROFsec, YASPIN und PSIPRED kombiniert.


WEBSERVER

Der Server läuft auf unserer lokalen Infrastruktur. Es besteht aus einer Front-End-Webanwendung und einem Back-End-Ausführungscluster. Das Frontend basiert auf dem Spiel! Framework, ein leichtgewichtiges Java-Toolkit für die Entwicklung von Webanwendungen ( http://www.playframework.org ). Der Server ist so konzipiert, dass jeder einzelne T-Coffee-Modus als eigenständiges Plug-In betrachtet werden kann. Auf diese Weise kann man sehr einfach alternative Versionen des Pakets und alternative Konfigurationen bereitstellen. Das Frontend übermittelt die Ausrichtungsanfragen der Benutzer an das Batch-Warteschlangensystem basierend auf Oracle Grid Engine (ehemals Sun Grid Engine).

Verwendung des T-Coffee-Webservers

Auf den Webserver kann entweder von http://www.tcoffee.org oder http://tcoffee.crg.cat zugegriffen werden. Es ist mit allen gängigen Webbrowsern kompatibel (Mozilla Firefox 3+, Google Chrome, Internet Explorer 7+, Safari 5+, Opera 10+). Benutzer benötigen keine Anmeldung, obwohl es ratsam ist, bei großen Aufträgen mit mehr als 100 Sequenzen eine E-Mail anzugeben. Ausgehend vom Index können Benutzer den für ihre Sequenzen am besten geeigneten Modus auswählen:

T-Kaffee: empfehlenswert für große Datensätze von Proteinen oder Nukleinsäuren.

M-Coffee: empfehlenswert bei großen Datensätzen von Proteinen oder Nukleinsäuren, wenn man den Output alternativer Aligner vergleichen möchte.

R-Kaffee: für RNA-Sequenzen mit konservierter Sekundärstruktur.

Expresso: empfehlenswert für Proteinsequenzen mit bekannter 3D-Struktur.

PSI-Kaffee: empfehlenswert für sehr anspruchsvolle Proteindatensätze.

Accurate: ist ein experimenteller Modus, der noch nicht bewertet wurde und versucht, die besten Modi automatisch zu kombinieren.

Kombinieren: ähnelt M-Coffee, ermöglicht es dem Benutzer jedoch, vorberechnete Mehrfachsequenz-Alignments zu kombinieren.

Core: ermöglicht die Bewertung der Konsistenz eines beliebigen multiplen Sequenz-Alignments.

iRMSD: Sofern ein Datensatz mindestens zwei Strukturen enthält, liefert der iRMSD eine Bewertung des betrachteten Alignments, die die Qualität der impliziten strukturellen Überlagerung berücksichtigt.

Berechnen eines multiplen Sequenz-Alignments

Sobald ein Ausrichtungsmodus ausgewählt ist, zeigt der Server die Seite zum Senden des Ausrichtungsformulars an. Im einfachsten Fall muss der Benutzer die auszurichtenden Sequenzen in das angezeigte Textfeld eingeben. Alle MSA-Berechnungsmodi verwenden als Eingabe Sequenzen im FASTA-Format, während die beiden Alignment-Auswertungsmodi Core und iRMSD als Eingabe mehrere Sequenz-Alignments im ALN-Format (ClustalW-Ausgabeformat) verwenden. Sequenzen können auch über den Link „Datei hochladen“ direkt unter dem Textfeld auf dem Einreichungsformular hochgeladen werden. Insgesamt können 150 Sequenzen eingegeben werden und jede Sequenz kann bis zu 10 000 Reste für den T-Coffee-Modus und bis zu 2500 für die anderen Modi enthalten.

Bei allen Diensten sind erweiterte Ausrichtungseinstellungen verfügbar, indem Sie auf den Link "Weitere Optionen anzeigen" klicken. Durch Zugriff auf diesen Abschnitt können Sie die Standardeinstellungen für die T-Coffee-Ausrichtung ändern und erweiterte Details steuern. Diese variieren je nach ausgewähltem T-Coffee-Modus, erlauben aber im Allgemeinen zwei wichtige Kontrollen: die Auswahl der Methoden, die verwendet werden, um die primäre Bibliothek zu erstellen, und einige zusätzliche Kontrollen der Ausgabeformate.

Nachdem die Sequenzen richtig eingegeben und die entsprechenden Parameter ausgewählt wurden, muss auf die Schaltfläche „Senden“ unten auf der Seite geklickt werden, um die Ausrichtungsanfrage an den Server zu senden. Jeder Anfrage wird eine Identifikationsnummer zugeordnet und als eindeutige Referenz verwendet. Der Abgleichvorgang kann je nach Abgleichkomplexität und Serverauslastung einige Sekunden bis zu mehreren Minuten dauern. Wenn der Browser während des Wartens geschlossen wird, können die Benutzer dennoch auf das Ergebnis ihrer Berechnung zugreifen, indem sie die Serverseite erneut öffnen und auf den Link „Verlauf“ klicken. Dieser Link zeigt den Verlauf an, wie er in einem lokalen Cookie gespeichert ist. Diese Informationen gehen verloren, wenn dieses Cookie gelöscht wird oder wenn von einem anderen Computer aus darauf zugegriffen wird. Alternativ kann die während des Wartens angezeigte Seite mit einem Lesezeichen versehen und später erneut aufgerufen werden. Benutzer können auch ihre E-Mail-Adresse angeben, um über den Abschluss des Jobs informiert zu werden.

Wenn die Berechnung abgeschlossen ist, zeigt der Server eine Übersichtsseite an ( Abbildung 1 ). Es enthält das berechnete MSA (oder einen Link zu diesem MSA für Datensätze, die größer als 1 MB sind). Die Box „Ergebnisdateien“ enthält alle von T-Coffee während des Alignment-Prozesses erzeugten Dateien sowie die Sequenzen-Eingabedatei. Der bereitgestellte Link „Alle herunterladen“ ermöglicht es Benutzern, alle Ausgabedateien in einem einzigen Zip-Archiv herunterzuladen. Das Feld „Ergebnis senden“ ermöglicht es, die Alignments nachzubearbeiten und an Drittanbieterdienste wie ProtoGene ( 21 ) oder den SIB MSA Hub „MyHits“ zu senden. Sie können einen Job auch erneut ausführen, indem Sie auf den Link im Feld „Wiedergabe“ klicken. Es wird die Übermittlungsseite neu generieren, auf der Benutzer entweder die Ausrichtungsparameter ändern oder die Abfragesequenzen ändern können.

Beispiel einer T-Coffee-Ergebnisseite. Der obere Teil ist ein farbcodiertes Alignment, bei dem Sequenzen in Rot Alignment-Abschnitten mit starker Unterstützung in der Primärbibliothek entsprechen. Für Nachbearbeitungszwecke wird Benutzern empfohlen, die textbasierte Version des Alignments herunterzuladen, die im Abschnitt Ergebnisdateien verfügbar ist.

Beispiel einer T-Coffee-Ergebnisseite. Der obere Teil ist ein farbcodiertes Alignment, bei dem Sequenzen in Rot Alignment-Abschnitten mit starker Unterstützung in der Primärbibliothek entsprechen. Für Nachbearbeitungszwecke wird Benutzern empfohlen, die textbasierte Version des Alignments herunterzuladen, die im Abschnitt Ergebnisdateien verfügbar ist.

Ausgabeinterpretation

Die grafische Farbausgabe zeigt den Grad der Konsistenz zwischen dem endgültigen Alignment und der von T-Coffee verwendeten Bibliothek an. Der Hauptwert ist der Gesamtkonsistenzwert. Ein Wert von 100 bedeutet eine vollständige Übereinstimmung zwischen dem betrachteten Alignment und der zugehörigen primären Bibliothek. Es bedeutet auch, dass die Bibliothek in sich konsistent ist. Es hat sich gezeigt, dass hohe Werte eine höhere Genauigkeit widerspiegeln ( 22 , 23 ). Benutzern wird jedoch empfohlen, diese Werte nicht zwischen Alignments derselben Sequenzen zu vergleichen, die mit unterschiedlichen Strategien zur Erzeugung der Primärbibliothek berechnet wurden. Zum Beispiel liefert M-Coffee normalerweise höhere Werte als T-Coffee, aber diese Unterschiede können nicht in Bezug auf die relative Genauigkeit interpretiert werden. Die individuelle Sequenzbewertung ist informativer, da sie eine Schätzung der relativen Übereinstimmung der Sequenzen innerhalb des MSA ermöglicht. Beispielsweise sollte jede Sequenz mit einer niedrigeren Konsistenzbewertung als die anderen Sequenzen als verdächtig angesehen werden. Ebenso spiegelt das Farbschema der Reste die primäre Bibliotheksunterstützung für die Ausrichtung des betrachteten Rests auf einer Skala zwischen 0 (blau, schwach unterstützt) und 9 (dunkelrot, stark unterstützt) wider. Während die beiden oben genannten Studien nahegelegt haben, dass Rückstände mit einem Konsistenzwert von mehr als 5 (dh gelb/orange/rot) mit hoher Wahrscheinlichkeit korrekt ausgerichtet sind, ist dieses Bewertungsschema wahrscheinlich am nützlichsten, um die höchst unzuverlässigen Abschnitte (blau) zu identifizieren, die selten biologisch sinnvoll ausgerichtet.

Auswertung von Ausrichtungen

Der Webserver bietet außerdem zwei von T-Coffee implementierte Ausrichtungsbewertungsmodi: Core und iRMSD-APDB. Beim Ausführen von Core müssen Benutzer lediglich eine vorberechnete Ausrichtung im ALN-Format eingeben. T-Coffee berechnet automatisch die entsprechende Bibliothek und gibt eine farbige Version des Alignments aus. Bei der Verwendung von iRMSD müssen Benutzer ein multiples Sequenz-Alignment im ALN-Format bereitstellen, das PDB-Kennungen enthält. Der iRMSD-APDB-Modus ähnelt dem ursprünglich beschriebenen Server ( 24 ).


Match-Box_server: ein Tool zur Ausrichtung mehrerer Sequenzen, das Wert auf Zuverlässigkeit legt

Motivation: Die Match-Box-Software umfasst Tools zum Alignment von Proteinsequenzen, die auf strengen statistischen Ähnlichkeitsschwellen zwischen Proteinsegmenten basieren. Das Verfahren umgeht die Anforderung der Lückenstrafe: Lücken sind das Ergebnis der Ausrichtung und kein bestimmender Parameter des Verfahrens. Die von Match-Box skizzierten zuverlässigen konservierten Regionen sind besonders relevant für die Homologiemodellierung von Proteinstrukturen, die Vorhersage essentieller Reste für die ortsgerichtete Mutagenese und das Oligonukleotiddesign für die Klonierung homologer Gene durch Polymerase-Kettenreaktion (PCR).

Ergebnisse: Das Verfahren liefert zuverlässige Ergebnisse, wie durch Tests bewertet, die an Proteinfamilien bekannter Strukturen und geringer Sequenzähnlichkeit durchgeführt wurden. Eine Zuverlässigkeitsbewertung wird in Bezug auf einen Ähnlichkeitsschwellenwert berechnet, der progressiv erhöht wird, um die ausgerichteten Regionen auf ihre maximale Länge bis zur Signifikanzgrenze übereinstimmender Segmente zu erweitern. Die an jeder Position erhaltene Punktzahl wird unter den Sequenzen gedruckt und ermöglicht ein diskriminierendes Lesen jedes ausgerichteten Bereichs.


MSA-Mehrfachsequenz-Alignment Das Ausrichten vieler Sequenzen ist

MSA – multiples Sequenz-Alignment • Das Alignment vieler Sequenzen ist oft einem paarweisen Vergleich vorzuziehen. • Problem – Die Rechenkomplexität mehrerer Alignments wächst schnell mit der Anzahl der Sequenzen, die ausgerichtet werden.

„Selbst bei der Verwendung von Supercomputern oder Netzwerken von Workstations ist die Ausrichtung mehrerer Sequenzen ein hartnäckiges Problem für mehr als 20 Sequenzen von durchschnittlicher Länge und Komplexität. ”

Als Ergebnis wurden Alignment-Verfahren entwickelt, die Heuristiken verwenden. Diese Verfahren (einschließlich Clustal. W) können kein optimales Alignment garantieren, können aber nahezu optimale Alignments für eine größere Anzahl von Sequenzen finden.

CLUSTALW • 1988 entwickelt • Beginnt mit der Ausrichtung eng verwandter Sequenzen und fügt dann zunehmend divergente Sequenzen hinzu, um eine vollständige msa zu erzeugen.

• http: //www. ncbi. nlm. NIH. gov/ • http: //www. ebi. ac. uk/clustalw/

Einführung in die molekulare Phylogenie* *Phylogenie – die Evolutionsgeschichte einer Gruppe

Mutationen passieren! 3 Arten möglich: • Schädlich • Vorteilhaft • ? ? ?

Wichtiger Punkt: • Viele Unterschiede, die zwischen Individuen beobachtet werden, müssen wenig positive oder schädliche Auswirkungen haben und im Wesentlichen selektiv neutral sein. • Schädliche Mutationen werden ausgeblendet. Vorteilhafte Mutationen sind selten.

Funktionale Einschränkungen? • Besonders wichtige Teile von Genen stehen unter funktionellen Einschränkungen und neigen dazu, Veränderungen nur sehr langsam zu akkumulieren. • Ex. = Histonproteine ​​- praktisch jede Aminosäure ist wichtig. Ein Hefehiston kann ein menschliches Histon ersetzen.

Relative Änderungsrate innerhalb des -Globin-Gens (4 Säugetiere)

Grundlagen der molekularen Phylogenetik • Die Evolution von Arten kann als ein sich verzweigender Prozess modelliert werden – die Speziation wird eingeleitet, wenn zwei Populationen reproduktiv isoliert werden.

Grundlagen der molekularen Phylogenetik • Sobald diese beiden Populationen aufhören, sich zu kreuzen, ist es unvermeidlich, dass sie aufgrund zufälliger Mutationsprozesse auseinanderlaufen.

Grundlagen der Molekularen Phylogenetik • Im Laufe der Zeit kann sich dieser Verzweigungsprozess wiederholen. • Man sagt, dass eine Art mit einer anderen Art verwandt ist, mit der sie einen direkten gemeinsamen Vorfahren hat.

Grundlagen der molekularen Phylogenetik • Der Betrag der DNA-Sequenzunterschiede zwischen einem Organismenpaar sollte anzeigen, wie kürzlich diese beiden Organismen einen gemeinsamen Vorfahren hatten.

Grundlagen der molekularen Phylogenetik • Je länger zwei Populationen reproduktiv isoliert bleiben, desto mehr DNA-Divergenz wird auftreten. • Je länger zwei Populationen reproduktiv isoliert bleiben, desto mehr Proteindivergenzen treten auf.

Molekulare Phylogenie ist relativ neu. • Evolution durch natürliche Selektion – Darwin/Wallace 1858 • Molekulare Phylogenie 1960er Jahre ? ?

Wie es begann. . • 1959 bestimmten Wissenschaftler die dreidimensionale Struktur zweier Proteine, die in fast jedem Tier vorkommen: Hämoglobin und Myoglobin. • In den nächsten zwei Jahrzehnten wurden Myoglobin- und Hämoglobinsequenzen für Dutzende von Säugetieren, Vögeln, Reptilien, Amphibien, Fischen usw. bestimmt.

Was sie gefunden haben. . . • „Dieser Baum stimmte vollständig mit Beobachtungen aus der Paläontologie und Anatomie über die gemeinsame Abstammung der entsprechenden Organismen überein. ”* • *aus Science and Creationism: A View from the National Academy of Sciences, 2nd Ed. , 1999.

Von Organismen mit einem hohen Grad an molekularer Ähnlichkeit wird erwartet, dass sie enger verwandt sind als solche, die unähnlich sind.

Vorteile der molekularen Phylogenie • Kann verwendet werden, um Beziehungen zwischen allen Lebewesen zu entschlüsseln • Sich auf die Anatomie zu verlassen kann irreführend sein – Ähnliche Merkmale können sich in Organismen entwickeln, die nicht eng miteinander verwandt sind (d. h. konvergente Evolution führt zu Augen bei Wirbeltieren, Insekten und Weichtieren).

Wort der Vorsicht Die phylogenetische Analyse ist umstritten. Es gibt eine Vielzahl unterschiedlicher Methoden zur Analyse der Daten, und selbst Experten sind sich oft nicht einig, welche Methode zur Analyse der Daten am besten geeignet ist.

Warum so umstritten? ? 2 Gründe:

#1 – Molekular vs. Klassisch • Wie viel Gewicht wird den molekularen phylogenetischen Daten beigemessen, wenn sie den Ergebnissen der traditionellen Taxonomen gegenüberstehen? ?

Wie viele Autos haben in diesem 2-Stunden-Intervall die Plätze gewechselt? • Parkplatz „A“ um 2:00 • Parkplatz „A“ um 4:00

#2 – Die molekulare Phylogenie erfordert statistische Schätzungen. • Parkplatz „A“ um 2:00 • Parkplatz „A“ um 4:00

Die phylogenetische Datenanalyse erfordert 4 Schritte • 1) Ausrichtung • 2) Bestimmung des Substitutionsmodells • 3) Baumbildung • 4) Baumbewertung

SCHRITT 1 – Ausrichtung • Die molekulare phylogenetische Analyse hängt von einer guten Ausrichtung ab. Ein evolutionärer Baum, der auf einer falschen Ausrichtung basiert, ist ein fehlerhafter Baum.

Homologie Für die phylogenetische Analyse ist es von entscheidender Bedeutung, dass homologe Merkmale zwischen den Arten verglichen werden. Websters New Collegiate – Grundlegende Ähnlichkeit der Struktur aufgrund der Abstammung von einer gemeinsamen Vorfahrenform.

Homologe Gene und homologe Charaktere vergleichen: • Für DNA und Proteine ​​bedeutet dies, dass Lücken in mehreren Alignments korrekt platziert werden müssen, um sicherzustellen, dass für jede Spezies dieselbe Position verglichen wird.

Homologe Gene? Wann konnte man aus Versehen nichthomologe Gene vergleichen? • Seien Sie vorsichtig, wenn Sie Gene vergleichen, die Mitglieder einer Genfamilie sind. • Der Vergleich eines Tubulin-3 einer Spezies mit einem Tubulin-6 einer anderen führt zu keinen genauen Ergebnissen.

Was ist auszurichten? • Phylogenetische Bäume werden durch den Vergleich von DNA oder Protein erstellt. Das Molekül der Wahl hängt von der Frage ab, die Sie beantworten möchten.

DNA • enthält mehr evolutionäre Informationen als Protein: • ATT GCG AAA CAC • * * • ATA GCC AAG CTC

Protein (gleiche Region nur 1 Unterschied analysiert) • Ile-Ala-Lys- His • Ile-Ala-Lys- Leu

DNA • Hohe Basensubstitutionsrate macht DNA am besten für sehr kurzfristige Studien, z. g. eng verwandte Arten

* Homoplasie • Rückkehr eines Charakters in seinen ursprünglichen Zustand, wodurch dazwischenliegende Mutationsereignisse maskiert werden. Jede vierte Mutation sollte zu einer Homoplasie führen.

Protein • zuverlässigeres Alignment als DNA: weniger Homoplasien als DNA • geringere Substitutionsrate als DNA, besser für breite Speziesvergleiche

R. RNA= ribosomale RNA • Am besten geeignet für sehr langfristige evolutionäre Studien, die biologische Reiche umspannen • Selektive Prozesse, die die Sequenzevolution einschränken, sollten über Speziesgrenzen hinweg ungefähr gleich sein

SCHRITT 2 - Bestimmen Sie das Substitutionsmodell.

Eine Nukleotid-Substitutionsraten-Matrix: A T C G A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5

Schritt 3 - Baumbildung Baumterminologie: Knoten: Verzweigungspunkte Topologie: Verzweigungsmuster Zweige: Linien

Zweige können an einem Knoten gedreht werden, ohne die Beziehungen zu ändern.

Unbewurzelte Bäume erklären phylogenetische Beziehungen, sie sagen nichts über die Richtungen der Evolution aus – die Abstammungsreihenfolge

Es gibt zwei Hauptmethoden zum Zeichnen von Bäumen. • - Zeichenmethoden • - Distanzmethoden Beide Ansätze sind weit verbreitet und funktionieren mit den meisten Datensätzen gut.

Distanzmethoden Distanz – ein Maß für die gesamte paarweise Differenz zwischen zwei Datensätzen. Das Ausgangsmaterial für die Baumrekonstruktion sind tabellarische Zusammenfassungen der paarweisen Unterschiede zwischen allen zu analysierenden Datensätzen

Bei Distanzverfahren besteht der erste Schritt darin, eine Matrix aller paarweisen Differenzen zwischen einer Reihe von Folgen zu berechnen. Art A s B C D B 9 ----- C 8 11 ----- D 12 15 10 ----- E 15 18 13 5

Distanzmethoden • Identifizieren Sie die Sequenzpaare, die die geringste Anzahl von Sequenzänderungen zwischen sich haben und als „Nachbarn“ identifiziert werden. Auf einem Baum haben diese Sequenzen einen gemeinsamen Vorfahren und sind durch einen kurzen Zweig verbunden.

UPGMA, Pairwise Distance und Neighbor Joining sind Distanzverfahren. • Sie gruppieren nach und nach Sequenzen, beginnend mit denen, die sich am ähnlichsten sind. • UPGMA = ungewichtete Paargruppenmethode mit arithmetischem Mittel

Stammbäume basierend auf Distanzmethoden. 1) Die beiden am nächsten beieinander liegenden Folgen sind an einem Knoten verbunden. 2) Der Vorgang wird wiederholt, bis alle Sequenzen verbunden sind. 3) Das Hinzufügen der letzten Sequenz definiert die Wurzel des Baums.

Die Zweiglängen können den Ähnlichkeitsgrad widerspiegeln (und theoretisch die evolutionäre Zeit widerspiegeln). • Skalierte Bäume – wenn die Astlänge proportional zu den Unterschieden zwischen den Basenpaaren ist. • Im besten Fall sind skalierte Bäume additiv (die physische Länge der Zweige, die zwei beliebige Knoten verbinden, ist eine genaue Darstellung ihrer akkumulierten Unterschiede).

Stammbäume basierend auf Distanzmethoden. • Relativ einfach. • Problem: –ist möglicherweise nicht genau!

Charaktermethoden „Es ist nicht zu leugnen, dass entfernungsbasierte Methoden „das große Ganze betrachten“ und viele potenziell wertvolle Informationen gezielt ignorieren. ”

Charaktermethoden Die Analyse einzelner Charaktere wird in evolutionäre Bäume übersetzt. Charakter – ein wohldefiniertes Merkmal, das in einer begrenzten Anzahl verschiedener Zustände existieren kann. (Bsp. DNA- und Proteinsequenzen)

Das Konzept der Sparsamkeit steht im Mittelpunkt aller charakterbasierten Methoden der phylogenetischen Rekonstruktion. • Der Prozess der Bevorzugung eines evolutionären Weges gegenüber einem anderen, auf dessen Grundlage die kleinste Anzahl von Mutationsereignissen aufgerufen werden muss.

Charakterbasierte Methoden der phylogenetischen Rekonstruktion. • „Die Beziehung, die am wenigsten Mutationen erfordert, um den aktuellen Stand der Dinge zu erklären, ist am wahrscheinlichsten richtig“

Erster Schritt in Charaktermethoden: Identifizieren Sie alle informativen Seiten:

2. Schritt: Berechnen Sie die Mindestanzahl von Substitutionen an jeder informativen Stelle:

Letzter Schritt: Nachdem Sequenzen ausgerichtet sind, modellieren Algorithmen jeden Baum.

Maximale Sparsamkeit ist eine Zeichenmethode • Zeichenmethoden erfordern eine Ausrichtung mehrerer Sequenzen. Die Analyse informativer „Charaktere“ wird verwendet, um einen evolutionären Baum zu konstruieren.

Maximale Sparsamkeit: Allgemeines wissenschaftliches Kriterium für die Auswahl konkurrierender Hypothesen besagt, dass wir die Hypothese akzeptieren sollten, die die Daten am einfachsten und effizientesten erklärt. • Der Baum, der die _______ Anzahl der Nukleinsäure- oder Aminosäuresubstitutionen erfordert, wird ausgewählt.

Maximale Sparsamkeit: • Der Algorithmus sucht nach einem Baum, der die geringste Anzahl von Änderungen erfordert, um die zwischen den untersuchten Gruppen beobachteten Unterschiede zu erklären.

Zeichenmethoden eignen sich am besten für. . . • Sequenzen, die ziemlich ähnlich sind. • Geringe Anzahl von Sequenzen Das Verfahren ist rechenzeitaufwendig, da alle möglichen Bäume untersucht werden.

Stammbäume basierend auf maximaler Wahrscheinlichkeit: Ziel ist es, den Baum (unter allen möglichen Bäumen) zu finden, der die höchste Wahrscheinlichkeit hat, die beobachteten Daten zu produzieren (statistische Methoden).

Phylogenetische Bäume, die auf der maximalen Wahrscheinlichkeit basieren, ähneln den Methoden der maximalen Sparsamkeit, berücksichtigen jedoch auch die Wahrscheinlichkeit spezifischer Mutationen (z. B. A G).

Die Mutationsraten variieren: • Übergänge (Purin zu Purin oder Pyrimidin zu Pyrimidin) treten häufiger auf als Transversionen (Purin zu Pyrimidin oder Pyrimidin zu Purin).

Viele der beschriebenen Verfahren erfordern erhebliche Rechenzeit. Wieso den?

Anzahl möglicher bewurzelter und unbewurzelter Bäume Anzahl Datensätze Anzahl bewurzelter Bäume Anzahl unbewurzelter Bäume 2 1 1 3 3 1 4 15 3 5 105 15 10 34, 459, 425 15 213, 458, 046, 767, 875 20 8, 200, 794, 532, 637, 891, 559, 375 2, 027, 025 7, 905, 853, 580, 625 221, 643, 095, 476, 699, 771, 875

Programme verwenden Verknüpfungen. • Wenn eine große Anzahl von Bäumen verglichen wird, ist es unmöglich, jeden Baum zu bewerten. Ein Shortcut-Algorithmus legt eine obere Grenze fest. Wenn es andere Bäume auswertet, verwirft es alle Bäume, die die obere Grenze überschreiten, bevor die Berechnung abgeschlossen ist.

Hier sind etwa 194 der Phylogeny-Pakete und 16 kostenlose Server, die mir bekannt sind. Etwa zweimal im Jahr werden diese Seiten aktualisiert. •

Baumauswertung Jedes „Baumzeichnungsprogramm“ erzeugt einen Baum. Die wichtige Frage ist, ob der gezeichnete Baum der richtige ist oder nicht. • In einigen Fällen gibt es viele Bäume mit ähnlichen Wahrscheinlichkeiten.

Bootstrap-Methode zur Bewertung der Baumzuverlässigkeit: Der abgeleitete Baum wird aus dem Datensatz erstellt. Führen Sie die Berechnung für Teilmengen der Daten erneut aus (Resampling). Das Resampling wird mehrere (100-1000) Mal wiederholt.

Bootstrap-Methode Bootstrap-Bäume werden aus den neu abgetasteten Datensätzen erstellt. Der Bootstrap-Baum wird mit dem ursprünglichen abgeleiteten Baum verglichen. Der Prozentsatz der Bootstrap-Bäume, die einen Knoten unterstützen, wird für jeden Knoten im Baum bestimmt.

Molekulare Uhr Addition der Zeit zum phylogenetischen Baum. Zeiteinheiten sind oft in Millionen von Jahren. Annahme-Substitutionsraten sind über Jahrmillionen konstant.

Molekulare Uhr Die Geschwindigkeiten der molekularen Evolution für Gene mit ähnlichen funktionellen Einschränkungen können ziemlich einheitlich sein. (Die Uhr kann bei verschiedenen Proteinen mit unterschiedlichen Geschwindigkeiten laufen.)

• Auch die Evolutionsbiologie hat stark von Genomsequenzierungsprojekten profitiert. Die Fülle an neuen Genomdaten trägt dazu bei, den Baum des Lebens, insbesondere seine Hauptzweige, besser aufzulösen. Dies gilt insbesondere für Prokaryonten, bei denen bisher mehr als 80 Genome sequenziert wurden und die Ergebnisse unseren Blick auf die frühe Geschichte des Lebens erheblich verbessert haben.

Problem- Wenn die Anzahl der Sequenzen zunimmt, nimmt die Anzahl der möglichen Bäume dramatisch zu. Anzahl der Sequenzen Anzahl der Bäume 3 4 5 6 7 8 9 10 50 1 3 15 105 945 10, 395 135, 135 1, 027, 025 2,8 x 1074

Phylogenetische Bäume basierend auf Nachbarverbindungen. • Verwendet auch eine „Abstandsmatrix“ • Der Algorithmus für die Verbindung von Nachbarn sucht nach Sätzen von Nachbarn, die die Gesamtlänge des Baums minimieren. • Kann vernünftige Bäume produzieren, besonders wenn die evolutionären Distanzen kurz sind.

• For vertebrates, many thorny issues remain to be resolved, such as the phylogeny of families and other major groups in the tree of life. For example, it is not yet known whether humans are closer to mice or to cattle because different results have been obtained with different gene analyses. On the other hand, there is no guarantee that complete genome sequences will immediately solve all phylogenetic questions, as evidenced by the continuing debate over the relationships among humans, flies, and nematodes. We will need to develop new statistical methods and bioinformatics tools to handle the greater volume of data and to unravel the complexities of molecular evolution.

• Choice of individual genes or proteins.

Distance matrices: • Scoring matrices include values for all possible substitutions. Each mismatch between two sequences adds to the distance, and each identity subtracts from the distance.


Motif finding

Motif finding, also known as profile analysis, is a method of locating sequence motifs in global MSAs that is both a means of producing a better MSA and a means of producing a scoring matrix for use in searching other sequences for similar motifs. A variety of methods for isolating the motifs have been developed, but all are based on identifying short highly conserved patterns within the larger alignment and constructing a matrix similar to a substitution matrix that reflects the amino acid or nucleotide composition of each position in the putative motif. The alignment can then be refined using these matrices. In standard profile analysis, the matrix includes entries for each possible character as well as entries for gaps. [ 8 ] Alternatively, statistical pattern-finding algorithms can identify motifs as a precursor to an MSA rather than as a derivation. In many cases when the query set contains only a small number of sequences or contains only highly related sequences, pseudocounts are added to normalize the distribution reflected in the scoring matrix. In particular, this corrects zero-probability entries in the matrix to values that are small but nonzero.

Blocks analysis is a method of motif finding that restricts motifs to ungapped regions in the alignment. Blocks can be generated from an MSA or they can be extracted from unaligned sequences using a precalculated set of common motifs previously generated from known gene families. [ 25 ] Block scoring generally relies on the spacing of high-frequency characters rather than on the calculation of an explicit substitution matrix. The BLOCKS server provides an interactive method to locate such motifs in unaligned sequences.

Statistical pattern-matching has been implemented using both the expectation-maximization algorithm and the Gibbs sampler. One of the most common motif-finding tools, known as MEME, uses expectation maximization and hidden Markov methods to generate motifs that are then used as search tools by its companion MAST in the combined suite MEME/MAST. [ 26 ] [ 27 ]


Diskussion

Although our study was restricted to amino acid data sets with at most 27 sequences, the following trends were consistently observed. The best Modeler and SP-scores were obtained for the high PID conditions, and this held for both types of data (simulated and biological) and for all methods. In addition, SP-scores and Modeler scores decreased as PID decreased. We also saw that the expansion ratios were very close to 1.0 for high PID conditions, but when PID was low the expansion ratios could be far from 1.0. Similarly, our simulation study showed that under the low substitution rate conditions (where PID was moderate at 0.24) then alignment error did not have a noteworthy impact on tree estimation (i.e., maximum likelihood trees estimated on estimated alignments were on average within 1% Robinson–Foulds error of the maximum likelihood trees estimated on the true alignment) however, under the high substitution rate conditions (where PID was low at 0.11) then maximum likelihood trees for some estimated alignments (e.g., Clustal and PRANK) were very far from the maximum likelihood tree computed on the true alignment. Thus, decreases in PID resulted in decreases in the accuracy (for all three alignment criteria we evaluated) of alignment methods and also resulted in increases in the error of trees computed on estimated alignments. This reduction in accuracy under low PID conditions explains why some biological benchmarks were more difficult than others. For example, all alignment methods had lower average Modeler and SP-scores on Mattbench than on the other benchmarks, and the average PID for the Mattbench data sets (0.20) is the lowest of the four biological collections we analyzed. Similarly, the Homstrad data sets have the highest average PID (0.37) of all these benchmarks, and the Modeler and SP-scores were highest on these data sets.

Another consistent trend throughout this study is that the differences between methods in terms of SP-score, Modeler score, and expansion ratio increased as PID decreased. Furthermore, under the high PID data sets, the differences between methods are very small, making distinctions between methods more difficult, but methods were easily distinguished on the low PID conditions. These trends suggest that the choice of alignment method may have little impact when PID is high but can be important when PID is low. The impact of PID on alignment accuracy and downstream analyses have been observed before (e.g., Blackshields et al. 2006 Liu et al. 2009 Sievers et al. 2011), so these observations confirm prior studies.

The best performing methods on the biological data sets were typically T-Coffee and PROMALS (although the relative performance depended on the PID level and the criterion). For example, T-Coffee had the highest average SP-scores for the low PID data sets but not for the high PID data sets where PROMALS and many other methods had higher SP-scores. MAFFT-homologs and CONTRAlign also had good Modeler and SP-scores on the biological data sets, coming in the first four positions for all benchmarks. The good overall performance of MAFFT-homologs, PROMALS, and T-Coffee is noteworthy since these methods share a common strategy of recruiting homologs from an external database to use in the alignment task. Finally, BAli-Phy produced the best Modeler scores but came in at position 11 (out of 14) for its SP-score.

Results on the simulated data sets showed different trends: as they are inherently unsuited for simulated data, T-Coffee and PROMALS were not among the better methods for SP-score or Modeler score, and BAli-Phy had better scores than all the other methods for both criteria. Hence, the relative performance of methods seems to depend on PID, the criterion (i.e., Modeler score or SP-score), and—to some extent—whether the data were biological or simulated. In particular, our study shows that BAli-Phy, a leading statistical method for coestimating alignments and trees, had the best Modeler scores and SP-scores of all the methods we examined on simulated data sets but lower SP-scores than many methods on the biological data sets.

To understand this difference in performance, it is helpful to consider the tendency of methods to either underalign (i.e., produce alignments that are longer than the reference alignment) or overalign (i.e., produce alignments than are shorter than the reference alignment). Our study shows that that many methods tended to overalign (producing expansion ratios substantially less than 1.0) under challenging conditions the major exceptions to this were BAli-Phy (which underaligned the most of all methods), DiAlign, and PRANK (some other methods also underaligned but to lesser degrees). Interestingly, in contrast to the other alignment methods, BAli-Phy never underaligned on the simulated data, even under the most challenging conditions. Underalignment is also demonstrated by higher Modeler scores than SP-scores, a trend consistently produced by BAli-Phy on the biological data (where the overall gap was 0.13), but never on the simulated data (where BAli-Phy had average Modeler and SP-scores that were within 0.01 for every model condition). In other words, our data show that BAli-Phy underaligned on the biological data with respect to the reference alignment, but did not underalign on the simulated data with respect to the true alignment. The fact that BAli-Phy underaligned on biological data but not on simulated data explains the change in performance for BAli-Phy between biological and simulated data.

The performance of PRANK in our study is interesting to consider, since PRANK is designed to be “phylogeny-aware,” and so has some similarities to BAli-Phy in terms of approach. On biological data Prank produced slightly higher Modeler scores than SP-scores (but on average within 0.04 of each other) on the simulated data Prank also produced larger Modeler scores, but the gap was larger (0.15), at least for the most difficult model condition. Prank underaligned on both simulated and biological data, but the degree to which it underaligned was larger on the simulated data. Thus, like BAli-Phy, PRANK tended to underalign on the biological data and responded differently to the biological and simulated data. However, PRANK was not competitive with the better methods in our study on either the biological or simulated data for any criterion, while BAli-Phy generally had the best (or close to the best) Modeler scores under all conditions, and only had reduced SP-scores on the biological data. As we have seen, PRANK had very good accuracy (even if not the best accuracy) under conditions with high PID, but relatively poor accuracy (compared to the better methods) under the low PID conditions, such as occur under high rates of evolution. PRANK’s reduced accuracy on the simulated data sets with lower PID is perhaps surprising, given that PRANK had superior alignment accuracy in prior simulation studies ( Löytynoja and Goldman 2008). However, a careful examination of Löytynoja and Goldman (2008) reveals that the simulation conditions in which PRANK provided outstanding accuracy had substitutions operating under the simplest model (Jukes–Cantor with a strict molecular clock), which may have favored PRANK in some way.