Information

Distanzmatrix mit unterschiedlich langen Sequenzen

Distanzmatrix mit unterschiedlich langen Sequenzen


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

In einem Projekt, das wir (in Python) durchführen, möchten wir eine Distanzmatrix für einen phylogenetischen Baum mit mehreren Sequenzen unterschiedlicher Länge erstellen. Was wir bisher gesehen haben (AlignIO in Biopython usw.) erfordert jedoch, dass die Länge der Sequenzen gleich ist. Gibt es eine pythonische Möglichkeit, die Matrix mit Sequenzen unterschiedlicher Länge zu erhalten? Oder einen anderen indirekten Weg, der uns zum gleichen Ergebnis führen würde?


Es gibt zwei Möglichkeiten:

  1. Verwenden Sie nicht die Sequenzen an sich, sondern eine skalare Metrik der Sequenzähnlichkeit für Distanzwerte
  2. Fügen Sie Lücken in die Ausrichtung ein. Sie können auch ein Ende-zu-Ende-Gap-Alignment wie das Needleman-Wunsch durchführen und die Alignment-Scores für die Distanzmatrix verwenden.

Dtaidistance.dtw_ndim¶

(Abhängig) Dynamisches Time Warping mit mehrdimensionalen Sequenzen.

Nimmt an, dass die erste Dimension der Sequenzelementindex und die zweite Dimension der Serienindex (also Zeitschritt) ist.

Diese Methode gibt den abhängigen DTW (DTW_D) [1] Abstand zwischen zwei n-dimensionalen Folgen zurück. Wenn Sie den unabhängigen DTW-Abstand (DTW_I) berechnen möchten, verwenden Sie die 1-dimensionale Version:

Hinweis: Wenn Sie den C-optimierten Code verwenden, löst das obige Snippet einen Kopiervorgang aus, um sicherzustellen, dass die Arrays in C-Reihenfolge sind, und verursacht somit Zeit- und Speicheraufwand. Dies kann vermieden werden, indem Sie die Dimensionen als separate Arrays speichern oder die Array-Dimensionen umdrehen und dtw.distance(s1[dim,:], dtw.distance(s2[dim,:]) verwenden.

[1] M. Shokoohi-Yekta, B. Hu, H. Jin, J. Wang und E. Keogh. Die Verallgemeinerung von dtw auf den mehrdimensionalen Fall erfordert einen adaptiven Ansatz. Data Mining und Wissensentdeckung, 31:1–31, 2016.

dtaidistance.dtw_ndim. entfernung_schnell ( s1, s2, Fenster=Keine, max_dist=Keine, max_step=Keine, max_length_diff=Keine, Strafe=Keine, psi=Keine, use_pruning=Falsch, only_ub=Falsch ) ¶

Hinweis: Es wird erwartet, dass die Reihen Arrays vom Typ double sind. Also numpy.array([[1,1],[2,2],[3,3]], dtype=numpy.double)

dtaidistance.dtw_ndim. Abstand_Matrix ( S, ndim, max_dist=Keine, use_pruning=Falsch, max_length_diff=Keine, Fenster=Keine, max_step=Keine, Strafe=Keine, psi=Keine, block=Keine, kompakt=Falsch, parallel=Falsch, use_c=Falsch, use_mp=Falsch, show_progress=Falsch, only_triu=Falsch ) ¶

Distanzmatrix für alle n-dimensionalen Folgen in s.

Diese Methode gibt den abhängigen DTW (DTW_D) [1] Abstand zwischen zwei n-dimensionalen Folgen zurück. Wenn Sie die unabhängige DTW-Distanz (DTW_I) berechnen möchten, verwenden Sie die 1-dimensionale Version und summieren Sie die Distanzmatrizen:

Dabei ist series_sep_dim eine Datenstruktur, die eine Liste der Sequenzen zurückgibt, die die i-te Dimension jeder Sequenz in s darstellt.

  • S – Iterierbar von Serien
  • Fenster – siehe Abstand ()
  • max_dist – siehe Abstand()
  • max_step – siehe Abstand ()
  • max_length_diff – siehe Abstand ()
  • Strafe – siehe Abstand ()
  • psi – siehe Abstand()
  • Block – Nur Block in Matrix berechnen. Erwartet Tupel mit Anfang und Ende, z.B. ((0,10),(20,25)) vergleicht nur die Zeilen 0:10 mit den Zeilen 20:25.
  • kompakt – Geben Sie die Distanzmatrix als Array zurück, das die obere Dreiecksmatrix darstellt.
  • parallel – Parallelbetrieb verwenden
  • use_c – Verwenden Sie c-kompilierte Python-Funktionen
  • use_mp – Verwenden Sie Multiprocessing für parallele Operationen (nicht OpenMP)
  • show_progress – Zeigen Sie den Fortschritt mit der tqdm-Bibliothek an. Dies wird nur für die reine Python-Version unterstützt (also nicht die C-basierten Implementierungen).
  • only_triu – Nur das obere Dreieck ausfüllen

Die Distanzmatrix oder die komprimierte Distanzmatrix, wenn das kompakte Argument wahr ist

[1] M. Shokoohi-Yekta, B. Hu, H. Jin, J. Wang und E. Keogh. Die Verallgemeinerung von dtw auf den mehrdimensionalen Fall erfordert einen adaptiven Ansatz. Data Mining und Wissensentdeckung, 31:1–31, 2016.

dtaidistance.dtw_ndim. distance_matrix_fast ( S, ndim, max_dist=Keine, max_length_diff=Keine, Fenster=Keine, max_step=Keine, Strafe=Keine, psi=Keine, block=Keine, kompakt=Falsch, parallel=Wahr, only_triu=Falsch ) ¶

dtaidistance.dtw_ndim. ub_euklidisch ( s1, s2 ) ¶

Euklidischer (abhängiger) Abstand zwischen zwei n-dimensionalen Folgen. Unterstützt verschiedene Längen.

Wenn sich die beiden Reihen in der Länge unterscheiden, vergleichen Sie das letzte Element der kürzesten Reihe mit den verbleibenden Elementen der längeren Reihe.

  • s1 – Zahlenfolge, 1. Dimension ist Folge, 2. Dimension ist n-dimensionaler Wertvektor.
  • s2 – Zahlenfolge, 1. Dimension ist Folge, 2. Dimension ist n-dimensionaler Wertvektor.

Dynamic Time Warping (Vollmatrix beibehalten) mit mehrdimensionalen Sequenzen.


Abstandsmatrixdaten

FITCH. Schätzt Phylogenien aus Distanzmatrixdaten unter dem "Additive Tree Model", nach dem die Distanzen den Summen der Astlängen zwischen den Arten entsprechen sollen. Verwendet das Fitch-Margoliash-Kriterium und einige verwandte Kriterien der kleinsten Quadrate oder die Abstandsmatrixmethode Minimum Evolution. Geht nicht von einer evolutionären Uhr aus. Dieses Programm ist nützlich bei Distanzen, die aus molekularen Sequenzen, Restriktionsstellen oder Fragmentdistanzen berechnet wurden, bei DNA-Hybridisierungsmessungen und bei genetischen Distanzen, die aus Genfrequenzen berechnet wurden.

KITSCH. Schätzt Phylogenien aus Distanzmatrixdaten unter dem "ultrametrischen" Modell, das dem additiven Baummodell entspricht, außer dass eine evolutionäre Uhr angenommen wird. Möglich sind das Fitch-Margoliash-Kriterium und andere Kleinste-Quadrate-Kriterien oder das Minimum-Evolution-Kriterium. Dieses Programm ist nützlich bei Distanzen, die aus molekularen Sequenzen, Restriktionsstellen oder Fragmentdistanzen berechnet wurden, bei Distanzen aus DNA-Hybridisierungsmessungen und bei genetischen Distanzen, die aus Genfrequenzen berechnet wurden.

NACHBAR . Eine Implementierung von Mary Kuhner und John Yamato von Saitou und Neis "Neighbor Joining Method" und der UPGMA (Average Linkage Clustering) Methode. Neighbor Joining ist ein Distanzmatrixverfahren, das einen Baum ohne Wurzeln ohne die Annahme einer Uhr erzeugt. UPGMA geht von einer Uhr aus. Die Verzweigungslängen werden nicht nach dem Kleinste-Quadrate-Kriterium optimiert, aber die Verfahren sind sehr schnell und können daher viel größere Datensätze verarbeiten.

DNADIST. Berechnet vier verschiedene Abstände zwischen Spezies aus Nukleinsäuresequenzen. Die Distanzen können dann in den Distanzmatrixprogrammen verwendet werden. Die Distanzen sind die Jukes-Cantor-Formel, die auf Kimuras 2-Parameter-Methode, dem in DNAML verwendeten F84-Modell und der LogDet-Distanz basiert. Die Abstände können auch für Gamma-verteilte und Gamma-plus-invariante-Sites-verteilte Änderungsraten in verschiedenen Sites korrigiert werden. Die Evolutionsgeschwindigkeiten können zwischen den Standorten auf eine vorab festgelegte Weise und auch gemäß einem Hidden-Markov-Modell variieren. Das Programm kann auch eine Tabelle der prozentualen Ähnlichkeit zwischen Sequenzen erstellen.

PROTDIST. Berechnet ein Entfernungsmaß für Proteinsequenzen unter Verwendung von Maximum-Likelihood-Schätzungen basierend auf der Dayhoff PAM-Matrix, dem JTT-Matrix-Modell, dem PBM-Modell, Kimuras Annäherung an diese von 1983 oder einem Modell basierend auf dem genetischen Code plus einer Einschränkung für den Wechsel zu einem anderen Kategorie der Aminosäuren. Die Abstände können auch für Gamma-verteilte und Gamma-plus-invariante-Sites-verteilte Änderungsraten in verschiedenen Sites korrigiert werden. Die Evolutionsgeschwindigkeiten können zwischen den Standorten auf eine vorab festgelegte Weise und auch gemäß einem Hidden-Markov-Modell variieren. Das Programm kann auch eine Tabelle der prozentualen Ähnlichkeit zwischen Sequenzen erstellen. Die Distanzen können in den Distanz-Matrix-Programmen verwendet werden.

GENDIST. Berechnet eine von drei verschiedenen genetischen Distanzformeln aus Genhäufigkeitsdaten. Die Formeln sind die genetische Distanz von Nei, das Cavalli-Sforza-Akkordmaß und die genetische Distanz von Reynolds et. al. Ersteres ist für Daten geeignet, bei denen neue Mutationen in einem unendlichen Isoallele-neutralen Mutationsmodell auftreten, die beiden letzteren für ein Modell ohne Mutation und mit reiner genetischer Drift. Die Entfernungen werden in eine Datei in einem Format geschrieben, das für die Eingabe in die Entfernungsmatrixprogramme geeignet ist.

RESTDIST. Entfernungen, berechnet aus Daten von Restriktionsstellen oder Daten von Restriktionsfragmenten. Die Option Restriktionsstellen ist diejenige, die verwendet wird, um auch Distanzen für RAPDs oder AFLPs zu machen.


Methoden

HomFam

Die hier vorgestellte Analyse verwendet das HomFam-Alignment-Benchmark-System [8]. Diese besteht aus den Single-Domain-Pfam-[9] (Version 25)-Familien, die mindestens 5 Mitglieder mit bekannten Strukturen in einem HOMSTRAD [10]-Struktur-Alignment aufweisen. Wir messen den Anteil der korrekt ausgerichteten Kernspalten an allen ausgerichteten Kernspalten in den Referenzsequenzen (BAliSCORE TC Score [11]), wenn diese Sequenzen in größere Datensätze eingebettet sind. Der TC-Score reicht von 0,0 (keine Kernspalten in den Referenzsequenzen korrekt ausgerichtet) bis 1,0 (alle Referenzsequenzkernspalten korrekt ausgerichtet). Ein alternativer TC-Score misst den Anteil aller korrekt ausgerichteten Spalten. Obwohl die Ergebnisse ähnlich waren, verwenden wir in diesem Papier Kernsäulen.

Bei der Untersuchung der HomFam-Sequenzen wurde festgestellt, dass eine Reihe von Proteinen die gleiche Aminosäuresequenz aufwiesen, obwohl sie in Pfam (richtig) unterschiedlich markiert waren. Als Beispiel sind in der Zinkfingerfamilie (Pfam-Zugangsnummer PF00096) die Sequenzinformationen für:

sind identisch. Tabelle 1 zeigt die Anzahl der Sequenzen in jeder HomFam-Familie und deren Anzahl, die einzigartig sind. In der verbleibenden Analyse wurden doppelte Sequenzen aus den HomFam-Familien entfernt. Doppelte Sequenzen ergeben automatisch gebundene Distanzen und wir wollten diesen Effekt von Effekten aufgrund der Verwendung trennen k-Tupel-Scores.

Ein Nebeneffekt des Entfernungsprozesses besteht darin, dass die verbleibenden Sequenzen in aufsteigender alphabetischer Reihenfolge der Sequenzen (nicht der Sequenznamen) innerhalb jeder der HomFam-Familien sortiert werden. Da jeder Datensatz später vor dem Alignment zufällig gemischt wird, hat dies keinen Einfluss auf die erstellten Alignments.

Software

Dieser Artikel untersucht die Instabilität der Alignments, die von den progressiven Multiple Sequence Alignment-Programmen Clustal Omega [12], Kalign [13], Mafft [14] und Muscle [3] erzeugt werden. Diese Programme wurden aufgrund ihrer weit verbreiteten Verwendung, ihrer Fähigkeit, mehr als tausend Proteinsequenzen auszurichten, und ihrer Verwendung eines Leitbaums basierend auf der Ähnlichkeit zwischen jedem Sequenzpaar ausgewählt, um die Reihenfolge zu bestimmen, in der die Sequenzen ausgerichtet werden.

Jedes der Ausrichtungsprogramme erzeugt eine Distanzmatrix, die die Ähnlichkeits- oder Distanzmaße zwischen allen paarweisen Kombinationen von Eingabesequenzen enthält. Kalign gibt diese Distanzmatrix nicht standardmäßig aus, aber bei der Untersuchung von kalign2_main.c Zeile 135 wurde der Code zur Ausgabe der Distanzmatrix auskommentiert. Dieser Code wurde unkommentiert und modifiziert, um die Distanzmatrix in eine bestimmte Textdatei auszugeben. Darüber hinaus wurden die Abstandsmaße mit 25 Dezimalstellen ausgegeben, um sicherzustellen, dass bei der Formatierung der Ausgabe keine Duplikate durch Runden entstanden sind.

Die anderen drei Ausrichtungsprogramme wurden ebenfalls modifiziert, um Distanzmaße mit 25 Dezimalstellen auszugeben: Clustal Omega: Zeile 327 von clustal/symmatrix.c Mafft: Zeile 2643 von io.c Muscle: Zeile 59 von fastclust.cpp .

Für alle vier Ausrichtungsprogramme wurden die Laufzeitparameter auf diejenigen beschränkt, die zur Generierung einer Distanzmatrix erforderlich sind. Clustal Omega verwendet standardmäßig den mBed-Algorithmus [8], um die Sequenzen auf der Grundlage einer kleinen Anzahl von „Seed“-Sequenzen zu clustern. Dies erfordert lediglich die Berechnung der Ähnlichkeitsmaße zwischen diesen Seed-Sequenzen und allen anderen Sequenzen in der Eingabedatei. Durch die Anforderung, dass eine Matrix mit voller Distanz erzeugt und ausgegeben werden sollte, wurden die Sequenzen unter Verwendung der Ähnlichkeitsmaße zwischen allen Paaren von Eingabesequenzen geclustert.

Für Mafft wurden die Algorithmen FFT-NS-1, FFT-NS-2 und G-INS-1 verwendet. Bei FFT-NS-1 wird zunächst eine Distanzmatrix unter Verwendung des 6-Tupel-Scores zwischen jedem Sequenzpaar generiert – beide Sequenzen werden von Anfang an nach passenden 6-Tupeln durchsucht, und wenn eine Übereinstimmung gefunden wird, wird der Score erhöht und gescannt fährt mit dem nächsten Rest fort [4]. Ein Leitbaum wird dann durch Clusterbildung gemäß diesen Abständen konstruiert, und die Sequenzen werden dann unter Verwendung der Verzweigungsreihenfolge des Leitbaums ausgerichtet. Bei FFT-NS-2 wird die von der FFT-NS-1-Methode erzeugte Ausrichtung verwendet, um die Distanzmatrix und den Leitbaum zu regenerieren und dann eine zweite progressive Ausrichtung durchzuführen. In diesem Papier wird FFT-NS-1 immer dann spezifiziert, wenn Entfernungsmessungen erforderlich sind. Wenn keine Entfernungsmessungen erforderlich sind, wird die Standardmethode FFT-NS-2 verwendet. Der G-INS-1-Algorithmus wurde auch in Abbildung 1 zum Vergleich mit einem Distanzmaß verwendet, das nicht auf Matching beruht k-Tupel.

Differenz der TC-Kernwerte für Stichproben und in umgekehrter Reihenfolge. Der Unterschied in den TC-Kern-Scores für 1000 zufällig ausgewählte Sequenzen und in umgekehrter Reihenfolge. 68 HomFam-Proteinfamilien. (n=10) Stichproben pro Familie

Bei Muscle wurde die Anzahl der Iterationen auf 2 anstatt auf den Standardwert von 16 begrenzt. Dies ist die von den Autoren empfohlene Anzahl von Iterationen für große Datensätze.

Folgende Programmversionen und Laufzeitparameter werden verwendet:

Clustal Omega (v1.2.0-r289): --full --distmat-out=.

Mafft (v7.029b) FFT-NS-1: --retree 1 --anysymbol --distout

Mafft (v7.029b) FFT-NS-2: --anysymbol --distout

Mafft (v7.029b) G-INS-1: --anysymbol --globalpair

Muskel (v3.8.31): -maxiters 2 -DistMx1 .

Begleitmaterial

Ein Paket mit Dienstprogrammen, Datendateien und Skripten steht unter http://www.bioinf.ucd.ie/download/2015instability.tar.gz zum Download bereit.


Ergebnisse

Um unseren entwickelten Algorithmus zu testen, haben wir ihn auf sechs Benchmark-Datensätze angewendet. Unterschiedliche Modelle können zu unterschiedlichen phylogenetischen Bäumen führen, daher ist es wichtig, die am besten geeignete Methode zu wählen. Hier haben wir Fitch-Margoliash- oder UPGMA-Ansätze (UPGMA = Unweighted Pair Group Method with Arithmetic Mean) im PHYLIP-Paket 24 verwendet, um den phylogenetischen Baum zu generieren. Bei den Benchmark-Daten weisen die Ergebnisse, die mit beiden Ansätzen generiert wurden, geringfügige Unterschiede auf. Wir haben jedoch den optimalen Baum basierend auf der taxonomischen Klassifikation ausgewählt und mit bestehenden Tools verglichen. Die sechs Benchmark-Datensätze, die in dieser Studie verwendet wurden, sind wie folgt:

NADH Dehydrogenase 5 (ND 5) Proteinsequenzen.

NADH Dehydrogenase 6 (ND 6) Proteinsequenzen.

Xylanasen-Proteinsequenzen in den F10- und G11-Datensätzen.

Transferrin-Proteinsequenzen.

Coronavirus-Spike-Proteinsequenzen.

Beta-Globin-Proteinsequenzen.

NADH Dehydrogenase 5 (ND 5) Proteinsequenzen

Der vorgeschlagene Algorithmus wurde am Benchmark-Datensatz von 9 Proteinsequenzen der NADH Dehydrogenase 5 mit fast 600 Aminosäuren getestet (Tabelle S1). Alle Sequenzen wurden aus der NCBI-Genomdatenbank erhalten. Das MT-ND5-Gen liefert Anweisungen zur Herstellung eines Proteins namens NADH-Dehydrogenase 5. Dieses Protein ist Teil eines großen Enzymkomplexes, der als Komplex I bekannt ist und in Mitochondrien aktiv ist. Mitochondrial kodierte NADH-Dehydrogenase 5 (Komplex I) in Eukaryoten erkennt als hochkonservierte Untereinheitszusammensetzung 33 . Daher wurde ND5 häufig für die Analyse der phylogenetischen Studien und ihrer Evolution verwendet. Der phylogenetische Baum, der durch unsere in Abb. 1 gezeigte Methode generiert wurde, gruppierte erfolgreich ähnliche Kategorien basierend auf der taxonomischen Familienklassifikation. 9 Sequenzen des ND5-Proteins von Säugetieren können basierend auf ihrer Familie in die folgenden vier Kategorien eingeteilt werden (i) Hominiden umfasst Mensch, Zwergschimpanse, Schimpanse und Gorilla (ii) Balaenopteridae umfasst Finnwal und Blauwal (iii) Muridae umfasst Maus und Ratte und (iv) Didelphidae Opossum enthalten. Aus Fig. 1 ist klar, dass unser Verfahren erfolgreich Proteinsequenzen getrennt basierend auf ihren Familien gruppierte. Um die Effektivität unserer Methode zu veranschaulichen, haben wir den durch unseren Ansatz generierten phylogenetischen Baum mit dem von ClustalW unter Verwendung des MEGA-Pakets 25 (Abb. S1) generierten phylogenetischen Baum und den von den vorherigen Studien generierten phylogenetischen Bäumen verglichen 13,34,35,36,37 ,38 auf demselben Datensatz. Abbildung 1, die durch unsere Methode erzeugt wurde, hat im Vergleich zu Abbildung S1 keinen gewöhnlichen Schimpansen und Zwergschimpansen zusammengeclustert. Der durch unseren Ansatz erzeugte Baum (Abb. 1) hat jedoch einen Vorteil gegenüber 37,38 . In 37, phylogenetische Baumkonstruktion basierend auf der 20-D-Aminosäurepositionsverhältnis-Vektormethode und basierend auf der 20-D-Aminosäuregehaltsverhältnis-Vektormethode, vier Kategorien basierend auf ihrer Familie Hominiden, Balaenopteridae, Muridae und Didelphidae werden nicht separat gruppiert. In ähnlicher Weise wird in 38 und 37, der phylogenetischen Baumkonstruktion basierend auf der 20-D-Trägheitsmomentmethode und basierend auf der 40-D-Aminosäurepositionsverhältnis- und Inhaltsverhältnisvektormethode, Opossum nicht als Fremdgruppe getrennt.

Der phylogenetische Baum von 9 Sequenzen des NADH Dehydrogenase 5-Proteins, konstruiert nach unserem Verfahren unter Verwendung des Fitch-Margoliash-Ansatzes.

Wir verwendeten den Korrelationskoeffizienten (CC) und den Robinson-Foulds-Abstand (RF-Abstand) 26 als statistische Werkzeuge für die vergleichende Analyse zwischen zwei phylogenetischen Bäumen. Als allgemeine Wahrnehmung bedeutet mehr CC eine höhere Ähnlichkeit zwischen einem abgeleiteten Baum und einem Referenzbaum. In ähnlicher Weise verwenden wir oft den RF-Abstand 39,40, um die topologische Ähnlichkeit zwischen zwei Bäumen zu analysieren. RF-Abstand = 0 zeigt an, dass die Testbaumtopologie der des Referenzbaums vollständig ähnlich ist, während das Ähnlichkeitsniveau mit zunehmendem RF-Abstandswert abnimmt. Wir haben den CC- und RF-Abstand verschiedener Alignment-free-Methoden (Tabelle 1) gegen den Referenzbaum (ClustalW-Methode) erhalten oder berechnet. Wir haben das R-Paket sowohl für die CC- als auch für die RF-Abstandsberechnung verwendet. In Tabelle 1 ist Jayanta et al. 34 (mit Gruppierung) zeigt, dass sogar der CC sehr hoch ist (0,9403) im Vergleich zu unserer Methode CC (0,7378), aber der entsprechende RF-Abstand ist 4, was höher ist als der RF-Abstand unserer Methode, der 2 ist ( dh Baum aus 34 (mit Gruppierung) ist topologisch weniger ähnlich als unser Baum zum Referenzbaum). Ähnlich in Tabelle 1, Wen et al. 35 und Yao et al. 36 mit CC 0,7324 bzw. 0,6908, was näher am CC unserer Methode liegt (CC = 0,7378). Im Hinblick auf die topologische Ähnlichkeit ist jedoch der RF-Abstand von Wen et al. 35 und Yao et al. 36 sind 4, was höher ist als der RF-Abstand unserer Methode. Die obige Analyse zeigt, dass ein höherer oder engerer CC nicht immer bedeutet, dass die beiden phylogenetischen Bäume ähnlicher oder näher beieinander sind.

NADH Dehydrogenase 6 (ND 6) Proteinsequenzen

Der andere Benchmark-Datensatz, der in dieser Studie verwendet wurde, waren 8 Proteinsequenzen der NADH-Dehydrogenase 6 mit fast 175 Aminosäuren (Tabelle S2). Alle Sequenzen wurden aus der NCBI-Genomdatenbank erhalten. Die NADH-Ubichinon-Oxidoreduktase-Kette 6 ist ein Protein, das beim Menschen vom mitochondrialen NADH-Dehydrogenase-6-Gen kodiert wird. Das ND6-Protein ist eine Untereinheit der NADH-Dehydrogenase (Ubichinon), die sich in der mitochondrialen Innenmembran befindet und der größte der fünf Komplexe der Elektronentransportkette ist 41 . 8 Sequenzen des ND6-Proteins gehören zu Säugetieren und können basierend auf ihrer taxonomischen Familie in die folgenden vier Kategorien unterteilt werden (i) Hominiden umfasst Mensch, Schimpanse und Gorilla (ii) Phocidae umfasst Hafen- und Kegelrobben (iii) Muridae umfasst Maus und Ratte und (iv) Makropodidae gehören wallaroo. Wie der mit unserer Methode generierte Baum zeigt (Abb. 2), gehören die Proteinsequenzen zu den Familien Hominiden, Muridae und Phocidae wurden richtig getrennt. Basierend auf der taxonomischen Familienklassifikation verglichen wir unseren Baum mit den Bäumen, die in den vorherigen Studien 38,42 generiert wurden, und mit dem Baum, der von ClustalW mit MEGA-Paket 25 generiert wurde (Abb. S2). Der mit unserer Methode erzeugte Baum hat gegenüber 38 einen Vorteil, da er nicht in getrennten Kladen (Hafenrobbe, Kegelrobbe) und (Maus, Ratte) gruppiert ist. Abb. 2 zeigt jedoch Übereinstimmung mit 42 und Abb. S2 basierend auf der taxonomischen Familieneinteilung.

Der phylogenetische Baum von 8 Sequenzen des NADH-Dehydrogenase-6-Proteins, konstruiert nach unserem Verfahren unter Verwendung des Fitch-Margoliash-Ansatzes.

Wir berechneten CC und RF-Abstand aus früheren Studien 38,42 mit ClustalW. CC und RF-Abstand wurden ebenfalls zwischen unserer Methode und mit ClustalW berechnet. In Tabelle 2, Czerniecka et al. 38-Methode hat im Vergleich zur ClustalW-Methode einen niedrigeren CC (0,4609) als CC (0,5982), der durch unsere Methode erzeugt wird, und ihr entsprechender RF-Abstand (RF = 6) ist viel höher als bei unserer Methode (RF = 2). Daher ist der mit unserer Methode erzeugte phylogenetische Baum (Abb. 2) topologisch ähnlicher als der von Czerniecka . erzeugte phylogenetische Baum et al. 38 im Vergleich zum Referenzbaum (Abb. S2). Jedoch in Tabelle 1, Gupta et al. 42 Methode hat einen höheren CC (0.7763) im Vergleich zu unserer Methode CC (0.5982), aber beide Methoden haben den gleichen RF-Abstand = 2.

Xylanasen-Proteinsequenzen in den F10- und G11-Datensätzen

Der andere Benchmark-Datensatz, der für die Validierung der Methode verwendet wurde, waren die 20 Xylanasen-Proteinsequenzen in den F10- und G11-Proteindatensätzen mit fast 500 Aminosäuren, die aus 37 gesammelt wurden. Der durch unser Verfahren erzeugte phylogenetische Baum (Fig. 3) trennte genau die Proteinsequenzen, die zum Datensatz der G11-Xylanasen (roter Diomand) gehören, von den Proteinsequenzen, die zum Datensatz der F10-Xylanasen (grüner Kreis) in separaten Zweigen gehören. Der in 37 erzeugte phylogenetische Baum trennte die Proteinsequenzen der Familie F10 und G11 nicht in zwei separate Zweige. Abbildung 3 zeigt, dass es mit unserer Methode eine Verbesserung beim Erstellen eines phylogenetischen Baumes gibt als die Methode, die in Studie 37 verwendet wurde. Unser Baum (Abb. 3) stimmt jedoch mit dem von ClustalW unter Verwendung des MEGA-Pakets 25 (Abb. S3) erzeugten Baum überein. Wir haben auch den CC- und RF-Abstand zwischen unserer Methode und ClustalW berechnet, der 0,6998149 und 18 beträgt.

Der phylogenetische Baum für 20 Sequenzen des Xylanasen-Proteins in den F10- und G11-Datensätzen, die mit unserer Methode unter Verwendung des Fitch-Margoliash-Ansatzes erstellt wurden.

Transferrin-Proteinsequenzen

In dieser Studie wurde als anderer Benchmark-Datensatz 24 Proteinsequenz von Transferrinen (TFs) von Vertebraten 43 mit fast 700 Aminosäuren verwendet (Tabelle S3). Alle Sequenzen wurden aus der NCBI-Genomdatenbank erhalten. Transferrine sind die eisenbindenden Proteine, die an der Eisenspeicherung und Resistenz gegen bakterielle Erkrankungen beteiligt sind. Transferrine haben eine hohe Bindungsaffinität für Eisen und halten das freie Eisen in niedriger Konzentration im Blut und anderen Körperflüssigkeiten 44 . Die nach unserem Verfahren konstruierten phylogenetischen Bäume (Fig. 4) bündelten erfolgreich Transferrin-Proteinsequenzen und Lactoferrin-Proteinsequenzen in getrennten Kladen. Der durch unseren Ansatz generierte Baum (Abb. 4) teilte die 24 Sequenzen von Transferrinen (TFs) aus Vertebraten in drei Gruppen ein: Säugetiere(roter Kreis), Aktinopterygii(grünes Quadrat) und Amphibien(schwarzer Diomand). Nur die japanische Flunder-Transferrin-Sequenz gehört zu Aktinopterygii Klasse wurde geclustert mit Frog Transferrin Sequenz gehören zu Amphibien Klasse. In Fig. 4 gehören Sequenzen zu den Gattungen oncorhynchus und salvelinus wurden in separaten Kladen gruppiert, und Sequenzen gehören zur Gattung Salmo wurden dicht beieinander platziert.

Der phylogenetische Baum für 24 Sequenzen des Transferrinproteins, konstruiert nach unserer Methode unter Verwendung des Fitch-Margoliash-Ansatzes.

Basierend auf der taxonomischen Unterteilung, dem Vergleich zwischen Alignment-freien Methoden, dem durch unseren Ansatz erzeugten phylogenetischen Baum (Abb. 4) mit dem in den vorherigen Studien erzeugten phylogenetischen Baum 45,46 zeigt eine Verbesserung unseres Ansatzes an. In Abb. 4 gehören Sequenzen zu Säugetiere Klasse wurden in einer separaten Klade zusammengefasst, die in 45,46 nicht beobachtet wurden. Darüber hinaus gehören Arten zu Gattungen oncorhynchus und salvelinus wurden in separate Kladen gruppiert, was in 46 fehlt. Beim Vergleich unseres Baums (Abb. 4) mit dem von 43 konstruierten Benchmark-Baum und dem von ClustalW mit MEGA-Paket 25 erstellten Baum (Abb. S4) stellten wir fest, dass sie untereinander konsistent sind. Der berechnete CC- und RF-Abstand zwischen unserer Methode und ClustalW beträgt 0,7453224 und 20.

Coronavirus-Spike-Proteinsequenzen

Der andere Benchmark-Datensatz, der für die Validierung unserer Methode verwendet wurde, waren die 50 Coronavirus-Spike-Proteine ​​(Tabelle S4) mit fast 1500 Aminosäuren. Coronaviren sind eine vielfältige Gruppe großer, umhüllter, positivsträngiger RNA-Viren, die zur Familie Coronaviridae gehören. Coronaviren sind für Atemwegs- und Darmerkrankungen bei Menschen und anderen Tieren verantwortlich. Je nach Wirtstyp lassen sich Coronaviren in vier Gruppen einteilen (Tabelle S4). Gruppe I und II enthalten Säugetier-Coronaviren, Gruppe III enthält Vogel-Coronaviren und Gruppe IV enthält SARS-CoVs 47,48,49 . Das allen bekannten Coronaviren gemeinsame Spike-Protein ist entscheidend für die virale Anheftung und den Eintritt in die Wirtszelle. Um den Nutzen der quantitativen Charakterisierung dieser Sequenzen zu veranschaulichen, haben wir unsere Methode zur Analyse der 50 Coronavirus-Spike-Proteine ​​verwendet. Bei Betrachtung von Abb. 5 stellten wir fest, dass sich SARS-CoVs (Gruppe IV) anscheinend zusammenballen und einen separaten Zweig bildeten, der sich leicht von anderen drei Gruppen (I, II und III) von Coronaviren unterscheiden lässt. In ähnlicher Weise werden Sequenzen, die zu den Gruppen II und III gehören, an einem unabhängigen Zweig platziert. Sequenzen, die zur Gruppe I gehören, wie (TGEV, TGEVG) und (PEDVC, PEDV) bildeten zwar separate Kladen, die jedoch nahe beieinander lagen. Ein genauerer Blick auf den Teilbaum der SARS-CoVs (Gruppe IVa) gehörte zu 03–04 Interspezies-Epidemie sind Cluster zusammen, während alle menschlichen SARS-CoVs einen weiteren Zweig bildeten. Der durch unser Verfahren erzeugte phylogenetische Baum (Fig. 5) stimmt mit den phylogenetischen Bäumen überein, die in den vorherigen Studien 42, 50, 51 und dem Alignment-basierten Verfahren ClustalW unter Verwendung des MEGA-Pakets 25 (Fig. S5) erzeugt wurden. Der CC- und RF-Abstand zwischen unserer Methode und dem ClustalW beträgt 0,9555357 und 46.

Der phylogenetische Baum für 50 Sequenzen des Coronavirus-Spike-Proteins, der mit unserer Methode unter Verwendung des Fitch-Margoliash-Ansatzes konstruiert wurde.

Beta-Globin-Proteinsequenzen

50 Sequenzen von Beta-Globin-Protein (Tabelle S5) verschiedener Spezies 52 mit fast 150 Aminosäuren wurden aus der GenBank extrahiert. Basierend auf der Art des Wirts können 50 Sequenzen des Beta-Globin-Proteins in folgende Gruppen eingeteilt werden, wie Primaten, Rüsseltiere, Huftiere, Fleischfresser, Rodentien, Chiroptera, Aves, Actinoptergii, Reptilien und Chondrichthyen. Die nach unserem Verfahren konstruierten phylogenetischen Bäume (Abb. 6) trennten 50 Sequenzen von Beta-Globin-Protein in zwei Hauptkladen: Klade A und Klade B. Klade A enthielt Beta-Globine von Säugetieren und Klade B enthielt Beta-Globine von Vögeln, Fischen, und Reptilienarten. Gemäß der Taxonomie-Abteilung haben wir zwei Hauptkladen in mehrere Unterkladen kategorisiert. Alle Primaten, Rüsseltiere, Fleischfresser, Chiroptera, Aves und Rodentia wurden erfolgreich in Kladen (i), (iv), (v), (vi), (viii) bzw. (xii) gruppiert. Huftiere wurden in Kladen (ii), (iii) und (vii) gruppiert. In Abb. 6 haben wir eine offensichtliche Einschränkung festgestellt, dass es unserem Ansatz nicht gelungen ist, Fischarten basierend auf der Taxonomie in einzelne Kladen zu gruppieren. Der durch unseren Ansatz generierte phylogenetische Baum ist jedoch konsistent und lieferte im Vergleich zu früheren Studien ein besseres Ergebnis basierend auf den taxonomischen Merkmalen der Arten 45,53 . Der von ClustalW mit MEGA-Paket 25 (Abb. S6) generierte phylogenetische Baum hat erfolgreich Fischarten und Reptilienarten in getrennten Kladen gruppiert, während unser Ansatz (Abb. 6) nicht getrennt gruppiert wurde. Aus beiden Abbildungen geht jedoch klar hervor, dass der mit unserer Methode erzeugte phylogenetische Baum (Abb. 6) eine deutlichere Unterteilung in Bezug auf die Zweiglänge darstellt als der von ClustalW erzeugte phylogenetische Baum (Abb. S6). Der berechnete CC- und RF-Abstand zwischen unserer Methode und ClustalW beträgt 0,7294663 und 64.

Der phylogenetische Baum für 50 Sequenzen von Beta-Globin-Protein, konstruiert nach unserem Verfahren unter Verwendung des UPGMA-Ansatzes.


Nachbarbaumkonstruktion: Distanzmatrix nicht symmetrisch? - (24.10.2006 )

Ich habe einen Satz von 164 eng verwandten GPCRs, von denen ich einen Baum mit Nachbar erstellen wollte.

Ich habe die Sequenzen zunächst durch 100 Bootstraps geführt und die Protein-Distanz-Matrizen mit protdist für die 100 Datensätze berechnet. Als ich jedoch die Protdist-Ausgabe für den Nachbarn nahm, tauchte der folgende Fehler auf.

Datensatz #4:
FEHLER: Distanzmatrix ist nicht symmetrisch:
(135,112)-Element und (112,135)-Element sind ungleich.
Sie sind 4,544564 bzw. 4,544564.
Ist es eine Distanzmatrix?

und so konnte ich die 100 verschiedenen Bäume nicht abrufen, da die Datei bei Datensatz # 4 mit dem obigen Fehler gestoppt wurde.

Ich würde mich freuen, wenn Sie mir mitteilen könnten, was passieren könnte.

Ich habe einen Satz von 164 eng verwandten GPCRs, von denen ich einen Baum mit Nachbar erstellen wollte.

Ich habe die Sequenzen zunächst durch 100 Bootstraps geführt und die Protein-Distanz-Matrizen mit protdist für die 100 Datensätze berechnet. Als ich jedoch die Protdist-Ausgabe für den Nachbarn nahm, tauchte der folgende Fehler auf.

Datensatz #4:
FEHLER: Distanzmatrix ist nicht symmetrisch:
(135,112)-Element und (112,135)-Element sind ungleich.
Sie sind 4,544564 bzw. 4,544564.
Ist es eine Distanzmatrix?

und so konnte ich die 100 verschiedenen Bäume nicht abrufen, da die Datei bei Datensatz # 4 mit dem obigen Fehler gestoppt wurde.

Ich würde mich freuen, wenn Sie mir mitteilen könnten, was passieren könnte.

Ich habe es geschafft herauszufinden, was das Problem ist.

Mein Infile (eine Protdist-Ausgabe) hatte Matrixwerte, die verkettet waren, weil sie am Ende große Werte waren. Ich habe sie manuell bearbeitet, indem ich ein Leerzeichen eingefügt habe, und jetzt funktioniert es gut.

Die phylip-Autoren möchten dies vielleicht zur Kenntnis nehmen und sehen, dass Leerzeichen eingefügt werden, wenn die Abstände zu groß werden.


Theorie:

PHYLIP ist ein komplettes phylogenetisches Analysepaket, das von Joseph Felsestein an der University of Washington entwickelt wurde. PHYLIP wird verwendet, um die evolutionären Beziehungen zwischen verschiedenen Organismen zu finden. Einige der in diesem Paket verfügbaren Methoden sind Maximum-Parsimony-Methode, Distanzmatrix und Likelihood-Methoden. Die Daten werden dem Programm aus einer Textdatei präsentiert, die vom Benutzer unter Verwendung üblicher Texteditoren wie Textverarbeitung usw. vorbereitet wird. Einige der Sequenzanalyseprogramme wie ClustalW können Datendateien im PHYLIP-Format schreiben. Die meisten Programme suchen nach der Eingabedatei namens "infile". Wenn sie diese Datei nicht finden, bitten sie den Benutzer, den Dateinamen der Datendatei einzugeben. Vor dem Start der Berechnung fordert das Programm den Benutzer auf, Optionen (optional) über ein Menü einzustellen. Die Ausgabe wird in spezielle Dateien mit Namen wie outfile und outtree geschrieben.

PHYLIP-Dateiformat:

  • Die Eingabedateien enthalten Informationen über die Anzahl der Sequenzen, Nukleinsäuren und Aminosäuren.
  • Die Sequenz hat 10 Zeichen Länge. Leerzeichen können am Ende der kurzen Sequenzen hinzugefügt werden, um sie lang zu machen.
  • Lücken können als ‚-‘ dargestellt werden.
  • Fehlende Daten können als „?“ dargestellt werden
  • Abstände zwischen den Ausrichtungen sind in der Regel alle 10 Basen erlaubt.

Einführung

Der Vergleich von DNA-Sequenzen oder Proteinsequenzen ist ein Problem, das in den biologischen Wissenschaften seit Jahren untersucht wird. Es ist ein wichtiges Mittel, um die Natur bekannter Proteine ​​zu verstehen und die unbekannten Funktionen der Sequenzen vorherzusagen. Es wurden viele Ansätze vorgeschlagen, um die Ähnlichkeit zwischen DNA-Sequenzen und Proteinsequenzen zu messen, einschließlich multipler Sequenzausrichtungen [1], Momentvektoren [2] und Merkmalsvektoren [3]. Multiple Sequence Alignment verwendet dynamische Programmiertechniken, um die global optimale Alignment-Lösung zu identifizieren, und ist die beliebteste Methode im Sequenzvergleich. Das Sequenz-Alignment-Problem ist jedoch NP-schwer, was es unmöglich macht, große Datensätze zu untersuchen. The moment vector approach characterizes the DNA space by assigning each DNA sequence a vector consisting of moments obtained from its graphical curve. The distance between sequences is then defined to be the Euclidean distance between their corresponding vectors. This approach is effective and operates in linear time. There is no criterion yet to determine the dimension of the moment vector, and the method does not present the DNA or protein space accurately, as we will show in this paper. On the other hand, it is obvious that the correspondence between feature vectors and DNA sequences is not one-to-one. Thus, the feature vector method is not reliable due to loss of information about nucleotide. New methods on sequence comparisons are being continuously developed. For example, Liu et al developed the Python package for generating various modes of feature vectors for sequences [4]. This method depends on fifteen types of feature vectors of sequence, which can be extremely large for computing DNA sequences of long lengths. Zou et al proposed the centre star MSA strategy for sequence alignment [5]. It offers new tools to address large-scale data for multiple sequence alignment.

In this article, we establish a new approach to measure the distance between DNA (or protein) sequences: the Yau-Hausdorff method. This study arises from the graphical representation of DNA or protein sequences proposed by Yau [2, 6], in which each DNA or protein sequence is represented by a curve in two-dimensional plane. The graphical representation method results in one-to-one mapping between DNA sequences and the graphical curves. However the question on how to measure the true distance between two DNA curves has not been addressed up to now. The main contribution of this study is to introduce a new distance between two dimensional curves defined by the DNA (or protein) sequences.

Although many techniques for two dimensional distance are available, presently the most useful criterion to measure the similarity between two-dimensional point sets is the Hausdorff distance [7, 8]. This distance can be used to determine the degree of resemblance between two point sets that are superimposed. However the general Hausdorff distance does not satisfy our requirements, since we wish to measure the minimum distance between two point sets under rigid motions including translation and rotation. The minimum Hausdorff distance under rigid motions is a well-defined metric and not only measure the distance of two point sets, but also the similarity of their shapes. Mathematicians have tried to find efficient algorithms to compute this distance, but none of the existing algorithms reaches the level of efficiency required for analyzing long DNA (or protein) sequences.

In this article, we define the Yau-Hausdorff distance, a new metric which measures the similarity between two-dimensional point sets. This new metric possesses some advantages: it is a well-defined metric in mathematics it is a natural generalization of the minimum one-dimensional Hausdorff distance it takes translation and rotation into full consideration and it is much more efficient to compute than the existing two-dimensional minimum Hausdorff distance. These advantages enable it to be a powerful tool for comparing two-dimensional point sets, particularly for comparing DNA or protein sequences.

In the first section, we introduce two important methods: the Yau-Hausdorff distance and the graphical representation of DNA (or protein) sequences. In the second section, results from applying the Yau-Hausdorff method to several biological examples are presented and compared with results achieved by previous approaches. In the third section we discuss the advantages of the Yau-Hausdorff method and its broader applications.


INTRODUCTION TO PHYLOGENETICS.

From the time of Charles Darwin, it has been the dream of many biologists to reconstruct the evolutionary history of all organisms on Earth and express it in the form of a phylogenetic tree. Phylogeny uses evolutionary distance, or evolutionary relationship, as a way of classifying organisms (taxonomy).

Phylogenetic relationship between organisms is given by the degree and kind of evolutionary distance. To understand this concept better, let us define taxonomy. Taxonomy is the science of naming, classifying and describing organisms. Taxonomists arrange the different organisms in taxa (groups). These are then further grouped together depending on biological similarities. This grouping of taxa reflects the degree of biological similarity.

Systematics takes taxonomy one step further by elucidating new methods and theories that can be used to classify species. This classification is based on similarity traits and possible mechanisms of evolution. In the 1950s, William Hennig, a German biologist, proposed that systematics should reflect the known evolutionary history of lineages, an approach he called phylogenetic systematics. Therefore, phylogenetic systematics is the field that deals with identifying and understanding the evolutionary relationships among many different kinds of organisms

Phylogenic relationships have been traditionally studied based on morphological data. Scientists used to examine different traits or characteristics and tried to establish the degree of relatedness between organisms. Then scientists realized that not all shared characteristics are useful in studying relationships between organisms. This discovery led to a study of systematics called cladistics. Cladistics is the study of phylogenetic relationships based on shared, derived characteristics. There are two types of characteristics, primitive traits and derived traits, which are described below.

Primitive traits are characteristics of organisms that were present in the ancestor of the group that is under study. They do not indicate anything about the relationships of species within a group because they are inherited from the ancestor to all of the members of the group. Derived traits are characteristics of organisms that have evolved within the group under study. These characteristics were not present in the ancestor. They are useful because they can help explain why some species have common traits. The most likely explanation for the presence of a trait that was not present in the ancestor of the whole group is that it evolved from a more recent ancestor.

Two extensive groups of analyses exist to examine phylogenetic relationships: Phenetic methods and cladistic methods. Phenetic methods, or numerical taxonomy, use various measures of overall similarity for the ranking of species. They can use any number or type of characters, but the data has to be converted into a numerical value. The organisms are compared to each other for all of the characters and then the similarities are calculated. After this, the organisms are clustered based on the similarities. These clusters are called phenograms. They do not necessarily reflect evolutionary relatedness. The cladistic method is based on the idea that members of a group share a common evolutionary history and are more closely related to members of the same group than to any other organisms. The shared derived characteristics are called synapomorphies.

The introduction of two important tools has dramatically improved the study of phylogenetics. The first tool is the development of computer algorithms capable of constructing phylogenetic trees. The second tool is the use of molecular sequence data for phylogenetic studies.

Phylogenetics can use both molecular and morphological data in order to classify organisms. Molecular methods are based on studies of gene sequences. The assumption of this methodology is that the similarities between genomes of organisms will help to develop an understanding of the taxonomic relationship among these species. Morphological methods use the phenotype as the base of phylogeny. These two methods are related since the genome strongly contributes to the phenotype of the organisms. In general, organisms with more similar genes are more closely related. The advantage of molecular methods is that it makes possible the study of genes without a morphological expression.

As previously mentioned, closely related species share a more recent common ancestor than distantly related species. The relationships between species can be represented by a phylogenetic tree. This is a graphical representation that has nodes and branches. The nodes represent taxonomic units. Branches reflect the relationships of these nodes in terms of descendants. The branch length usually indicates some form of evolutionary distance. The actual existing species called the operational taxonomic units (OTUs) are at the tip of the branches on the external nodes.

Tree construction methods
Some methods have been proposed for the construction of phylogenetic trees. They can be classified into two groups, the cladistic methods (maximum parsimony and maximum likelihood) and the phenetic method (distance matrix method).

Maximum parsimony trees imply that simple hypotheses are more preferable than complicated ones. This means that the construction of the tree using this method requires the smallest number of evolutionary changes in order to explain the phylogeny of the species under study. In the procedure, this method compares different parsimonious trees and chooses the tree that has the least number of evolutionary steps (substitutions of nucleotides in the context of DNA sequence).

Maximum likelihood This method evaluates the topologies of different trees and chooses the best based on a specified model. This model is based on the evolutionary process that can account for the conversion of one sequence into another. The parameter considered in the topology is the branch length.

Distance matrix is a phenetic approach preferred by many molecular biologists for DNA and protein work. This method estimates the mean number of changes (per site in sequence) in two taxa that have descended from a common ancestor. There is much information in the gene sequences that must be simplified in order to compare only two species at a time. The relevant measure is the number of differences in these two sequences, a measure that can be interpreted as the distance between the species in terms of relatedness.

Molecular phylogeny was first suggested in 1962 by Pauling and Zuckerkandl. They noted that the rates of amino acid substitution in animal hemoglobin were roughly constant over time. They described the molecules as documents of evolutionary history. The molecular method has many advantages. Genotypes can be read directly, organisms can be compared even if they are morphologically very different and this method does not depend on phenotype.

Phylogeny is currently used in many fields such as molecular biology, genetics, evolution, development, behaviour, epidemiology, ecology, systematics, conservation biology, and forensics. Biologists can infer hypotheses from the structure of phylogenetic trees and establish models of different events in evolutionary history. Phylogeny is an exceptional way to organize evolutionary information. Through these methods, scientists can analyse and elucidate different processes of life on Earth.

Today, biologists calculate that there are about 5 to 10 million species of organisms. Different lines of evidence, including gene sequencing, suggest that all organisms are genetically related and may descend from a common ancestor. This relationship can be represented by an evolutionary tree, like the Tree of Life. The Tree of Life is a project that is focused on understanding the origin of diversity among species using phylogeny.

Verweise:
1) Whelan S., Lio P., Goldman N., (2001)Molecular phylogenetics: state-of-the-art methods for looking into the past Trends in Genetics, Volume 17, Issue 5, 1, Pages 262-272

2) Berger J. Introduction to Molecular Phylogeny Construction. BIOL 334.

3) Wen-Hsiung Li. Molecular Evolution. Sinauer Associates, 1997.

4) Pagel, M. (1999) Inferring historical patterns of biological evolution. Nature 401, 877–884

5) Zuckerlandl, E. and Pauling, L. (1962) Molecular disease, evolution, and genetic heterogeneity. In Horizons in Biochemistry (Kasha,M. and Pullman, B., eds), pp. 189–225, Academic Press 1921–1930

6) Felsenstein, J. (1981), Evolutionary trees from DNA sequences: a maximum likelihood approach, Journal of Molecular Evolution 17:368-376

7) Endo T., Ogishima S., Tanaka H. (2003) Standardized phylogenetic tree: a reference to discover functional evolution J Mol Evol 57 Suppl 1:S174-81. Plant Species Biology

8) Murren C. (2002) Phenotypic integration in plants. Plant Species Biology. Volume 17 Issue 2-3 Page 89


Dtaidistance.dtw¶

Compute the optimal path from the nxm warping paths matrix.

dtaidistance.dtw. best_path2 ( Wege ) ¶

Compute the optimal path from the nxm warping paths matrix.

dtaidistance.dtw. distance ( s1, s2, window=None, max_dist=None, max_step=None, max_length_diff=None, penalty=None, psi=None, use_c=False, use_pruning=False, only_ub=False ) ¶

This function keeps a compact matrix, not the full warping paths matrix.

  • s1 – First sequence
  • s2 – Second sequence
  • Fenster – Only allow for maximal shifts from the two diagonals smaller than this number. It includes the diagonal, meaning that an Euclidean distance is obtained by setting window=1.
  • max_dist – Stop if the returned values will be larger than this value
  • max_step – Do not allow steps larger than this value
  • max_length_diff – Return infinity if length of two series is larger
  • Strafe – Penalty to add if compression or expansion is applied
  • psi – Psi relaxation parameter (ignore start and end of matching). Useful for cyclical series.
  • use_c – Use fast pure c compiled functions
  • use_pruning – Prune values based on Euclidean distance. This is the same as passing ub_euclidean() to max_dist
  • only_ub – Only compute the upper bound (Euclidean).

dtaidistance.dtw. distance_fast ( s1, s2, window=None, max_dist=None, max_step=None, max_length_diff=None, penalty=None, psi=None, use_pruning=False, only_ub=False ) ¶

Same as distance() but with different defaults to chose the fast C-based version of the implementation (use_c = True).

Note: the series are expected to be arrays of the type double . Thus numpy.array([1,2,3], dtype=numpy.double) or array.array('d', [1,2,3])

dtaidistance.dtw. distance_matrix ( S, max_dist=None, use_pruning=False, max_length_diff=None, window=None, max_step=None, penalty=None, psi=None, block=None, compact=False, parallel=False, use_c=False, use_mp=False, show_progress=False, only_triu=False ) ¶

Distance matrix for all sequences in s.

  • S – Iterable of series
  • Fenster – see distance()
  • max_dist – see distance()
  • max_step – see distance()
  • max_length_diff – see distance()
  • Strafe – see distance()
  • psi – see distance()
  • Block – Only compute block in matrix. Expects tuple with begin and end, e.g. ((0,10),(20,25)) will only compare rows 0:10 with rows 20:25.
  • kompakt – Return the distance matrix as an array representing the upper triangular matrix.
  • parallel – Use parallel operations
  • use_c – Use c compiled Python functions
  • use_mp – Force use Multiprocessing for parallel operations (not OpenMP)
  • show_progress – Show progress using the tqdm library. This is only supported for the pure Python version (thus not the C-based implementations).

The distance matrix or the condensed distance matrix if the compact argument is true

Same as distance_matrix() but with different defaults to choose the fast parallized C version (use_c = True and parallel = True).

This method uses the C-compiled version of the DTW algorithm and uses parallelization. By default this is the OMP C parallelization. If the OMP functionality is not available the parallelization is changed to use Python’s multiprocessing library.

dtaidistance.dtw. distances_array_to_matrix ( dists, nb_series, block=None, only_triu=False ) ¶

Transform a condensed distances array to a full matrix representation.

The upper triangular matrix will contain all the distances.

dtaidistance.dtw. lb_keogh ( s1, s2, window=None, max_dist=None, max_step=None, max_length_diff=None ) ¶

dtaidistance.dtw. ub_euclidean ( s1, s2 ) ¶

dtaidistance.dtw. warp ( from_s, to_s, path=None, **kwargs ) ¶

Warp a function to optimally match a second function.

  • from_s – First sequence
  • to_s – Second sequence
  • Weg – (Optional) Path to use wrap the ‘from_s’ sequence to the ‘to_s’ sequence If provided, this function will use it. If not provided, this function will calculate it using the warping_path function
  • kwargs – Same options as warping_paths() .

Returns the number of compressions and expansions performed to obtain the best path. Can be used as a metric for the amount of warping.

Parameters:Weg – path to be tested

:returns number of compressions or expansions

dtaidistance.dtw. warping_path ( from_s, to_s, **kwargs ) ¶

Compute warping path between two sequences.

dtaidistance.dtw. warping_path_fast ( from_s, to_s, **kwargs ) ¶

Compute warping path between two sequences.

dtaidistance.dtw. warping_path_penalty ( s1, s2, penalty_post=0, **kwargs ) ¶

Dynamic Time Warping with an alternative penalty.

This function supports two different penalties. The traditional DTW penalty penalty is used in the matrix during calculation of the warping path (see distance() ).

The second penalty penalty_post measures the amount of warping. This penalty doesn’t affect the warping path and is added to the DTW distance after the warping for every compression or expansion.

  • s1 – First sequence
  • s2 – Second sequence
  • penalty_post – Penalty to be added after path calculation, for compression/extension

:returns [DTW distance, best path, DTW distance between 2 path elements, DTW matrix]

dtaidistance.dtw. warping_path_prob_fast ( from_s, to_s, durchschnittlich, **kwargs ) ¶

Compute warping path between two sequences.

dtaidistance.dtw. warping_paths ( s1, s2, window=None, max_dist=None, max_step=None, max_length_diff=None, penalty=None, psi=None ) ¶

The full matrix of all warping paths (or accumulated cost matrix) is built.


Schau das Video: Algorithmen auf Sequenzen Teil 11: Distanz- und Ähnlichkeitsmaße zwischen Sequenzen (Juni 2022).


Bemerkungen:

  1. Friduwulf

    Großartig, das sind lustige Informationen.

  2. Fauzshura

    Meiner Meinung nach gestehen Sie den Fehler ein. Treten Sie ein, wir besprechen es. Schreib mir per PN, wir reden.

  3. Gunn

    Ich finde, Sie geben den Fehler zu. Wir werden dies prüfen.

  4. Nejin

    Meiner Meinung nach liegst du falsch. Ich kann es beweisen. Senden Sie mir eine E -Mail an PM, wir werden diskutieren.

  5. Muktilar

    Talent, Sie werden nichts sagen.



Eine Nachricht schreiben