Information

Metriken zur Analyse von Astlängen in phylogenetischen Bäumen

Metriken zur Analyse von Astlängen in phylogenetischen Bäumen



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich interessiere mich für einige grundlegende Metriken, die verwendet werden könnten, um Bäume anhand ihrer Zweiglängen zu unterscheiden. Ich kenne topologische/baumformbasierte Methoden wie die Indizes von Colless und Sackin, die die Verzweigungslänge nicht kennen, und bin neugierig, ob es ähnliche Metriken gibt, die die Verzweigungslänge zur Unterscheidung verwenden. Die beiden folgenden Bäume haben beispielsweise eine identische Topologie, sind aber sehr unterschiedlich.


Im TreeDist R-Paket sind verschiedene Maßnahmen zur Baumähnlichkeit implementiert. (Ihre Phylogenien scheinen aus dem R ape-Paket zu stammen, also sind Sie hoffentlich mit R etwas vertraut.)

Andere Werkzeuge sind Treedist von Joe Felsenstein, das Robinson-Foulds und die Branch Score Distance berechnet (die sich sehr nach Ihren Interessen anhört, die in diesem Papier beschrieben werden). Auf dieser Softwareseite finden Sie viele weitere Informationen.

Eine praktische Beschreibung der verschiedenen Baumvergleichsmetriken finden Sie in diesem Artikel.

Ich würde vorschlagen, einen Blick auf das Handbuch und die mehreren Vignetten zu werfen, die mit dem TreeDist-Paket verbunden sind, um mehr darüber zu erfahren, wie genau diese Metriken funktionieren. Es scheint eine Vielzahl von Metriken zu geben, von denen ich noch nie gehört habe, wie Clustering-Entropie oder Split-Entropie oder Nye-Ähnlichkeit.

Dieses Paket enthält auch Tools zum Erstellen von Visualisierungen von Unterschieden, wie unten gezeigt:


Ich weiß nicht, ob dies tatsächlich in der Phylogenie verwendet wird, aber wenn Sie das Problem auf Fälle beschränken, in denen die Topologien gleich sind, kann jeder Baum als Punkt in einem n-dimensionalen Raum beschrieben werden, wobei n die Anzahl der Zweige ist. und jede Achse repräsentiert die (möglicherweise normalisierte) Länge eines der Zweige.

Sie können dann Entfernungen zwischen Punkten (d. h. Bäumen) in diesem Raum berechnen.


Verbesserung der phylogenetischen Methode zur Analyse der kompositorischen Heterogenität

Die phylogenetische Analyse ist ein wichtiger Weg, um die aktuelle Forschung zu biologischen Prozessen zu verstehen und Theorien zur Evolution der natürlichen Selektion aufzudecken. Die evolutionäre Verwandtschaft zwischen den Arten spiegelt sich im Allgemeinen in Form von Stammbäumen wider. Viele Methoden zur Konstruktion phylogenetischer Bäume basieren auf den Optimierungskriterien. Wir extrahieren die biologischen Daten über Modellierungsmerkmale und vergleichen diese Eigenschaften dann, um die biologische Evolution zwischen den Arten zu untersuchen.

Ergebnisse

Hier verwenden wir die maximale Wahrscheinlichkeit und die Bayessche Inferenzmethode, um phylogenetische Bäume zu erstellen. Mehrketten-Markov-Kette Die Monte-Carlo-Stichprobenmethode kann verwendet werden, um den optimalen phylogenetischen Baum auszuwählen und das lokale optimale Problem zu lösen. Das Korrelationsmodell der phylogenetischen Analyse geht davon aus, dass phylogenetische Bäume auf homogenen Daten aufbauen, jedoch gibt es eine große Abweichung bei heterogenen Daten. Wir verwenden bewusste Erkennung, um kompositorische Heterogenität zu lösen. Unsere Methode wird anhand von zwei experimentellen Datenreihen evaluiert, einer Gruppe bakterieller 16S-ribosomaler RNA-Gendaten und einer Gruppe genetischer Daten mit fünf homologen Spezies.

Schlussfolgerungen

Unsere Methode kann genaue phylogenetische Bäume der homologen Daten erhalten und auch die kompositorische Heterogenität experimenteller Daten erkennen. Wir bieten eine effiziente Methode, um die Genauigkeit des generierten phylogenetischen Baums zu verbessern.


Verallgemeinerte HF-Abstände

Die Robinson-Foulds-Distanz zählt einfach die Anzahl der nicht trivialen Splits (manchmal fälschlicherweise als Kladen, Knoten oder Kanten bezeichnet), die in beiden Bäumen vorkommen – alle Splits, die nicht perfekt identisch sind, tragen einen Punkt zum Distanzwert von Null bei, egal wie ähnlich oder anders sind sie. Durch das Übersehen möglicher Ähnlichkeiten zwischen fast identischen Splits hat dieser konservative Ansatz unerwünschte Eigenschaften.

„Verallgemeinerte“ HF-Metriken erzeugen Übereinstimmungen dieses Paar spaltet sich in einem Baum mit ähnlichen Aufspaltungen im anderen auf. Jedem Teilungspaar wird eine Ähnlichkeitsbewertung zugewiesen. Die Summe dieser Bewertungen im optimalen Matching quantifiziert dann die Ähnlichkeit zwischen zwei Bäumen.

Unterschiedliche Methoden zur Berechnung der Ähnlichkeit zwischen einem Teilungspaar führen zu unterschiedlichen Baumabstandsmetriken, die in den folgenden Funktionen implementiert sind:

Smith (2020) bewertet Übereinstimmungen basierend auf der Menge an Informationen, die eine Partition über die andere enthält. Die Mutual Phylogenetic Information weist Split-Paaren, die nicht beide in einem einzelnen Baum existieren können, keine Ähnlichkeit zu. Die Metrik der Mutual Clustering Information ist nachsichtiger und zeigt ein wünschenswerteres Verhalten. (Sein Komplement, ClusteringInfoDistance() , gibt einen Baumabstand zurück.)

Nein et al. (2006) Score-Matchings nach der Größe des größten Splits, der mit beiden konsistent ist, normalisiert gegen den Jaccard-Index. Dieser Ansatz wird erweitert von Böcker et al. (2013) mit der Jaccard-Robinson-Foulds-Metrik (Funktion JaccardRobinsonFoulds() ).

Bogdanowicz und Giaro (2012) und Lin et al. (2012) schlugen unabhängig voneinander vor, die Anzahl der „nicht übereinstimmenden“ Blätter in einem Splittpaar zu zählen. MatchingSplitInfoDistance() bietet ein informationsbasiertes Äquivalent (Smith 2020).

Das Paket implementiert auch die von Kendal und Colijn (2016) vorgeschlagene Variation des Pfadabstands (Funktion KendallColijn() ), Annäherungen an die Distanz des Nearest-Neighbour Interchange (NNI) (Funktion NNIDist() nach Li et al. (1996)) und berechnet die Größe (Funktion MASTSize() ) und den Informationsgehalt (Funktion MASTInfo() ) des Maximalübereinstimmungs-Teilbaums.

Eine Implementierung der Tree Bisection and Reconnection (TBR)-Distanz finden Sie im Paket „TBRDist“.


Ergebnisse

Übersicht über den OrthoFinder-Algorithmus und Zusammenfassung der Ergebnisdateien

Der OrthoFinder-Algorithmus wird im Abschnitt „Methoden“ ausführlich beschrieben. Kurz gesagt, adressiert es die oben identifizierten Herausforderungen in fünf Hauptschritten: (a) Orthogruppen-Inferenz, (b) Inferenz von Genbäumen für jede Orthogruppe, (c und d) Analyse dieser Genbäume, um den verwurzelten Artenbaum abzuleiten, (e ) Verwurzelung der Genbäume unter Verwendung des verwurzelten Artenbaums und (f–h) Duplikationsverlust-Koaleszenz-(DLC)-Analyse der verwurzelten Genbäume, um Orthologe und Genduplikationsereignisse zu identifizieren (kartiert auf ihre Positionen in der Art und im Gen Bäume) (Abb. 2). Ausgehend von Gensequenzen leitet OrthoFinder also Orthogruppen, Orthologe, den vollständigen Satz von Genbäumen für alle Orthogruppen, den Wurzelartenbaum und alle Genduplikationsereignisse ab und berechnet vergleichende Genomstatistiken. Um die Standardausgaben einer OrthoFinder-Analyse zu veranschaulichen, ist in Abb. 3a–h ein grafisches Beispiel für den vollständigen Ergebnissatz von OrthoFinder für zehn Metazoen-Arten gezeigt.

Der OrthoFinder-Workflow. Die für jeden Schritt verwendete Methode wird durch den Pfeil angezeigt. Veröffentlichte Algorithmen sind kursiv dargestellt und werden von einem Sternchen gefolgt. Eine gepunktete blaue Linie, die mit einem durchgezogenen Pfeil verbunden ist, zeigt zusätzliche Daten an, die verwendet werden, um die durch den durchgezogenen Pfeil angezeigte Transformation durchzuführen. MSA, Multiple Sequence Alignment-based Tree Inference DLC, Duplication-Loss-Coaleszenz. (ein) Orthogruppen-Inferenz unter Verwendung des ursprünglichen OrthoFinder-Algorithmus (eine Orthogruppe ist die Menge von Genen, die von einem einzelnen Gen im letzten gemeinsamen Vorfahren aller betrachteten Arten abstammen). (B) Genbaum-Inferenz. (C) Artenbaum-Inferenz. (D) Artenbaumwurzeln (e) Genbaumwurzeln (F) Hybridüberlappung + DLC-Analyse von verwurzelten Genbäumen, um Orthologe und Genduplikationsereignisse abzuleiten. (g) Illustration der Ortholog-Ergebnistabelle für die Gene in jeder Eingabeart (vier Hauptkästen). Die horizontalen Unterteilungen innerhalb dieser zeigen die Orthologe für jedes einzelne Artenpaar. (h) Illustration der Genduplikations-Ereignistabelle, die den Ort der Genduplikationsereignisse zeigt, die dem Artenbaum zugeordnet sind, die Position im Genbaum, die prozentuale Retention der doppelten Gene in der untersuchten Art und die Gene, die vom Genduplikationsereignis abstammen . (ich) Vergleichende Genomikstatistiken

Zusammenfassung der OrthoFinder-Analyse einer Reihe von Chordata-Arten: Ciona intestinalis, Danio rerio, Oryzias latipes, Xenopus Tropicalis, Gallus gallus, Monodelphis domestica, Muskulatur, Rattus norvegicus, Pan troglodytes, und Homo sapiens. Balkendiagramme und Heatmap enthalten Daten für jede Art, ausgerichtet auf die entsprechenden Arten im Baum in ein. ein Der von STAG abgeleitete und von STRIDE verwurzelte Artenbaum. B Prozentsatz der Gene jeder Art, die Orthogruppen zugeordnet sind. C Die Anzahl der artspezifischen Orthogruppen. D Die Anzahl der Gene mit Orthologen in jeder/allen Spezies. e Heatmap der Anzahl der Orthogruppen, die jedes Artenpaar enthalten (oben rechts) und Orthologe zwischen den einzelnen Arten (unten links). F Ortholog-Multiplizitäten für zwei Arten, C. intestinalis und H. sapiens, gegenüber allen anderen Arten. g Die Anzahl der Genduplikationsereignisse an jedem Endzweig des Artenbaums. h Die Anzahl der Vervielfältigungen auf jedem Zweig des Artenbaums und bei allen Nachkommenarten. OG, Orthogruppe sp., Spezies spp., Spezies (Plural) dups., Genduplikationsereignisse

Die standardmäßige und schnellste Version von OrthoFinder verwendet DIAMOND [24] für die Suche nach Sequenzähnlichkeiten. Diese Sequenzähnlichkeits-Scores liefern sowohl die Rohdaten für die Orthogruppen-Inferenz [10] als auch für die Genbaum-Inferenz dieser Orthogruppen unter Verwendung von DendroBLAST [24]. Die Standardimplementierung von OrthoFinder wurde entwickelt, um eine vollständige Analyse mit maximaler Geschwindigkeit und Skalierbarkeit zu ermöglichen, wobei nur Gensequenzen als Eingabe verwendet werden. OrthoFinder wurde jedoch auch so entwickelt, dass alternative Methoden für Bauminferenz und Sequenzsuche verwendet werden können, um den Benutzerpräferenzen gerecht zu werden. Beispielsweise kann BLAST [4] anstelle von DIAMOND für Sequenzähnlichkeitssuchen verwendet werden. Ebenso müssen mit DendroBLAST keine Genbäume abgeleitet werden. Stattdessen kann OrthoFinder automatisch mehrere Sequenz-Alignments und phylogenetische Bäume mit den meisten vom Benutzer bevorzugten Verfahren für multiples Sequenz-Alignment und Baum-Inferenz ableiten. Wenn der Artenbaum vor der Analyse bekannt ist, kann dieser darüber hinaus auch als Eingabe bereitgestellt werden, anstatt von OrthoFinder abgeleitet zu werden. Obwohl OrthoFinder so konzipiert ist, dass er nur minimale Eingaben und Berechnungen erfordert, kann er auf die dem Benutzer zur Verfügung stehenden Berechnungs- und Datenressourcen zugeschnitten werden.

OrthoFinder hat die höchste Genauigkeit der Ortholog-Inferenz

Die Genauigkeit der Schlüsselkomponentenalgorithmen von OrthoFinder wurde in dieser Arbeit und in speziellen Publikationen unabhängig bewertet [5, 10, 22, 24, 33]. Um die Genauigkeit der Gesamtmethode zu demonstrieren, wurden die von OrthoFinder mit seinen Standardoptionen identifizierten Orthologe zusammen mit mehreren verschiedenen Konfigurationen an die von der Community unterstützte . übermittelt Suche nach Orthologen Benchmarking-Server für den Datensatz 2011_04 [1] (Details zu den Tests finden Sie im Abschnitt „Methoden“). Dieser Datensatz enthielt Benchmark-Ergebnisse für die meisten anderen Methoden und ermöglichte so den umfassendsten Vergleich mit Wettbewerbsmethoden. Die Ergebnisse all dieser Analysen sind in Abb. 4a–l dargestellt und werden durch zusätzliche Analysen in Zusatzdatei 1: Abbildung S1-S3 und Zusatzdatei 1: Tabelle S1 unterstützt.

einl Quest for Orthologs 2011_04 Benchmarks (siehe [1]) für 66 Arten aus Eukarya, Bakterien und Archaea für Ortholog-Inferenzmethoden. Die gestrichelte Linie zeigt die Pareto-Grenze. Daten für Diagramme sind in Zusatzdatei 1: Tabelle S1. ein, B F-Score bei SwissTree- und TreeFam-A-Tests. C "Pseudo-F-score“ über die beiden Artenbaum-Diskordanztests (STDT). D "Pseudo-F-score“ über die vier Generalized Species Tree Discordance Tests (GSTDT). eF Vereinbarung Orthologe SwissTree/FreeFam-A Bäume g-h Benchmarks für STDT und GSTDT. X-Achse: Gesamtanteil zufällig ausgewählter Gene mit vorhergesagten Orthologen in einem vordefinierten Satz von Arten für die beiden STDTs bzw. vier GSTDTs. Y-Achse: Durchschnitt (1 – normalisierter Robinson-Foulds-Abstand) zwischen dem Genbaum für mutmaßliche Orthologe und dem bekannten Artenbaum über die beiden STDT bzw. vier GSTD. Die vier einzelnen GSTDTs und zwei einzelne STDTs werden in Zusatzdatei angezeigt: 1 ich-l Vergrößern von Grundstücken e-h. Weitere Informationen zu Quest for Orthologs-Benchmarks finden Sie im Abschnitt „Methoden“ „Ortholog Benchmarking“. m Laufzeit für jede Methode mit 4-256 Input Fungi-Proteomen. n Ergebnisse, die von Methoden zurückgegeben werden, eine Multi-Spezies-Orthogruppe ist der Satz von Genen, die von einem einzelnen Gen im letzten gemeinsamen Vorfahren von drei oder mehr Arten abstammen

Die SwissTree- und TreeFam-A-Tests innerhalb Suche nach Orthologen Beurteilen Sie die Genauigkeit der Orthologe-Inferenz gegen Orthologe von Goldstandardbäumen. Für diese Tests sind Präzision, Rückruf und F-Score berechnet werden kann. Bei diesen Tests war die schnellste Standardversion von OrthoFinder 3–24 % (SwissTree, Abb. 4a) und 2–30 % (TreeFam-A, Abb. 4b) genauer als jede andere Methode. Die anderen Versionen von OrthoFinder waren um weitere 1–3% genauer als der StandardorthoFinder. Keine Methode war durchweg die zweitbeste Methode gegenüber OrthoFinder.

Für die Suche nach Orthologen Standard- und generalisierte Artenbaum-Diskordanztests (STDT und GSTDT), es sind keine Ground-Truth-Orthologe bekannt, und die Methoden werden anhand des Prozentsatzes der Versuche bewertet, in denen ein Satz von Orthologen über einen Satz von Arten identifiziert wird, und der Robinson-Foulds-Distanz zwischen Artenbaum und der Genbaum der mutmaßlichen Orthologe. Als solche sind Standardpräzision, Rückruf und F-Score-Maßnahmen können nicht berechnet werden. Für diese Tests wird ein „Pseudo-F-Score“ wurde unter Verwendung des Prozentsatzes der wiederhergestellten Orthologe-Sets anstelle von Recall und 1 – normalisierter Robinson-Foulds-Distanz anstelle von Präzision berechnet (entsprechend dem Anteil der Bipartitions in einer Übereinstimmung zwischen dem Artenbaum und dem mutmaßlichen Orthologe-Baum). Sowohl bei STDT als auch bei GSTDT hatten alle Versionen von OrthoFinder ein gleiches oder höheres Pseudo-F-score als alle Versionen aller anderen Methoden. Die schnellste Standardversion von OrthoFinder war 0–45 % (STDT, Abb. 4c) und 10–59 % (GSTDT, Abb. 4d) höher als bei konkurrierenden Methoden. Die anderen Versionen von OrthoFinder waren um weitere 1-6% höher als die Standardversion.

Alle Versionen von OrthoFinder, unabhängig von den algorithmischen Optionen, schlossen mehr Orthologe (höhere Recall/Recovered Ortholog Sets) als jede andere getestete Methode mit ähnlicher Präzision (Abb. 4e–l). In den vier Tests erreichte die Standard- und schnellste Version von OrthoFinder (DIAMOND) zwischen 0 (Abb. 4g) und 65% (Abb. 4h) höhere Recall/Recovered Orthologe Sets als konkurrierende Methoden. Es erreichte eine um 5 % niedrigere (Abb. 4h) und 15 % höhere (Abb. 4g) höhere Genauigkeit/Ortholog-Artenbaum-Übereinstimmung als konkurrierende Methoden. Ebenso waren bei den neuesten Benchmarks von 2018 alle drei Versionen von OrthoFinder genauer als alle anderen Methoden bei allen vier Benchmarks: STDT, GSTDT, SwissTree und TreeFam-A (Zusätzliche Datei 1: Abbildung S2).

Neben dem Testen von OrthoFinder mit Methoden von Mitbewerbern, die auf Rohsequenzdaten ausgeführt werden können, wurde OrthoFinder auch mit statischen Datenbankmethoden verglichen, die verschiedene Ebenen der menschlichen Kuration beinhalten. Alle Versionen von OrthoFinder, unabhängig von den algorithmischen Optionen, hatten einen höheren F-Score/Pseudo-F-Punktzahl bei jedem der vier Tests höher als bei allen Datenbanken, mit Ausnahme von PANTHER beim Species Tree Discordance Test (Zusätzliche Datei 1: Abbildung S3). Insgesamt ist die Standardversion F-Score/Pseudo-F-Score war zwischen 2 und 14% höher als bei den Datenbankmethoden. OrthoFinder (BLAST + MSA) schnitt zwischen 5 und 17% besser ab als die Datenbankmethoden (Zusatzdatei 1: Abbildung S3). Somit ist der OrthoFinder zwar vollständig automatisiert und erfordert keine manuelle Kuration, erreicht aber auch eine höhere Genauigkeit als kuratierte Online-Datenbankmethoden.

OrthoFinder ist schnell und lässt sich gut auf Hunderte von Arten skalieren

Um die Skalierbarkeit der OrthoFinder-Methode zu demonstrieren, wurde sie an Sets von 4 bis 256 Pilzarten mit 16 parallelen Prozessen durchgeführt (Abb. 4m). Alle anderen öffentlich zugänglichen Softwaretools, die anhand des Benchmarks bewertet wurden Suche nach Orthologen Datensätze wurden in ähnlicher Weise getestet. Die Standardversion von OrthoFinder lief bei den 4 Arten in 192 s und bei den 256 Arten-Datensätzen in 1,8 Tagen. In dieser Zeit leitete es Orthogruppen, alle Genbäume, den verwurzelten Artenbaum, Orthologe und Genduplikationsereignisse ab (Abb. 4n). Insgesamt war OrthoFinder die zweitschnellste Methode, wobei die schnellste Methode SonicParanoid 1,2 Tage bei denselben 256 Arten benötigte. Sowohl OrthoFinder als auch SonicParanoid skalierten gut zu den größten Datensätzen und benötigten beide weniger als die Hälfte der Zeit der nächstbesten Methode (4,1 Tage, Abb. 4m).

Es gab eine große Bandbreite an Laufzeiten über den gesamten Methodensatz. Viele Methoden waren für größere Artengruppen ungeeignet, wobei 64 Arten die größte Gruppe waren, auf der alle Methoden innerhalb des Cutoffs von 120 Stunden (5 Tage) lauffähig waren. An diesem Vergleichspunkt dauerte die Ausführung der langsamsten Methode 200-mal länger als die von OrthoFinder. Es sollte auch beachtet werden, dass keine Kompetitormethode auch Genbäume liefert oder Genduplikationsereignisse identifiziert ( 4n ). Somit ist OrthoFinder nicht nur die genaueste Methode und die zweitschnellste Methode, sondern liefert auch die größte Menge an stammesgeschichtlichen Informationen.

OrthoFinder löst effizient und präzise die Herausforderung, einen verwurzelten Artenbaum aus nicht ausgerichteten Proteinsequenzdaten abzuleiten

Verwurzelte Genbäume sind erforderlich, um die Verwendung phylogenetischer Informationen für die Orthologe-Inferenz zu ermöglichen, da die korrekte Platzierung der Wurzel für die korrekte Zerlegung der phylogenetischen Beziehungen zwischen den Genen im Baum erforderlich ist [22]. Die überwiegende Mehrheit der Bauminferenzmethoden leitet jedoch nicht verwurzelte Bäume ab. Genbäume können richtig verwurzelt werden, wenn der zugrunde liegende verwurzelte Artenbaum bekannt ist, und OrthoFinder leitet daher zuerst den Artenbaum für die zu analysierende Artenmenge ab und verwurzelt ihn. OrthoFinder löst diese beiden Herausforderungen (Artenbauminferenz und Wurzelbildung) mit zwei eigens dafür entwickelten Algorithmen.

Der Artenbaum wird mit STAG [33] aus dem Satz der unbewurzelten Orthogruppen-Genbäume abgeleitet, und dieser Artenbaum wird mit STRIDE [22] gewurzelt. STAG wurde entwickelt, um die riesige Menge an phylogenetischen Informationen zu nutzen, die bereits im vollständigen Satz von Orthogruppen-Genbäumen verfügbar sind, die von OrthoFinder abgeleitet wurden. Es wurde auch entwickelt, um robust gegenüber einem hohen Grad an Genduplikation und -verlust zu sein, der Methoden behindern kann, die auf Sätzen von Einzelkopie-Orthologen beruhen [33]. Es übertraf beliebte Artenbaum-Inferenzmethoden bei Benchmark-Daten und skalierte gut auf große Datensätze [33].

Methoden für von Anfang an Artenbaumwurzeln (d. h. ohne vorherige Kenntnis einer geeigneten Fremdgruppe) haben wenig Beachtung gefunden [22]. STRIDE wurde in ähnlicher Weise entwickelt, um Genduplikationsereignisse im vollständigen Satz von Orthogruppen-Genbäumen zu nutzen, um die Wurzel des Artenbaums effizient zu bestimmen, und erreichte eine hohe Genauigkeit bei Benchmark-Daten [22]. Die Fähigkeit von OrthoFinder, die rohen Aminosäuresequenzdaten automatisch zu nutzen, um den verwurzelten Artenbaum abzuleiten, ermöglicht somit die Fremdgruppenverwurzelung des vollständigen Satzes von Orthogruppen-Genbäumen für jeden Eingabesatz von Arten und für alle Genbäume. Dies ist ein entscheidender Schritt, um eine phylogenetische Orthologie-Inferenz aus Gensequenzen zu ermöglichen.

OrthoFinder implementiert einen neuartigen Duplikationsverlust-Koaleszenz-Algorithmus zur Identifizierung von Genduplikationsereignissen und Orthologen

Bei einer Reihe von verwurzelten Orthogruppen-Genbäumen besteht die letzte große Herausforderung bei der genauen Analyse der phylogenetischen Beziehungen zwischen Genen darin, unvollständige Liniensortierung und Genbaumfehler zu berücksichtigen. Bestehende Verfahren zur Bestimmung, ob Gene innerhalb eines Genbaums Orthologe oder Paraloge sind, hatten entweder eine geringe Genauigkeit oder waren nicht in der Lage, auf die Anzahl und Größe der zu analysierenden Orthogruppen-Genbäume zu skalieren. Um dieser Herausforderung zu begegnen, wurde daher ein neuartiger, skalierbarer Algorithmus basierend auf dem Duplication-Loss-Coalescent-Modell entwickelt (siehe Abschnitt „Methoden“).

Um die relativen Leistungsmerkmale dieser Methode zu demonstrieren, wurde sie auf zwei unabhängige simulierte Datensätze [32, 34] angewendet und mit drei gängigen, vergleichbaren Methoden verglichen: GSDI Forester [29], DLCpar (voll und Suche) [32] und Spezies Überlappungsmethode [31] (Abb. 5). Es wurde auch mit Notung [30] verglichen, da aber keine Verzweigungsunterstützungswerte verfügbar waren, die Notung zur Verbesserung seiner Genauigkeit verwendet, erzielte es identische Ergebnisse wie Forester und wird daher hier nicht als zusätzliche Methode gezeigt. Hinsichtlich der Genauigkeit übertraf die neuartige OrthoFinder-Methode alle Methoden außer DLCpar (full) (Abb. 5a, Zusatzdatei 1: Tabelle S2). DLCpar (vollständig) war jedoch nicht in der Lage, Artendatensätze in realistischer Größe zu analysieren. Während beispielsweise die OrthoFinder-Methode den vollständigen Satz von 18.651 Orthogruppen-Genbäumen (948.449 Gene) von 128 Pilzarten in 141 s analysieren konnte, konnte DLCpar (voll) keinen wesentlich kleineren 4-Arten-Datensatz (2259 Bäume) verarbeiten , 12.958 Gene) in 120 h (Fig. 5b). Somit ist OrthoFinder die genaueste Methode, die auf realistische Datensätze skalierbar ist. Dieser Algorithmus ermöglicht eine genaue Abfrage von Orthogruppen-Genbäumen auf eine Weise, die Tausende von Genbäumen über Hunderte von Arten in Minuten auf Standard-Computerhardware analysieren kann (Abb. 5b).

ein Duplikation F-Score, auf simulierten Genbäumen. B Laufzeit zur Analyse aller Bäume aus den 4 bis 128 Arten Fungi-Datensätzen (siehe Methoden), eine maximale Zeit von 120 Stunden (4,3x10 Sekunden) war erlaubt. DLCpar (full) hat den kleinsten Datensatz in diesem Zeitlimit nicht abgeschlossen und daher wird nur die untere Grenze für den ersten Zeitpunkt angezeigt. CD Präzision und Erinnerung


KONTINUIERLICHE BÄUME

Obwohl viele Metriken in Form von Baumneuordnungen definiert sind, konzentriert sich eine andere Klasse von Metriken auf Eigenschaften von Bäumen, die als Vektoren dargestellt werden können. Die Metriken basieren auf Vergleichen dieser Vektoren. Die gebräuchlichste Vektordarstellung verwendet die Astlängen des Baumes als Koordinaten. Die Berechnungen sind unabhängig von der Reihenfolge der Koordinaten, daher kann jede feste Reihenfolge der Koordinaten verwendet werden. Die resultierenden Räume werden oft als „kontinuierliche Baumräume“ bezeichnet. Allerdings sind da N= 2 n−1 −1 mögliche Aufteilungen für n-Blattbäume, höchstens 2n−3 Splits können in einem Baum auftreten. Ebenso setzen wir für einen Baumvektor alle Koordinaten, die keiner Aufteilung des Baumes entsprechen, auf 0. Somit kann der Vektor für jeden Baum höchstens 2 . habenn−3 Koordinaten ungleich null. Wenn ein Baumvektor weniger als 2 . hatn−3 Koordinaten ungleich null, ist der entsprechende Baum nicht vollständig aufgelöst (d. h. er ist nicht binär). Ein „Sternbaum“ bezieht sich auf einen Baum mit nur n Filialen (z. T0 in Abb. 4).

Das Baummodell wird komplexer, wenn wir Zweiglängen an den Baumkanten zulassen, aber überraschenderweise werden die Metriken rechnerisch einfacher. Wir betrachten zunächst Distanzen, die ausschließlich vom Vergleich der Vektoren abhängen, und beschränken uns dann auf Räume, in denen alle Vektoren einem Baum entsprechen. Für letztere ist der Abstand zwischen zwei Bäumen der kürzeste Weg zwischen den beiden Bäumen, der den Raum nicht verlässt ( Abb. 5). ( Billera et al. 2001) zeigten, dass die geodätisch oder kürzester Weg existiert und ist eindeutig. Wir werden uns auf ihren Raum konzentrieren, da die meisten statistischen und rechnerischen Werkzeuge dafür entwickelt wurden.

Andere vektorbasierte Baumräume wurden vorgeschlagen. Einige, insbesondere solche, die Tripel oder Quartette als Koordinaten verwenden, können recht schnell berechnet werden ( Brodal et al. 2013 Sand et al. 2013) und finden Verwendung, insbesondere zum Vergleich von Gen- und Artenbäumen ( DeGiorgio und Degnan 2010). Eine andere Klasse von faszinierenden Räumen wird durch die Pfade zwischen den Blättern parametrisiert. Für diese Räume ist viel Arbeit erforderlich – sowohl theoretisch (z. B. das Definieren von Medianen und Durchschnitten, wenn mehrere kürzeste Pfade zwischen Punkten vorhanden sind) als auch algorithmische Werkzeuge (z. B. Algorithmen und Software, die Entfernungen für mehr als 3-Blatt-Bäume berechnen können). Angesichts der enormen Komplexität der Berechnung selbst kleiner Beispiele und der Topologie des zugrunde liegenden Raums (Moulton und Steel 2004 Gill et al. 2008 Engström et al. 2013) ist dies eine gewaltige Aufgabe. Wir erklären diese Räume kurz sowie ihre Verbindungen zum phylogenetischen orangefarbenen Raum (unten definiert), der probabilistische Evolutionsmodelle enthält (Kim 2000).

Metriken und Nachbarn

Die Darstellung von Bäumen als Vektoren eröffnet viele Möglichkeiten, die Bäume zu vergleichen. Auf Vektorräumen existiert bereits viel schöne Mathematik, und wir heben hier die Konzepte hervor, die zum Vergleichen phylogenetischer Bäume verwendet werden (für einen detaillierteren Überblick siehe Rudin 1987). Die Länge (oder Norm) eines Vektors v wird oft geschrieben ‖v. Einige der in der Phylogenetik verwendeten Metriken treten in diesem Normenrahmen auf, der oft als bezeichnet wird P-Norm oder L p -norm (benannt nach dem Mathematiker Henri Lebesgue). Verwurzelte Tripel- und Quartettmetriken können auch in Form von Vektoren dargestellt werden, jedoch unter Verwendung zugrunde liegender Vektoren, die anstelle der Splits die Tripel bzw. Quartette darstellen. Der Billera-Holmes-Vogtmann (BHV)-Raum von Billera et al. (2001) ist auch definiert als die Menge aller Bäume mit Astlängen, verwendet aber als Metrik den geodätischen oder kürzesten Weg zwischen zwei Punkten, der vollständig im Raum liegt. Obwohl er durch Metriken, die Vektoren vergleichen, angenähert werden kann, verkompliziert seine zusätzliche Anforderung, dass der kürzeste Pfad vollständig im Raum liegt, die Berechnung. Diese Anforderung ergibt auch Mittelpunkte zwischen Bäumen, die Bäume sind, was zusammenfassende Techniken ermöglicht, die in anderen Räumen nicht möglich sind. Im Gegensatz zu den Baumneuordnungsmetriken können viele vektorbasierte Metriken, die zum Vergleichen von Bäumen verwendet werden, in polynomieller Zeit berechnet werden.


Phylogenetische Diversitätsmetriken für ökologische Gemeinschaften: Integration von Artenreichtum, Abundanz und Evolutionsgeschichte

Phylogenetische Informationen werden zunehmend verwendet, um den Aufbau biologischer Gemeinschaften und ökologische Prozesse zu verstehen. Häufig verwendete Metriken der phylogenetischen Diversität (PD) enthalten jedoch keine Informationen über die relative Häufigkeit von Individuen innerhalb einer Gemeinschaft. In dieser Studie entwickeln wir drei PD-Indizes, die explizit die Artenhäufigkeit berücksichtigen. Zuerst präsentieren wir eine Metrik der Gleichmäßigkeit der phylogenetischen Häufigkeit, die die Beziehung zwischen der Häufigkeit und der Verteilung der Endzweiglängen bewertet. Zweitens berechnen wir einen Index des hierarchischen Ungleichgewichts der Häufigkeiten auf Kladenebene, der die Verteilung der Individuen über die Knoten in der Phylogenie einschließt. Drittens entwickeln wir einen Index der abundanzgewichteten evolutionären Besonderheit und generieren einen entropischen Index der phylogenetischen Diversität, der sowohl Informationen über evolutionäre Entfernungen als auch phylogenetische Baumtopologie erfasst und auch als Grundlage für die Bewertung des Artenschutzwertes dient. Diese Metriken bieten Messungen der phylogenetischen Vielfalt, die verschiedene Gemeinschaftsattribute einbeziehen. Wir vergleichen diese neuen Metriken mit bestehenden und verwenden sie, um Diversitätsmuster in einer typischen kalifornischen Graslandpflanzengemeinschaft im biologischen Reservat Jasper Ridge zu untersuchen.


Verweise

Huelsenbeck JP, Ronquist F: MrBayes: Bayesianische Inferenz phylogenetischer Bäume. Bioinformatik. 2001, 17: 754-755. 10.1093/Bioinformatik/17.8.754.

Beaumont M: Erkennung von Bevölkerungswachstum und -rückgang mit Mikrosatelliten. Genetik. 1999, 153: 2013-2029.

Drummond AJ, Nicholls G, Rodrigo A, Solomon W: Mutationsparameter, Populationsgeschichte und Genealogie gleichzeitig aus zeitlich beabstandeten Sequenzdaten schätzen. Genetik. 2002, 161: 1307-1320.

Wilson I, Weale M, Balding D: Schlussfolgerungen aus DNA-Daten: Populationsgeschichten, evolutionäre Prozesse und forensische Übereinstimmungswahrscheinlichkeiten. J Royal Stat Soc A-Statistik in der Gesellschaft. 2003, 166: 155-188. 10.1111/1467-985X.00264.

Rannala B, Yang Z: Bayes-Schätzung der Divergenzzeiten der Arten und der Größe der Vorfahrenpopulation unter Verwendung von DNA-Sequenzen von mehreren Loci. Genetik. 2003, 164: 1645-1656.

Pybus O, Drummond AJ, Nakano T, Robertson B, Rambaut A: Die Epidemiologie und iatrogene Übertragung des Hepatitis-C-Virus in Ägypten: ein Bayes-Koaleszenz-Ansatz. Mol Biol Evol. 2003, 20: 381-387. 10.1093/molbev/msg043.

Kuhner M: LAMARC 2.0: Maximum Likelihood und Bayes'sche Schätzung von Populationsparametern. Bioinformatik. 2006, 22: 768-770. 10.1093/Bioinformatik/btk051.

Lunter G, Miklos I, Drummond A, Jensen J, Hein J: Bayesian Coestimation of Phylogeny and Sequence Alignment. BMC Bioinformatik. 2005, 6: 83-10.1186/1471-2105-6-83.

Redelings B, Suchard M: Gemeinsame Bayessche Schätzung von Ausrichtung und Phylogenie. Systematische Biologie. 2005, 54: 401-418. 10.1080/10635150590947041.

Metropolis N, Rosenbluth A, Rosenbluth M, Teller A, Teller E: Zustandsgleichungen von schnellen Rechenmaschinen. Zeitschrift für Chemie und Physik. 1953, 21: 1087-1092. 10.1063/1.1699114.

Hastings W: Monte-Carlo-Sampling-Methoden unter Verwendung von Markov-Ketten und ihre Anwendungen. Biometrie. 1970, 57: 97-109. 10.1093/biomet/57.1.97.

Zuckerkandl E, Pauling L: Evolutionäre Divergenz und Konvergenz in Proteinen. 1965, New York: Academic Press, 97-166.

Sanderson M: Nichtparametrischer Ansatz zur Schätzung von Divergenzzeiten ohne Ratenkonstanz. Molekularbiologie und Evolution. 1997, 14: 1218-1231.

Thorne J, Kishino H, Maler I: Schätzung der Evolutionsgeschwindigkeit der molekularen Evolution. Molekularbiologie und Evolution. 1998, 15: 1647-1657.

Rambaut A, Bromham L: Schätzung von Divergenzdaten aus molekularen Sequenzen. Molekularbiologie und Evolution. 1998, 15: 442-448.

Yoder A, Yang Z: Schätzung der Artbildungsdaten von Primaten unter Verwendung lokaler molekularer Uhren. Molekularbiologie und Evolution. 2000, 17: 1081-1090.

Kishino H, Thorne J, Bruno W: Leistung eines Divergenzzeitschätzverfahrens unter einem probabilistischen Modell der Ratenentwicklung. Molekularbiologie und Evolution. 2001, 18: 352-361.

Sanderson M: Schätzung der absoluten Geschwindigkeiten der molekularen Evolution und der Divergenzzeiten: ein Ansatz mit bestrafter Wahrscheinlichkeit. Molekularbiologie und Evolution. 2002, 19: 101-109.

Thorne J, Kishino H: Divergenzzeit- und Evolutionsratenschätzung mit Multilocus-Daten. Syst Biol. 2002, 51: 689-702. 10.1080/10635150290102456.

Aris-Brosou S, Yang Z: Bayesianische Modelle der episodischen Evolution unterstützen eine explosive Diversifizierung der Metazoen im späten Präkambrium. Mol Biol Evol. 2003, 20: 1947-1954. 10.1093/molbev/msg226.

Drummond AJ, Ho S, Phillips M, Rambaut A: Entspannte Phylogenetik und vertrauensvolle Datierung. PLoS Biologie. 2006, 4: e88-10.1371/journal.pbio.0040088.

Lanave C, Preparata G, Saccone C, Serio G: Eine neue Methode zur Berechnung der evolutionären Substitutionsraten. Zeitschrift für molekulare Evolution. 1984, 20: 86-93. 10.1007/BF02101990.

Tavare S: Einige probabilistische und statistische Probleme bei der Analyse von DNA-Sequenzen. Vorlesung Mathe Life Sci. 1986, 17: 57-86.

Hasegawa M, Kishino H, Yano T: Datierung der Mensch-Affen-Spaltung durch eine molekulare Uhr der mitochondrialen DNA. Zeitschrift für molekulare Evolution. 1985, 22: 160-174. 10.1007/BF02101694.

Goldman N, Yang Z: Ein Codon-basiertes Modell der Nukleotidsubstitution für Protein-kodierende DNA-Sequenzen. Molekularbiologie und Evolution. 1994, 11: 725-736.

Uzzell T, Corbin K: Anpassung diskreter Wahrscheinlichkeitsverteilungen an evolutionäre Ereignisse. Wissenschaft. 1971, 172: 1089-1096. 10.1126/science.172.3988.1089.

Yang Z: Maximum likelihood phylogenetic estimation from DNA sequences with variable rates over sites: approximate methods. Journal of Molecular Evolution. 1994, 39: 306-314. 10.1007/BF00160154.

Gu X, Fu Y, Li W: Maximum likelihood estimation of the heterogeneity of substitution rate among nucleotide sites. Molecular Biology and Evolution. 1995, 12: 546-557.

Waddell P, Steel M: General time reversible distances with unequal rates across sites: Mixing Gamma and inverse Gaussian distributions with invariant sites. Molecular Phylogenetics and Evolution. 1997, 8: 398-414. 10.1006/mpev.1997.0452.

Rambaut A: Estimating the rate of molecular evolution: incorporating non-contemporaneous sequences into maximum likelihood phylogenies. Bioinformatics. 2000, 16: 395-399. 10.1093/bioinformatics/16.4.395.

Drummond AJ, Pybus O, Rambaut A, Forsberg R, Rodrigo A: Measurably evolving populations. Trends in Ecology & Evolution. 2003, 18: 481-488. 10.1016/S0169-5347(03)00216-7.

Kingman J: The coalescent. Stochastic Processes and Their Applications. 1982, 13: 235-248. 10.1016/0304-4149(82)90011-4.

Griffths R, Tavare S: Sampling theory for neutral alleles in a varying environment. Philos Trans R Soc Lond B Biol Sci. 1994, 344: 403-410. 10.1098/rstb.1994.0079.

Drummond AJ, Rambaut A, Shapiro B, Pybus O: Bayesian coalescent inference of past population dynamics from molecular sequences. Molecular Biology and Evolution. 2005, 22: 1185-1192. 10.1093/molbev/msi103.

Wilson A, Sarich V: A molecular time scale for human evolution. Proc Natl Acad Sci USA. 1969, 63: 1088-1093. 10.1073/pnas.63.4.1088.

Thorne J, Kishino H, Felsenstein J: An evolutionary model for maximum likelihood alignment of DNA sequences. Journal of Molecular Evolution. 1991, 33: 114-124. 10.1007/BF02193625.

Lemey P, Pybus O, Rambaut A, Drummond AJ, Robertson D, Roques P, Worobey M, Vandamme A: The molecular population genetics of HIV-1 group O. Genetics. 2004, 167: 1059-1068. 10.1534/genetics.104.026666.

Newton M, Raftery A: Approximate Bayesian inference with the weighted likelihood bootstrap. Journal of the Royal Statistical Society, Series B. 1994, 56: 3-48.

Shapiro B, Rambaut A, Drummond AJ: Choosing Appropriate Substitution Models for the Phylogenetic Analysis of Protein-Coding Sequences. Mol Biol Evol. 2006, 23: 7-9. 10.1093/molbev/msj021.

Huelsenbeck J, Rannala B: Frequentist Properties of Bayesian Posterior Probabilities of Phylogenetic Trees Under Simple and Complex Substitution Models. Systematic Biology. 2004, 53: 904-913. 10.1080/10635150490522629.

Shapiro B, Drummond AJ, Rambaut A, Wilson MC, Matheus PE, Sher AV, Pybus OG, Gilbert MTP, Barnes I, Binladen J, Willerslev E, Hansen AJ, Baryshnikov GF, Burns JA, Davydov S, Driver JC, Froese DG, Harington CR, Keddie G, Kosintsev P, Kunz ML, Martin LD, Stephenson RO, Storer J, Tedford R, Zimov S, Cooper A: Rise and fall of the Beringian steppe bison. Wissenschaft. 2004, 306: 1561-1565. 10.1126/science.1101074.

Suchard M, Redelings B: BAli-Phy: simultaneous Bayesian inference of alignment and phylogeny. Bioinformatics. 2006, 22: 2047-2048. 10.1093/bioinformatics/btl175.

Rambaut A, Drummond AJ: Tracer [computer program]. 2003, [http://beast.bio.ed.ac.uk/tracer]


Verweise

Blomberg SP, Garland Jr T, Ives AR, Crespi B. Testing for phylogenetic signal in comparative data: behavioral traits are more labile. Evolution. 200357:717–45.

Diniz-Filho JAF, Bini LM. Macroecology, global change and the shadow of forgotten ancestors. Global Ecol Biogeogr. 200817:11–7

Verbruggen H, Tyberghein L, Pauly K, Vlaeminck C, Nieuwenhuyze KV, Kooistra WHCF, et al. Macroecology meets macroevolution: evolutionary niche dynamics in the seaweed Halimeda. Global Ecol Biogeogr. 200918:393–405.

Fitzpatrick BM, Turelli M. The geography of mammalian speciation: mixed signals from phylogenies and range maps. Evolution. 200660:601–15.

Davies TJ, Wolkovich EM, Kraft NJB, Salamin N, Allen JM, Ault TR, et al. Phylogenetic conservatism in plant phenology. J Ecol. 2013101:1520–30.

Kamilar JM, Cooper N. Phylogenetic signal in primate behaviour, ecology and life history. Philos T Roy Soc B. 2013368:20120341.

Fritz SA, Purvis A. Selectivity in mammalian extinction risk and threat types: a new measure of phylogenetic signal strength in binary traits. Conserv Biol. 201024:1042–51.

Webb CO, Ackerly DD, McPeek MA, Donoghue MJ. Phylogenies and community ecology. Ann Rev Ecol Syst. 200233:475–505.

Mouquet N, Devictor V, Meynard CN, Munoz F, Bersier L-F, Chave J, et al. Ecophylogenetics: advances and perspectives. Biol Rev. 201287:769–85.

Cavender-Bares J, Kozak KH, Fine PVA, Kembel SW. The merging of community ecology and phylogenetic biology. Ecol Lett. 200912:693–715.

Vamosi SM, Heard SB, Vamosi JC, Webb CO. Emerging patterns in the comparative analysis of phylogenetic community structure. Mol Ecol. 200918:572–92.

Jetz W, Thomas GH, Joy JB, Hartmann K, Mooers AO. The global diversity of birds in space and time. Natur. 2012491:444–8.

Zanne AE, Tank DC, Cornwell WK, Eastman JM, Smith SA, FitzJohn RG, et al. Three keys to the radiation of angiosperms into freezing environments. Natur. 2014506:89–92.

Hinchliff CE, Smith SA. Some limitations of public sequence data for phylogenetic inference (in plants). PLoS One. 20149, e98986.

The Angiosperm Phylogeny Group. An update of the Angiosperm Phylogeny Group classification for the orders and families of flowering plants: APG IV. Bot J Linn Soc. 2016181:1–20.

Jarvis ED, Mirarab S, Aberer AJ, Li B, Houde P, Li C, et al. Whole-genome analyses resolve early branches in the tree of life of modern birds. Wissenschaft. 2014346:1320–31.

Prum RO, Berv JS, Dornburg A, Field DJ, Townsend JP, Lemmon EM, et al. A comprehensive phylogeny of birds (Aves) using targeted next-generation DNA sequencing. Natur. 2015526:569–73.

Bininda-Emonds ORP. The evolution of supertrees. Trends Ecol Evol. 200419:315–22.

Baker WJ, Savolainen V, Asmussen-Lange CB, Chase MW, Dransfield J, Forest F, et al. Complete generic-level phylogenetic analyses of palms (Arecaceae) with comparisons of supertree and supermatrix approaches. Syst Biol. 200958:240–56.

Davies TJ, Kraft NJB, Salamin N, Wolkovich EM. Incompletely resolved phylogenetic trees inflate estimates of phylogenetic conservatism. Ecology. 201193:242–7.

Roquet C, Thuiller W, Lavergne S. Building megaphylogenies for macroecology: taking up the challenge. Ecography. 201336:13–26.

Webb CO, Ackerly DD, Kembel SW. Phylocom: software for the analysis of phylogenetic community structure and trait evolution. Bioinformatics. 200824:2098–100.

Paradis E. Molecular dating of phylogenies by likelihood methods: a comparison of models and a new information criterion. Mol Phylogenet Evol. 201367:436–44.

Münkemüller T, Lavergne S, Bzeznik B, Dray S, Jombart T, Schiffers K, et al. How to measure and test phylogenetic signal. Met Ecol Evol. 20123:743–56.

Pagel M. Inferring the historical patterns of biological evolution. Natur. 1999401:877–84.

Bininda-Emonds ORP, Cardillo M, Jones KE, MacPhee RDE, Beck RMD, Grenyer R, et al. The delayed rise of present-day mammals. Natur. 2007446:507–12.

Pavoine S, Ricotta C. Testing for phylogenetic signal in biological traits: the ubiquity of cross-product statistics. Evolution. 201367:828–40.

Revell LJ. phytools: an R package for phylogenetic comparative biology (and other things). Met Ecol Evol. 20123:217–23.

Letten AD, Cornwell WK. Trees, branches and (square) roots: why evolutionary relatedness is not linearly related to functional distance. Methods Ecol Evol. 20156:439–44.

Pybus OG, Harvey PH. Testing macro–evolutionary models using incomplete molecular phylogenies. P Roy Soc Lond B Bio. 2000267:2267–72.

Mooers AO, Heard SB. Inferring Evolutionary Process from Phylogenetic Tree Shape. Q Rev Biol. 199772:31–54.

R Development Core Team. R: a language and environment for statistical computing. Vienna: R Foundation for Statistical Computing 2015.

Swenson NG. Phylogenetic resolution and quantifying the phylogenetic diversity and dispersion of communities. PLoS One. 20094, e4390.

Kress WJ, Erickson DL, Jones FA, Swenson NG, Perez R, Sanjur O, et al. Plant DNA barcodes and a community phylogeny of a tropical forest dynamics plot in Panama. Proc Natl Acad Sci U S A. 2009106:18621–6.

Pei N, Lian J-Y, Erickson DL, Swenson NG, Kress WJ, Ye W-H, et al. Exploring tree-habitat associations in a Chinese subtropical forest plot using a molecular phylogeny generated from DNA barcode loci. PLoS One. 20116, e21273.

Rangel TF, Colwell RK, Graves GR, Fučíková K, Rahbek C, Diniz-Filho JAF. Phylogenetic uncertainty revisited: Implications for ecological analyses. Evolution. 201569:1301–12.

Kuhn TS, Mooers AØ, Thomas GH. A simple polytomy resolver for dated phylogenies. Met Ecol Evol. 20112:427–36.

Purvis A, Gittleman JL, Luh H-K. Truth or consequences: effects of phylogenetic accuracy on two comparative methods. J Theor Biol. 1994167:293–300.

Molina-Venegas R, Roquet C. Directional biases in phylogenetic structure quantification: a Mediterranean case study. Ecography. 201437:572–80.

Freckleton RP, Harvey PH, Pagel M, Losos AEJB. Phylogenetic analysis and comparative data: a test and review of evidence. Am Nat. 2002160:712–26.

Molina-Venegas R, Aparicio A, Slingsby JA, Lavergne S, Arroyo J. Investigating the evolutionary assembly of a Mediterranean biodiversity hotspot: deep phylogenetic signal in the distribution of eudicots across elevational belts. J Biogeogr. 201542:507–18.

Brunbjerg AK, Borchsenius F, Eiserhardt WL, Ejrnæs R, Svenning J-C. Disturbance drives phylogenetic community structure in coastal dune vegetation. J Veg Sci. 201223:1082–94.

Butterfield BJ, Cavieres LA, Callaway RM, Cook BJ, Kikvidze Z, Lortie CJ, et al. Alpine cushion plants inhibit the loss of phylogenetic diversity in severe environments. Ecol Lett. 201316:478–86.

Lososová Z, Čeplová N, Chytrý M, Tichý L, Danihelka J, Fajmon K, et al. Is phylogenetic diversity a good proxy for functional diversity of plant communities? A case study from urban habitats. J Veg Sci. 201627:1036–46.

Stournaras KE, Lo E, Böhning-Gaese K, Cazetta E, Matthias Dehling D, Schleuning M, et al. How colorful are fruits? Limited color diversity in fleshy fruits on local and global scales. New Phytol. 2013198:617–29.

Wikström N, Savolainen V, Chase MW. Evolution of the angiosperms: calibrating the family tree. P R Soc B. 2001268:2211–20.

Qian H, Zhang J. Using an updated time-calibrated family-level phylogeny of seed plants to test for non-random patterns of life forms across the phylogeny. J Syst Evol. 201452:423–30.

Grafen A. The phylogenetic regression. Philos Trans R Soc Lond B Biol Sci. 1989326:119–57.

Diniz Filho JAF, Rangel TF, Santos T, Bini LM. Exploring patterns of interspecific variation in quantitative traits using sequential phylogenetic eigenvector regressions. Evolution. 201266:1079–90.


Metrics to analyze branch lengths in phylogenetic trees - Biology

Reading trees: A quick review

A phylogeny, or evolutionary tree, represents the evolutionary relationships among a set of organisms or groups of organisms, called taxa (singular: taxon). The tips of the tree represent groups of descendent taxa (often species) and the nodes on the tree represent the common ancestors of those descendants. Two descendents that split from the same node are called sister groups. In the tree below, species A & B are sister groups — they are each other's closest relatives.

Many phylogenies also include an outgroup — a taxon outside the group of interest. All the members of the group of interest are more closely related to each other than they are to the outgroup. Hence, the outgroup stems from the base of the tree. An outgroup can give you a sense of where on the bigger tree of life the main group of organisms falls. It is also useful when constructing evolutionary trees.

For general purposes, not much. This site, along with many biologists, use these terms interchangeably — all of them essentially mean a tree structure that represents the evolutionary relationships within a group of organisms. The context in which the term is used will tell you more details about the representation (e.g., whether the tree's branch lengths represent nothing at all, genetic differences, or time whether the phylogeny represents a reconstructed hypothesis about the history or the organisms or an actual record of that history etc.) However, some biologists do use these words in more specific ways. To some biologists, use of the term "cladogram" emphasizes that the diagram represents a hypothesis about the actual evolutionary history of a group, while "phylogenies" represent true evolutionary history. To other biologists, "cladogram" suggests that the lengths of the branches in the diagram are arbitrary, while in a "phylogeny," the branch lengths indicate the amount of character change. The words "phylogram" and "dendrogram" are also sometimes used to mean the same sort of thing with slight variations. These vocabulary differences are subtle and are not consistently used within the biological community. For our purposes here, the important things to remember are that organisms are related and that we can represent those relationships (and our hypotheses about them) with tree structures.

Evolutionary trees depict clades. A clade is a group of organisms that includes an ancestor and alle descendants of that ancestor. You can think of a clade as a branch on the tree of life. Some examples of clades are shown on the tree below.


Schlussfolgerungen

By providing these profiles, PhyDesign facilitates locus prioritization, increasing the efficiency of sequencing for phylogenetic purposes compared to traditional studies with more laborious and low capacity screening methods, as well as increasing the accuracy of phylogenetic studies. Future website implementations will include the latest theoretical advances developed in our research group, expanding the current phylogenetic informativeness methodology to quantify the effects of parallelism and convergence, as well as quantifying the utility of taxon addition [16].