Information

Visualisierung einer Teilmenge des Baumes des Lebens

Visualisierung einer Teilmenge des Baumes des Lebens


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich verstehe, dass es bereits viele kuratierte Lebensbäume gibt (zB http://tolweb.org/tree/), aber gibt es eine Website, die es einem ermöglicht, eine Liste von Organismen einzugeben und dann die derzeit beste Schätzung ihrer evolutionären Beziehungen zu erstellen?

Die beste Seite, die ich bisher gefunden habe, ist http://itol.embl.de/itol.cgi, auf der Sie bestimmte Arten aus dem Hauptbaum auswählen können, um sie in einen Unterbaum zu zeichnen, aber der Baum selbst ist eher klein , so dass genauere Vergleiche nicht möglich sind.


http://phylot.biobyte.de/ übernimmt die erforderliche Aufgabe (Erzeugung eines phylogenetischen Baums basierend auf den bereitgestellten spezifischen Organismen unter Verwendung der NCBI-Taxonomietabellen).

Zum Beispiel die Eingabe von Baumelementen

Trichomonas vaginalis, Trypanosoma brucei, Homo sapiens, Fibroporia radiculosa, Paramecium tetraurelia, Tetrahymena thermophila, Cryptosporidium muris, Cryptosporidium hominis, Blastocystis hominis

erzeugt den Baum


Studie über Riesenviren erschüttert den Baum des Lebens

Eine neue Studie über Riesenviren unterstützt die Idee, dass Viren uralte lebende Organismen sind und keine unbelebten molekularen Überreste Amok laufen, wie einige Wissenschaftler argumentiert haben. Die Studie könnte den universellen Stammbaum umgestalten und einen vierten Hauptzweig zu den drei hinzufügen, von denen die meisten Wissenschaftler einig sind, dass sie die grundlegenden Bereiche des Lebens darstellen.

Die neuen Erkenntnisse erscheinen im Journal BMC Evolutionsbiologie.

Die Forscher nutzten eine relativ neue Methode, um in die ferne Vergangenheit zu blicken. Anstatt genetische Sequenzen zu vergleichen, die instabil sind und sich im Laufe der Zeit schnell ändern, suchten sie nach Beweisen für vergangene Ereignisse in den dreidimensionalen Strukturdomänen von Proteinen. Diese strukturellen Motive, die als Falten bezeichnet werden, sind relativ stabile molekulare Fossilien, die – wie die Fossilien von menschlichen oder tierischen Knochen – Hinweise auf alte evolutionäre Ereignisse bieten, sagte Gustavo Caetano-Anollés, Professor für Pflanzenwissenschaften an der University of Illinois und am Institut für Genombiologie, der leitete die Analyse.

"Genau wie Paläontologen betrachten wir die Teile des Systems und wie sie sich im Laufe der Zeit verändern", sagte Caetano-Anollés. Einige Proteinfalten treten nur in einer Gruppe oder in einer Untergruppe von Organismen auf, sagte er, während andere allen bisher untersuchten Organismen gemeinsam sind.

"Wir gehen von einer sehr grundlegenden Annahme aus, dass Strukturen, die häufiger und in mehr Gruppen auftreten, die ältesten Strukturen sind", sagte er.

Die meisten Bemühungen, die Verwandtschaft aller Lebewesen zu dokumentieren, haben Viren aus der Gleichung herausgelassen, sagte Caetano-Anollés.

"Wir haben den letzten universellen gemeinsamen Vorfahren immer durch den Vergleich von Zellen untersucht", sagte er. "Wir haben nie Viren hinzugefügt. Also haben wir Viren in die Mischung aufgenommen, um zu sehen, woher diese Viren stammen."

Die Forscher führten eine Zählung aller Proteinfalten durch, die in mehr als 1.000 Organismen vorkommen, die Bakterien, Viren, die als Archaeen bekannten Mikroben und alle anderen Lebewesen darstellen. Die Forscher schlossen Riesenviren ein, weil diese Viren groß und komplex sind, mit Genomen, die mit der genetischen Ausstattung der einfachsten Bakterien konkurrieren – und in einigen Fällen sogar übertreffen –, sagte Caetano-Anollés.

"Die Riesenviren haben eine unglaubliche Maschinerie, die der Maschinerie in einer Zelle sehr ähnlich zu sein scheint", sagte er. "Sie haben Komplexität und wir müssen erklären, warum."

Ein Teil dieser Komplexität umfasst Enzyme, die an der Übersetzung des genetischen Codes in Proteine ​​beteiligt sind, sagte er. Wissenschaftler waren verblüfft, diese Enzyme in Viren zu finden, da Viren alle anderen bekannten Protein-Bildungsmaschinen fehlen und sie Wirtsproteine ​​kommandieren müssen, um die Arbeit für sie zu erledigen.

In der neuen Studie kartierten die Forscher evolutionäre Beziehungen zwischen der Proteinausstattung von Hunderten von Organismen und nutzten die Informationen, um einen neuen universellen Lebensbaum aufzubauen, der Viren einschloss. Der resultierende Baum hatte vier klar differenzierte Zweige, von denen jeder eine eigene "Übergruppe" darstellte. Die Riesenviren bildeten neben Bakterien, Archaea und Eukarya (Pflanzen, Tiere und alle anderen Organismen mit kernhaltigen Zellen) den vierten Ast des Baumes.

Die Forscher entdeckten, dass viele der ältesten Proteinfalten – die in den meisten zellulären Organismen zu finden sind – auch in den Riesenviren vorhanden sind. Dies deutet darauf hin, dass diese Viren ziemlich früh in der Evolution erschienen sind, nahe der Wurzel des Baumes des Lebens, sagte Caetano-Anolléecutes.

Die neue Analyse trägt zu den Beweisen bei, dass Riesenviren ursprünglich viel komplexer waren als heute und im Laufe der Zeit eine dramatische Verringerung ihres Genoms erfahren haben, sagte Caetano-Anollés. Diese Reduzierung erklärt wahrscheinlich ihre letztendliche Annahme eines parasitären Lebensstils, sagte er. Er und seine Kollegen vermuten, dass Riesenviren eher ihren ursprünglichen Vorfahren ähneln als kleinere Viren mit reduziertem Genom.

Die Forscher fanden auch heraus, dass Viren wichtige "Informationsverbreiter" zu sein scheinen, sagte Caetano-Anollés.

„Die Proteinstrukturen, die andere Organismen mit Viren teilen, haben eine besondere Qualität, sie sind (weiter) verbreitet als andere Strukturen“, sagte er. „Jede dieser Strukturen ist eine unglaubliche Entdeckung in der Evolution. Und Viren verbreiten diese Neuheit“, sagte er.

Die meisten Studien zu Riesenviren weisen "in die gleiche Richtung", sagte Caetano-Anolléecutes. "Und diese Studie liefert weitere Beweise dafür, dass Viren in das Gewebe des Lebens eingebettet sind."

Zum Forschungsteam gehörten die Doktoranden Arshan Nasir und Kyung Mo Kim vom Korea Research Institute of Bioscience and Biotechnology.


Ein Baum des Lebens wächst in Texas

Tandy Warnow, David Bruton, Jr. Centennial Professor für Informatik. Wissenschaftler verfeinern und verändern unser Verständnis des „Baums des Lebens“ – der Art und Weise, wie Arten miteinander verwandt sind – manchmal radikal. Sie nutzen die Rechenleistung des Texas Advanced Computing Center (TACC) an der University of Texas in Austin, um die Herkunft von Arten besser zu verstehen und letztendlich dazu beizutragen, Krankheiten zu bekämpfen und bessere Pflanzen zu entwickeln.

Während die Evolutionsgeschichte einst auf den Beziehungen von Knochen, Skeletten und anderen morphologischen Hinweisen beruhte, ist heute die DNA der wichtigste Informant in der Geschichte, wie die Erde zu einem so vielfältigen Ort wurde.

Phylogenetik ist der Zweig der Biowissenschaften, der die evolutionären Beziehungen zwischen Organismen basierend auf genetischen Beweisen untersucht. Durch die Ausrichtung der molekularen Sequenzen verschiedener Arten können Wissenschaftler sehen, wie sich Organismen auf genetischer Ebene unterscheiden, bestimmen, wo sie divergieren, und basierend auf den Ausrichtungen verzweigte Bäume von Beziehungen abbilden.

Da die Kosten für die Gensequenzierung sinken, führen Forscher mehr phylogenetische Studien durch. Trotzdem ist das Aneinanderreihen von Zehntausenden von Sequenzen von Hunderten oder Tausenden von Arten selbst für einen Computer unglaublich kompliziert.

„Die genauesten Bäume werden mit Methoden geschätzt, die versuchen, schwierige Optimierungsprobleme zu lösen“, sagte Tandy Warnow, Professor für Informatik an der University of Texas in Austin und Guggenheim Fellow.

„Während diese Lösungen mit kleinen oder mittelgroßen Datensätzen durchgeführt werden können, können sie bei großen Datensätzen sehr lange dauern – Wochen bis Monate bis hin zu Jahren Rechenzeit. Das Texas Advanced Computing Center ist für diese Probleme letztendlich unverzichtbar.“

TACC, auf der J.J. Der Pickle Research Campus im Norden von Austin betreibt einige der größten und leistungsstärksten Systeme der Welt, aber selbst ihre Supercomputer können mit dem Tempo der Genforschung kaum mithalten. Nach dem Mooreschen Gesetz verdoppelt sich die Leistung von Computern alle zwei Jahre. Die Fähigkeit von Gensequenzern, Daten zu erstellen, ist jedoch noch schneller gewachsen.

„Das ist eine andere Art von Herausforderung“, sagte Warnow. „Wir analysieren nicht nur große Datenmengen, sondern wie greifen wir sinnvoll auf die Daten zu?“

Teile und erobere

Warnow arbeitet mit dem Postdoktoranden Kevin Liu von der Rice University und Siavash Mirarab, einem Ph.D. Student der Informatik an der University of Texas in Austin, um intelligentere, schnellere und genauere Algorithmen zu entwickeln, die auf einige der größten jemals erstellten Datensätze angewendet werden können.

Dieser phylogenetische Baum, der von David Hillis, Derreck Zwickil und Robin Gutell erstellt wurde, zeigt die evolutionären Beziehungen von etwa 3.000 Arten im Baum des Lebens. Weniger als 1 Prozent der bekannten Arten sind abgebildet. Mit einem Zuschuss von 1,5 Millionen US-Dollar von der National Science Foundation (durch das Projekt Assembling the Tree of Life) haben die Forscher eine Software entwickelt, die es Computern ermöglicht, schneller bessere evolutionäre Bäume zu zeichnen.

Es heißt SATé – Simultaneous Alignment and Tree Estimation – und verwendet einen neuartigen Divide-and-Conquer-Ansatz.

„Indem Sie einen wirklich großen Datensatz, der schwer auszurichten ist, in kleine, eng miteinander verbundene Datensätze aufteilen, können Sie gute Schätzungen für jeden Teilsatz erhalten und dann einen Abgleich mit dem gesamten Datensatz erhalten“, erklärte Warnow.

Riesige Supercomputer, wie Ranger bei TACC, richten die Sequenzen jeder Teilmenge aus und kombinieren die Ausrichtungen zu einer Ausrichtung des vollständigen Sequenzsatzes.

Es gibt keine Möglichkeit zu wissen, ob der Baum, der aus diesen Simulationen entsteht, absolut korrekt ist. Einige Bäume sind offensichtlich falsch – zum Beispiel solche, die Menschen und Krokodile auf demselben Ast zeigen, getrennt von Schimpansen – aber die meisten sind wahrscheinlich.

Aus diesem Grund verwendet SATé eine statistische Methode, um einen Maximum-Likelihood-Score bereitzustellen: ein Maß, mit dem seine Genauigkeit im Vergleich zu anderen Antworten bewertet wird. SATé wiederholt den Prozess der Ausrichtung und Baumbildung viele Male, bis ein Baum mit der höchsten Wahrscheinlichkeitsbewertung erreicht ist.

In der Softwareentwicklung sind die besten Produkte nicht nur die neuesten, sondern diejenigen, die nachweislich besser sind als die Alternativen. Zu diesem Zweck arbeiteten Warnow und ihr Team als Qualitätssicherungs- und Zuverlässigkeitstester und lösten mehrfach harte Evolutionsbaumprobleme mit unterschiedlichen Methoden und Parametern, um sicherzustellen, dass SATé das qualitativ hochwertigste Ergebnis liefert.

Zuerst in der Zeitschrift Science berichtet und später in den Zeitschriften PLoS Currents und Systematic Biology erforscht, haben die Forscher wiederholt gezeigt, dass SATé genauso funktioniert wie die üblicherweise verwendeten Alignment- und Baumschätzungsmethoden, die Bäume als einzelne Einheiten analysieren. Aber SATé ist viel schneller oder erreicht eine höhere Genauigkeit, aber in der gleichen Zeit.

Für die Vögel

Warnow und ihr Team arbeiten auch mit Evolutionsbiologen an Projekten zusammen, in denen ihre Anleitung zu neuen Erkenntnissen führen kann.

Seit Charles Darwins Tagen diskutieren Wissenschaftler über die Evolutionsgeschichte flugunfähiger Vögel, die als Laufvögel bekannt sind. Wie kamen so viele ähnliche Arten in so weit entfernte Ecken der Erde?

„Die Theorie der Kontinentalverschiebung lieferte eine bequeme Antwort“, sagte Michael Braun, Kurator in der Abteilung für Systematische Biologie der Smithsonian Institution. „Diese Vögel entwickelten sich aus einem gemeinsamen flugunfähigen Vorfahren und drifteten dann zu ihrer aktuellen Verbreitung. 40 Jahre lang blieb dies die Lehrbucherklärung der Artenverbreitung.“

Bis Braun durch DNA-Analysen entdeckte, dass eine alte (aber noch lebende) Vogelfamilie in Südamerika, die Tinamou, eine der am engsten verwandten Gruppen mit Emus und Straußen war. Aber der Tinamou konnte fliegen – ein Befund, der erstmals 2009 gemeldet wurde.

Diese Tatsache, kombiniert mit dem Fehlen von Skelettnachweisen für flugunfähige Vögel, bevor die Kontinente auseinanderbrachen, führte zu einer Neukonzeption des Laufvogelzweigs des Vogelbaums. Laufvögel stammten tatsächlich von fliegenden Vögeln ab, die an Orte reisten, an denen das Fliegen kein evolutionärer Vorteil mehr war und infolgedessen ihre Flugfähigkeit verloren.

„Es ist schwierig, die Beziehungen zwischen den Arten nur anhand der Morphologie zu erkennen, aber wenn wir die Moleküle und geeignete Analysemethoden verwenden können, um die Beziehungen zu finden, hilft uns dies, besser zu verstehen, wie diese adaptive Evolution stattgefunden hat“, sagte Braun.

Kürzlich arbeitete Warnow mit Braun zusammen, um seine umstrittenen Ergebnisse mithilfe von SATé erneut zu analysieren. Ihre Studie bestätigte die evolutionäre Verwandtschaft, die Braun gefunden hatte.

Notfall Phylogenetik

Bessere, schnellere und genauere phylogenetische Methoden können für den Menschen lebensgefährlich sein.

Die Zentren für die Kontrolle und Prävention von Krankheiten verwenden beim Auftauchen eines neuen Virus Sequenzabgleich und evolutionäre Baumerstellungswerkzeuge, um festzustellen, woher es kommen könnte und wie es sich von früheren Viren unterscheidet.

Pflanzenwissenschaftler verwenden auch Baumbauwerkzeuge, um festzustellen, welche Gene mit positiven Eigenschaften wie Widerstandsfähigkeit und Trockenheitstoleranz verbunden sind. Dieses Wissen ermöglicht es Wissenschaftlern, produktivere Pflanzen zu züchten und so zur Ernährung der Welt beizutragen.

Aber keines dieser Probleme ist leicht zu lösen.

„Viele Forschungsgruppen schätzen Bäume mit einigen Tausend bis Hunderttausenden Arten, um schließlich einen Baum des Lebens zu schätzen, der vielleicht mehrere Millionen Blätter enthält“, schrieb Warnow in einem kürzlich erschienenen Artikel in Systematic Biology . „Diese phylogenetischen Schätzungen stellen enorme Rechenherausforderungen dar, und aktuelle Berechnungsmethoden werden wahrscheinlich selbst bei Datensätzen im unteren Bereich dieses Bereichs nicht funktionieren.“

Mit anderen Worten, kleine Probleme können in Reichweite sein, aber die großen bleiben.

„Es wird nicht einfacher, aber es macht immer mehr Spaß“, sagte Warnow.

Von Aaron Dubrow, ursprünglich veröffentlicht auf der Website des Texas Advanced Computing Center.


Die Übung zum Baum des Lebens

Das Bild unten ist ein Beispiel dafür, wie die Übung zum Baum des Lebens aussehen wird, wenn sie abgeschlossen ist. Ich konnte diesen Rohentwurf in etwa einer Stunde fertigstellen. In den folgenden Anweisungen wird beschrieben, wie Sie Ihre eigenen erstellen können.

Der erste Schritt ist natürlich, einen Baum zu zeichnen. Ich habe unten ein Video eingefügt, das dir helfen soll, wenn du dich verloren fühlst. Ich sollte jedoch beachten, dass es –zumindest für Ihren ersten Entwurf– hilfreich sein könnte, es grob zu halten. Sie können später jederzeit zurückkehren und Ihre vorhandene Zeichnung aus ästhetischen Gründen neu zeichnen oder ausbessern. In dieser Runde dreht sich alles darum, die Informationen zu sammeln.

Befolgen Sie als Nächstes die folgenden Beschriftungsanweisungen. Wenn Ihnen nur ein oder zwei Dinge pro Abschnitt gleichzeitig einfallen, machen Sie sich keine Sorgen. Die Natur dieser Übung besteht darin, dass mit jedem Schritt mehr Erinnerungen und Ideen für andere Teile freigesetzt werden. Sie können jederzeit herumspringen und Dinge ausfüllen. Am Anfang ist es am hilfreichsten, Dinge einfach aufzuschreiben und zu sehen, wohin es dich führt. Sie könnten überrascht sein!

Der Komposthaufen (Optional–Aber sehr zu empfehlen!)

Schreiben Sie alles in Ihren Komposthaufen, das normalerweise in die anderen unten beschriebenen Abschnitte aufgenommen würde, aber jetzt Dinge sind, die Sie nicht mehr definieren möchten.

Dies sind oft Quellen von Traumata, Missbrauch, kulturellen Standards von Normalität/Schönheit/usw. oder irgendetwas anderes, das negative Gedanken über dich selbst in deinem Kopf prägt. Sie können Orte, Menschen, Probleme, Erfahrungen aufschreiben. Was immer Sie brauchen.

Ich habe meine oben verschwommen, aber Sie können sehen, dass sie mehrere Elemente enthält. Im Allgemeinen haben sie alle mit vergangenen Traumata und schädlichen Beziehungen zu tun, die ich versuche loszulassen. Ich habe festgestellt, dass die Idee eines Komposthaufens eine äußerst hilfreiche Möglichkeit ist, über diese Dinge nachzudenken. Zumal viele von ihnen nicht sauber als “alle schlecht” kategorisiert werden.

Es gibt tatsächlich einige lebensbestimmende Lektionen, die ich durch die Dinge gelernt habe, die in meinem Komposthaufen gelandet sind. Und wie es sich für einen Komposthaufen gehört, werde ich diese Dinge irgendwann abbauen und die reichen Teile wieder in mein Leben säen.

Das gleiche kannst du mit deinem machen.

Die Wurzeln

Schreiben Sie an den Wurzeln auf, woher Sie kommen. Dies kann Ihre Heimatstadt, Ihr Bundesland, Ihr Land usw. sein. Sie können auch die Kultur, in der Sie aufgewachsen sind, einen Verein oder eine Organisation, die Ihre Jugend geprägt hat, oder einen Elternteil/Erziehungsberechtigten aufschreiben.

Der Boden

Schreiben Sie die Dinge auf, die Sie wöchentlich vor Ort tun möchten. Dies sollten keine Dinge sein, zu denen Sie gezwungen werden, sondern Dinge, die Sie selbst gewählt haben.

Der Kofferraum

Schreiben Sie Ihre Fähigkeiten und Werte auf den Stamm. Ich entschied mich, meine Werte von der Basis des Stammes nach oben zu schreiben. Ich ging dann in die Auflistung meiner Fähigkeiten über. Für mich fühlte sich dies wie eine natürliche Entwicklung von Wurzeln zu Werten hin zu Fähigkeiten an.

Die Äste

Schreiben Sie Ihre Hoffnungen, Träume und Wünsche auf die Zweige. Diese können persönlich, gemeinschaftlich oder allgemein für die gesamte Menschheit sein. Denken Sie sowohl langfristig als auch kurzfristig. Verteilen Sie sie um die verschiedenen Zweige.

Die Blätter

Schreiben Sie die Namen derjenigen auf, die Ihnen auf positive Weise wichtig sind. Ihre Freunde, Familie, Haustiere, Helden usw.

Die Früchte

Schreiben Sie die Vermächtnisse auf, die an Sie weitergegeben wurden. Sie können damit beginnen, sich die Namen anzusehen, die Sie gerade auf die Blätter geschrieben haben, und über die Auswirkungen nachzudenken, die sie auf Sie hatten und was sie Ihnen im Laufe der Jahre gegeben haben. Dies kann materiell sein, wie zum Beispiel eine Erbschaft, aber meistens sind dies Attribute wie Mut, Großzügigkeit, Freundlichkeit usw.

(Tipp: Wenn Ihr Baum zu diesem Zeitpunkt ziemlich überfüllt ist, versuchen Sie vielleicht, einige Obstkörbe an der Basis Ihres Baumes zu zeichnen und sie dort entsprechend zu beschriften.)

Die Blumen & Samen

Schreiben Sie auf den Blumen und Samen die Vermächtnisse auf, die Sie anderen hinterlassen möchten.

(Tipp: Auch hier können Sie Ihre Zeichnung aufräumen, indem Sie Setzlinge, Blumenkörbe usw. visualisieren, auf die Sie diese Elemente schreiben können.)


Konzeptionelle Rahmenbedingungen: Neuinterpretation der TOL

Bei phylogenetischen Methoden wurden viele wesentliche Fortschritte erzielt, darunter die Entwicklung ausgeklügelter Evolutionsmodelle, Baumbildungstechniken (einschließlich schnellerer Werkzeuge, die sich für die Analyse genomweiter Datensätze eignen) und Zuverlässigkeitsschätzungen von Bauminferenzen sowie Datenbanken und andere Rechenwerkzeuge. In diesem Abschnitt beschäftigen wir uns hauptsächlich mit den Konzepten, die diesen Methoden zugrunde liegen, und ihren jeweiligen Ergebnissen. Unser Fokus liegt insbesondere auf der Neukonzeption der TOL angesichts der Tatsache, dass die Evolutionsgeschichte dieser Moleküle umso schwieriger zu interpretieren ist, je mehr molekulare Daten analysiert werden. Anstatt auf den universellen Baum zu verzichten, haben sich viele Evolutionsbiologen stattdessen dafür entschieden, ihr Verständnis der TOL in Bezug auf Datenbestände und was mit ihnen gemacht werden kann, neu zu strukturieren. Wir skizzieren verschiedene Positionen, die immer umfangreichere Modifikationen des TOL-Grundkonzepts umfassen (Abbildung 1). Diese Haltungen reichen von "business as usual" auf der Grundlage klarer Signale des einen wahren TOL, bis hin zu einer Perspektive, in der lokale Bäume nur als gelegentliche Strukturen im "echten" Lebensnetz gesehen werden. Alle diese Positionen stützen sich auf Darwins Baummetapher, und sie überlappen und nähren sich auf unterschiedliche Weise, aber jede verfügt über einen eigenen konzeptuellen Raum.

Konzeptionelle Rahmenbedingungen des TOL in Bezug auf Darwins Baumgleichnis.

1. Genbäume als Artenbäume

Bäume von Gen- und Proteinsequenzen werden typischerweise als am wertvollsten angesehen, wenn sie als Vertreter von Artenbäumen gerechtfertigt werden können. Um diesen Repräsentationsstatus zu erreichen, muss ein Gen oder eine Reihe von Genen einige Kriterien von genealogischen Markern erfüllen. Die ersten beiden verwandten Kriterien sind die offensichtlichsten: i) ein Gen muss (fast) universell sein, dh durch leicht erkennbare Orthologe (vorzugsweise Einzelkopie) in allen zellulären Lebensformen repräsentiert werden ii) die Sequenz des betreffenden Gens muss ausreichend konserviert sein, um die Konstruktion einer eindeutigen Ausrichtung und eines informativen Baumes zu ermöglichen. Das dritte Kriterium ist umstrittener und schwieriger anzuwenden: Ein Gen, das für die Konstruktion eines Referenzbaums verwendet wird, muss minimal anfällig für HGT sein. Zu den unter diesen Kriterien favorisierten Genen zählen solche für ribosomale RNA, ribosomale Proteine, Elongationsfaktoren, RNA-Polymerasen und mehrere andere (fast) universelle, hochkonservierte Gene [28, 29]. Einige dieser Marker gelten als evolutionär so „besonders“, dass sie zur Grundlage von Referenzbäumen für das gesamte TOL geworden sind [30, 15]. Die Probleme der bekanntesten Referenzbäume, der Bäume der 16S- und 18S-rRNA-Gene, wurden häufig diskutiert (z. B. [31, 32]). Dennoch lässt sich für viele Evolutionsbiologen das Konzept eines Referenzbaums noch rechtfertigen, solange seine Grenzen verstanden werden (z. B. [33]).

Allerdings erkennen Forscher – selbst wenn sie weiterhin Referenzbäume verwenden – zunehmend, dass Einzelgenbäume und sogar zusammengesetzte Mehrgenbäume mehr verdecken als sie offenbaren. Diese Bäume können nicht-verzweigende Muster aus wichtigen evolutionären Ereignissen wie Endosymbiose, ko-evolvierende Symbiosen, Hybridisierung und andere Vorkommnisse von Linienfusionen berücksichtigen [34–37]. Allgemeiner gesagt wird HGT heute als wichtiger Evolutionsfaktor in der Welt der Prokaryonten anerkannt. Die Behandlung all dieser nicht-baumartigen Prozesse als Probleme, die die „wahre“ TOL verschleiern, verzerrt und schränkt das Verständnis der Evolutionsgeschichte, das eines der zentralen Ziele der Evolutionsbiologie ist, stark ein – zusammen mit dem Verständnis von Prozessen und Mustern der Evolution [38] .

Die zweite Möglichkeit, Genbäume mit Artenbäumen in Beziehung zu setzen, besteht darin, sich die Genbäume als "innerhalb" des Artenbaums vorzustellen. Dieser Weg ist besonders attraktiv für die Systematik von Organismen, für die es bereits eine weithin akzeptierte phylogenetische Einordnung in die TOL gibt (hauptsächlich mehrzellige Eukaryoten), aber er hat auch für die prokaryontische Phylogenetik Anziehungskraft gefunden. Ein offensichtliches Problem besteht darin, dass der Artenbaum "vorbestimmt" sein muss, um die richtigen Genbäume zu pflücken und zu konstruieren (z. Wie bei der früheren konzeptionellen Beziehung zwischen Gen- und Artenbäumen hat jedoch auch die Diskrepanz zwischen Bäumen für einzelne Gene – nicht nur bei Prokaryonten und nicht nur wegen HGT – zu grundlegenden Fragen geführt, ob Genbäume einfach als verstanden werden können eine Geschichte "innerhalb" eines bekannten Artenbaums verfolgen [41–43]. "In Anbetracht dieser Probleme", schrieb der Phylogenetiker Wayne Maddison,

"man wird provoziert, genau zu überlegen Was ist Phylogenie?. Vielleicht ist es irreführend, einige Genbäume als übereinstimmend und andere als nicht mit dem Artenbaum übereinstimmend anzusehen, vielmehr sind alle Genbäume Teil des Artenbaums, der sich wie eine unscharfe statistische Verteilung visualisieren lässt, eine Wolke von Gengeschichten" [41].

Anstatt Genbäume in Artenbäumen zu enthalten oder sie zu vertreten, begannen sich mit der zunehmenden Verfügbarkeit vergleichender Genomdaten neue Konzepte der TOL und der Evolutionsgeschichte im Allgemeinen zu artikulieren. Da der Artenbaum im Allgemeinen als das wahre Ziel der Phylogenie angesehen wird (oder zumindest bis vor kurzem verwendet wurde), wurden neue Modellierungstechniken entwickelt und breitere Datenbehandlungen entwickelt, um den Artenbaum weniger problematisch darzustellen. Angesichts der Fülle an molekularen Daten wurde viel in Versuche zur Rekonstruktion von Genombäumen investiert. Dabei wurde das Konzept des "Artenbaums" (und damit TOL) überarbeitet.

2. Genombäume als Zellbäume

Unter dem breiten Banner der Phylogenomik wurden Bemühungen entwickelt und gefördert, inkonsistente Daten in Einklang zu bringen und die Verzweigungsreihenfolge aller Lebenslinien aufzulösen [44]. Phylogenetiker müssen glauben, dass Spuren von vertikalen Signalen im evolutionären Rauschen entdeckt werden können (obwohl genau diese Kategorien bestimmte Erwartungen implizieren) und sind daher hin- und hergerissen zwischen der Interpretation eines solchen Signals als die zentrale Wahrheit der Evolutionsgeschichte oder als Hinweis auf eine begrenzte genetische Verwandtschaft das ist nicht unbedingt zentral für unser Verständnis der Evolution. Ein wichtiges Ergebnis der Versuche, die Beziehung zwischen mutmaßlichem Signal und Rauschen in genomischen Daten zu verstehen, war die Entwicklung neuer Konzepte des TOL. Obwohl mehrere methodische Wege involviert sind [45, 46], veranschaulichen zwei Strömungen der Genombaumkonstruktion diese Spannung aufgrund ihrer grundlegend unterschiedlichen Denkweise über die TOL.

Core-Genom-Ansätze befassen sich mit einem evolutionär stabilen Kern von Genen, der als Repräsentant der organismischen Abstammungslinie angesehen werden kann, die als Prozess der binären Genomreplikation und Zellteilung angesehen wird (wodurch der Grundsatz der Bifurkation begründet wird). In Übereinstimmung mit den zuvor genannten Kriterien für die Auswahl von Referenzgenen versucht dieser Ansatz, Gene zu identifizieren, die in Genomen weit verbreitet sind und vor allem kongruente phylogenetische Signale produzieren (z. B. [47–52]). Unter diesem konzeptionellen Rahmen (es können verschiedene Methoden verwendet werden) wurde ein gewisser Erfolg erzielt, indem universelle Gene identifiziert wurden, die dieselbe evolutionäre Geschichte zu verfolgen scheinen. Es stellt sich jedoch die Frage, ob die dafür erzeugten Bäume, insbesondere verkettete Sequenzbäume, methodische Artefakte sind [53] und ob solche Analysen viel über die TOL aussagen oder lediglich eine teilweise verzerrte Historie mehrerer Gene ergeben.

Das vielleicht größte Problem bei einem solchen Ansatz besteht darin, wie gut die identifizierten Kerne die Evolutionsgeschichte der Organismen und Genome darstellen, die sie enthalten. Der (fast) universelle Genkern des zellulären Lebens ist extrem klein und funktionell verzerrt. Eine viel beachtete Kernanalyse untersuchte Genome von 191 Arten aus allen drei Lebensbereichen, konnte jedoch nur 31 universelle Gene identifizieren, hauptsächlich solche für ribosomale Proteine ​​[54]. Prokaryontische Genome enthalten typischerweise zwischen 1.000 und 4.000 Gene, so dass jeder Baum, der auf der Grundlage von 31 Genen aufgebaut ist, eine stark reduzierte Darstellung des beabsichtigten TOL ist – "ein Baum von 1%" in einer bekannt scharfen Kritik [36]. Allgemeiner gesagt bedeutet die Tatsache, dass alle Gene in prokaryotischen Genomen wahrscheinlich mindestens ein HGT-Ereignis in der 3,5 Milliarden Jahre alten Geschichte der zellulären Genome erlebt haben, dass kein rein nicht übertragener Kern existiert [55]. Der Kernansatz könnte daher besser so interpretiert werden, dass er sich auf eine "am wenigsten übertragene" Untergruppe von Genen bezieht. In diesem Fall wäre der Kern ein "unscharfer" Gensatz, der einen bestimmten statistischen Trend anzeigt, und nicht ein genau definierter Satz, und dies ist der konzeptionelle Raum, den eine andere Version des genombasierten TOL bewohnt.

Zentrale Trendansätze bauen auf der Quantifizierung von mehr und weniger Transfer auf. Sie kombinieren einzelne Genbäume, um vertikale Baummuster vor dem viel komplizierteren Hintergrund des "Wald" des Lebens in den Vordergrund zu stellen [56–60]. Solche Konzeptualisierungen tragen zur Durchdringung von HGT bei, suchen jedoch nach einer indikativen Botschaft des vertikalen Abstiegs aus den zusammengesetzten Daten. Dieser Trend, der aus dem universellsten Signal besteht, kann normalerweise nur schwach auf tiefen phylogenetischen Ebenen erfasst werden, mit Ausnahme des Signals der Bifurkation zwischen Archaeen und Bakterien [57]. Letztendlich ist es möglicherweise nicht möglich, weitere Details der tiefen Verzweigung zu ermitteln, und sogar Baumspitzen können für einige Abstammungslinien zweifelhaft bleiben [55, 61, 62]. Nichtsdestotrotz scheint bei einigen dieser Superbaumkonstruktionen ein "modales Informations"-TOL stark genug aufzutauchen, um ein "Rückgrat"-Baum zu sein, der lediglich mit einigen feinen "Spinnennetzen" von HGT drapiert ist [60].

Keine dieser Analysen sieht den zentralen Trend zwar als Mehrheitssignal im Wald, erkennt ihn aber als äußerst wichtig an. In einem Fall macht der zentrale baumartige Trend bei Verwendung eines speziell entwickelten "Tree-Net-Trend"-Scores etwa 40% der gesamten Informationen zur Prokaryoten-Evolution aus [58]. Aber ist ein solcher "Statistikbaum" traditionell mit TOL gemeint? Dies war sicherlich nicht die Art und Weise, wie das TOL in der ersten Ära der molekularen Phylogenie konzipiert wurde, bevor erkannt wurde, dass verschiedene Gene unterschiedliche Evolutionsgeschichten haben könnten. Der statistische TOL-Ansatz beinhaltet auch die Anerkennung, dass die Mittelung des Signals aus verschiedenen Genbäumen Artefaktbäume erzeugen kann, während relevante Aspekte der Evolution verschleiert werden [63]. Die Bereitschaft, diesen Übergang zu vollziehen, hat möglicherweise mehr mit der wahrgenommenen epistemologischen Funktion des TOL zu tun (die wir weiter unten untersuchen) als mit Verpflichtungen gegenüber der Ontologie des Baums (z. B. seiner "Realität").


ERGEBNISSE

Um die AnnoTree-Datenbank zu erstellen, haben wir alle 28 941 prokaryontischen Genome in der GTDB (Release 03-RS86) mit einer konsistenten Annotationspipeline neu annotiert. Nach der Genvorhersage haben wir Proteinsequenzen unter Verwendung von Standard-Konfidenz-Score-Schwellenwerten funktionelle Annotationen [Pfam-Proteinfamilien (10), TIGRFAM-Proteinfamilien (18) und KEGG Orthology (KO)-Identifikatoren (28)] zugewiesen, was zu 106 856 093 Pfam, 27 . führte 624 080 TIGRFAM und 67 878 ​​984 KEGG-Anmerkungen. Alle taxonomischen Informationen, Proteinsequenzen und funktionellen Annotationen werden in einer MySQL-Back-End-Datenbank gespeichert, damit sie von der Front-End-Anwendung AnnoTree schnell abgerufen werden können (Abbildung 1). Um eine phylogenetische Visualisierung aller 28 941 prokaryotischen Genome zu ermöglichen, unterteilt AnnoTree die Bakterien- und Archaeenbäume des Lebens in verschiedene Ansichten nach jeder wichtigen taxonomischen Ebene. Ein Benutzer kann die phylogenetische Verteilung eines Merkmals überall vom Stamm bis zur Genomebene in jeder taxonomischen Domäne untersuchen. Darüber hinaus kann AnnoTree verwendet werden, um benutzerdefinierte Bäume und Datensätze zu untersuchen (siehe Datenverfügbarkeit).

Datenfluss in der AnnoTree-Anwendung. Rohwerte und berechnete Merkmale, die aus Daten aus der GTDB abgeleitet wurden, werden in einer MySQL-Datenbank gespeichert, die aktualisiert wird, um den Revisionen der GTDB zu entsprechen. Benutzer können auf die für ihre Abfragen relevanten Daten in Form von Abbildungen und Tabellen zugreifen, die in ihrem Browser gerendert werden. Die Zahlen selbst und die zu ihrer Generierung verwendeten Daten können in verschiedenen Dateiformaten von der AnnoTree-Oberfläche heruntergeladen werden.

Datenfluss in der AnnoTree-Anwendung. Rohwerte und berechnete Merkmale, die aus Daten aus der GTDB abgeleitet wurden, werden in einer MySQL-Datenbank gespeichert, die aktualisiert wird, um den Revisionen der GTDB zu entsprechen. Benutzer können auf die für ihre Abfragen relevanten Daten in Form von Abbildungen und Tabellen zugreifen, die in ihrem Browser gerendert werden. Die Zahlen selbst und die zu ihrer Generierung verwendeten Daten können in verschiedenen Dateiformaten von der AnnoTree-Oberfläche heruntergeladen werden.

AnnoTree kann auf verschiedene Weise abgefragt werden: nach Pfam-Proteinfamilie, TIGRFAM-Proteinfamilie, KO-Begriff oder taxonomischer Name/ID. Annotationsabfragen können nach ihren entsprechenden Konfidenzwerten gefiltert werden, wie z E-Wert und prozentuale Ausrichtung. Darüber hinaus können Arten, die in einem BLAST-Ergebnis vorkommen, visualisiert werden, indem die BLAST XML2-Ausgabedatei direkt hochgeladen wird. AnnoTree generiert dann eine „gemalte“ Phylogenie unter Verwendung von Wurzel-zu-Spitze-Färbung für alle Abstammungslinien, die Übereinstimmungen mit der Abfrage enthalten (Abbildung 2). Visualisierungen werden auch von grundlegenden taxonomischen Informationen und statistischen Verteilungszusammenfassungen basierend auf der GTDB-Nomenklatur begleitet (Abbildung 2). Publication-quality SVG images, Newick formatted phylogenies for any selected subset of the tree, and taxonomic distribution tables of all queries can be downloaded for offline analysis or editing. Confidence scores (E-values) and options for downloading protein sequences for each annotation in a genome or lineage are displayed within a pop-up window when a colored node is selected on the tree.

AnnoTree interface overview. AnnoTree can be queried with any number of KO identifiers, Pfam families, Tigrfam families, or NCBI taxon identification numbers to display a mapping of those traits on the GTDB tree at any resolution. Lineages containing at least one genome with the query annotation(s) are highlighted in red. A circle chart displays a taxonomic summary of the genomes containing the flagellin gene (KO identifier: K02406) at a chosen taxonomic level. Smaller trees below show the interactive view when different taxonomic levels are selected by the user. When a highlighted node is clicked, a window appears (not shown in figure) displaying basic taxonomic information, zooming options, and annotation confidence scores.

AnnoTree interface overview. AnnoTree can be queried with any number of KO identifiers, Pfam families, Tigrfam families, or NCBI taxon identification numbers to display a mapping of those traits on the GTDB tree at any resolution. Lineages containing at least one genome with the query annotation(s) are highlighted in red. A circle chart displays a taxonomic summary of the genomes containing the flagellin gene (KO identifier: K02406) at a chosen taxonomic level. Smaller trees below show the interactive view when different taxonomic levels are selected by the user. When a highlighted node is clicked, a window appears (not shown in figure) displaying basic taxonomic information, zooming options, and annotation confidence scores.

Since all data is precomputed, users can explore the phylogenomic distribution of any combination of gene families within seconds. As an example, the recent metagenomics-driven discovery of commamox bacteria ( 29, 30) can be reproduced through a simple AnnoTree query by searching for genomes possessing all three key genes that act as a signature for commamox activity: KO terms K00371 (nxrB), K10944 (amoA) and K10535 (hao). Highlighted in the tree are the known commamox species (i.e. organisms within the genus Nitrospira), along with several additional taxa implicated as having potential commamox-like activity (e.g. Crenothrix) ( Supplementary Figure S1 ).

As a second example, the recent discoveries of homologs of important bacterial toxins outside of their respective bacterial lineages can be reproduced and visualized phylogenetically using simple AnnoTree queries. A query with Pfam PF01742 (botulinum neurotoxin protease) reveals a taxonomic distribution outside of Clostridium including the lineages Weissella und Chryseobacterium, consistent with earlier analyses ( 31, 32) ( Supplementary Figure S2 ). Similarly, a search with the diphtheria toxin domains (PF02763 or PF02764) reveals homologs in related genera Streptomyces und Austwickia, again reproducing recent analyses ( 33) almost instantaneously ( Supplementary Figure S3 ). These examples illustrate the use of AnnoTree as a hypothesis-generating tool by revealing distributions of gene families that may be new or unexpected to users.

Lineage-specific gene families

As an initial exploration of the data within AnnoTree, we examined the distributions of all 77 004 395 bacterial Pfam and KO annotations when mapped onto the bacterial GTDB tree of life (Release 02-RS83). Based on the phylogenetic conservation score (τD) ( 22), 68.1% of KO identifiers and 60.0% of Pfam protein families had significantly non-random phylogenomic distributions (P < 0.05), revealing a greater phylogenetic congruency for KO predictions than Pfam predictions. Next, we analyzed the distributions of Pfam and KO annotations, and used standard binary classification metrics to identify those with strong lineage-specificity (see Methods) ( Supplementary Data File S1 ). Extremely lineage-specific families were identified as those with both very high (≥95%) Präzision (percentage of genomes in the clade containing a trait) and very high (≥95%) Empfindlichkeit (percentage of a trait-containing genomes occurring in the clade). Based on these criteria, we identified 358 (3.2%) Pfam protein families and 152 (0.9%) KO identifiers with lineage-specific distributions in Bacteria. We observed a trend in which lineage-specific KO identifiers and Pfam protein families increase in frequency from higher (e.g. phylum) to lower (e.g. species) taxonomic levels ( Supplementary Figure S4 ), consistent with the idea that gene family taxonomic distributions tend to diversify over time and that HGT impacts evolution over short evolutionary timescales ( 34). Although lineage-specific families are relatively rare at high taxonomic levels, these cases often represent ancient, clade-defining bacterial innovations. Examples include K18955 (WhiB family transcriptional regulator) in the Actinobacteria, PF07542 (ATP12 chaperone) in the Alphaproteobacteria, and numerous photosynthesis-related genes within the Cyanobacteria (class Oxyphotobacteria).

Lineage-specific gene families can provide insights into the unique biology of their respective organisms. For example, eight lineage-specific Pfam and KO annotations were detected within the Endozoicomonas subtree, a clade of endosymbiotic bacteria that inhabit numerous marine eukaryotic hosts ( 35). Consistent with possible utilization of host processes, the lineage-specific genes detected within this clade appear to be of eukaryotic origin and include genes involved in cytoskeletal organization (PF01302), eukaryotic cell–cell signaling (PF00812), apoptosis inhibition (K010343, K010344, K04725, PF07525) and eukaryotic proteolysis (K01378). Given the occurrence of numerous lineage-specific gene families in Endozoicomonas, we asked whether lineage-specific gene families may be overrepresented in certain taxa or branches of the bacterial tree. Indeed, lineage-specific genes were significantly enriched in specific taxonomic groups. Notable examples include 37 Pfam protein families within the Bacillus_A genus, and 19 Pfam protein families within the Actinobacteria that are largely composed of proteins of unknown function. We also observed an overrepresentation of lineage-specific gene families in numerous well-studied pathogens (e.g. Bordetella, Helicobacter, Legionella und Vibrio) ( Supplementary Figures S5–S7 Supplementary Data File S1 ). This is in part due to the presence of lineage-specific virulence factors and toxins, but is also likely influenced by annotation bias towards organisms of biomedical interest ( 36).

Gene families with patchy distributions

Although 60–68% of functional annotations show a significant phylogenetic signal when mapped onto the tree, more surprising are the remaining 30–40% that show more random phylogenetic distributions, potentially reflecting the widespread horizontal transfer and/or frequent gene gain/loss that is known to occur in bacterial genomes ( 37, 38). To investigate this further, we ranked all Pfam and KEGG annotations according to their phylogenetic patchiness, determined by homoplasy score (total number of gains and losses by parsimony) normalized by gene family size after filtering out traits with family size <50 ( Supplementary Data File S2 , see Materials and Methods ). Next, we grouped KO terms into their higher-level functional categories for visual comparison of broader trends (Figure 3, Supplementary Data File S3 ). Not surprisingly, ‘viral’ (bacteriophage) genes ranked the highest in homoplasy in both Pfam and KEGG annotations, and therefore are the single most phylogenetically scattered class of genes in bacteria. In contrast, gene functions with extremely low homoplasy include sporulation, photosynthesis, and core processes such as transcription, replication and protein synthesis (Figure 3). Highly scattered genes showed significant overrepresentation among specific taxonomic groups such as the genera Pseudomonas_E, Streptomyces, und Mykobakterium ( Supplementary Data Files S4 and S5 ), suggesting that these taxa may be taxonomic ‘hotspots’ of HGT.

Phylogenetic patchiness of annotations inferred using AnnoTree. Phylogenetic patchiness was computed for each KEGG KO identifier and Pfam protein family using the consistency index (CI), a common homoplasy metric representing the inverse of the minimum possible number of state changes (trait gain or loss) given the tree topology. The final phylogenetic patchiness score is equal to -log(CI)/log(family size) where family size is the total number of genomes containing the trait. (EIN) Density plot showing the distribution of phylogenetic patchiness scores of Pfam protein families and KO identifiers with different visual examples of varying patchiness (red = present gray = absent). The phylogenetic distribution plots are, from left to right: K10922 (transmembrane regulatory protein ToxS), K18955 (WhiB transcriptional regulator), PF01848 (ATP12 chaperone), PF01848 (Hok/Sok antitoxin system), and K07495 (putative transposase). (B) Mean-sorted box plots containing phylogenetic patchiness scores of KO identifiers in their respective KEGG pathways and KEGG BRITE categories. The mean patchiness score of a set of KO identifiers in a KEGG pathway or KEGG BRITE category is indicated by a black line.

Phylogenetic patchiness of annotations inferred using AnnoTree. Phylogenetic patchiness was computed for each KEGG KO identifier and Pfam protein family using the consistency index (CI), a common homoplasy metric representing the inverse of the minimum possible number of state changes (trait gain or loss) given the tree topology. The final phylogenetic patchiness score is equal to -log(CI)/log(family size) where family size is the total number of genomes containing the trait. (EIN) Density plot showing the distribution of phylogenetic patchiness scores of Pfam protein families and KO identifiers with different visual examples of varying patchiness (red = present gray = absent). The phylogenetic distribution plots are, from left to right: K10922 (transmembrane regulatory protein ToxS), K18955 (WhiB transcriptional regulator), PF01848 (ATP12 chaperone), PF01848 (Hok/Sok antitoxin system), and K07495 (putative transposase). (B) Mean-sorted box plots containing phylogenetic patchiness scores of KO identifiers in their respective KEGG pathways and KEGG BRITE categories. The mean patchiness score of a set of KO identifiers in a KEGG pathway or KEGG BRITE category is indicated by a black line.

We then examined in more detail the top 100 gene families that showed the most scattered distributions across the bacterial tree. Not surprisingly, this list of gene families is dominated by transposases, CRISPR- and bacteriophage-associated gene families ( Supplementary Data File S2 ). Numerous gene families of unknown function were included among the most patchy gene families, but further examination revealed that most of these genes are likely bacteriophage-derived. The extreme phylogenetic patchiness of bacteriophage and CRISPR genes is not only consistent with their known evolutionary dynamics but could also reflect the ongoing ‘arms race’ between these two opposing biological forces (phage infection versus phage defense). Other biologically relevant members of the 1% most highly scattered KO genes include: K19057-K19059 (merC, merD, und merR des mer operon) for mercury resistance K19155 and K19156, components of a toxin-antitoxin system characterized in E coli K15943, K15945, and K16411 for polyketide antibiotic biosynthesis and K19173-K19175 for DNA backbone S-modification (phosphorothioation) ( Supplementary Data File S2 ).

Reductive dehalogenases

As a case study for the hypothesis generation and data mining strengths of AnnoTree, we selected a gene family of significant biological interest that ranked among the top percentile of homoplasy scores: pcpC tetrachloro-p-hydroquinone reductive dehalogenase (K15241) Supplementary Data File S2 ). As key enzymes in bioremediation of chlorinated solvents, there has been extensive characterization of the diversity and phylogenomic distribution of reductive dehalogenases (Rdhs) and organohalide respiring organisms ( 39). Using AnnoTree, we compiled a dataset of Rdh genes and associated taxa using Pfam query PF13486. Our analysis produced a comprehensive dataset of 1,299 putative Rdh genes from 385 genera and 38 phyla ( Supplementary Table S1, Figures S8, S9 ), which not only recapitulates the known diversity of Rdh-associated phyla, but significantly expands it. In comparison, a manually-curated Rdh-specific database contains 264 Rdh genes from only 19 genera and 6 phyla ( 39), less than 15% of the total diversity identified by AnnoTree ( Supplementary Table S1 ). The AnnoTree-derived dataset includes several newly predicted rdh-encoding taxa discovered from metagenome-assembled genomes ( Supplementary Table S2 ), including the candidate phyla KSB1 (4 of 6 genomes, rdh copy number = 1) and UBP10 (7 of 14 genomes, rdh copy number = 1), as well as Rhodospirillales UBA2165 (rdh copy number = 13) and Acidobacterium UBA2161 (rdh copy number = 8) ( Supplementary Figure S9, Table S2 ). The novel organisms with high rdh copy numbers are potential obligate organohalide respirers and may be valuable for remediation efforts. By revealing both known and potentially novel groups of organohalide respiring bacteria, the Rdh case study highlights the ability of AnnoTree to capture a broad and complete taxonomic diversity of a gene family, with accompanying hypothesis generation around the evolution and ecology of a function of interest.


On Multiple Trees

TreeJuxtaposer: Scalable Tree Comparison using Focus+Context with Guaranteed Visibility. Tamara Munzner, François Guimbretière, Serdar Tasiran, Li Zhang, Yunhong Zhou. "MunzerComparingTrees.pdf"

The Challenge of Visualising Multiple Overlapping Classification Hierarchies. Martin Graham, Jessie B Kennedy and Chris Hand. "UIDIS"

A Comparison of Set-Based and Graph-Based Visualisations of Overlapping Classification Hierarchies. Martin Graham, Jessie B Kennedy, Chris Hand. ACM 2000. "p41-graham.pdf"

Pullan, M.R., Watson, M.F., Kennedy, J.B., Raguenaud, C. & Hyam, R.: The Prometheus Taxonomic Model: a practical approach to representing multiple classifications. - Taxon 49: 55-75. 2000. "Pullan00Taxon.pdf"

Visualising Multiple Overlapping Classification Hierarchies. PhD. Thesis. Martin James Graham. Napier University, December 2001 "GrahamThesisFinal.pdf"


Conclusion: synthesizing tree-reading frameworks

Our review shows that there are some well-elaborated works on tree-reading skills that thus far have not explicitly referred to each other. The two major systems show different approaches: Halverson and Friedrichsen (2013) consider the total spectrum of learners’ progress in handling evolutionary trees, from absolute novices to longtime experts, in a hierarchical structure. Novick and Catley (2016) use a smaller-scale approach, describing task-oriented skills needed for fully understanding tree-reading. Novick and Catley’s task-oriented system seems suitable for easily generating learning assignments, while Halverson and Friedrichsen’s system seems to constitute a good basis for structuring a complete process of learning by starting to dismantle common misconceptions and then improving skills with increasing difficulty in ordered sequence. The skills proposed by other authors substantiate several skills or skill levels in the skill systems.

In general, our literature overview shows that multiple groups have worked on modeling tree-reading skills, and some major advancements have been made. At the same time, however, it has become clear that there has been no attempt to unify and combine the insights already gained. Publications show only few cross-references to works on tree-reading skills by other authors, leading to mainly singular, not explicitly interlinked approaches. Furthermore, research on tree-thinking skills so far has focused on deducing skills or systems from theory, observation, or experience, and there has been no major attempt to empirically verify the proclaimed models.

Based on the works published on tree-thinking skills (Halverson and Friedrichsen 2013 Novick and Catley 2016) and on skills published by other authors (Blacquiere and Hoese 2016 Meir et al. 2007), we wish to present a proposal for a synthetic hierarchical system of tree-reading skills consisting of six skill levels. This system could at this point be seen as an example of how such a synthesis might look, as it is the result of a theoretical approach drawing together the previous works of different authors.

The hierarchical nature of this system largely follows the hierarchy of Halverson and Friedrichsen’s system (2013), although one minor adjustment of the order has been made, as explained below. The structure of the proposed system, along with the allocation of the proposed skill levels to published skill systems, is also explained below, as well as presented in Table 1 in the form of major ideas.

The hierarchy starts at skill level zero (“naïve handling”). Students at this level are not able to analyze a tree correctly, nor do they know the symbolic meaning of the different components of the tree. Interpretations of a given tree are largely based on one or more learners’ misconceptions and tend to over-interpret uninformative facets of a tree diagram over others. This level corresponds to the first three skills of Halverson and Friedrichsen, which are all characterized by fragmented knowledge of evolutionary trees (Halverson and Friedrichsen 2013).

Skill level one (“identifying structures”) represents the ability to identify and interpret the meaning of diagrammatic elements of the representation. This includes knowledge of the meaning of nodes, branches, labels, and the direction of time, but also slightly more elaborate knowledge, like the positions of MRCAs in the tree. This level corresponds with Halverson and Friedrichsen’s level four (“symbolic use of the representation”), where the students have knowledge of the meaning and importance of diagrammatic features but cannot interpret the diagram any further (Halverson and Friedrichsen 2013).

The second skill level (“handling apomorphies”) encompasses the ability to interpret traits labeled in a tree. This includes tasks in both directions, naming all traits that a taxon shows and listing all taxa that show certain traits. This skill can only be utilized if the given tree shows traits or apomorphies by any representational means (e.g., pictorial or textual, along the lines, with reference markings, etc.). The basis for this skill level is the combination of several skills proposed by Novick and Catley (2016), all of which focus on identifying and interpreting labelled apomorphies [(A) “identify characters,” (B) “identify taxa,” (H) “evolutionary sequence,” and (I) “convergent evolution”]. In Halverson and Friedrichsen’s model, handling apomorphies is part of the extensive skill level (6). It was separated into a distinct skill level, as many evolutionary trees do not show apomorphies, so handling apomorphies is not a skill generally needed to understand every tree, but it can greatly improve the handling of a tree if apomorphies are present (Catley et al. 2010 Novick et al. 2010).

The third skill level (“identifying relationships”) describes the core tasks of tree-reading. This skill covers all tasks that answer questions about the relative relationships of different species and the formation of clades in a given tree. Typical questions at this level are “Which group is the closest relative to group X?”, “Is group X more closely related to group Y than to group Z?”, and “Which groups form a clade with groups X, Y, and Z?” This level corresponds to four of the skills of Novick and Catley (2016) [(C) “identify/evaluate clades,” (D) “identify nested clades,” (E) “evolutionary relationship: resolved structure,” and (F) “evolutionary relationship: polytomy”] and to skill level six of Halverson and Friedrichsen. It consists of a set of skills pertaining to evaluating monophyletic groups and relative evolutionary relationships.

The fourth skill level (“comparing trees”) incorporates the ability to mentally rotate branches in a tree, to analyze subtrees, and to decide whether given trees show the same or different relationships. The same applies to comparing different representational styles (e.g., rectangular, circular, and diagonal trees). This level corresponds to two skills identified by Novick and Catley [(K) “rotation” and (J) “subset of the ToL”] and to Halverson and Friedrichsen’s skill level five (“conceptual use of representation”). At this point, we diverged from Halverson and Friedrichsen’s skill hierarchy, as this skill does not refer merely to the knowledge that trees can be rotated around nodes, but to the more complex task of reasoning about relationships with different subsets and the appearance of a tree. Furthermore, analyzing and comparing multiple evolutionary trees requires the formation of multiple complex mental models (Hochpöchler et al. 2013). Comparing two trees requires the learner to process many more graphical elements at the same time than when evaluating the relative relationships of a number of species (Kim et al. 2000). Thus, this skill necessitates the ability to evaluate evolutionary relationships in a very complex and demanding way and has to follow skill level four. The understanding that trees can come in different formats but are informationally equivalent can be found in skill level six of Halverson and Friedrichsen’s system. This is also an aspect of our fourth skill level. Therefore, we deviated from the hierarchy of Halverson and Friedrichsen in this respect.

The fifth and final level (“arguing and inferring”) aims at going beyond the given information in the representation. It covers the ability to form conclusions and predictions based on the phylogeny, which may extend to taxa or traits not presented. It is based on Halverson and Friedrichsen’s level seven (“expert use of representation”) and represents the ability to interpret evolutionary trees in a deeper way than students are normally able to. Depicted information is used to form inferences and arguments that go beyond the presented information. This includes forming new mental models of composite trees, solving complex phylogenetic problems, and deciding which tree formats are best suited to different means of representation. The resulting skill levels, together with an explanation of the levels and the corresponding skills by other authors, can be seen in Table 3.


Tree Thinking

Abstract diagrams are critically important in most, if not all, science disciplines (Novick, 2006). In biology, hierarchical diagrams are especially common. Since 2004, I have been investigating college and high school students’ understanding of cladograms, the most important tool that contemporary scientists use to reason about evolutionary relationships. Most of this research has been conducted in collaboration with Kefyn Catley, an evolutionary biologist and science educator at Western Carolina University.

A cladogram is a type of hierarchical diagram that depicts hypotheses about nested sets of taxa that are supported by shared, evolutionarily novel characters called synapomorphies. For example, the cladogram shown at the top of the page indicates that one synapomorphy for birds and alligators is that they both possess a gizzard. That is, birds and alligators share a most recent common ancestor (MRCA) that evolved the novel character of possessing a gizzard. A group of taxa consisting of the MRCA and all descendants of that ancestor is called a Klade oder monophyletic group. Thus, birds and alligators comprise a clade (in the cladogram shown above). Because of the nesting inherent in hierarchical diagrams, birds, alligators, and lizards also comprise a clade. And those three taxa plus mammals (represented by manatees and elephants in the cladogram above) constitute another clade, etc. The synapomorphy supporting the bird/alligator clade distinguishes the MRCA of birds and alligators from the earlier ancestor common to birds, alligators, and lizards. And the synapomorphy supporting the bird/alligator/lizard clade (see UV light) distinguishes the MRCA of those three taxa from the earlier ancestor common to birds, alligators, lizards, and mammals. The latter ancestor evolved the novel character of having an amniotic egg, a critical development in the history of life on Earth that enabled vertebrates possessing this character to complete their life cycles on land.

Biologists use the tool of phylogenetics along with its product, the cladogram, to study macroevolution, the subdiscipline of biology that synthesizes events of Earth history and deep time (the well-established theory that Earth is billions of years old) with mechanisms that generate and maintain the biodiversity of our planet. Macroevolutionary processes operate at the level of species and above, resulting in the formation, radiation, and extinction of higher groups of taxa. Macroevolution explains, for example, both the origin and radiation of mammalian taxa. In contrast, microevolution concerns processes that occur at the level of the organism (i.e., genome, individual, and population). Microevolution explains, for example, the appearance of antibiotic-resistant strains of bacteria.

Cladograms are the most important tool used by evolutionary biologists because they document and organize existing knowledge about the properties of species and higher-order taxa. Tree thinking is the ability to understand and reason with evolutionary relationships depicted in cladograms (phylogenetic trees). The power of tree thinking is that the resulting classification scheme­—for example that alligators are more closely related to birds than to lizards because of their shared MRCA—reflects current understanding of the history of life on Earth (i.e., the evolutionary relationships among taxa). Thus, inferences based on this classification scheme are likely to be more informative and to have greater practical value than inferences based on other criteria. For example, inferring which antivenin to use to counteract the bite of a venomous king brown snake based on its close evolutionary relationship to the red-bellied black snake is more likely to lead to a successful outcome (namely, survival!) than is basing the choice of antivenin on the king brown snake’s similar appearance to the western brown snake.

Summary of My Research

Überblick.My research on tree thinking falls into three broad categories: (a) Influences of diagram design on interpretations of evolutionary relationships, (b) assessing and improving students’ tree-thinking skills, and (c) effects of prior knowledge about taxonomic relationships on tree thinking. The studies of diagram design are based primarily in cognitive and perceptual psychology, with strong implications for education. The instructional studies are rooted in science education while being informed by cognitive psychology. The studies of prior knowledge reflect a more even mix of psychological and educational foundations. All studies are informed by expert knowledge of evolutionary biology. This research has used a variety of different kinds of tasks, including those that require diagram comprehension, translation from one diagram format to another, and inference. Measures of performance include accuracy, types of errors made, written explanations (evidence cited) in support of one’s responses, and patterns of eye movements.

Influences of diagram design on interpretations of evolutionary relationships. Consistent with a large cognitive psychological literature on diagram comprehension, we would expect students’ interpretations of Tree-of-Life diagrams to be influenced by how those diagrams are designed. Thus, one major focus of my research program has been to discover how diagram design affects students’ interpretations of a variety of different types of Tree-of-Life representations.

One exciting project compared students’ ability to extract the hierarchical structure from cladograms depicted in different ways. Cladograms are typically drawn in one of two formats: rectangular trees (left diagram in the figure below) and diagonal ladders (right diagram in the figure below). In an analysis of the cladograms printed in a professional journal, Novick and Catley (2007) found that rectangular trees are by far the preferred format among evolutionary biologists: 83% vs. 17%. In high school and biology textbooks, however, the diagonal format was found to occur slightly more often than the rectangular format: 59% vs. 41% for high school biology texts and 54% vs. 46% for college texts (Catley & Novick, 2008).

Rectangular tree (left) and diagonal ladder (right) cladogram formats.

In several studies (Novick & Catley, 2007, 2013), we found that students had difficulty understanding and reasoning from the diagonal cladogram format and that this difficulty stems from the Gestalt principle of good continuation, which works to conceal the critical information about hierarchical levels in this format. One implication of these results is that if some method can be found to break good continuation at the appropriate points along the continuous lines, students’ ability to correctly extract the hierarchical structure of diagonal cladograms should improve. Consistent with this prediction, we found that adding a synapomorphy to mark each branching point in diagonal cladograms greatly improved students’ ability to translate those cladograms to the rectangular format (Novick, Catley, & Funk, 2010). In a final study in this line of research, we found that biology students preferentially scan diagonal cladograms from left to right, following their highly practiced directional pattern for reading written text, and that they prefer to scan along the main diagonal line at the base of the cladogram (Novick, Stull, & Catley, 2012). This impairs their ability to uncover the correct pattern of nesting in diagonal cladograms as those cladograms are typically drawn in textbooks and the biology literature (see above figure).

I am excited to report that based on our research, many textbooks for introductory biology, evolution, and zoology classes have changed from depicting cladograms in the diagonal to the rectangular format to improve student comprehension and learning. Introductory biology textbooks alone reach approximately 800,000 students every year.

My current research is examining the importance of another Gestalt grouping principle in influencing students’ interpretations of the evolutionary relationships depicted in cladograms. I have recently come to believe that the fundamental difficulty students need to overcome to acquire expertise in tree thinking is to understand that any specific evolutionary tree is a subset of the complete, unimaginably large Tree of Life. My prior research with Kefyn Catley suggests that students instead reify the particular groupings they see and fail to appreciate that these groupings are largely an artifact of the specific taxa that happen to be included in the particular tree under consideration. This reification of particular groupings occurs, I believe, because of the Gestalt principles of grouping, which are part of the foundation of human perception. I am pursuing this new line of research in collaboration with Linda Fuselier, an evolutionary biologist at the University of Louisville. We are examining the role of the Gestalt principle of connectedness in determining students’ interpretations of the relationships depicted in rectangular format cladograms. By testing students enrolled in biology classes at different levels (e.g., introductory biology for majors and nonmajors vs. more advanced classes), we will be able to discern the extent to which reliance on Gestalt grouping versus most recent common ancestry changes as a function of biological expertise.

Assessing and improving students’ tree-thinking skills. As documented in three recent publications (Novick & Catley, 2016, 2017 Novick, Catley, & Schreiber, 2014), using the knowledge we gained from our extensive research on tree thinking, Kefyn Catley and I set out to create, implement, and test a research-based tree-thinking curriculum and assessment instrument. Our efforts were very successful with students from a wide variety of biology backgrounds, ranging from little or no biology coursework in college to extensive biology coursework consistent with being a senior biology major. Over three connected and iterative studies, we were able to show that direct instruction produced skills that transferred to regular classroom practices and lab settings and appeared to enhance student understanding of macroevolutionary patterns and processes. Some of the instructional materials we developed are available for download here and from the lessons and resources for teachers section of the Understanding Evolution web site maintained by the University of California Museum of Paleontology.

Effects of prior knowledge about taxonomic relationships on tree thinking. A third focus of my research program concerns students’ folkbiological knowledge about taxonomic relationships among living things and the impact of such knowledge on their ability to engage in tree thinking. Students’ folkbiological knowledge often conflicts with well-established scientific taxonomy. For example, although students (even after an introductory biology course for majors) group lizards together with frogs in the folkbiological category of reptiles and amphibians, lizards are in fact more closely related to mammals because those taxa share a MRCA that evolved the novel character of possessing an amniotic egg (see the cladogram at the top of this page).

In one project (Novick & Catley, 2014), I examined how college and high school students responded when their prior knowledge conflicted with the evolutionary information provided in rectangular format cladograms. In two studies, college and high school students received matched pairs of cladograms that depicted an identical pattern of relationships among either familiar or unfamiliar taxa. When the taxa were familiar, the cladograms showed (correct) relationships that conflicted with students’ prior knowledge. For example, one such cladogram showed that mushrooms are more closely related to animals than to plants, contradicting folkbiological taxonomy that mushrooms are plants. Students answered evolutionary relationship questions about both cladograms in each matched pair. For both student groups, accuracy was higher when the cladograms depicted relationships among unfamiliar rather than familiar taxa (i.e., when folkbiological knowledge was not available to contradict the scientific information presented).

An additional study reported in Novick and Catley (2014) examined college students’ willingness to include birds in the reptile category, where they belong, as a function of the strength of the supporting evidence. Even with salient visual evidence in the cladogram supporting this grouping, approximately half the students resisted this classification. On the positive side, students did at least choose a coherent definition of reptiles. For example, when they excluded birds from the category, they also excluded crocodiles, to which birds are most closely related. Evidently, the strength of many students’ prior belief that birds are not reptiles is greater than their prior belief that crocodiles are reptiles.

The difficulty of persuading students of the inaccuracy of their prior knowledge may relate in part to the length of time over which their misconceptions have been reinforced. Brenda Phillips, a former postdoctoral fellow in my laboratory, collected some preliminary data on pre-K through 6th grade children’s and college students’ knowledge about the relationships among sets of three familiar taxa (e.g., camels, elephants, and zebras beavers, snakes, and frogs). In several respects, the responses of K-1st grade, 4th-6th grade, and college students were remarkably similar. For example, given the set of beavers, snakes, and frogs, most students in all age groups responded, incorrectly, that snakes and frogs are most closely related. See if you can figure out the age group of the student providing each of the following three explanations for this response: (a) “Both live near/in water and are reptile family members” (b) “They are both not mammals” (c) “They’re both amphibians and can go underwater and stay underwater, and can both go on land. They both like bugs.” [**Answers are at the bottom of this page.]

Research Support

Much of the research described here was supported by the Institute of Education Sciences, U.S. Department of Education, through Grant R305A080621 to Vanderbilt University (Laura R. Novick, PI Kefyn M. Catley, Co-I). The opinions expressed are those of the authors and do not represent views of the Institute or the U.S. Department of Education. My current research is being supported by a small grant from Peabody College of Vanderbilt University.

Instructional Materials Available for Download

As part of the above-mentioned IES grant, Kefyn Catley and I developed a variety of instructional materials for teaching tree thinking to undergraduates. Some of these materials are available for download here, as well as from the lessons and resources for teachers section of the Understanding Evolution web site maintained by the University of California Museum of Paleontology.

** (a) Vanderbilt student, (b) kindergarten or first grade student, (c) 4th-6th grade student.


Schlussfolgerungen

Munzner and colleagues have demonstrated the advantage of using hierarchical data viewers enhanced with a 3D hyperbolic view over conventional 2D based viewers for efficiency of deciphering tree-based information [18]. While the 3D hyperbolic visualization of phylogenetic trees will not fully supplant 2D viewers, it can serve as an additional module to augment other visualization components. In the future, a phylogenetic tree visualization tool that integrates several visualization components in a similar way to the XML3D tool used by Risden et al. [18] would be desirable. The Walrus viewer and the conversion tool are a step towards this goal.