Information

12.6: Struktur phylogenetischer Bäume - Biologie

12.6: Struktur phylogenetischer Bäume - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Lernerfolge

Unterscheiden Sie zwischen Arten von phylogenetischen Bäumen und was uns ihre Strukturen sagen

EIN Stammbaum kann wie eine Karte der Evolutionsgeschichte gelesen werden. Viele phylogenetische Bäume haben eine einzige Abstammungslinie an der Basis, die einen gemeinsamen Vorfahren darstellt. Wissenschaftler nennen solche Bäume verwurzelt, was bedeutet, dass es eine einzige Ahnenlinie gibt (normalerweise von unten oder links gezeichnet), auf die sich alle im Diagramm dargestellten Organismen beziehen. Beachten Sie im verwurzelten phylogenetischen Baum, dass die drei Domänen – Bakterien, Archaea und Eukarya – von einem einzigen Punkt abweichen und sich verzweigen. Der kleine Zweig, den Pflanzen und Tiere (einschließlich Menschen) in diesem Diagramm einnehmen, zeigt, wie jung und winzig diese Gruppen im Vergleich zu anderen Organismen sind. Unbewurzelte Bäume weisen keinen gemeinsamen Vorfahren auf, zeigen jedoch Verwandtschaftsbeziehungen zwischen den Arten.

In einem verwurzelten Baum weist die Verzweigung auf evolutionäre Beziehungen hin (Abbildung 2). Der Punkt, an dem eine Spaltung auftritt, genannt a Verzweigungspunkt, repräsentiert, wo sich eine einzelne Linie zu einer eigenständigen neuen entwickelt hat. Eine Abstammungslinie, die sich früh aus der Wurzel entwickelt hat und unverzweigt bleibt, wird als bezeichnet Basaltaxon. Wenn zwei Abstammungslinien von demselben Verzweigungspunkt abstammen, heißen sie Schwestertaxa. Ein Zweig mit mehr als zwei Abstammungslinien heißt a Polytomie und dient der Veranschaulichung, wo Wissenschaftler nicht alle Zusammenhänge endgültig bestimmt haben. Es ist wichtig zu beachten, dass, obwohl Schwestertaxa und Polytomie einen Vorfahren haben, dies nicht bedeutet, dass sich die Gruppen von Organismen voneinander getrennt oder entwickelt haben. Organismen in zwei Taxa können sich an einem bestimmten Verzweigungspunkt gespalten haben, aber keines der Taxa hat das andere hervorgebracht.

Die obigen Diagramme können als Weg zum Verständnis der Evolutionsgeschichte dienen. Der Weg kann vom Ursprung des Lebens bis zu jeder einzelnen Spezies verfolgt werden, indem man durch die evolutionären Zweige zwischen den beiden Punkten navigiert. Wenn man mit einer einzigen Art beginnt und bis zum „Stamm“ des Baumes zurückverfolgt, kann man auch die Vorfahren dieser Art entdecken und feststellen, wo Linien eine gemeinsame Abstammung haben. Darüber hinaus können mit dem Baum ganze Organismengruppen untersucht werden.

Viele Disziplinen innerhalb des Studiums der Biologie tragen dazu bei, zu verstehen, wie sich das vergangene und gegenwärtige Leben im Laufe der Zeit entwickelt hat; diese Disziplinen tragen zusammen dazu bei, den „Baum des Lebens“ aufzubauen, zu aktualisieren und zu erhalten. Informationen werden verwendet, um Organismen basierend auf evolutionären Beziehungen in einem wissenschaftlichen Gebiet namens Systematik zu organisieren und zu klassifizieren. Daten können von Fossilien, von der Untersuchung der Struktur von Körperteilen oder Molekülen, die von einem Organismus verwendet werden, und von DNA-Analysen gesammelt werden. Durch die Kombination von Daten aus vielen Quellen können Wissenschaftler die Phylogenie eines Organismus zusammenstellen; Da phylogenetische Bäume Hypothesen sind, werden sie sich weiter verändern, wenn neue Lebensformen entdeckt und neue Informationen gewonnen werden.

Video-Rezension

Einen Link zu einem interaktiven Element finden Sie am Ende dieser Seite.


Das Puzzle unserer afrikanischen Vorfahren: ungelöst oder unlösbar?

Eine überarbeitete Wurzel für die Phylogenie des Y-Chromosoms fragmentiert das Bild der modernen menschlichen Ursprünge, das aus genetischen, linguistischen und archäologischen Daten rekonstruiert werden kann, weiter.

'Woher kommen wir?' 'Wann lebten die ersten Menschen?' "Anscheinend sollen wir alle Afrikaner sein, wie ist das möglich?" Dies sind einige der Fragen, die sich Menschen stellen und auf die eine Vielzahl von Forschern der Anthropologie, Archäologie und Genetik vernünftige Antworten zu geben versuchen. Die Veröffentlichung einer überarbeiteten Wurzel für die Y-Chromosomen-Phylogenie durch Scozzari und Kollegen [1] liefert nun neue genetische Beweise zur Datierung und geographischen Herkunft des Menschen in der Frühen Neuzeit.

Ja, wir kommen alle aus Afrika, genauer gesagt, die Vorfahren aller modernen Menschen lebten südlich der Sahara, wahrscheinlich vor etwa 200.000 Jahren (kya). Diese Schlussfolgerung wird durch mehrere Ansätze gestützt, unter denen die Erforschung der modernen genetischen Variation des Menschen eine wichtige Rolle gespielt hat. Ein wichtiges Ergebnis ist, dass unter globalen Proben die höchste DNA-Diversität unter afrikanischen Populationen gefunden wird und diese Diversität mit der Migrationsentfernung von Afrika abnimmt. Darüber hinaus werden bei der Konstruktion von „Genbäumen“ aus Sequenzvarianten bestimmter Loci in den meisten Fällen die frühesten Zweige in afrikanischen Populationen gefunden.

Innerhalb des großen Kontinents Afrika sind die Details jedoch viel weniger klar. Gab es nur eine Ahnenpopulation, die sich aus einem bestimmten Gebiet ausbreitete? Wenn ja, wo war es? Wie groß war seine Größe? Wer sich mit der afrikanischen Vorgeschichte beschäftigt, weiß, dass Antworten auf diese Fragen viel schwieriger zu finden sind: Es handelt sich um ein komplexes Puzzle, bei dem das endgültige Bild und die Anzahl der Teile noch unbekannt sind.


Resultate und Diskussionen

Es besteht daher ein Bedarf an alternativen Bewertungsverfahren, die sich nicht auf strukturelle Informationen stützen, während sie auf eine große und repräsentative Stichprobe echter biologischer Daten anwendbar sind. In dieser Arbeit schlagen wir zwei solcher Tests vor. Anschließend zeigen wir, wie sie Antworten auf drei der wichtigsten offenen Fragen zum Sequenz-Alignment für phylogenetische Inferenz bieten: (i) Welcher Alignment-Ansatz führt zu den genauesten Bäumen? (ii) Sind Lückenregionen für die phylogenetische Inferenz informativ oder sollten sie ignoriert werden? (iii) Wie wirkt sich die Ausrichtungsunsicherheit auf die Bauminferenz aus?

Phylogenie-basierte Tests der Ausrichtungsgenauigkeit

Das Prinzip der phylogenetischen Tests der Ausrichtungsgenauigkeit ist einfach: Je genauer die resultierenden Bäume, desto genauer werden die Ausrichtungen (im Sinne des Homologie-Matchings) angenommen. Daher können wir die Baumgenauigkeit als Surrogat für die Ausrichtungsgenauigkeit verwenden. Der erste von uns vorgeschlagene phylogenetische Test („Spezies-Baum-Diskordanz“) vergleicht Ausrichtungen orthologer Gene von Arten, deren Phylogenie geklärt und unbestritten ist (Abbildung 1). Nach Fitchs Definition der Orthologie [20] wird erwartet, dass Bäume, die aus Orthologen abgeleitet wurden, dieselbe Topologie wie die zugrunde liegende Art haben. Wenn also alles andere konstant gehalten wird, ist es wahrscheinlich genauer, wenn eine bestimmte Methode Ausrichtungen erzeugt, die häufiger zu Bäumen führen, die mit der Phylogenie der Art übereinstimmen. Eine ähnliche Idee wurde zuvor im Rahmen des Modellvergleichs [21] und der Verifikation der Orthologie [22] verwendet. Der zweite Test ('minimale Duplikation') nimmt homologe Sequenzen als Eingabe und verwendet ein Sparsamkeitsargument anstelle von Wissen über die Phylogenie der Art: Wenn man alles andere konstant hält, ist der Genbaum mit der geringsten Anzahl von Duplikationsknoten am wahrscheinlichsten (Abbildung 1, [23–25]). Wenn daher ein Sequenz-Alignment-Verfahren zu Baumtopologien mit durchweg weniger Duplikationen führt, ist es wahrscheinlich, dass es bessere Alignments erzeugt. Bei einem gegebenen Baum kann eine konservative Schätzung der Anzahl von Duplikationsereignissen unter Verwendung des Konzepts der Artenüberlappung erhalten werden [26]. Indem praktisch jede Genfamilie als Input akzeptiert wird, können die beiden Tests an Sequenzen durchgeführt werden, die für eine gegebene biologische Studie relevant sind. Beachten Sie außerdem, dass die Tests konstruktionsbedingt robust gegenüber Fehlerquellen sind, die im Durchschnitt alle Alignment-Methoden gleichermaßen betreffen, wie z. B. stochastische Fehler bei der Bauminferenz, laterale Gentransfers oder die Wahl des Evolutionsmodells. Obwohl beispielsweise die Sparsamkeitsannahme gelegentlich die wahre Anzahl duplizierter Gene unterschätzt (z .

Schema der stammesgeschichtlichen Prüfung der Ausrichtungsgenauigkeit. Beide Tests basieren auf groß angelegten Genomdaten: (ein) Der Spezies-Baum-Diskordanztest untersucht Sets von Orthologen, die von OMA bei Spezies mit einer gut akzeptierten Phylogenie abgeleitet wurden (Zusatzdatei 1, Abbildung S1). Jede Probe wird von den verschiedenen Paketen ausgerichtet. Die resultierenden Ausrichtungen werden bewertet, indem Bäume daraus rekonstruiert und mit der Referenztopologie verglichen werden. Wenn alles andere gleich ist, zeigen Bäume aus besseren Alignment-Paketen eine höhere durchschnittliche Kongruenz mit der Referenztopologie. (B) Der Mindestduplizierungstest folgt einer ähnlichen Idee, unterscheidet sich jedoch in zweierlei Hinsicht vom ersten Test. Erstens sampelt es Sätze von Homologen und nicht die spezifischeren Orthologe. Zweitens basiert die Bewertung eher auf einem sparsamen Argument als auf dem Wissen über die Phylogenie der Art: Bei ansonsten gleichen Bedingungen sind Ausrichtungen, die Bäume mit durchschnittlich weniger Duplikationsknoten ergeben, genauer.

Bewertung von Ausrichtungsmethoden

Um die Frage der Ausrichtungsgenauigkeit zu beantworten, haben wir die Tests zur Bewertung von 13 MSA-Softwarepaketen verwendet, die grob in drei Ausrichtungsbewertungsstrategien eingeteilt werden können: Scoring-Matrix-basiert Mafft FFT-NS-2, Muskel, Clustal W2, DiAlign/-T/-TX, Kalign [6, 27–33] Konsistenz-basiert Mafft L-INS-i, T-Kaffee, Mütter, ProbCons, ProbAlign [27, 28, 34–37] und Baum-bewusste-Lücken-Platzierung Streich [38]. Wir haben die Alignment-Software sowohl auf Aminosäure- als auch auf Nukleotiddaten getestet, mit Ausnahme von Mummals und ProbCons, die nur auf Aminosäuredaten laufen. Für den Spezies-Baum-Diskordanztest haben wir aus 57 eukaryotischen, 11 pilzlichen und 418 bakteriellen Genomen Sets von 6 Orthologen gemäß OMA [39] entnommen, unter der Bedingung, dass die Verzweigungsreihenfolge der in jedem Set vertretenen Spezies gut ist. akzeptiert (Zusatzdatei 1, Abbildung S1). Für den minimalen Duplikationstest haben wir Gruppen von bis zu 60 Homologen aus 18 Metazoen- und 18 Pilzgenomen abgerufen. Bäume wurden durch Maximum Likelihood (ML) sowohl aus Aminosäure- als auch Nukleotid-Alignments rekonstruiert. Um die beiden Arten von Alignments unter demselben evolutionären Modell zu vergleichen, wurden außerdem ML-Bäume aus rückübersetzten Aminosäure-Alignments rekonstruiert, wobei die tatsächlichen Codons aus den entsprechenden Nukleotidsequenzen verwendet wurden. Insgesamt erforderten die Tests über 100.000 Alignments von bis zu 60 Sequenzen, was über 20.000 CPU-Stunden kostete.

Im Allgemeinen beobachteten wir weniger Unterschiede zwischen Programmen zum Alignment von Aminosäuren als zum Alignment von Nukleotiden (Abbildung 2). Bäume aus Nukleotid-Alignments schnitten in praktisch allen Fällen signifikant schlechter ab als Bäume aus rückübersetzten Aminosäure-Alignments. Da der einzige Unterschied zwischen den beiden Baumtypen im Alignment-Prozess liegt, schließen wir, dass die aktuellen Alignment-Pakete Aminosäuren genauer ausrichten als Nukleotide (Zusatzdatei 1, Abbildung S7), wie zuvor in Simulation von [13] beobachtet. In Bezug auf die Alignment-Strategie und im Gegensatz zu den derzeitigen Überzeugungen [3, 4] übertrafen konsistenzbasierte Alignment-Methoden als Klasse ihre auf Bewertungsmatrix basierenden Gegenstücke nicht, waren jedoch bis zu 300-mal langsamer (Abbildung 2, Zusatzdatei 1 , Abbildung S6). Somit führte die zusätzliche Zeit, die von konsistenzbasierten Programmen aufgewendet wurde, nicht unbedingt zu genaueren Bäumen. Darüber hinaus neigten die hier untersuchten konsistenzbasierten Methoden dazu, in verschiedenen Datensätzen ungleichmäßig zu funktionieren, was darauf hindeutet, dass ihre zugrunde liegenden Modelle und/oder Parameter relativ empfindlich auf die Eigenschaften der Eingabedaten reagieren. Die potenzielle Irreführung aktueller Benchmarks wird in den Ergebnissen der verschiedenen DiAlign-Versionen veranschaulicht: Obwohl sowohl simulierte als auch strukturbasierte Referenzausrichtungen darauf hindeuteten, dass sich DiAlign im Laufe der drei hier untersuchten Releases deutlich verbessert hat [32], sind die vorliegenden Tests unterstützen diese Schlussfolgerung nicht. Während in bestimmten Datensätzen signifikante Unterschiede zwischen den Versionen beobachtet werden können, zeigte keine DiAlign-Variante eine überlegene Leistung. Hinsichtlich einzelner Programme konnten bei Aminosäuresequenzen nur geringe Unterschiede beobachtet werden. Dennoch scheint es, dass DiAlign TX und Prank durchweg zu den besten Programmen gehörten (Zusatzdatei 1, Abbildung S6). Bei Nukleotidsequenzen waren die Unterschiede größer. Mafft L-INS-i war das einzige Paket, das durchweg zu den besten in Bezug auf Nukleotiddaten gehörte. Am anderen Ende des Spektrums zeigten T-Coffee, KAlign und DiAlign T eine unterdurchschnittliche Nukleotid-Alignment-Leistung. Insgesamt werden die besten Nukleotid-Alignments durch rückübersetzende Aminosäure-Alignments erhalten, da wir gesehen haben, dass Alignments bei Aminosäuredaten fast ausnahmslos genauer sind.

Vergleich der Ausrichtungsmethoden. Bewertung verschiedener Ausrichtungsmethoden unter Vorgabeparametern mit (ein) die Arten-Baum-Disharmonie und (B) die Mindestvervielfältigungstests für eukaryontische Daten. Konsistenzbasierte Alignment-Methoden verbessern sich nicht gegenüber Scoring-Matrix-basierten Methoden. Die relative Leistung zwischen Alignment-Programmen ist bei Nukleotiddaten variabler als bei Aminosäuredaten. Bei den Aminosäuredaten wurden Mafft-FFT-NS-2, DiAlign TX und Prank bei den Nukleotiddaten nie übertroffen, Mafft L-INS-i (rechte Spalte) wurde nie übertroffen (siehe auch Zusatzdatei 1, Abbildung S6). Durchschnittliche Rechenzeiten (pro Alignment) sind als Dreiecke (Aminosäuren) und Kreise (Nukleotide) aufgetragen. Fehlerbalken entsprechen ± 1 s.d. Signifikante Unterschiede zum besten Alignment-Programm werden mit einem Minus-Symbol an der Basis relevanter Balken angezeigt (Wilcoxon doppelseitiger Test, P < 0,01).

Um das Risiko systematischer Verzerrungen oder unerkannter Faktoren zu begrenzen, wurden diese Beobachtungen durch zwei Arten von Kontrollen bestätigt. Zuerst betrachteten wir die Wirkung der Baumbildungsmethode, die im Testverfahren verwendet wurde. Wir haben die Tests unter einem anderen Evolutionsmodell und unter Verwendung von Bäumen mit kleinsten Quadraten anstelle von ML durchgeführt. Die Ergebnisse waren sehr konsistent (Zusatzdatei 1, Abbildungen S8 und S9, relative Genauigkeit der beiden Methoden korreliert mit 0,90, P < 10 –10 , t-Test). Zweitens haben wir die Abhängigkeit der Ergebnisse von Eigenschaften der Eingabedaten getestet. Wir haben die Tests mit partitionierten Daten neu bewertet und die Korrelationen zwischen der relativen Genauigkeit jeder Partition mit ihren vollständigen Datensätzen geschätzt. Die Daten wurden nach Sequenzlänge segmentiert (Zusatzdatei 1, Abbildung S10, R = 0.62, P < 10 -10 ), Sequenzdivergenz (Zusatzdatei 1, Abbildung S11, R = 0.67, P < 10 -10 ) und Anzahl der Sequenzen (Zusatzdatei 1, Abbildung S12, R = 0.89, P < 10 -10 ). Darüber hinaus haben wir die Ergebnisse verschiedener Abstammungspaare gegenübergestellt (Zusätzliche Datei 1, Abbildung S6, 0.68 <R ≤ 0,94, alle P < 10 –3 ). In allen Fällen gelten unsere obigen Schlussfolgerungen.

Leitbäume machen oder brechen progressive Ausrichtungen

Da allgemein angenommen wird, dass Sequenzeinfügungs- und -löschungsereignisse entlang eines Baums stattfinden, verlassen sich die meisten Aligner auf Führungsbäume, um Alignments zu konstruieren und zu bewerten. Einige von ihnen – in unserem Fall Mafft, Muscle, Clustal W2, T-Coffee und Prank – ermöglichen die Vorgabe des Leitbaums durch den Benutzer. Um ihre Sensitivität für die Baumspezifikation zu untersuchen, haben wir den Arten-Baum-Diskordanztest in zwei Extremfällen durchgeführt: Wir haben entweder einen zufälligen Leitbaum oder den Referenz-Artenbaum als Leitlinie bereitgestellt (Zusatzdatei 1, Abbildung S13). Es überrascht nicht, dass die Eingabebäume kaum Methoden beeinflussten, die ihre Leitbäume iterativ verfeinern (Muscle) oder sich stark auf Konsistenz (T-Coffee) verlassen, eine weitgehend baumunabhängige Zielfunktion. Im Gegensatz dazu waren streng progressive Methoden (Mafft-FFT, Clustal W2, Prank) sehr empfindlich auf den bereitgestellten Leitbaum. Bei solchen Methoden ist die Spezifikation von Leitbäumen ein zweischneidiges Schwert: Vorkenntnisse über die zugrunde liegende Sequenz-Phylogenie können je nach Genauigkeit die resultierenden Alignments entweder verbessern oder verschlechtern. Daher empfehlen wir, wenn der Baum mit hoher Sicherheit bekannt ist, ihn in Verbindung mit Prank oder Mafft zu verwenden. Wenn nicht, könnte man sich fragen, welches Programm die besten Führungsbäume ableitet und ob deren Zuführung zu den anderen Alignern die Ergebnisse insgesamt verbessern könnte. Unsere Ergebnisse legen nahe, dass die besten Leitbäume im Durchschnitt von Prank auf Aminosäuredaten und Mafft auf Nukleotiddaten abgeleitet werden (Zusatzdatei 1, Abbildung S14). Der Unterschied ist jedoch nicht so groß, dass die anderen Alignment-Methoden konsequent von diesen verbesserten Leitbäumen profitieren (Zusatzdatei 1, Abbildung S15).

Lücken tragen erhebliches ungenutztes Baumsignal

Ein bemerkenswerter Vorteil unseres Bewertungsansatzes liegt in seiner Fähigkeit, die Genauigkeit und den phylogenetischen Informationsgehalt von Lückenregionen zu beurteilen. Angesichts der Tatsache, dass strukturelle Ausrichtungen von Natur aus auf Regionen mit konservierter Struktur beschränkt sind, wurden frühere Bewertungen der Genauigkeit der Lückenregionen typischerweise nur mit simulierten Daten durchgeführt (z. B. [40]). Anhand von Simulationen haben Löytynoja und Goldman, die Autoren von Prank, kürzlich argumentiert, dass andere Alignment-Programme weniger phylogenetisch plausible Alignments ableiten [41]. Obwohl konkurrenzfähig, zeigte Prank in den oben beschriebenen Tests jedoch keinen klaren Vorteil gegenüber den anderen Ausrichtungsstrategien, insbesondere angesichts des viel höheren Rechenaufwands (Abbildung 2). Wie sich herausstellt, ist dies hauptsächlich eine Folge der Gap-Behandlung in aktuellen ML-Baumbildungsmethoden: Durch die Modellierung jeder Gap-Position als unbekanntes Merkmal ignorieren sie einen Großteil des phylogenetischen Signals von Gaps. Um das phylogenetische Signal von Lücken zu beurteilen, haben wir unsere Tests mit einer Bauminferenzmethode wiederholt, die nur verwendet Gap-Signale: maximale Sparsamkeit bei binären Gap/No-Gap-Zeichen. Bei Aminosäuredaten zeigen die Ergebnisse unter Verwendung von Gap Parsimony Trees deutlich, dass Prank die anderen Programme in Bezug auf die Gap-Platzierung auf realen biologischen Sequenzen manchmal ziemlich dramatisch übertrifft (Abbildung 3a). Bei den Nukleotiddaten wurde Prank gelegentlich von einer der DiAlign-Varianten übertroffen, zeigte aber insgesamt eine solide Leistung (Zusatzdatei 1, Abbildung S16). Noch wichtiger ist, dass, obwohl Parsimony-Bäume aus Lücken im Durchschnitt viel weniger genau sind als ML-Bäume aus Substitutionen, mit Prank der Unterschied zwischen den beiden beträchtlich verringert wird, insbesondere bei hohen Graden der Sequenzdivergenz (Abbildung 3b). In einem Extremfall (Pilznukleotiddaten, Spezies-Baum-Diskordanztest) übertrafen die Gap-Parsimony-Bäume aus Alignments von Prank die ML-Bäume aus Alignments durch mehrere andere Methoden weitgehend (Zusatzdatei 1, Abbildungen S6 und S16). Die breitere Implikation dieser Ergebnisse ist, dass Lücken ein signifikantes phylogenetisches Signal tragen, eine Information, die derzeit von den meisten Ausrichtungs- und Baumrekonstruktionsprogrammen ignoriert wird (und sicherlich nicht vollständig in dem hier verwendeten vereinfachten Sparsamkeitsansatz ausgenutzt wird). Wir betonen, dass dieses unerwartete Ergebnis nur beobachtet werden konnte, wenn die jüngsten Verbesserungen der Ausrichtung durch Prank, unsere Ausrichtungsbewertungsmethoden und ein Bauminferenzverfahren, das Lückenmuster ausnutzt, kombiniert werden konnten.

Phylogenetisches Signal von Lücken. (ein) Bewertung der Gap-Genauigkeit unter Standardparametern unter Verwendung des Spezies-Baum-Diskordanztests mit Parsimony-Bäumen auf Vorhandensein/Fehlen-Muster von Gap-Charakteren in Aminosäure-Alignments. Durch die Berücksichtigung von Gap-Informationen zeigt dieser Test, dass die Gap-Platzierung von Prank deutlich besser ist als bei anderen Ausrichtungsmethoden. Dies lässt sich weder mit Standard-Baumbildungsmethoden (Abbildung 2) noch mit strukturbasierten Benchmarks beobachten. Fehlerbalken entsprechen ± 1 s.d. Signifikanter Unterschied zu Prank wird mit einem Minussymbol an der Basis relevanter Balken gekennzeichnet (Wilcoxon doppelseitiger Test, P < 0,01). (B) Genauigkeit von Maximum-Likelihood-(ML-)Bäumen bei Aminosäure-Substitutionsmustern im Vergleich zu Sparsamkeit bei binären Lücken-Anwesenheits-/Abwesenheitszeichen, bei Pilzdaten. Das phylogenetische Signal von Lücken, das von Prank abgeleitet wurde, nimmt mit der Divergenz zu. Bei entfernten Sequenzen ist der Anteil der korrekt abgeleiteten Aufspaltungen allein aus Lücken nahe dem von Aminosäuresubstitutionen durch ML. Somit könnten Baumbildungsmethoden bis zu doppelt so viele phylogenetische Signale aus denselben Daten erfassen. Beachten Sie außerdem, dass der hier verwendete grobe Ansatz zur Ableitung der Lückenbäume das Potenzial von Lückenmustern wahrscheinlich unterschätzt.

Ausschluss von Lücken und Schäden durch variable Regionen

Es wurde argumentiert, dass selbst wenn Lückenregionen ein potentielles phylogenetisches Signal tragen, die Einbeziehung dieser Regionen, die normalerweise schwieriger auszurichten sind als konservierte, zu einer Gesamtverringerung des Signal-Rausch-Verhältnisses der Ausrichtungen führt [42]. Und tatsächlich unterstützt auch die allgemeine Empfehlung, „Lücken und mehrdeutige Fundstellen“ in phylogenetischen Analysen auszuschließen, diese Ansicht. Dennoch haben in einigen Fällen Studien zu bestimmten Genfamilien [43, 44] oder mithilfe von Simulationen [18, 45] die gegenteilige Ansicht gestützt. Wir untersuchten dieses Problem, indem wir Bäume, die aus vollständigen Ausrichtungen rekonstruiert wurden, mit denen aus Ausrichtungen ohne Lückenspalten (d. h. ohne Spalten mit Lücken) und vollständigen Ausrichtungen mit von Gblocks kuratierten Ausrichtungen verglichen haben [42]. Standardmäßig identifiziert und entfernt Gblocks sowohl Lückenspalten als auch variable Bereiche. Bei Aminosäure-Alignments hat das Ausschließen von Lückenspalten die Baumgenauigkeit nie verbessert und oft verschlechtert (Abbildung 4, Zusätzliche Datei 1, Abbildungen S18 und S19). Das Entfernen von variablen Regionen zusätzlich zu Lücken, wie es von Gblocks durchgeführt wird, hatte einen starken negativen Einfluss auf die Genauigkeit von Bäumen. Bei Nukleotid-Alignments waren die Effekte in einigen Fällen nicht annähernd so nachteilig, die Filterung half (Zusatzdatei 1, Abbildung S19). Aber denken Sie daran, dass Alignment-Programme fast immer Schwierigkeiten mit Nukleotidsequenzen haben, die besten Bäume wurden aus ungefilterten Aminosäuresequenz-Alignments erhalten. Am auffälligsten an diesen Ergebnissen ist, dass, wie oben erwähnt, die hier verwendeten Standardbaumbildungsverfahren keine Lückenmuster ausnutzen.

Auswirkung des Ausschlusses von Lücken und variablen Regionen. Das Diagramm zeigt die Wirkung der Filterung auf den minimalen Duplikationstest mit rückübersetzten, pilzlichen Aminosäure-Alignments. Das Entfernen von lückenhaften Sites verschlechtert tendenziell die Genauigkeit der induzierten Maximum-Likelihood-Bäume. Das Entfernen von variablen Regionen zusätzlich zu lückenhaften Sites (Gblocks, Standardeinstellungen) verringert die Genauigkeit rekonstruierter Bäume drastisch. Fehlerbalken entsprechen ± 1 s.d. Signifikante Unterschiede zwischen den Ergebnissen von Original- und kuratierten Alignments werden mit einem Minussymbol an der Basis relevanter Balken gekennzeichnet (Wilcoxon doppelseitiger Test, P < 0,01).

Ausrichtungsvariabilität sagt die Baumgenauigkeit schlecht voraus

Wir haben gesehen, dass verschiedene Ausrichtungsprogramme Bäume mit unterschiedlicher Genauigkeit erzeugen können. Aber im breiteren Kontext der Bauminferenz ist die Sequenzausrichtung nicht die einzige Quelle der Baumunsicherheit. Mit „Unsicherheit“ meinen wir die erwartete Addition von systematischem und zufälligem Fehler, d. h. die erwartete Ungenauigkeit. Zum Beispiel beeinflussen die Menge der Eingabedaten (d. h. Sequenzlängen), die Divergenz zwischen Sequenzen, das Evolutionsmodell oder der Baumsuchalgorithmus alle die Genauigkeit rekonstruierter Bäume und das Vertrauen darin. Dies wirft die Frage nach dem relativen Beitrag der Ausrichtungsunsicherheit zur Baumunsicherheit auf. Wong et al. haben kürzlich die Beobachtung quantifiziert, dass unterschiedliche Alignment-Programme oft zu unterschiedlichen Baumtopologien führen [46]. Sie fanden eine Korrelation (Spearman-Rang-Korrelation R S= 0,53) zwischen Alignment-Variabilität (durchschnittlicher Abstand zwischen Alignments aus verschiedenen Methoden) und Baumvariabilität (durchschnittlicher topologischer Abstand zwischen Bäumen, geschätzt aus verschiedenen Alignment-Methoden). Aber eingeschränkt durch einen Mangel an Maß für den Gesamtbaumfehler, konzentrierte sich ihre Analyse nur auf die zufällige Komponente der Baumunsicherheit. Wir nutzten das Baumgenauigkeitsmaß aus dem Spezies-Baum-Diskordanztest, um die Korrelation zwischen Ausrichtungsvariabilität und Baumgenauigkeit abzuschätzen. Interessanterweise deutet die Berücksichtigung sowohl zufälliger als auch systematischer Fehler auf einen schwächeren Zusammenhang zwischen Alignment und Baumqualität hin: Die negative Korrelation zwischen Alignment-Variabilität und Baumgenauigkeit war für Aminosäure- und rückübersetzte Daten gering (Zusatzdatei 1, Abbildung S20, -R S< 0,16, P < 0,01, t-Test). Somit sagt die Alignment-Variabilität wenig über die Gesamtbaumunsicherheit für Aminosäure-Alignments aus. Um die Ergebnisse ins rechte Licht zu rücken, haben wir auch die Korrelation zwischen Bootstrap-Tree-Unterstützung und Baumgenauigkeit geschätzt. Überraschenderweise, obwohl Bootstrap setzt korrekte Ausrichtungen voraus, war es ein durchweg besserer Prädiktor für die Baumgenauigkeit als die Ausrichtungsvariabilität (Zusätzliche Datei 1, Abbildung S20, RS, Bootstrap> -RS, AusrichtungVar, P < 0,006, siehe Methoden). Für Nukleotid-Alignments, von denen oben gezeigt wurde, dass sie oft schlechter waren als Aminosäure-Alignments, fanden wir eine höhere Korrelation zwischen der Alignment-Variabilität und der Baumgenauigkeit als bei den Aminosäure-Gegenstücken. Dennoch war die Ausrichtungsvariabilität nie ein besserer Prädiktor für die Baumgenauigkeit als die Baumunterstützung (Zusatzdatei 1, Abbildung S20). Da die Baumunterstützung normalerweise ohnehin berechnet wird, lässt dies Zweifel an der Nützlichkeit des Versuchs mehrerer Alignment-Methoden zum Zwecke der phylogenetischen Inferenz aufkommen [47]. Wir empfehlen vielmehr, dass Praktiker bei einer genauen Ausrichtungsmethode bleiben, die durch Tests wie die hier vorgestellten identifiziert wird.


Inhalt

Obwohl baumartige Diagramme seit langem verwendet werden, um Wissen zu organisieren, und obwohl verzweigte Diagramme, bekannt als Claves ("Schlüssel") waren in der Naturgeschichte des 18. 1801. [6] Obwohl Augier seinen Stammbaum in eindeutig genealogischen Begriffen diskutierte und obwohl sein Design eindeutig die visuellen Konventionen eines zeitgenössischen Stammbaums nachahmte, enthielt sein Stammbaum keinen evolutionären oder zeitlichen Aspekt. In Übereinstimmung mit Augiers priesterlicher Berufung zeigte der Botanische Baum eher die vollkommene Ordnung der Natur, wie sie von Gott im Moment der Schöpfung eingesetzt wurde. [7]

1809 fügte Augiers bekannterer Landsmann Jean-Baptiste Lamarck (1744–1829), der Augiers „Botanischer Baum“ [8] kannte, ein verzweigtes Diagramm von Tierarten in sein Philosophie Zoologie. [9] Im Gegensatz zu Augier diskutierte Lamarck sein Diagramm jedoch nicht in Bezug auf eine Genealogie oder einen Baum, sondern nannte es stattdessen a Tableau ("Tisch"). [10] Lamarck glaubte an die Transmutation von Lebensformen, aber er glaubte nicht an eine gemeinsame Abstammung, stattdessen glaubte er, dass sich das Leben in parallelen Linien entwickelte, die von einfacher zu komplexer fortschritten. [11]

1840 veröffentlichte der amerikanische Geologe Edward Hitchcock (1793–1864) in seinem Elementare Geologie. [12] Auf der vertikalen Achse sind paläontologische Perioden. Hitchcock hat einen separaten Baum für Pflanzen (links) und Tiere (rechts) erstellt. Die Pflanze und der Tierbaum sind am unteren Rand des Diagramms nicht verbunden. Außerdem beginnt jeder Baum mit mehreren Ursprüngen. Hitchcocks Baum war realistischer als Darwins theoretischer Baum von 1859 (siehe unten), weil Hitchcock echte Namen in seinen Bäumen verwendete. Es stimmt auch, dass Hitchcocks Bäume verzweigte Bäume waren. Sie waren jedoch keine evolutionären Bäume, denn Hitchcock glaubte, dass eine Gottheit der Vermittler der Veränderung sei. Das war ein wichtiger Unterschied zu Darwin.

Die erste Ausgabe von Robert Chambers' Überreste der Naturgeschichte der Schöpfung, die 1844 in England anonym veröffentlicht wurde, enthielt im Kapitel "Hypothese zur Entwicklung des Pflanzen- und Tierreichs" ein baumartiges Diagramm. [13] Es zeigt ein Modell der embryologischen Entwicklung, bei dem Fische (F), Reptilien (R) und Vögel (B) Zweige eines Weges darstellen, der zu Säugetieren (M) führt. Im Text wird dieser Verzweigungsbaum-Gedanke versuchsweise auf die Geschichte des Lebens auf der Erde angewendet: "es kann Verzweigungen geben", [14], aber das Verzweigungsdiagramm wird nicht extra zu diesem Zweck noch einmal angezeigt. [15] Das Bild eines verzweigten Baumes hätte jedoch andere leicht dazu inspirieren können, ihn explizit als Darstellung der Geschichte des Lebens auf der Erde zu verwenden.

1858, ein Jahr vor Darwins Herkunftveröffentlichte der Paläontologe Heinrich Georg Bronn (1800–1862) einen mit Buchstaben beschrifteten hypothetischen Baum. [16] Obwohl er kein Kreationist war, schlug Bronn keinen Änderungsmechanismus vor. [17]

Darwin Bearbeiten

Charles Darwin (1809–1882) benutzte die Metapher des "Baums des Lebens", um seine Evolutionstheorie zu konzeptualisieren. In Zur Entstehung der Arten (1859) präsentierte er ein abstraktes Diagramm eines theoretischen Lebensbaums für Arten einer namenlosen großen Gattung (siehe Abbildung). Auf der horizontalen Grundlinie werden hypothetische Arten innerhalb dieser Gattung mit A – L bezeichnet und sind unregelmäßig beabstandet, um anzuzeigen, wie unterschiedlich sie voneinander sind, und befinden sich in verschiedenen Winkeln über gestrichelten Linien, was darauf hindeutet, dass sie von einem oder mehreren gemeinsamen Vorfahren abgewichen sind. Auf der vertikalen Achse repräsentieren die mit I – XIV bezeichneten Unterteilungen jeweils tausend Generationen. Von A aus zeigen divergierende Linien eine verzweigte Abstammung, die neue Varietäten hervorbringt, von denen einige ausgestorben sind, so dass nach zehntausend Generationen Nachkommen von A zu eigenen neuen Varietäten oder sogar Unterarten a 10 , f 10 und m 10 geworden sind. In ähnlicher Weise haben sich die Nachkommen von I zu den neuen Sorten w 10 und z 10 diversifiziert. Der Prozess wird für weitere viertausend Generationen extrapoliert, so dass aus den Nachkommen von A und I vierzehn neue Arten mit den Bezeichnungen a 14 bis z 14 werden. Während F vierzehntausend Generationen relativ unverändert fortbesteht, sind die Arten B,C,D,E,G,H,K und L ausgestorben. In Darwins eigenen Worten: "So werden die kleinen Unterschiede, die Varietäten derselben Art unterscheiden, stetig zunehmen, bis sie den größeren Unterschieden zwischen Arten derselben Gattung oder sogar verschiedener Gattungen gleichkommen." [18] Dies ist ein Verzweigungsmuster ohne Artennamen, im Gegensatz zu dem mehr linearen Baum, den Ernst Haeckel Jahre später erstellte (Abbildung unten), der die Artennamen enthält und eine linearere Entwicklung von "niederen" zu "höheren" Arten zeigt . In seiner Zusammenfassung des Abschnitts hat Darwin sein Konzept in Bezug auf die Metapher des Lebensbaums formuliert:

Die Affinitäten aller Wesen derselben Klasse wurden manchmal durch einen großen Baum dargestellt. Ich glaube, dieses Gleichnis spricht weitgehend die Wahrheit. Die grünen und knospenden Zweige können existierende Arten darstellen, und diejenigen, die in jedem früheren Jahr produziert wurden, können die lange Abfolge ausgestorbener Arten darstellen. In jeder Wachstumsperiode haben alle wachsenden Zweige versucht, sich nach allen Seiten zu verzweigen und die umliegenden Zweige und Äste zu überragen und zu töten, so wie Arten und Artengruppen versucht haben, andere Arten in der großen Schlacht um den Sieg zu überwältigen Leben. Die in große Äste und diese in immer kleinere Äste geteilten Glieder waren selbst einmal, als der Baum klein war, knospende Zweige, und diese Verbindung der ehemaligen und gegenwärtigen Knospen durch verzweigte Zweige kann wohl die Einteilung aller ausgestorbenen und lebenden Arten darstellen in Gruppen, die Gruppen untergeordnet sind. Von den vielen Zweigen, die blühten, als der Baum nur ein Strauch war, sind nur noch zwei oder drei zu großen Zweigen herangewachsen, die jedoch alle anderen Zweige überdauern und tragen, so wie bei den Arten, die in längst vergangenen geologischen Perioden lebten, nur sehr wenige haben jetzt lebende und modifizierte Nachkommen. Vom ersten Wachstum des Baumes an ist mancher Ast und Ast verrottet und abgefallen, und diese verlorenen Äste unterschiedlicher Größe können jene ganzen Ordnungen, Familien und Gattungen darstellen, die jetzt keine lebenden Vertreter haben und die uns nur aus bekannt sind in einem fossilen Zustand gefunden wurde. So wie wir hier und da einen dünnen, wuchernden Ast tief unten in einem Baum aus einer Gabelung entspringen sehen, der zufällig begünstigt wurde und auf seinem Gipfel noch lebt, so sehen wir gelegentlich ein Tier wie den Ornithorhynchus oder Lepidosiren, der in verbindet durch seine Verwandtschaft zu einem geringen Grade zwei große Lebenszweige, und das anscheinend durch das Bewohnen einer geschützten Station vor tödlicher Konkurrenz bewahrt wurde. Wie Knospen durch Wachstum frische Knospen hervorbringen, und diese, wenn sie kräftig sind, verzweigen sich und überragen nach allen Seiten viele schwächere Zweige, so glaube ich, dass es von Generation zu Generation mit dem großen Baum des Lebens war, der sich mit seinen Toten und Zerbrochenen füllt verzweigt die Erdkruste und bedeckt die Oberfläche mit ihren sich ständig verzweigenden und schönen Verästelungen.

Die Bedeutung und Bedeutung von Darwins Verwendung der Lebensbaum-Metapher wurde von Wissenschaftlern und Gelehrten ausführlich diskutiert. Stephen Jay Gould hat zum Beispiel argumentiert, dass Darwin die oben zitierte berühmte Passage "an einer entscheidenden Stelle in seinem Text" platziert hat, wo sie den Abschluss seines Arguments für die natürliche Auslese markiert, und veranschaulicht sowohl die Verflechtung durch die Abstammung von Organismen als auch ihren Erfolg und Misserfolg in der Geschichte des Lebens. [20] David Penny hat geschrieben, dass Darwin den Lebensbaum nicht verwendet hat, um die Beziehung zwischen Organismengruppen zu beschreiben, sondern um darauf hinzuweisen, dass, wie bei den Zweigen eines lebenden Baumes, Artenlinien miteinander konkurrierten und sich gegenseitig verdrängten. [21] Petter Hellström hat argumentiert, dass Darwin seinen Baum bewusst nach dem biblischen Baum des Lebens benannt hat, wie in Genesis beschrieben, und so seine Theorie auf die religiöse Tradition bezogen. [10]


Betrachten Sie diese phylogenetischen Bäume. der erste Baum basiert auf physikalischen Eigenschaften. der zweite Baum basiert auf Struktur, Genetik und Evolutionsgeschichte. was lässt sich aus einem Vergleich der beiden Stammbäume schließen? A. Stammbäume unterliegen keiner Veränderung. B. Die Klassifizierung kann sich mit neuen Entdeckungen und Beweisen ändern. C. Die Klassifizierung ändert sich nicht mit mehr Beweisen. D. Stammbäume sind ungenau.

Die Klassifizierung für Opossum wechselt zwischen den beiden Bäumen. Die Antwort lautet also B. Die Klassifizierung kann sich mit neuen Entdeckungen und Beweisen ändern.

Aus einem Vergleich der beiden phylogenetischen Bäume können wir folgendes schließen: B) Die Klassifizierung kann sich mit neuen Entdeckungen und Beweisen ändern.

We have the information regarding two phylogenetic trees. The first tree is based on physical characteristics. The second tree is based on structure, genetics, and evolutionary history.

In the firs tree Duck, Platypus and Opossum seem to be different living organisms and groups. In the second tree Platypus and Opossum share their origins, it means they could be considered similar organisms and groups.

This situation is a consequence of science, They are in constant change. Every day they are new knowledge added, or changed in all sciences because we have more information, more scientific tools more scientists. Due to it, constantly laws, definitions, functions and also Phylogenetic trees can change with time and discoveries.

Finally, From a comparison of the two phylogenetic trees, we can conclude that: B) Classification can change with discoveries and evidence.


In most cases, you just want a phylogenetic tree estimated from your sequences. Das macht iqtree2 extremely powerful as it can automatically select molecular model that best fits your data (i.e., ModelFinder section).

4) We will start with the most simple using the COI aligned sequences in the file Ameerega_aligned_end.fasta .

ein) Set up your working directory (e.g., my_phylogeny_1 ) and get its path.

B) find the file with aligned sequences: Ameerega_aligned_end.fasta and copy that file to your working directory (e.g., my_phylogeny_1 )

C) find the path to the directory that contain the binary of iqtree2. Note that this is path to the directory, NOT the binary itself (check the syntax below).

D) Now, we can run the function iqtree_runner_R() .

The following files will be now present in your working directory.

e) You can visualize the resulting phylogenetic tree as follows.

The actual phylogenetic tree is in the file Ameerega_aligned_end.fasta.treefile in our working folder.


10.3 From gene set enrichment to networks

⊕ A long unstructured laundry list of possibly differentially expressed genes can be daunting. In Chapter 8, we studied methods for finding a list of differentially expressed genes. Small sample sizes, coupled with efforts to maintain low FDRs, often result in low power to detect differential expression. Therefore, obtaining a long list of genes that can be confidently declared as differentially expressed is, initially, a triumph. However, understanding the underlying biology requires more than just a laundry list of significant players in a biological system.

10.3.1 Methods using pre-defined gene sets (GSEA)

One of the earliest approaches was to look for gene attributes that are overrepresented oder enriched in the laundry list of significant genes. These gene classes are often based on Gene Ontology (GO) categories (for example, genes that are involved in organ growth, or genes that are involved in feeding behavior). The Gene Ontology (GO) is a collection of three ontologies that describe genes and gene products. These ontologies are restricted vocabularies that have the structure of directed acyclic graphs (DAGS). The most specific terms are the leaves of the graph. The GO graph consists of nodes (here, Gene Ontology terms) and edges from more specific terms (children) to less specific (parents), often these edges are directed. Nodes and edges can have multiple attributes that can be visualized. The main purpose of using GO annotations for a particular set of Genes designated as significant in an experiment is to look for the Anreicherung of a GO term in this list, we will give this term a statistical meaning below. Many other useful lists of important gene sets exist.

Find a useful database of gene sets.

For instance the MsigDB Molecular Signature Database (Liberzon et al. 2011) contains many gene sets that can be accessed from within R using the Bioconductor package GSEABase command getBroadSets as follows:

10.3.2 Gene set analysis with two-way table tests

Here, we start by explaining a basic approach often called or hypergeometric testing.

⊕ So-called 'exact' tests because they are nonparametric and based on exhaustive enumerations: nicht because we are sure of the answer – this is statistics after all.

Define a universe of candidate genes that may potentially be significant say this universe is of size (N) . We also have a record of the genes that actually Tat come out significant, of which we suppose there were (m) .

We make a toy model involving balls in boxes, with a total of (N) balls corresponding to the genes identified in the gene universe. These genes are split into different functional categories, suppose there are (N=1,000) genes, of which 500 are yellow, 100 are blue and 400 are red. Then a subset of (m=75) genes are labeled as wesentlich, suppose among these significantly interesting genes, there are 25 yellow, 25 red and 25 blue. Is the blue category enriched or overrepresented?

We use this hypergeometric two-way table testing to account for the fact that some categories are extremely numerous and others are rarer.

Run a Monte Carlo experiment with 20,000 simulations and compute the p-value of significance of having 25 blues under the null hypothesis that no category is over-represented in the significant set.

Under the null the 75 are sampled randomly from our unequal boxes as follows:

The histogram in Figure 10.9 shows that having a value as large as 25 under the null model would be extremely rare.

Figure 10.9: We can see that even in 20000 simulations, no blue count comes close to being 25. We can reject such an event as having happened by chance and conclude that the blue are enriched.

In the general case, the gene universe is an urn with (N) balls, if we pick the (m) balls at random and there is a proportion of (k/N) blue balls, we expect to see (km/N) blue balls in a draw of size (k) .

Plotting gene enrichment networks with GOplot

Here we show an attractive way of summarizing the connections between the gene functional categories and the significant gene set.

Figure 10.10: This graph shows the correspondence between GO terms and significantly changed genes in a study on differential expression in endothelial cells from two steady state tissues (brain and heart, see Nolan et al. (2013) ). After normalization a differential expression analysis was performed giving a list of genes. A gene-annotation enrichment analysis of the set of differentially expressed genes (adjusted p-value < 0.05) was then performed with the GOplot Paket.

In fact, the Gene Ontology graph does not necessarily capture meaningful gene interactions as genes from different processes often interact productively. A large amount of information remains unused, for example, all significant genes are usually given equal weight, despite the potentially large variations in their p-values.

10.3.3 Significant subgraphs and high scoring modules

We have at our disposal more than just the Gene Ontology. There are many different databases of gene networks from which we can choose a known skeleton graph onto which we project significance scores such as p-values from our differential expression experiment. We will follow an idea first suggested by Ideker et al. (2002) . This is further developed in Nacu et al. (2007) . A careful implementation with many improvements is available as the Bioconductor package BioNet (Beisser et al. 2010) . These methods all search for the subgraphs or modules of a scored-skeleton network that seem to be particularly perturbed.

Each gene-node in the network is assigned a score that can either be calculated from a t-statistic or a p-value. Often pathways contain both upregulated and downregulated genes as pointed out in Ideker et al. (2002) , this can be captured by taking absolute values of the test statistic or just incorporating scores computed from the p-values 129 129 We’ll want something like (-log p) , so that small p-values give large scores . Beisser et al. (2010) model the p-values of the genes as we did in Chapter 6: mixture of non-perturbed genes whose p-values will be uniformly distributed and non uniformly distributed p-values from the perturbed genes. We model the signal in the data using a beta distribution for the p-values following Pounds and Morris (2003) .

Given our node-scoring function we search for connected hotspots in the graph, i.e. a subgraph of genes with high combined scores.

Using a subgraph search algorithm

Finding the maximal scoring subgraph of a generic graph is known to be intractable in general (we say it is an NP-hard problem), so various approximate algorithms have been proposed. Ideker et al. (2002) suggested using simulated annealing, however this is slow and tends to produce large subgraphs that are difficult to interpret. Nacu et al. (2007) started with a seed vertex and gradually expand around it. Beisser et al. (2010) started the search with a so-called minimal spanning tree (MST), a graph we we will study later in this chapter.

10.3.4 An example with the BioNet implementation

To illustrate the method, we show data from the BioNet Paket. ⊕ The interactome data contains a connected component of the network comprising 2034 different gene products and 8399 interactions. This constitutes the skeleton graph with which we will work, see Beisser et al. (2010) .

The dataLym contains the relevant pvalues and (t) statistics for 3,583 genes, you can access them and do the analysis as follows:

Fit a Beta-Uniform model

The p-values are fit to the type of mixture we studied in Chapter 4, with a uniform component from the null with probability (pi_0) and a beta distribution (proportional to (a x^) ) for the p-values corresponding to the alternatives (Pounds and Morris 2003) . [f(x|a,pi_0)= pi_0 + (1-pi_0) a x^qquad mbox < for >0 <x leq 1 0<a<1] ⊕ The package actually gives a different name to (pi_0) : it uses (lambda) and calls it the mixing parameter. Running the model with an [fdr] of 0.001:

Figure 10.11: The qqplot shows the quality of the fit of beta-uniform mixture model to the data. The red points have the theoretical quantiles from the beta distribution as the x coordinates the observed quantiles and the y coordinates. The blue line shows that this model fits nicely.

Figure 10.12: A histogram of the mixture components for the p-values, the beta in red and the uniform in blue, (pi_0) is the mixing proportion assigned to the null component whose distribution should be uniform.

Then we run a heuristic search for a high scoring subgraph using:

We made Figure 10.13 using the following code:

Figure 10.13: The subgraph found as maximally enriched for differential expression between ABC and GCB B-cell lymphoma. The nodes are colored in red and green: green shows an upregulation in ACB and red an upregulation in GBC. The shape of the nodes depicts the score: rectangles indicate a negative score, circles a positive score.

Using the function igraph.from.graphNEL , transform the module object and plot it using the ggnetwork method shown in Section 10.2.2.


Horizontal Gene Transfer

Horizontal gene transfer (HGT) is the passing of genetic material between species by mechanisms other than from parent to offspring.

Lernziele

Explain how horizontal gene transfer can make resolution of phylogenies difficult

Die zentralen Thesen

Wichtige Punkte

  • It is thought that HGT is more prevalent in prokaryotes than eukaryotes, but that only about 2% of the prokaryotic genome may be transferred by this process.
  • Many scientists believe that HGT and mutation appear to be (especially in prokaryotes) a significant source of genetic variation, which is the raw material for the process of natural selection.
  • HGT in prokaryotes occurs by four different mechanisms: transformation, transduction, conjugation, and via gene transfer agents.
  • HGT occurs in plants through transposons (jumping genes), which transfer between different species of plants.
  • An example of HGT in animals is the transfer (through consumption) of fungal genes into insects called aphids, which allows the aphids the ability to make carotenoids on their own.

Schlüsselbegriffe

  • Transformation: the alteration of a bacterial cell caused by the transfer of DNA from another, especially if pathogenic
  • transduction: horizontal gene transfer mechanism in prokaryotes where genes are transferred using a virus
  • conjugation: the temporary fusion of organisms, especially as part of sexual reproduction

Horizontal Gene Transfer

Horizontal gene transfer (HGT) is the introduction of genetic material from one species to another species by mechanisms other than the vertical transmission from parent(s) to offspring. These transfers allow even distantly-related species (using standard phylogeny) to share genes, influencing their phenotypes. It is thought that HGT is more prevalent in prokaryotes, but that only about 2% of the prokaryotic genome may be transferred by this process. Some researchers believe these estimates are premature the actual importance of HGT to evolutionary processes must be viewed as a work in progress. As the phenomenon is investigated more thoroughly, it may be revealed to be more common. Many evolutionists postulate a major role for this process in evolution, thus complicating the simple tree model. A number of scientists believe that HGT and mutation appear to be (especially in prokaryotes) a significant source of genetic variation, which is the raw material for the process of natural selection. These transfers may occur between any two species that share an intimate relationship, thus adding a layer of complexity to the understanding or resolution of phylogenetic relationships.

Mechanisms of prokaryotic and eukaryotic horizontal gene transfer: Horizontal gene transfer is the introduction of genetic material from one species to another species by mechanisms other than the vertical transmission from parent(s) to offspring. These transfers allow even distantly-related species (using standard phylogeny) to share genes, influencing their phenotypes. Examples of mechanisms of horizontal gene transfer are listed for both prokaryotic and eukaryotic organisms.

HGT in Prokaryotes

The mechanism of HGT has been shown to be quite common in the prokaryotic domains of Bacteria and Archaea, significantly changing the way their evolution is viewed. These gene transfers between species are the major mechanism whereby bacteria acquire resistance to antibiotics. Classically, this type of transfer was thought to occur by three different mechanisms:

  • Transformation: naked DNA is taken up by a bacteria.
  • Transduction: genes are transferred using a virus.
  • Conjugation: the use a hollow tube called a pilus to transfer genes between organisms.

More recently, a fourth mechanism of gene transfer between prokaryotes has been discovered. Small, virus-like particles called gene transfer agents (GTAs) transfer random genomic segments from one species of prokaryote to another. GTAs have been shown to be responsible for genetic changes, sometimes at a very high frequency compared to other evolutionary processes. The first GTA was characterized in 1974 using purple, non-sulfur bacteria. These GTAs, which are thought to be bacteriophages that lost the ability to reproduce on their own, carry random pieces of DNA from one organism to another. The ability of GTAs to act with high frequency has been demonstrated in controlled studies using marine bacteria. Gene transfer events in marine prokaryotes, either by GTAs or by viruses, have been estimated to be as high as 10 13 per year in the Mediterranean Sea alone. GTAs and viruses are thought to be efficient HGT vehicles with a major impact on prokaryotic evolution.

HGT in Eukaryotes

Although it is easy to see how prokaryotes exchange genetic material by HGT, it was initially thought that this process was absent in eukaryotes. After all, prokaryotes are only single cells exposed directly to their environment, whereas the sex cells of multicellular organisms are usually sequestered in protected parts of the body. It follows from this idea that the gene transfers between multicellular eukaryotes should be more difficult. Indeed, it is thought that this process is rarer in eukaryotes and has a much smaller evolutionary impact than in prokaryotes. In spite of this fact, HGT between distantly-related organisms has been demonstrated in several eukaryotic species. It is possible that more examples will be discovered in the future.

In plants, gene transfer has been observed in species that cannot cross-pollinate by normal means. Transposons or “jumping genes” have been shown to transfer between rice and millet plant species. Furthermore, fungal species feeding on yew trees, from which the anti-cancer drug TAXOL® is derived from the bark, have acquired the ability to make taxol themselves a clear example of gene transfer.

In animals, a particularly interesting example of HGT occurs within the aphid species. Aphids are insects that vary in color based on carotenoid content. Carotenoids are pigments made by a variety of plants, fungi, and microbes, which serve a variety of functions in animals who obtain these chemicals from their food. Humans require carotenoids to synthesize vitamin A and we obtain them by eating orange fruits and vegetables: carrots, apricots, mangoes, and sweet potatoes. On the other hand, aphids have acquired the ability to make the carotenoids on their own. According to DNA analysis, this ability is due to the transfer of fungal genes into the insect by HGT, presumably as the insect consumed fungi for food. A carotenoid enzyme called a desaturase is responsible for the red coloration seen in certain aphids. Furthermore, it has been shown that when this gene is inactivated by mutation, the aphids revert back to their more common green color.

HGT within the aphid species: (a) Red aphids get their color from red carotenoid pigment. Genes necessary to make this pigment are present in certain fungi. Scientists speculate that aphids acquired these genes through HGT after consuming fungi for food. If genes for making carotenoids are inactivated by mutation, the aphids revert back to (b) their green color. Red coloration makes the aphids much more conspicuous to predators, but evidence suggests that red aphids are more resistant to insecticides than green ones. Thus, red aphids may be more fit to survive in some environments than green ones.


12.6: Structure of Phylogenetic Trees - Biology

General guide on these review questions here

Notes for Chapter 12: Adaptive Radiation

Key Terms: adaptive radiation, endemism

RQ UE 12.1: What are a few ways in which animals endemic to the Galápagos are adapted to life on these arid tropical islands?

Featured Scientist : Charles Robert Darwin

Excellent notes are available from Dennis O'Neil's (Palomar College) website:
Evidence of Evolution and Darwin and Natural Selection

The Evidence for Darwin’s Evolutionary Theory:

A. Living and fossil organisms are constantly changing
B. Sedimentary rock layers indicate an ancient Earth (Notion of “Deep” Time - Geologist Lyell)
C. Many evolutionary trends are apparent (e.g., horses)
D. Patterns in nature are hierarchically nested as expected from Darwin’s “common descent” (click here for an example: birds are nested within a clade of feathered therapod dinosaurs)
E. Homology between structures is evidence for evolution because the explanation that similarity is due to shared ancestry is more parsimonious than alternative explanations.
F. Animals tend to be more similar earlier in ontogeny
G. Multitude of species on Earth suggests branching history
H. Gradual changes can add up, given enough time (Examples from lecture: Darwin's worm stone and coral reef formation, also used as an examples of Darwin'sapplication of the notion of uniformitarianism to ecological and geological studies, respectively).

Featured Organisms : Darwin's Finches

Links to other interesting endemic fauna/flora: 1 - 2 - 3 - 4

RQ UE 12.2: Darwin's finches have become adapted to a number of ecological opportunities in the Galápagos. What evidence is there that they are not "ideally" adapted, instead having adaptations that reflect their ancestral heritage?

III. Factors in Diversification

RQ UE 12.3: What is a likely explanation for why an adaptive radiation of this particular group of finches has not occurred on the continental mainland, to nearly the same extent it has occurred in the Galápagos?

RQ UE 12.4: How are interactions beteen the Galápagos finches, in some ways, like those between two strained cultures of Paramezium that Gause studied?

Key Terms: Gause's principal, niche, avoidance of competition, niche diversification,

RQ UE 12.5: What is meant by the concept known as Gause's principle (or the "niche requirement")? If this concept is accurate, then how do closely related species manage to live in close proximity?

RQ UE 12.6: The hypothesized phylogenetic relationships postulated by the tree diagram in Fig. 12.7 is based on the inference that the "tree finch" morphology arose only once, and subsequently geographic isolation led to speciation, producing six separate tree finch species. Likewise, the tree implies that the common ancestor of the six "ground finches" was also a ground finch. What is at least one alternative explanation that might have led to the observed pattern of separate tree and ground finches on the separate islands? Can you suggest how you might test between these alternative hypotheses?

Note: The following notes on phylogenetic analysis and classification are much more extensive than the two paragraphs devoted to classification at the end of Chapter 12, but this is as good a place as any to introduce the terminology and concepts presented below, which we will emphasize throughout the remainder of the course.

Key Terms : phylogeny, characters, homology, homoplasy

A. Using Character Variation to Reconstruct Phylogeny

Key Terms : ancestral vs. derived character states, polarity (the ancestral state is generally the one that is also present in the outgroup, by outgroup comparison), clade (ancestor plus all its descendents), synapomorphy (derived novelty that helps us recognize a clade, e.g., feathers in birds), plesiomorphy (ancestral or "primitive" state, not necessarily the most "simple" state), nested hierarchy, symplesiomorphic (shared "primitive" similarities - these do NOT help us recognize clades, e.g., lack of backbone in a fly and a snail), cladogram vs. phylogenetic tree (similar, but the "y-axis" of a cladogram means nothing, whereas it might in a phylogenetic tree, e.g., geological time) - Note: Don't worry, these terms are difficult at first and we will be reinforcing them over the entire semester -- See Cladogram Exercise 1.

1. Estimating a phylogeny depends on characters (traits)

A. only characters that vary are interesting
B. the different forms of the charater are termed Zustände


2. One observes similarities that could be homologous

A. ein Homologie is a similarity due to common ancestry
B. this means the common ancestor had the same state
C. a homologous similarity only has to evolve once


3. Alternatively, similarities might have evolved separately (convergently)
4. Any similarity nicht due to homology is termed a homoplasy (includes convergence)
5. The parsimony criterion is used to choose some trees as better than others

A. The most parsimonious tree explains as much as possible by homology
B. A tree is more parsimonious than another when it requires fewer changes
C. The most parsimonious tree is the one with the least homoplasy
D. This is because homoplasies require extra changes homologies do not

B. Study of Character Variation Can Reveal Ancestral Conditions

1. Given a phylogeny, one can determine which character state is ancestral
2. The ancestral state of a character is the state found in the ancestor
3. Character states arising later are termed derived states
4. In practice, we cannot normally observe the common ancestor

A. Instead we use a closely related taxon as an outgroup to estimate ancestral state
B. We can also use multiple outgroups
C. Example: we observe no teeth in birds and teeth in lizards which is primitive?

1) We note that outgroups (e.g., mammals, salamanders and fish) all have teeth
2) Thus, the common ancestor of birds and lizards probably had teeth
3) Thus, the presence of teeth in lizards is a primitive state
4) Thus, the lack of teeth in birds is a derived state


5. A clade is a natural taxon of organisms bound in space and time

A. EIN clade is defined as a common ancestor and all of its descendants
B. In practice, we recognize a clade by its derived similarities
C. Example: clade - birds includes ancestor of birds and all its descendants
D. Feathers is a derived similarity found only in birds (no living outgroup has feathers)
e. It is most parsimonious to suppose that the common ancestor of birds was feathered
F. Because lizards lack feathers, feathers probably arose after lizards and birds diverged
g. In other words, the last common ancestor of lizards and birds lacked feathers

6. Technically, a derived character state is termed an apomorphy
7. A shared derived character state is termed a synapomorphy
8. Synapomorphies are typically nested hierarchically

A. Example: All placental mammals have a placenta placenta is a synapomorphy
B. All marsupial mammals have a marsupial pouch and lack a placenta
C. Both placentals and marsupials have hair and mammory glands (as do all mammals)
D. mammals and lizards both have an amnion around their eggs (as do all amniotes)
e. amniotes and salamanders both have four limbs (as do all tetrapods)
F. tetrapods and sharks both have jaws (as do all gnathostomes)

9. An ancestral (not derived) state is termed a plesiomorphy
10. A shared ancestral state is termed symplesiomorphy.

C. Sources of Phylogenetic Information

Key Terms : comparative morphology, biochemistry, and cytology

1. Morphology: includes shape, size, and development

A. Examples: Skull or limb bones, scales, hairs, feathers
B. Can be observed in fossils as well as living specimens

2. Biochemical comparison (now the most common evidence used)

A. Examples: Protein or DNA sequence comparison
B. Occasionally fossils have remnants of DNA preserved, but not easy to recover

A. Examples: examines variation in number, shape and size of chromosomes
B. Only used for living organisms

4. Dating a fossil is possible (with radioactive dating methods)
5. Estimating when lineages diverged is also possible with sequence comparisons

Key Terms : monophyly, paraphyly, polyphyly

1. Three types of groupings are recognized

A. Monophyletic: includes common ancestor and all its descendants
B. Paraphyletic: includes common ancestor and only some of its descendants
C. Polyphyletic: does not include the most recent common ancestor of its members

2. Evolutionary and cladistic systematists only disagree about the case of paraphyletic groups

A. Both agree monophyletic groupings should be recognized
B. Both agree polyphyletic groupings should be rejected
C. Only evolutionary systematists allow paraphyletic groups
D. In contrast, cladists only formally name groups thought to be monophyletic
e. The cladistic principle is known as the "rule of monophyly"
F. Many taxa in widespread use are paraphyletic


Schau das Video: 24. Vorlesung ausgewählte Holzpflanzen (Kann 2022).