Information

EMBOSS Matcher und Supermatcher – inkongruente Ergebnisse?

EMBOSS Matcher und Supermatcher – inkongruente Ergebnisse?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich versuche, eine Sequenz auf das Mausgenom auszurichten. Das weiß ich von vornherein Teil meiner Sequenz sollte auf Chromosom 9 ausgerichtet sein, aber nicht alles.

Ich habe gesammelt, dass EMBOSS'MatcherundSupermatcherwären geeignete Werkzeuge, um dies lokal auf meinem Computer zu tun - wobei Supermatcher (viel!) schneller und Matcher (angeblich) genauer ist. Seltsamerweise liefern mir die beiden Funktionen sehr ähnliche Anpassungen (qualitätsmäßig), die jedoch an nicht identischen, aber sehr nahen Positionen liegen.

  • Wie kann ich das erklären?
  • Wie groß ist die Wahrscheinlichkeit, dass eine ~800-bp-Sequenz mehrere gleich gute Passungen direkt nebeneinander hat (wie kann ich testen, ob ich einen wiederholungslastigen Bereich erreiche?)?
  • Warum machenSpielundSupermatchpasst mir dann nicht beides?

Meine aktuellen Ausrichtungen:

#====================================== # # Ausgerichtete_Sequenzen: 2 # 1: # 2 : CM001002.2 # Matrix: EDNAFULL # Gap_penalty: 16,0 # Extend_penalty: 4,0 # # Länge: 357 # Identität: 322/357 (90,2%) # Ähnlichkeit: 322/357 (90,2%) # Lücken: 2/357 (0,6%) ) # Punktzahl: 1458.0 # # #====================================== 1 AAAAACGTGAAAAATGAGAAATGCACACTGTAGGACCTGAAATATGGCAA 50 ||||.|… |.||||||||||||.||||||.||||||.|||||.|||||.| CM001002.2 35305253 AAAATCACGGAAAATGAGAAATACACACTTTAGGACGTGAAAAATGGCGA 35305302 51 GGAAAACTGAAAAAGGTGGAAAATTTAGAAATGTCCACTATAGGACGTGG 100 ||||||||||||||||||||||||||||||||||| .| |||||.||| CM001002.2 35305303 GGAAAACTGAAAAAGGTGGAAAATTTAGAAATGTCCTCTGTAGGACATGG 35305352 101 AATATGGCAAGAAAAATGAAAATCATTGAAAATGAGAAACATACAGTTGA 150 |||||||||||||||.||||||||||.|||||||| .|| |.||.|||| CM001002.2 35305353 AATATGGCAAGAAAACTGAAAATCATGGAAAATGAGAAACATCCACTTGA 35305402 151 CGACTTGAAAAATGATGAAATCACTGAAAAACGTGAAAAATGAGAAATGC 200 .||||||||||||||.|||||||.|||||||||||||||| ||||||||| CM001002.2 35305403 TGACTTGAAAAATGACGAAATCATTAAAAAACGTGAAAAATGAGAAATGC 35305452 201 ACCCTGTAAGACCTGGAATATGTCGAGAAAACTGAAAATCACGGAAAATG 250 .|.|||.|.|||||||||||||… |||||||||||||||||||| .||||| |||||||| CM001002.2 35305453 CCACTGAAGGACCTGGAATATGGGGAGAAAACTGAAAATCACGGAAAATG 35305502 251 AGAAATACACACTTTAGGACGTGAAATATGGCGAGGAAAACTGAAAAAGG 300 ||||||||||||||||||||||||||||||||||||||||| ||||||||| CM001002.2 35305503 AGAAATACACACTTTAGGACGTGAAATATGGCGAGGAAAACTGAAAAAGG 35305552 301 TGGAAAATTTAGAAATGTCCACTGTAGGACATGGAATAT--GGCAAGAAA 348 |||||.||||||||||||||||||||||||.| .|||||.| .|||||.| | |.|.||||| CM001002.2 35305553 TGGAATATTTAGAAATGTCCACTGTAGGACGTGGAATATAAGTCCAGAAA 35305602 349 ACTGAAA 355 .||.|.| CM001002.2 35305603 CCTAAGA 35305609

und:

#====================================== # # Ausgerichtete_Sequenzen: 2 # 1: # 2 : CM001002.2 # Matrix: EDNAFULL # Gap_penalty: 16 # Extend_penalty: 4 # # Länge: 417 # Identität: 377/417 (90,4%) # Ähnlichkeit: 377/417 (90,4%) # Lücken: 2/417 ( 0,5% ) # Punktzahl: 1713 # # #====================================== 180 190 200 210 220 TGAAAAACGTGAAAAATGAGAAATGCACCCTGTAAGACCTGGAATATGTC :: : :: : :: : :: ::::: ::: : :::::::::: : CM0010 ::::::::::::::::::::::::::::::::::::::::::::: CM0010 GAGAAAACTGAAAATCACGGAAAATGAGAAATACACACTTTAGGACGTGA 35305250 35305260 35305270 35305280 35305290 280 290 300 310 320 AATATGGCGAGGAAAACTGAAAAAGGTGGAAAATTTAGAAATGTCCACTG :: ::::::::::::::::::::::::::::::::::: ::::: ::: CM0010 AAAATGGCGAGGAAAACTGAAAAAGGTGGAAAATTTAGAAATGTCCTCTG 35305300 35305310 35305320 35305330 35305340 330 340 350 360 370 TAGGACATGGAATA TGGCAAGAAAACTGAAAATCATGGAAAATGAGAAAC ::::::::::::::::::::::::::::::::::::::::::::: : CM0010 TAGGACATGGAATATGGCAAGAAAACTGAAAATCATGGAAAATGAGAAAC 35305350 35305360 35305370 35305380 35305390 380 390 400 410 420 :::::::::: CM0010 ATCCACTTGATGACTTGAAAAATGACGAAATCATTAAAAAACGTGAAAAA 35305400 35305410 35305420 35305430 35305440 430 440 450 460 470 TGAGAAATGCACACTGTAGGACCTGGAATATGTCGAGAAAACTGAAAATC :::::::::::::::: ::: ::::::::::::::: CM0010 TGGAAAATGCCCACTGAAGGACCTGGAATATGGGGAGAAAACTGAAAATC 35305450 35305460 35305470 35305480 35305490 480 490 500 510 520 :::::::::::::::::::::::::::::: CM0010 ACGGAAAATGAGAAATACACACTTTAGGACGTGAAATATGGCGAGGAAAA 35305500 35305510 35305520 35305530 35305540 530 540 550 560 560 ::::: ::::: :::::::::::::::::::::::::::: CM0010 CTGAAAA AGGTGGAATATTTAGAAATGTCCACTGTAGGACGTGGAATATA 35305550 35305560 35305570 35305580 35305590 580 -GGCAAGAAAACTGAAA : : ::::: :: : : CM0010 AGTCCAGAAACCTAAGA 35305600

EMBOSS Matcher und Supermatcher – inkongruente Ergebnisse? - Biologie

Das Verständnis der In-vivo-Dynamik der Proteinlokalisierung und ihrer physikalischen Wechselwirkungen ist für viele Probleme in der Biologie wichtig. Um eine systematische Proteinfunktionsabfrage in einem multizellulären Kontext zu ermöglichen, haben wir eine transgene Plattform im Genommaßstab für die In-vivo-Expression von fluoreszenz- und affinitätsmarkierten Proteinen aufgebaut Caenorhabditis elegans unter endogen cis Regulierungskontrolle. Die Plattform kombiniert computergestütztes Transgendesign, massiv paralleles DNA-Engineering und Sequenzierung der nächsten Generation, um eine Ressource von 14.637 genomischen DNA-Transgenen zu generieren, die 73 % des Proteoms abdeckt. Der verwendete Mehrzweck-Tag ermöglicht die Lokalisierung jedes interessierenden Proteins in vivo oder die Affinitätsreinigung unter Verwendung von Standard-Tag-basierten Assays. Wir veranschaulichen den Nutzen der Ressource durch systematische Chromatin-Immunreinigung und automatisierte 4D-Bildgebung, die detaillierte DNA-Bindungs- und Zell-/Gewebe-Verteilungskarten für wichtige Transkriptionsfaktorproteine ​​erstellt haben.

Grafische Zusammenfassung

Höhepunkte

► Eine genomweite Ressource für die In-vivo-Expression markierter Proteine ​​wurde entwickelt ► Die markierten Genallele bieten native Proteinexpressions- und Lokalisierungsmuster ► Tag-basiertes ChIP bietet genomweite DNA-Bindungsstellenkarten für wichtige Transkriptionsfaktoren ► Live-4D-Tracing zeigt schnelle Transkriptionsfaktor-Proteinlokalisierungsdynamik

Derzeitige Adresse: Department of Genetics, University of Pennsylvania School of Medicine, Philadelphia, PA 19104, USA


Siehe auch

Programmname Beschreibung
Kathparse Generieren Sie eine DCF-Datei aus rohen CATH-Dateien
Domainnr Entfernen Sie redundante Domänen aus einer DCF-Datei
Domainrep DCF-Datei neu anordnen, um repräsentative Strukturen zu identifizieren
Domainseqs Sequenzdatensätze zu einer DCF-Datei hinzufügen
Domainsse Sekundärstrukturdatensätze zu einer DCF-Datei hinzufügen
helixturnhelix Identifizieren Sie Nukleinsäure-bindende Motive in Proteinsequenzen
libgen Generieren Sie diskriminierende Elemente aus Ausrichtungen
Matcher Waterman-Eggert lokales Alignment von zwei Sequenzen
matgen3d Generieren Sie eine 3D-1D-Bewertungsmatrix aus CCF-Dateien
oalist Statistiken für mehrere Alignment-Dateien
Pepcoil Coiled-Coil-Regionen in Proteinsequenzen vorhersagen
rocon Generieren Sie eine Trefferdatei aus dem Vergleich zweier DHF-Dateien
rocplot Führen Sie eine ROC-Analyse von Trefferdateien durch
scopparse Generieren Sie eine DCF-Datei aus rohen SCOP-Dateien
seqalign Erweitern von Alignments (DAF-Datei) mit Sequenzen (DHF-Datei)
seqfraggle Fragmentsequenzen aus DHF-Dateien entfernen
seqmatchall Alles-gegen-alle-Wortvergleich eines Sequenzsatzes
seqsort Entfernen Sie mehrdeutige klassifizierte Sequenzen aus DHF-Dateien
seqwords Generieren Sie DHF-Dateien aus der Stichwortsuche von UniProt
ssematch Durchsuchen Sie eine DCF-Datei nach Übereinstimmungen mit Sekundärstrukturen
Supermatcher Berechnen Sie ungefähre lokale paarweise Ausrichtungen größerer Sequenzen
Wasser Lokales Smith-Waterman-Alignment von Sequenzen
Wortfinder Vergleiche große Sequenzen mit einer oder mehreren anderen Sequenzen
Wortübereinstimmung Finden Sie Identitätsregionen (genaue Übereinstimmungen) von zwei Sequenzen

12.0 DIAGNOSEFEHLERMELDUNGEN

Die folgende Meldung kann in der Protokolldatei erscheinen.

' ' in STAMP-Ausrichtung durch 'X' ersetzt (STAMP kann unsinnige Leerzeichen in seine Ausrichtungen einfügen, z. B. anstelle eines Restzeichens, wenn diesem Rest die Elektronendichte in der PDB-Datei fehlte. DOMAINALIGN ersetzt jedes Leerzeichen innerhalb einer STAMP-Ausrichtung durch ein "X").

13.0 AUTOREN

Jon Ison ([email protected])
The European Bioinformatics Institute Wellcome Trust Genome Campus Cambridge CB10 1SD UK

14.0 REFERENZEN

Bitte nennen Sie die Autoren und EMBOSS.

Rice P, Longden I und Bleasby A (2000) "EMBOSS - The European Molecular Biology Open Software Suite" Trends in Genetics, 15: 276-278.

14.1 Weitere nützliche Hinweise

Russell, R.B. & Barton, G.J. (1992), Multiple Sequence Alignment from Tertiary Structure Comparison: Assignment of Global and Residue Confidence Levels, PROTEINE: Struct. Funktion Genet., 14, 309-323.
C. Notredame, D. Higgins, J. Heringa. T-Kaffee: Eine neuartige Methode für multiple Sequenz-Alignments. Zeitschrift für Molekularbiologie, 302, 205-217, (2000)


Abstrakt

Menschen können sich fälschlicherweise daran erinnern, dass sie Handlungen ausgeführt haben, die sie tatsächlich nicht ausgeführt haben. Häufige Berichte über solche falschen Handlungserinnerungen haben aufgrund der Überschneidung sensorischer Merkmale zu Verwirrung geführt, die Rolle motorischer Prozesse jedoch weitgehend ignoriert. Wir adressierten diese Lücke mit einem Paradigma, bei dem die Teilnehmer zuerst Aktionen ausführen (im Gegensatz zu nicht ausführen) und dann eine andere Person beobachten, die einige der nicht ausgeführten Aktionen ausführt. In diesem Paradigma kann die Beobachtung von Videos, die die Handlungen anderer zeigen, später zu falschen Selbstzuschreibungen dieser Handlungen, dem Beobachtungs-Inflationseffekt, führen. Im Gegensatz zu einem sensorischen Feature-Account, aber konsistent mit einem motorischen Simulations-Account, fanden wir den Effekt sogar bei wahrnehmungsarmen Action-Videos, in denen die Mehrheit der sensorischen Features fehlt, aber Bewegungshinweise erhalten bleiben (Experiment 1). Wir haben dann während der Aktionsbeobachtung Bedingungen geschaffen, die die motorische Simulation behindern sollten (vs. nicht sollten). Wie vorhergesagt, stellten wir fest, dass der Beobachtungseffekt reduziert wurde, wenn die Teilnehmer Bewegungen ausführten, die inkongruent (vs. kongruent) mit den beobachteten Handlungen waren (Experiment 2). Wir diskutieren die Prozesse, die Assoziationen des Selbst mit beobachteten Handlungen anderer erzeugen und später das Handlungsgedächtnis der Beobachter beeinflussen können.


Diskussion

In dieser Studie haben wir eine hochwertige Genomanordnung auf Chromosomenebene für Wintersweet konstruiert, indem wir die Long-Read-Sequenzen von PacBio mit hochpräzisen Short-Reads aus der Illumina-Sequenzierung kombiniert und Hi-C-Daten für das Super-Scaffolding verwendet haben. Die Ansammlung von Wintersüß ergänzt die wachsende Menge an Genominformationen für die Calycantaceae-Familie. Als relativ domestizierte Art in der Familie der Calycantaceae [48] weist Wintersüß eine Reihe spezifischer biologischer Merkmale auf, wie frühe Blüte im tiefen Winter, starke Kälteresistenz und duftende Blüten [4, 10, 49]. Als Vertreter der Magnolien nimmt er auch eine wichtige evolutionäre Position am Baum des Lebens ein. Die Verfügbarkeit der wintersüßen Genomsequenz ermöglicht es, tiefgreifende phylogenetische Fragen der Angiospermen zu untersuchen, Genom-Evolutionssignaturen zu bestimmen und die genetische Grundlage interessanter Merkmale aufzudecken. Diese Zusammenstellung ermöglicht auch eine eingehende grundlegende vergleichende Genomanalyse, um die Biologie aufzuklären und eine Auflösung der Genom-Evolution zwischen Wintersüß und anderen Arten innerhalb der Familie der Calycantaceae zu erhalten.

Die Auflösung der Beziehung zwischen Magnolien, Monokotyledonen und Eudikotyledonen ist trotz zahlreicher Versuche nicht abschließend geklärt. In vier unabhängigen Studien wurden vier Genome veröffentlicht, die drei Ordnungen (Magnoliales, Piperales und Laurales) innerhalb von Magnoliales repräsentieren [13,14,15,16], und jede Studie versuchte, die phylogenetische Position der Magnolien zu klären. Drei Arten einschließlich Piper nigrum (Vertreter der Piperales-Klade), L. tulipifera (Vertreter der Magnoliales-Klade) und P. Americana (Vertreter von laurales clade) wurden als Schwester zu den Monokotyledonen und Eudikotyledonen platziert, während C. kanehirae (Vertreter der Magnoliales-Klade) wurde als Schwester-Klade zu den Eudicots gefunden. Viele Faktoren könnten für diese topologischen Unterschiede verantwortlich sein, wie etwa die Taxonstichprobengröße [50], eine mögliche unvollständige Liniensortierung (ILS) [17] und die Anzahl der abgerufenen Orthologe [51]. Zum Beispiel war eine angemessene Taxonentnahme, insbesondere der kleineren Schwesterlinien wie Chloranthales in Angiospermen-Kladen [52], entscheidend, um eine aufgelöste Phylogenie zu erhalten. Um eine unvollständige Liniensortierung zu berücksichtigen, verwendeten wir zwei komplementäre Werkzeuge, um die Single-Copy-Gene zu extrahieren, und zwei Methoden (koaleszente und konkatenationsbasierte Analyse), um die Phylogenie zu rekonstruieren. Darüber hinaus verbesserten wir auch die Taxon-Sampling-Auswahl, ausgewählte Schlüssellinien (repräsentativ für Chloranthales-Klade) sowie zusätzliche Linien in den Monokotyledonen und Eudikotyledonen und schlossen fünf Magnolien ein, um die wichtigsten repräsentativen Kladen abzudecken. Schließlich ergaben alle Analysen die Magnolien zusammen mit den Eudikotyledonen als Schwestern der Monokotyledonen. Dieses Ergebnis ist deckungsgleich mit einer kürzlich durchgeführten Studie von 59 nuklearen Genen mit geringer Kopie von 26 Mesangiosperm-Transkriptomen [51] und 410 nuklearen Genfamilien von Single-Copy-Genen, die aus genomischen und transkriptomischen Daten von 1153 Arten extrahiert wurden [53], widerspricht jedoch den Plastidenbäumen die eine Topologie von Magnoliales als Schwester von Monokotyledonen und Eudikotyledonen unterstützte. Im Vergleich zu nuklearen Genen werden die Plastidengene uniparent vererbt und können unterschiedliche tiefgreifende Beziehungen wiederherstellen, die sich aus der Sortierung und Hybridisierung alter Abstammungslinien ergeben, was möglicherweise zu Verzerrungen und Fehlern bei der phylogenetischen Rekonstruktion führen könnte [51]. Bisher fehlten die Genomdaten bei den wichtigsten Kladen der Angiospermen wie Chloranthales. Obwohl wir eine robuste Phylogenie anhand von Daten auf der „Genomskala“ vorgeschlagen haben, wird die Sequenzierung der vollständigen Angiospermen-Linien zukünftige Untersuchungen der phylogenetischen Verwandtschaft von Blütenpflanzen erleichtern.

Wintersweet ist eine der wenigen blühenden Pflanzenlinien, die im Winter blühen, was sie zu einer idealen mehrjährigen Pflanze für die Blütezeit macht. Anwendung einer Datenbank über die Blütezeit-Gennetzwerke in Arabidopsis thaliana dient zur Identifizierung der Homologen von Blühzeitgenen in Wintersüß. Vergleichende Transkriptomanalysen bieten eine Reihe von Ressourcen für die weitere blütezeitbezogene Genidentifizierung. Die Kartierung von quantitativen Trait-Loci (QTL) auf Kopplungskarten mit segregierenden genetischen Populationen ist eine wirksame Strategie, um komplexe agronomische Merkmale zu sezieren [54]. Die Verfügbarkeit von qualitativ hochwertigem Genom und vielfältigem Keimplasma von Wintersüß mit unterschiedlicher Blütezeit macht es möglich, diesen genetischen Ansatz zu verwenden, um in Zukunft quantitative Merkmals-Loci zur Blütezeit zu erkennen. Das Petaloid Kelchblatt ist eine weitere markante Unterscheidung von Wintersüß. Diese Blütenstruktur existiert auch in einigen basalen Eudikotyledonen (wie z Ranunkel und Aquilegia), einige Monokotyledonen (wie Liliumus und Tulipa) und basale Angiospermen-Linien, die von der angestammten Angiospermen-Blüte gezeigt werden sollten [55]. Das breite Expressionsmuster der B-Funktionsgene wurde von diesen Arten geteilt, was die Vorfahrenbedingung für Angiospermen darstellen könnte. Das genetische Netzwerk zur saisonalen Temperatur-vermittelten Kontrolle des Knospenbruchs wurde in der Gemüseknospe der Hybrid-Espe aufgeklärt [39]. In diesem genetischen Netzwerk ist die FT und SVL sind die Homologen von FT und SVP in Arabidopsis, die beide als Blühregulator wirken [56]. Ähnlich wie die Gemüseknospen unterliegen auch die Blütenknospen der Ruhe und dem Knospenbruch. Die Homologen der Schlüsselkomponenten in Wintersüß zeigten ein ähnliches Expressionsmuster während des Übergangs von der Endodormantik zum Knospenbruchstadium, was uns zu der Hypothese führt, dass Wintersüß die gemeinsamen Signalkomponenten sowohl im Blüte- als auch im Knospenbruchprozess nutzen könnte.

Die Evolution, Anpassung und Domestikation von Wintersüß führte zu spezifischen Qualitäten und Mengen an flüchtigen Blütenstoffen, die hauptsächlich aus Monoterpenen und Benzenoiden bestehen [7]. Die Diversifizierung von Terpenen wird hauptsächlich durch die TPS Familiengene, darunter die TPS-b-Unterfamilie ist für die Synthese von Monoterpenen bekannt [44]. Der umfangreiche Ausbau von TPS-b-Unterfamiliengene im Wintersüß-Genom können eine Erklärung für die vielfältige Monoterpen-Akkumulation sein. Die Produktion von Terpenen wird zu einem großen Teil durch die Transkriptionsebene von . reguliert TPS Gene [43].Die Ergebnisse der vorliegenden Expressionsanalysen ergaben einen dynamischen Ausdruck der TPS Gene, was eine weitere Erklärung für die Monoterpen-Diversifizierung sein könnte. Anhand der genomischen Daten fanden wir bemerkenswerte Duplikationen der Stoffwechselgene sowohl in Terpen- als auch in Benzoid/Phenylpropanoid-Biosynthesewegen, insbesondere in den TPS und SCHLAGEN Gene, die für die Produktion der Hauptkomponenten (Linalool und Benzylacetat) verantwortlich sind. Tandemvervielfältigung ist der Hauptbeitrag zu den Erweiterungen von TPS und SCHLAGEN Gene und die meisten dieser duplizierten Gene sind hintereinander in Clustern organisiert. In dem Drosophila melanogaster Genom, das Adh Gen wird tandemartig dupliziert und zeigt eine 2,6-fach höhere Expression als das Einzelkopie-Gen. Es wurde vorgeschlagen, dass die durch die Tandemanordnung verursachte Überaktivität eine allgemeine Eigenschaft von Tandem-Genduplikaten ist [57]. Die größere Leistung der Tandemanordnung im TPS und SCHLAGEN Gene können die Transkripthäufigkeit der Tandemduplikate erhöhen und dadurch zur Massenproduktion von Hauptkomponenten führen. Basierend auf unseren Daten spekulieren wir, dass die bemerkenswerte Duplikation, die Tandem-Clustering von Genen und die Genexpressionsdynamik zur reichlichen charakteristischen Aromabildung in Wintersüß beitragen können.


Methoden

Datensätze

Zwölf Sequenzdatensätze wurden verwendet, um AF-Methoden in fünf Forschungsbereichen zu bewerten (Tabelle 1).

Proteinhomologie

Die Referenzdatensätze von Proteinfamilienmitgliedern mit hoher (≥ 40%) und niedriger (< 40%) Sequenzidentität wurden basierend auf zwei Abschnitten der SCOPe-Datenbank v. 2.07 [68] konstruiert, nämlich ASTRAL95 und ASTRAL40 v. 2.07 [86] bzw. Die SCOPe-Datenbank bietet eine strukturelle Klassifizierung von Proteinen auf vier Ebenen: Klassen (Proteine ​​mit ähnlicher Sekundärstrukturzusammensetzung, aber unterschiedlichen Sequenzen und Gesamttertiärstrukturen), Folds (Proteindomänen ähnlicher Topologie und Struktur ohne nachweisbare Sequenzähnlichkeit), Superfamilien (Proteine ​​mit ähnliche Strukturen und schwache Sequenzähnlichkeit) und Familien (Proteine ​​mit leicht nachweisbarer Sequenzähnlichkeit). Nach früheren Studien [5, 8] wurden die ASTRAL-Datensätze anschließend getrimmt, um Sequenzen mit unbekannten Aminosäuren und Familien mit weniger als 5 Proteinen auszuschließen und umfassten nur die vier Hauptklassen (dh α, β, α/β und α + β). Um die Anforderungen für die Einreichung von AF-Methoden im Zusammenhang mit der Durchführung von All-versus-All-Sequenzvergleichen und dem Hochladen der Ausgabe auf den AFproject-Server zu minimieren, haben wir die Datensätze weiter reduziert, indem wir nur zwei Proteinmitglieder in jeder Familie zufällig ausgewählt haben. Da ASTRAL95 auch Mitglieder der Proteinfamilie enthält, die eine Sequenzidentität von weniger als 40% aufweisen, wurde das Needleman-Wunsch-Alignment durchgeführt (mit der Nadelsoftware im EMBOSS-Paket [87]), um Proteine ​​mit einer Sequenzidentität ≥ 40% auszuwählen, um Referenzdaten zu erhalten Reihe von Proteinen mit hoher Sequenzidentität.

Genbäume

Referenzbäume und entsprechende Proteinsequenzen von elf Genfamilien wurden aus SwissTree Release 2017.0 heruntergeladen [58, 88]: Popeye-Domäne-enthaltende Proteinfamilie (49 Gene), NOX-„ancestral-type“-Subfamilie NADPH-Oxidasen (54 Gene), V-type ATPase-Beta-Untereinheit (49 Gene), Serin-Inkorporator-Familie (115 Gene), SUMF-Familie (29 Gene), ribosomales Protein S10/S20 (60 Gene), Bambi-Familie (42 Gene), Asterix-Familie (39 Gene), zitierte Familie ( 34 Gene), Glycosylhydrolase 14 Familie (159 Gene) und Ant Transformer Protein (21 Gene).

Genregulatorische Elemente

Der Datensatz von CRMs, von denen bekannt ist, dass sie die Expression im gleichen Gewebe und/oder Entwicklungsstadium bei Fliegen oder Menschen regulieren, wurde von Kantorovitz et al. [6]. Der Datensatz wurde speziell ausgewählt, um die Fähigkeit von AF-Messungen zu testen, um funktionelle Beziehungen zwischen regulatorischen Sequenzen (z. B. Enhancer oder Promotoren) zu identifizieren. Der Datensatz enthält 185 CRM-Sequenzen aus D. melanogaster— Embryo im Blastoderm-Stadium (n = 82), Auge (n = 17), peripheres Nervensystem (n = 23) und Trachealsystem (n = 9) – und Homo sapiens—HBB-Komplex (n = 17), Leber (n = 9) und Muskel (n = 28).

Genombasierte Phylogenie

Die Sequenzen von 25 ganzen mitochondrialen Genomen von Fischarten aus der Unterordnung Labroidei und der Artenbaum wurden von Fischer et al. [59]. Der Satz von 29 E. coli Genomsequenzen wurden ursprünglich von Yin und Jin zusammengestellt [23] und wurden in der Vergangenheit von anderen Gruppen verwendet, um AF-Programme zu bewerten [24, 25, 89]. Schließlich stammt der Satz von 14 Pflanzengenomen von Hatje et al. [90]. Dieses Set wurde in der Vergangenheit auch zur Evaluierung von AF-Methoden verwendet. Um unassemblierte Lesevorgänge aus diesen Datensätzen zu simulieren, haben wir das Programm ART [91] verwendet.

Horizontaler Gentransfer

Die 27 E coli und Shigella Genome und die 8 Yersinien Genome, wurden von Bernard et al. [62]. Wir verwendeten EvolSimulator [92], um HGT in mikrobiellen Genomen zu simulieren, wobei wir einen Ansatz verfolgten, der dem von Bernard et al. [62]. Die HGT-Ereignisse wurden so simuliert, dass sie zufällig auftreten, d. h. irgendwo entlang einer genomischen Sequenz und zwischen jedem Genompaar in einem Satz. Jeder Satz von Genomen wurde unter einem Geburts-und-Tod-Modell mit Artbildungsrate = Extinktionsrate = 0,5 simuliert. Die Anzahl der Genome in jedem Satz durfte von 25 bis 35 variieren, wobei jedes 2000–3000 Gene mit einer Länge von 240–1500 Nukleotiden enthielt. Die HGT-Empfänglichkeit wurde auf ein Minimum von 0,2, ein Mittel von 0,5 und ein Maximum von 0,8 eingestellt, mit einer Mutationsrate m = 0,4–0,6 und mehrere Generationen ich = 5000. Das unterschiedliche Ausmaß von HGT wurde unter Verwendung der mittleren Anzahl versuchter HGT-Ereignisse pro Iteration simuliert l = 0, 250, 500, 750 und 1000 und Divergenzfaktor D = 2000 (übertragene Gene mit hoher Sequenzdivergenz, d. h. > 2000 Iterationen auseinander, werden nicht erfolgreich sein). Alle anderen Parameter in dieser Simulation folgten Beiko et al. [92].

Ausrichtungsfreie Werkzeuge

AAF [38] rekonstruiert eine Phylogenie direkt aus unassemblierten Next-Generation-Sequencing-Reads. Insbesondere berechnet AAF die Jaccard-Distanz zwischen Sätzen von k-mers von zwei Samples von kurzen Sequenz-Reads. Dieser Abstand zwischen Proben oder Spezies basiert auf der Schätzung des Geschwindigkeitsparameters aus einem Poisson-Prozess für eine Mutation, die an einem einzelnen Nukleotid auftritt. Die Phylogenie wird unter Verwendung gewichteter kleinster Quadrate mit Gewichtungen konstruiert, die proportional zur erwarteten Varianz der geschätzten Entfernungen sind. AAF bietet Funktionen zum Korrigieren von Spitzenverzweigungen und zum Bootstrapping der erhaltenen phylogenetischen Bäume, wodurch die Probleme von Sequenzierungsfehlern und unvollständiger Abdeckung direkt angegangen werden.

AFKS [34] ist ein Paket zur Berechnung von 33 k-mer-basierte Unähnlichkeits-/Abstandsmaße zwischen Nukleotid- oder Proteinsequenzen. AFKS kategorisiert die Takte in neun Familien: Minkowski (z. B. Euklidisch), Mismatch (z. B. Jaccard), Schnittpunkt (z. B. Kulczynski), D2 (z. B. D2s), Squared Chord (z. B. Hellinger), Inneres Produkt (z. B. normalisiert Vektoren), Markov (zB SimMM), Divergenz (zB KL Conditional) und Andere (zB Längendifferenz). Das Tool ermittelt das Optimum k-mer-Größe für gegebene Eingabesequenzen und berechnet Unähnlichkeits-/Abstandsmaße zwischen k-mer-Zählungen, die Pseudozählungen enthalten (dazu wird jeweils 1 hinzugefügt) k-mer zählen). Der erhaltene Abstand wird auf 0 bis 1 normiert.

alfpy [5] bietet 38 AF-Unähnlichkeitsmaße, mit denen Abstände zwischen gegebenen Nukleotid- oder Proteinsequenzen berechnet werden können. Das Werkzeug enthält 25 k-mer-basierte Maße (z. B. Euklidisch, Minkowski, Jaccard und Hamming), acht informationstheoretische Maße (z. B. Lempel-Ziv-Komplexität und normalisierte Kompressionsdistanz), drei graphenbasierte Maße und zwei hybride Maße (z. B. Kullback –Leibler Divergenz und W-Metrik). alfpy ist auch als Webanwendung und Python-Paket verfügbar. In dieser Studie werden die Ergebnisse anhand von 14 Unähnlichkeitsmaßen ausgewertet.

ALFRED-G [45] verwendet einen effizienten Algorithmus, um die Länge der maximalen k-Mismatch gemeinsame Teilstrings zwischen zwei Sequenzen. Um den Grad der Unähnlichkeit zwischen zwei Nukleinsäure- oder Proteinsequenzen zu messen, berechnet das Programm die Länge maximaler Wortpaare – ein Wort aus jeder der Sequenzen – mit bis zu k Nichtübereinstimmungen.

undi [24] schätzt phylogenetische Distanzen zwischen Genomen eng verwandter Arten durch Identifizierung von Paaren maximaler eindeutiger Wortübereinstimmungen in einem bestimmten Abstand voneinander und auf derselben Diagonale in der Vergleichsmatrix von zwei Sequenzen. Solche Wortübereinstimmungen können unter Verwendung verbesserter Suffix-Arrays effizient gefunden werden. Das Tool verwendet dann diese lückenlosen Ausrichtungen, um die Anzahl der Ersetzungen pro Position abzuschätzen.

CAFE [36] ist ein Paket zur effizienten Berechnung von 28 AF-Unähnlichkeitsmaßen, einschließlich 10 konventioneller Maße basierend auf k-mer-Zählungen, wie Chebyshev, Euklidisch, Manhattan, unzentrierte Korrelationsdistanz und Jensen-Shannon-Divergenz. Es bietet auch 15 Maßnahmen basierend auf der Anwesenheit/Abwesenheit von k-mers, wie Jaccard- und Hamming-Abstände. Am wichtigsten ist, dass es eine schnelle Berechnung von hintergrundkorrigierten Unähnlichkeitsmaßen einschließlich CVTree, d2star und d2shepp ermöglicht. CAFE ermöglicht sowohl assemblierte Genomsequenzen als auch unassemblierte Shotgun-Reads der nächsten Generation für die Sequenzierung als Eingaben. Es befasst sich jedoch nicht mit Aminosäuresequenzen. In dieser Studie werden die Ergebnisse auf Basis von CVTree, d2star und d2shepp ausgewertet.

co-phylog [23] schätzt evolutionäre Distanzen zwischen zusammengesetzten oder nicht zusammengesetzten Genomsequenzen eng verwandter mikrobieller Organismen. Das Tool findet kurze, lückenlose Alignments fester Länge, die nur aus übereinstimmenden Nukleotidpaaren bestehen, mit Ausnahme der mittleren Position in jedem Alignment, wo Fehlpaarungen erlaubt sind. Phylogenetische Abstände werden aus dem Bruchteil solcher Ausrichtungen geschätzt, für die die mittlere Position eine Fehlanpassung ist.

EP-sim [53] berechnet einen AF-Abstand zwischen Nukleotid- oder Aminosäuresequenzen basierend auf entropischen Profilen [93, 94]. Das entropische Profil ist eine Funktion der genomischen Position, die die Bedeutung dieser Region in Bezug auf das gesamte Genom erfasst. Für jede Position berechnet es eine Bewertung basierend auf den Shannon-Entropien der Wortverteilung und Wortzählungen variabler Länge. EP-sim schätzt einen phylogenetischen Abstand, ähnlich wie D2, indem die entropischen Profilwerte über alle Positionen summiert werden, oder ähnlich zu ( _2^ ) , mit der Summe der normalisierten entropischen Profilwerte.

FFP [35, 39] schätzt die Abstände zwischen Nukleotid- oder Aminosäuresequenzen. Das Tool berechnet die Anzahl von jedem k-mer und dividiert dann die Anzahl durch die Gesamtanzahl aller k-mers, um die Zählungen in Häufigkeiten einer gegebenen Sequenz zu normalisieren. Dieser Prozess führt zur Umwandlung jeder Sequenz in ihr Merkmalsfrequenzprofil (FFP). Der paarweise Abstand zwischen zwei Sequenzen wird dann durch die Jensen-Shannon-Divergenz zwischen ihren jeweiligen FFPs berechnet.

FSWM [26] schätzt den phylogenetischen Abstand zwischen zwei DNA-Sequenzen. Das Programm definiert zunächst ein festes binäres Muster P der Länge l repräsentiert „Match-Positionen“ und „Egal-Positionen“. Dann identifiziert es alle "Spaced-Word-Matches" (Spam) w.r.t. P, d. h. lückenlose lokale Ausrichtungen der Eingabesequenzen der Länge l, mit übereinstimmenden Nukleotiden an den „Übereinstimmungspositionen“ von P und mögliche Nichtübereinstimmungen an den „egal“-Positionen. Um den Abstand zwischen zwei DNA-Sequenzen abzuschätzen, Spams mit geringer Gesamtähnlichkeit werden verworfen und die verbleibenden Spams werden verwendet, um den Abstand zwischen den Sequenzen basierend auf dem Mismatch-Verhältnis an den „egal“-Positionen abzuschätzen. Es gibt eine Version von FSWM, die Sätze von unassemblierten Sequenzierungslesevorgängen miteinander vergleichen kann, genannt Lesen-SpaM [48].

jD2Stat [37] verwendet eine Reihe von D2 Statistiken [17, 18] zu extrahieren k-mere aus einem Satz biologischer Sequenzen und generieren paarweise Abstände für jedes mögliche Paar als Matrix. Für jeden Sequenzsatz erzeugten wir Distanzmatrizen (an den definierten k Zusätzliche Datei 1: Tabelle S1), jeweils mit ( _2^S ) (D2S genau k-mer-Zählungen normalisiert basierend auf der Wahrscheinlichkeit des Auftretens bestimmter k-mers), ( _2^ ) (d2St ähnlich ( _2^S ), aber normalisiert basierend auf Mittelwerten und Varianz) und ( _2^n ) (d2n Erweiterung von D2 das erweitert jedes Wort w in den Sequenzen zu seiner Nachbarschaft erholt n, d.h. alles möglich k-mers mit n Anzahl der Wildcard-Reste, relativ zu w).

kmacs [20] vergleicht zwei DNA- oder Proteinsequenzen, indem es nach den längsten gemeinsamen Teilstrings mit bis zu k Nichtübereinstimmungen. Genauer gesagt für jede Position ich in einer Sequenz identifiziert das Programm das längste Paar von Teilstrings mit bis zu k Nichtübereinstimmungen, beginnend bei ich in der ersten Sequenz und irgendwo in der zweiten Sequenz. Die durchschnittliche Länge dieser Teilstringpaare wird dann verwendet, um den Abstand zwischen den Sequenzen zu definieren.

kr [46] schätzt den evolutionären Abstand zwischen Genomen durch Berechnung der Anzahl der Substitutionen pro Stelle. Der Schätzer für die Substitutionsrate zwischen zwei nicht ausgerichteten Sequenzen hängt von einem mathematischen Modell der DNA-Sequenzentwicklung und der durchschnittlichen kürzesten einzigartigen Teilkette (Shusting) ab.

kSNP3 [52] identifiziert Einzelnukleotidpolymorphismen (SNPs) in einem Satz von Genomsequenzen, ohne dass ein Genom-Alignment oder ein Referenzgenom erforderlich ist. Das Tool definiert einen SNP-Locus als den k-mere, die ein zentrales SNP-Allel umgeben. kSNP3 kann komplette Genome, Entwurfsgenome in der Montagephase, Genome in der Rohlesephase oder eine beliebige Kombination dieser Phasen analysieren. Basierend auf den identifizierten SNPs schätzt kSNP3.0 phylogenetische Bäume durch Parsimony-, Neighbor-Joining- und Maximum-Likelihood-Methoden und meldet einen Konsensbaum mit der Anzahl der SNPs, die für jeden Knoten einzigartig sind.

kWIP [44] schätzt die genetische Unähnlichkeit zwischen Proben direkt aus Sequenzierungsdaten der nächsten Generation, ohne dass ein Referenzgenom erforderlich ist. Das Tool verwendet die Metrik des gewichteten inneren Produkts (WIP), die darauf abzielt, die Auswirkungen von technischem und biologischem Rauschen zu reduzieren und das relevante genetische Signal durch Gewichtung zu erhöhen k-mer zählt nach ihrer Informationsentropie über den Analysesatz. Dieses Verfahren reduziert das Gewicht k-mere, die typischerweise nicht aussagekräftig sind (sehr häufig oder in sehr wenigen Proben vorhanden).

LZW-Kernel [40] klassifiziert Proteinsequenzen und identifiziert entfernte Proteinhomologien über eine Faltungskernfunktion. LZW-Kernel nutzt Codeblöcke, die von den universellen Lempel-Ziv-Welch (LZW)-Textkompressoren erkannt werden, und baut daraus eine Kernel-Funktion auf. LZW-Kernel liefert einen Ähnlichkeitsscore zwischen Sequenzen von 0 bis 1, der direkt mit Support Vector Machines (SVMs) in Klassifikationsproblemen verwendet werden kann. LZW-Kernel kann auch den Abstand zwischen Proteinsequenzen unter Verwendung von normalisierten Kompressionsdistanzen (LZW-NCD) schätzen.

mash [11] schätzt den evolutionären Abstand zwischen Nukleotid- oder Aminosäuresequenzen. Das Tool verwendet den MinHash-Algorithmus, um die Eingabesequenzen auf kleine „Skizzen“ zu reduzieren, die schnelle Entfernungsschätzungen mit geringem Speicher- und Speicherbedarf ermöglichen. Um eine „Skizze“ zu erstellen, k-mer in einer Sequenz wird gehasht, wodurch ein pseudozufälliger Bezeichner (Hash) erstellt wird. Durch Sortieren dieser Hashes kann eine kleine Teilmenge von oben in der sortierten Liste die gesamte Sequenz darstellen (min-Hashes). Zwei Skizzen werden verglichen, um eine Schätzung des Jaccard-Index (d. h. des Anteils der geteilten Hashes) und der Mash-Distanz zu liefern, die die Rate der Sequenzmutation unter einem evolutionären Modell schätzt.

Multi-SpaM [25] beginnt ähnlich wie FSWM mit einem binären Muster P der Länge l repräsentiert „Match-Positionen“ und „Egal-Positionen“. Es sucht dann nach Vier-Wege-Spaced-Word-Matches (Spam) w.r.t. P, d.h. lokale lückenlose Ausrichtungen der Länge l mit jeweils vier Sequenzen und identischen Nukleotiden an den „Match-Positionen“ und möglichen Fehlpaarungen an den „egal-Positionen“. Bis zu 1.000.000 solcher multipler SpaMs mit einem Score über einem bestimmten Schwellenwert werden zufällig ausgewählt, und für jeden von ihnen wird mit RAxML ein Quartettbaum berechnet [95]. Das Programm Quartet Max-Cut [96] wird verwendet, um aus den erhaltenen Quartettbäumen einen endgültigen Baum aller Eingabesequenzen zu berechnen.

phylonium [49] schätzt phylogenetische Abstände zwischen eng verwandten Genomen. Das Tool wählt eine Referenz aus einem gegebenen Satz von Sequenzen aus und findet mit dieser Referenz übereinstimmende Sequenzsegmente aller anderen Sequenzen. Diese langen und eindeutigen übereinstimmenden Segmente (Anker) werden unter Verwendung eines erweiterten Suffix-Arrays berechnet. Zwei äquidistante Anker bilden eine homologe Region, in der SNPs gezählt werden. Mit der Analyse von SNPs schätzt Phylonium die evolutionären Abstände zwischen den Sequenzen.

RTD-Phylogeny [51] berechnet phylogenetische Abstände zwischen Nukleotid- oder Proteinsequenzen basierend auf der Zeit, die für das Wiederauftreten von k-mers. Die Zeit bezieht sich auf die Anzahl der Reste beim sukzessiven Auftreten bestimmter k-mers. Somit ist das Auftreten von jedem k-mer in einer Sequenz wird in Form einer Rückkehrzeitverteilung (RTD) berechnet, die dann mit dem Mittelwert (μ) und Standardabweichung (σ). Als Ergebnis wird jede Folge in Form eines numerischen Vektors der Größe 2·4 . dargestellt k die enthalten μ und σ von 4 k RTDs. Der paarweise Abstand zwischen Sequenzen wird unter Verwendung des euklidischen Abstands berechnet.

Skmer [50] schätzt phylogenetische Abstände zwischen Proben von Rohsequenzierungs-Reads. Skmer führt intern Mash [11] aus, um die zu berechnen k-mer-Profil von Genom-Skims und deren Schnittmenge und schätzt die genomischen Distanzen durch Korrektur des Effekts geringer Abdeckung und Sequenzierungsfehler. Das Tool kann Entfernungen zwischen Proben mit hoher Genauigkeit aus Genomskims mit geringer und gemischter Abdeckung ohne vorherige Kenntnis der Abdeckung oder des Sequenzierungsfehlers abschätzen.

Slope-SpaM [97] schätzt den phylogenetischen Abstand zwischen zwei DNA-Sequenzen durch Berechnung der Zahl nk von k-mer stimmt mit einem Wertebereich von überein k. Der Abstand zwischen den Sequenzen kann dann aus dem Neigung einer bestimmten Funktion, die abhängig ist von nk. Anstelle von exakten Wortübereinstimmungen kann das Programm auch Spam w.r.t. ein vordefiniertes binäres Muster von „Match-Positionen“ und „Egal-Positionen“.

spaced [41,42,43] ähnelt früheren Methoden, die die k-mer Zusammensetzung von DNA- oder Proteinsequenzen. Das Programm verwendet jedoch die sogenannten Spaced-Words anstelle von k-mers. Für ein gegebenes binäres Muster P der Länge l steht für „Match-Positionen“ und „Egal-Positionen“, ein Wort mit Leerzeichen w.r.t. P ist ein Wort von Länge l mit Nukleotid- oder Aminosäuresymbolen an den „Übereinstimmungspositionen“ und „Platzhalterzeichen“ an den „egal-Positionen“. Der Vorteil der Verwendung von Wörtern mit Leerzeichen anstelle von genauen k-mers ist, dass die erhaltenen Ergebnisse statistisch stabiler sind. Diese Idee wurde bereits für die Datenbanksuche vorgeschlagen [98, 99]. Die ursprüngliche Version von Spaced [41] verwendete den euklidischen oder Jensen-Shannon-Abstand [100], um die räumliche Wortzusammensetzung genomischer Sequenzen zu vergleichen. Standardmäßig verwendet das Programm nun ein von Morgenstern et al. [43], das die Anzahl der Substitutionen pro Sequenzposition abschätzt.

Der zugrunde liegende Ansatz [47] schätzt phylogenetische Abstände zwischen ganzen Genomen unter Verwendung von übereinstimmenden Statistiken von gemeinsamen Wörtern zwischen zwei Sequenzen. Die Übereinstimmungsstatistik wird aus einer kleinen Menge unabhängiger Teilwörter mit variabler Länge (genannt unnötige gemeinsame Unterwörter). Die Unähnlichkeit zwischen den Sequenzen wird basierend auf der Länge der längsten gemeinsamen Teilwörter berechnet, sodass jede Genomregion nur einmal einen Beitrag leistet, wodurch ein mehrfaches Zählen gemeinsamer Teilwörter vermieden wird (dh Teilwörter, die in genomischen Regionen vorkommen, die von anderen signifikanteren Teilwörtern abgedeckt werden, werden verworfen). .

Benchmarks

Bewertung struktureller und evolutionärer Beziehungen zwischen Proteinen

Um die Fähigkeit von AF-Distanzmaßen zu testen, SCOPe-Beziehungen (d. h. Familie, Überfamilie, Falte und Klasse) zu erkennen, verwendeten wir ein Benchmarking-Protokoll aus früheren Studien [5, 8]. Dementsprechend nimmt das Benchmarking-Verfahren die Abstände zwischen allen in der Datensatzdatei vorhandenen Sequenzpaaren. Die Abstände zwischen allen Proteinpaaren werden anschließend vom Minimum zum Maximum (d. h. vom Maximum zum Minimum der Ähnlichkeit) sortiert. Das vergleichende Testverfahren basiert auf einer binären Klassifikation jedes Proteinpaars, wobei 1 den beiden Proteinen entspricht, die dieselbe Gruppe in der SCOPe-Datenbank haben und 0 anderen Ergebnissen entspricht. Die Gruppe kann auf einer der vier verschiedenen Ebenen der Datenbank (Familie, Überfamilie, Faltung und Klasse) definiert werden, um die hierarchische Organisation der Proteine ​​in dieser Struktur zu untersuchen. Daher ist jedem Proteinpaar vier binäre Klassifikationen zugeordnet, eine für jede Ebene. Auf jeder SCOPe-Ebene werden ROC-Kurven und AUC-Werte, die in scikit-learn [101] berechnet wurden, erhalten, um eine eindeutige Zahl der relativen Genauigkeit jeder Metrik und Ebene gemäß dem SCOP-Klassifizierungsschema zu geben. Die Gesamtbewertung der Methodengenauigkeit ist ein Durchschnitt der AUC-Werte über alle vier SCOPe-Stufen.

Bewertung funktionell verwandter regulatorischer Sequenzen

Um zu testen, wie gut AF-Methoden die Ähnlichkeit zwischen Sequenzen mit ähnlichen funktionellen Rollen erfassen können, haben wir das ursprüngliche Benchmarking-Protokoll von Kantorovitz et al. [6]. Kurz gesagt, wird ein Satz von CRMs, von dem bekannt ist, dass er die Expression im gleichen Gewebe und/oder Entwicklungsstadium reguliert, als "positiver" Satz angesehen. Als „negativer“ Satz wird ein gleich großer Satz zufällig ausgewählter nicht-kodierender Sequenzen mit Längen genommen, die den CRMs entsprechen. Jedes Sequenzpaar in der positiven Menge wird verglichen, ebenso wie jedes Paar in der negativen Menge. Der Test bewertet, ob funktionell verwandte CRM-Sequenzpaare (aus der positiven Hälfte) von einem gegebenen AF-Tool besser bewertet werden (d. h. niedrigere Distanz-/Unähnlichkeitswerte aufweisen) als nicht verwandte Sequenzpaare (aus der negativen Hälfte). Dieses Verfahren wird durchgeführt, indem alle Paare, egal ob sie aus der positiven oder der negativen Menge stammen, in einer kombinierten Liste sortiert werden und dann gezählt wird, wie viele der Paare in der oberen Hälfte dieser Liste aus der positiven Menge stammen. Die Gesamtbewertung der Methodengenauigkeit ist der gewichtete Durchschnitt der positiven Paare über alle sieben Teilmengen.

Auswertung der phylogenetischen Inferenz

Die Genauigkeit von AF-Methoden für Datensätze aus drei Kategorien – Genbaum-Inferenz, genombasierte Phylogenie und horizontaler Gentransfer – wurde durch einen Vergleich der Topologie zwischen dem Methodenbaum und dem Referenzbaum bewertet. Die mit der AF-Methode erhaltenen paarweisen Sequenzabstände wurden als Eingabe für den Neighbor-Joining-Algorithmus (fneighbor im EMBOSS-Paket [87], Version: EMBOSS:6.6.0.0 PHYLIPNEW:3.69.650) verwendet, um den entsprechenden Methodenbaum zu generieren. Um den Grad der topologischen (Dis-)Übereinstimmung zwischen den abgeleiteten und Referenzbäumen zu beurteilen, haben wir den normalisierten Robinson-Foulds (nRF)-Abstand [63] unter Verwendung der Tree.compare-Funktion im ETE3 [102] Toolkit für phylogenetische Bäume mit der Option . berechnet unrooted = wahr. Der Robinson-Foulds (RF)-Abstand ist ein Maß für die Unähnlichkeit zwischen zwei Baumtopologien mit der gleichen Anzahl von Blättern und den gleichen Labels (Arten) an den Blättern, d. h. er misst die Unähnlichkeit von Verzweigungsmustern und ignoriert Astlängen. Genauer gesagt ist der RF-Abstand zwischen zwei Bäumen als die Anzahl bestimmter Editieroperationen definiert, die notwendig sind, um die erste Topologie in die zweite Topologie (oder umgekehrt) umzuwandeln. Äquivalent kann man den HF-Abstand zwischen zwei Topologien definieren, indem man Zweiteilungen der Blätter (Arten) der Bäume berücksichtigt, die durch Entfernen von Kanten von den Bäumen erhalten werden. Die RF-Distanz ist dann die Anzahl der Bipartitionen, die nur von einem Baum, nicht aber von dem jeweils anderen Baum erhalten werden können. Das nRF-Maß normalisiert die RF-Distanz so, dass die maximal mögliche nRF-Distanz für die gegebene Anzahl von Blättern auf 1 gesetzt wird. Somit hat die nRF-Distanz Werte zwischen 0 und 1 mit 0 für identische Baumtopologien und 1 für maximal unterschiedliche Topologien, wobei es wird keine Zweiteilung in der Referenz wiederhergestellt. Angesichts bestimmter Unzulänglichkeiten der nRF-Distanz, wie z Anzahl der Taxa) [104], haben wir den AFproject-Service um ein zusätzliches Maß für topologische Nichtübereinstimmung, die normalisierte Quartettdistanz (nQD) [105] ergänzt, die den Anteil der Teilmengen von vier Blättern ist, die nicht durch die gleiche Topologie in beiden Bäumen verwandt sind .

Leistungszusammenfassungskriterien

Abbildung 2 zeigt die farbcodierte Leistung der bewerteten AF-Methoden über 12 Referenzdatensätze.

Leistungspunktzahl

Für unsere Benchmarking-Datensätze verwenden wir verschiedene Maßnahmen, um die Leistung jeder Methode für einen bestimmten Datensatz zu bewerten, zum Beispiel nRF oder AUC. Um unsere Benchmarking-Ergebnisse aus verschiedenen Datensätzen vergleichbar zu machen, haben wir diese Maße in einen Performance-Score mit Werten zwischen 0 und 100 umgerechnet. Für die Datensätze der Proteinsequenzklassifikation ist dieser Score definiert als AUC × 100 für Datensätze aus Genbäumen, Genom -basierte Phylogenie und horizontale Gentransferkategorien definieren wir den Leistungsscore als (1 − nRF) × 100. Für den Datensatz des regulatorischen Elements ist der Leistungsscore bereits eine Zahl zwischen 0 und 100, nämlich die gewichtete durchschnittliche Leistung über sieben Teildatensätze.

Außerdem definieren wir an Gesamtleistungspunktzahl (Zusätzliche Datei 1: Tabelle S14), die jede Methode über die Datensätze hinweg bewertet und auch Werte zwischen 0 und 100 annimmt. Für eine bestimmte Methode berechnen wir überarbeitete Punktzahlen für jeden Datensatz, an dem die Methode getestet wurde als (Smin_score)/(max_scoremin_score) × 100, wobei S ist die durch die Methode erhaltene Leistungspunktzahl und min_score und max_score sind die minimalen bzw. maximalen Punktzahlen, die mit allen Methoden für einen gegebenen Datensatz erhalten wurden. Auf diese Weise erhält die Methode mit der besten Leistung in einem bestimmten Datensatz eine Punktzahl von 100 und die Methode mit der schlechtesten Leistung eine Punktzahl von 0. Die Gesamtleistung ist ein Durchschnitt der revidierten Punktzahlen der Datensätze, an denen die angegebene Methode getestet wurde .


I.5 Zusätzliche Kommentare für Nicht-Unix-Benutzer

Bioperl wurde hauptsächlich unter verschiedenen Unix-Umgebungen entwickelt und getestet, darunter Linux und MacOS X. Außerdem wurde dieses Tutorial weitgehend aus einer Unix-Perspektive geschrieben.

Mac-Benutzer finden die Installationshinweise und Vorschläge von Steve Cannon für Bioperl unter OS X unter http://www.tc.umn.edu/

cann0010/Bioperl_OSX_install.html hilfreich. Auch Todd Richmond hat über seine Erfahrungen mit BioPerl auf MacOS 9 geschrieben (http://bioperl.org/Core/mac-bioperl.html).

Der Bioperl-Kern wurde ebenfalls getestet und sollte unter den meisten Versionen von Microsoft Windows funktionieren. Für viele Windows-Benutzer waren die Perl- und Bioperl-Distributionen von Active State unter http://www.activestate.com sehr hilfreich. Andere Windows-Benutzer hatten Erfolg mit bioperl unter Cygwin (http://www.cygwin.com). Weitere Informationen finden Sie in der Datei INSTALL.WIN des Pakets.

Viele Funktionen von bioperl erfordern die Verwendung von CPAN-Modulen, kompilierten Erweiterungen oder externen Programmen. Diese Funktionen werden wahrscheinlich unter einigen oder allen dieser anderen Betriebssysteme nicht funktionieren. Wenn ein Skript versucht, auf diese Funktionen von einem Nicht-Unix-Betriebssystem zuzugreifen, ist bioperl so konzipiert, dass es einfach meldet, dass die gewünschte Funktion nicht verfügbar ist. Da das Testen von bioperl in diesen Umgebungen jedoch begrenzt ist, kann das Skript auf eine weniger anmutige Weise abstürzen.


Material und Methoden

Die Sequenzdatenanalyse wurde in BioPython (Cock et al. 2009) mit iPython (Pérez und Granger 2007) und BioPerl (Stajich et al. 2002) implementiert. Die phylogenetische Berechnung wurde mit DendroPy 3.10.0 (Sukumaran und Holder 2010) in Python implementiert 2.7.2 (www.python.org). Skripte sind auf Anfrage bei den Autoren erhältlich. Andere Werkzeuge wurden verwendet, wie später beschrieben.

Sequenzdatenquellen und Genom-Annotation

Genfamilienzuordnung

Haloarchaeengenome enthalten bekanntermaßen Inteine ​​(Perler 2002). Vor der Zuordnung von ORFs zu Familien nach Sequenzhomologie wurden Inteinsequenzen identifiziert und aus proteinkodierenden Sequenzen entfernt, da sie nicht in allen homologen ORFs vorhanden sind (Gogarten et al. 2002). Jede bekannte Intein-Sequenz von InBase (Perler 2002) wurde als Seed verwendet, um positionsspezifische Bewertungsmatrizen mit Position-Specific Initiated Basic Local Alignment Search Tool (BLAST) 2.2.23+ (Camacho et al. 2009) gegen InBase und die haloarchaeale Proteinsequenzen mit einer Akzeptanzschwelle e Wert von 0,0001. Jede Matrix wurde verwendet, um die haloarchaealen Proteinsequenzen abzufragen und Alignments mit einem e Wert < 1e� wurden an jedem Ende mit regulären Ausdrücken durchsucht, die entworfen wurden, um den N-Terminus ([ACS][AGFIHMLQSVY]) und C-Terminus ([GFHKNS][QSN][CGSTVY]) Intein-Spleißstellen von bekannten . zu entsprechen InBase Bakterien- und Archaea-abgeleitete Sequenzen. Mehrere Alignments von Proteinsequenzen mit gemeinsamen KAAS-abgeleiteten KEGG-Orthologienummern, die mutmaßliche Intein enthaltende Sequenzen einschlossen, wurden unter Verwendung von Muscle 3.8.31 (Edgar 2004) mit den Standardeinstellungen durchgeführt, um das Vorhandensein von Inteinen zu bestätigen. Abgeleitete Inteinsequenzen wurden entfernt und sind in der ergänzenden Tabelle S2, Ergänzendes Material online aufgeführt.

Um Superfamilien-Cluster von ORFs zu etablieren, wurde jede Proteinsequenz als BLASTP (Camacho et al. 2009)-Abfrage gegen alle Proteine ​​verwendet, und Gruppen wurden basierend auf gebildet e Werte 1e𢄤. Nach Single-Linkage-Clustering wurde der MCL-Algorithmus (Enright et al. 2002) mit ich = 1,2 für jede Gruppe unter Verwendung des kleineren der bidirektionalen BLAST-Bitscores der Trefferabfrage, normalisiert auf Selbsttreffer-Bitscores, als Kantengewichte, aber mit Nichtübereinstimmungen der Trefferabfragelänge von 30% auf Null gesetzt, um den Einfluss von Ausrichtungen mit weniger als voller Länge auf . zu verringern Bildung von ORF-Clustern. Der MCL-Algorithmus wurde auf den Clustern > 210 mit zunehmendem wiederholt ich Werte: 1,8, 2,4, 3,0, 3,6 und 4,2, da einige sehr große Superfamilien nach Anwendung von kleineren übrig blieben ich Werte. Die resultierenden Superfamilien von Sequenzen wurden mit Muscle 3.8.31 abgeglichen, und alle verbleibenden entfernt homologen Sequenzen wurden von jeder mit scan_orphanerrs aus dem RASCAL-Paket entfernt (Thompson et al. 2003). Die Superfamilien wurden neu ausgerichtet, Phylogenien abgeleitet mit FastTree Version 2.1.2 SSE3 (Price et al. 2010) und Genfamilien abgeleitet mit dem BranchClust-Algorithmus (Poptsova und Gogarten 2007) mit vielen = 11. BranchClust wurde an jeder terminalen Kante gestartet (siehe Poptsova und Gogarten 2007 für Details zum Algorithmus) und der Lauf mit den meisten Familien und der größten Kantenlänge zwischen den Familien (als Tie-Breaker) wurde ausgewählt.

Phylogenetische Rekonstruktion weit verbreiteter Genfamilien

Alle Aminosäuresequenzen der ORF-Familie wurden unter Verwendung von AQUA (Müller et al. 2010) mit Standardeinstellungen (Muscle 3.8.31, MAFFT v6.861b (Katoh et al. 2002), RASCAL 1.34 (Thompson et al. 2003), und norMD 1.2 (Thompson et al. 2001), mit Ausnahme von -maxiters 32 in Muscle). Nukleotidsequenzen wurden mit Tranalign aus dem EMBOSS-Paket Version 6.3.1 (Rice et al. 2000) darauf ausgerichtet. Die meisten haloarchaealen Genome weisen einen höheren Anteil an Guanin- und Cytosinbasen auf, was bei den meisten Gen-Calling-Algorithmen zu einer Zunahme der fehlerhaften Identifizierung von Start- und Stoppcodons führt (Aivaliotis et al. 2007). N-terminale Verlängerungen wurden entfernt, um phylogenetische Rekonstruktionsartefakte zu mildern, die durch den Einschluss von Nichtprotein-kodierenden Sequenzen verursacht wurden. Homologieinformationen aus den multiplen Alignments der ORF-Familie wurden verwendet, um vermeintlich fehlerhafte N-terminale Erweiterungen zu identifizieren, die als Regionen von ORFs definiert sind, die früher im multiplen Alignment beginnen als die Mehrheit der anderen Mitglieder, die 1 oder mehr Methionin oder Valin enthalten und einen vorhergesagten isoelektrischen Punkt (pI) hatten. Ϧ (der vorhergesagte pI der meisten Haloarchaeal ORFs ist υ) Vorhersagen wurden mit Hilfe von computePI() aus der SeqinR-Bibliothek 3.0-5 (Charif und Lobry 2007) für die statistische Rechenumgebung R 2.13.2 (Ihaka und Gentleman 1996) gemacht. . C-terminale Verlängerungen waren selten genug, um ein ähnliches Screening nicht zu rechtfertigen.

Phylogenien wurden für ORF-Familien mit einem Vertreter von mindestens 15 der 21 Genome aus Aminosäure- und Nukleotid-Alignments abgeleitet. Familien mit mehr als einem ORF aus einem Genom wurden von der Analyse ausgeschlossen, um die Mehrdeutigkeit der Geschichte durch potenzielle Paralogie zu minimieren. Für jedes Alignment wurde eine Substitutionsmodellauswahl für die ML-Rekonstruktion für Aminosäure-Alignments mit ProtTest (Abascal et al. 2005) unter Verwendung des Akaike Information Criterion (AIC)-Kriteriums und für Nukleotid-Alignments mit ModelTest (Posada und Crandall 1998), implementiert in HyPhy ( Kosakowski-Teich et al., 2005). Leitbäume wurden unter Verwendung von PhyML 3.0 (Guindon und Gascuel 2003) unter Verwendung der besten NNI- und SPR-Suchoperationen erstellt, wobei ein Anteil von invarianten Standorten und eine Gammaverteilung der Ratenvariation zwischen den Sites mit vier Ratenkategorien nach ML unter Verwendung der LG-Substitutionsmatrix (Le und Gascuel 2008) für Aminosäuren und das Hasegawa–Kishino–Yano-Substitutionsmodell (Hasegawa et al. 1985) für Nukleotiddaten. Phylogenien mit 100 nichtparametrischen Bootstrap-Replikaten wurden wie bei den Leitbäumen abgeleitet, außer wenn sich die ausgewählten Modelle unterschieden.

Quartett Zerlegung

Topologien aller Quartette homologer ORF-Sequenzen (jeweils ein Genom darstellend), die in jedem Satz von 100 nichtparametrischen Bootstrap-Replikat-Phylogenien eingebettet sind, wurden gemäß der Vier-Punkte-Bedingung von Buneman (1974) aus Distanzmatrizen der Phylogenien extrahiert. Dieser numerische Ansatz erwies sich als recheneffizienter als das Ableiten eingebetteter Quartetttopologien durch direkte Manipulation von Phylogenien, die als Datenobjekte dargestellt werden. Für jedes eingebettete Quartett in jeder Phylogenie in jedem Satz von Bootstrap-Replikaten (pro Genfamilie) wurde die Häufigkeit jeder der drei Topologien gezählt, um einen Bootstrap-Score (BSS) mit einer Auflösung von (und einer Addition von) 100 zu erhalten. In Simulationen durchgeführt von Zhaxybayeva et al. (2006) zur Untersuchung der Fehlerraten von falsch-positiven und -negativen HGT-Inferenzen durch eingebettete Quartett-Zerlegung, fanden sie, dass das Weglassen eingebetteter Quartette mit �% BSS in weniger als 30% der Genome, in denen dieses Quartett existiert (dh schlecht in den meisten Fällen aufgelöst) ergab eine vernachlässigbar niedrige Rate an falsch positiven Ergebnissen. Sie fanden auch heraus, dass der Ausschluss dieser Quartette die Anzahl der falsch-negativen Schlussfolgerungen (verpasste HGTs) erhöhte. Die relativ geringere Rate falsch positiver als falsch negativer Schlussfolgerungen lieferte eine konservative Schätzung der Transfers. Die ausgeschlossenen Quartette waren wahrscheinlich anfällig für stochastisches Rauschen, d. h. gelegentlich gut unterstützte, aber möglicherweise falsch positive Topologien aufgrund des Zufalls in einem endlichen Datensatz. Diese Definition eines “well aufgelöst” Quartetts mit einem Bootstrap-Score von �% wird in der vorliegenden Analyse verwendet.

Der größte der drei Werte pro Quartett wurde aus den Aminosäure-Phylogenien genommen, es sei denn, er war 㲀% BSS und der des Nukleotidquartetts �% BSS, in diesem Fall wurde letzterer als Score für dieses Quartett genommen. Dieser Ansatz milderte den Informationsverlust, wenn nur Aminosäuresequenzen berücksichtigt wurden, wenn die entsprechenden Nukleotiddaten eine bessere Auflösung lieferten, wie für eng verwandte Gene erwartet. Die Punktzahl für jede Topologie eines Quartetts über alle Familien, in denen es gefunden wurde, wurde summiert, und die Topologie mit der höchsten Punktzahl wurde als Pluralitätstopologie für dieses Genomquartett bezeichnet (Zhaxybayeva et al. 2006). Eingebettete Quartette könnten von der Anziehung mit langen Zweigen betroffen sein (Felsenstein 1978), wenn zwei benachbarte lange Kanten in der vollständigen Phylogenie einen Knoten mit der inneren Kante des Quartetts teilen. Eingebettete Quartette mit diesen Merkmalen wurden aus der Analyse weggelassen, um falsch-positive Schlussfolgerungen von HGT aufgrund von langverzweigten Anziehungsartefakten (LBAA) abzuschwächen. Potenziell betroffene Quartette wurden so definiert, dass die kürzere von zwei äußeren angrenzenden Kanten auf einer Seite der Mittelkante des Quartetts mehr als das Fünffache der Länge der Mittelkante aufweist. Simulationen haben gezeigt, dass die ML-Schätzung, die die Variation zwischen den Standorten berücksichtigt, von LBAA innerhalb dieser relativen Längenunterschiede zwischen langen und kurzen Kanten nicht beeinflusst wird (Zhaxybayeva und Gogarten, unveröffentlicht). Die Phylogenie-Inferenz, die die eingebetteten Quartette lieferte, war jedoch nur in Bezug auf die Kantenlängen in der vollständigen Phylogenie und nicht jedes eingebettete Quartett einer langverzweigten Anziehungskraft unterworfen. Daher waren die Längen, die für die äußeren angrenzenden Kanten verwendet wurden, die innersten in Bezug auf die Knoten in der vollständigen Phylogenie. Wenn die Außenkante eines eingebetteten Quartetts eine Endkante in der vollständigen Phylogenie bildete, wurde die gesamte Länge der Quartett-Außenkante berücksichtigt.

Phylogenien aus Genomsequenzen

Verkettete ribosomale Proteinsequenzen

Wir leiteten eine gut aufgelöste, verwurzelte Phylogenie zum Vergleich mit jeder ORF-Familie ab, indem wir eine Verkettung von ribosomalen Protein-kodierenden Genen aus den 21 haloarchaealen Genomen, die mit drei Fremdgruppen-Taxa verwurzelt sind, verwenden. Es wurden Schritte unternommen, um Modellverletzungen aufgrund von Nichtstationarität, die durch kompositorische Heterogenität verursacht werden, und systematische Fehler, die durch die Anziehung langer Zweige verursacht werden (Felsenstein 1978), die am wahrscheinlichsten die Kante beeinflussen, die zur Fremdgruppe führt, zu vermeiden.Um die Länge der Kante zur In-Gruppe zu verkürzen, haben wir Außengruppen-Taxa aus zwei divergenten Gruppen ausgewählt: Nanohaloarchaea und Methanomicrobia. Alignments jedes homologen ribosomalen Proteins aus den In- und Out-Gruppen wurden mit dem Test von Foster (2004), der in PhyloBayes 3.3b implementiert wurde, unter Verwendung von Posterior Predictive Resampling (Lartillot und Philippe 2004) auf die Homogenität der Zusammensetzung gescreent. Wir haben Folgen mit a . weggelassen Z Punktzahl > 2 in einem Alignment, d. h. solchen mit größeren Abweichungen in der Zusammensetzung, aus einer Verkettung von 59 ribosomalen Proteinen. Sequenzen aus zwei mesophilen Euryarchen: Methanosarcina acetivorans C2A und Methanococcus aeolicus. Auch Nankai-3 wurde auf diese Weise gescreent. Letzteres wurde ausgewählt, weil es weniger Proteine ​​aufwies, die zur Heterogenität der Zusammensetzung beitrugen. Eine phylogenetische ML-Rekonstruktion wurde mit RAxML 7.3.0 durchgeführt, ausgehend von 20 randomisierten Parsimony-Bäumen mit einer Gammaverteilung zwischen den Substitutionsraten unter Verwendung von Substitutionsmodellen pro Partition, die mit ProtTest mit dem AIC-Kriterium ausgewählt wurden (Abascal et al. 2005). Die Unterstützung der Bipartition wurde anhand der Häufigkeit in 100 nichtparametrischen Bootstrap-Replikaten bewertet.

Zusammensetzung der Genom-Genfamilie

Für jedes Genom wurde das Vorhandensein einer Genfamilie als Charakter betrachtet. Eine MP-Phylogenie wurde unter Verwendung der September-2011-Version von TNT (Goloboff et al. 2008) mit der traditionellen Suche, Baumbisektions-Wiederverbindungsmethode, 20 Suchebenen, 20 replizierten Wagnerbäumen, bis zu 100 Schritten für Bremer-Unterstützung abgeleitet (Bremer 1988), und 100 nichtparametrische Bootstrap-Replikate, die durch Frequenzunterschiede berechnet wurden. Um eine phylogenetische Rekonstruktion der ML mit PhyML Version 20110919 (Guindon und Gascuel 2003) zu ermöglichen, wurde die Anwesenheit als Cysteinbase und die Abwesenheit als Adenosinbase mit dem F84-Modell der Nukleotidsubstitutionen kodiert (ermöglicht ungleiche Basenfrequenzen und unabhängige Übergangs- und Transversionsraten) Ableiten eines Anteils unveränderlicher Standorte und einer freien Verteilung von Tarifkategorien über ein Mischungsmodell durch ML.

Eingebettetes Quartett Supertree

Pluralitäts-eingebettete Quartetttopologien der strikten Kerngenfamilien wurden in einer Matrix nach der Methode von Baum (1992) und Ragan (1992) kodiert, die in einer MP-Phylogeniesuche (MRP) unter Verwendung der September-2011-Version von TNT (Goloboff et al.) verwendet wurde . 2008) mit den gleichen Einstellungen wie für die Analyse der Genfamilienzusammensetzung.

Genomumlagerungen

Der Strang, die Ordnung und das Chromosom der Kerngenfamilien in der Untermenge der Genomsequenzen, die zuvor vollständig zusammengesetzt waren (Haloferax vulkanii, Haloarcula marismortui, Halobakterium, Halogenometrie, Halomikrobium, Haloquadratum DSM 16854 und 16790, Halorhabdus, Halorubrum, Haloterrigena, Natrialba, Natronobakterium, Halalkalikokkus, und Halopiger) wurden für die phylogenetische Rekonstruktion nach Nachbarn (Saitou und Nei 1987) aus multichromosomalen Genumlagerungsabständen verwendet, die unter dem in TIBA implementierten 𠇍ouble-cut-and-join”-Modell abgeleitet wurden: Tree Inference with Bootstrap Analysis (Lin et al. 2011). http://lcbb.epfl.ch/softwares/tiba.html, zuletzt aufgerufen am 12. Februar 2012).

Inferenz von HGTs

Screening auf Transfers von außerhalb der beprobten Haloarchaea

Es war wichtig, HGT von nicht beprobten Spendern nicht mit alten HGTs unter Vorfahren von beprobten Genomen zu verwechseln, da sonst die Interpretation der HGT-Spender-Empfänger-Partner ungenau werden würde. Wenn ein Homolog horizontal in die beprobten Haloarchaea übertragen wird, entweder von einer nicht beprobten haloarchaalen Schwester der beprobten Gruppe oder einer nicht-haloarchaeen Linie, würde der Empfänger ein Cousin-Clan werden (sensu Wilkinson et al. 2007, das unbewurzelte Analogon der monophyletischen Gruppe oder Klade geeignet für Phylogenien, bei denen die Wurzel unbekannt ist) im Genbaum zu der Linie, die am tiefsten in der verwurzelten Referenz-Phylogenie liegt. Dies wäre allein durch die Analyse topologischer Inkongruenzen nicht von einem HGT von der tiefsten abgetasteten Abstammungslinie zu unterscheiden. HGT von einem Spender außerhalb der beprobten Gruppe würde in den meisten Fällen ein Homolog mit geringerer Sequenzähnlichkeit liefern als jeder beprobte Spender und würde einer Fremdgruppe ähneln, die häufig zum Bewurzeln von Phylogenien verwendet wird, d. h. einer unerwartet langen Kante. Das folgende Verfahren unter Berücksichtigung der Zweiglängen wurde verwendet, um Genfamilien zu identifizieren, in denen Inkongruenzen auf HGT von nicht beprobten Spendern von außerhalb der beprobten Gruppe zurückzuführen sein können, im Gegensatz zu HGT bei Haloarchae. Genfamilien-Phylogenien mit unerwartet langen Kanten wurden in Sätze von Homologen auf beiden Seiten dieser unerwartet langen Kanten aufgeteilt. Unerwartet lange Kanten waren diejenigen, die 㹵 % länger waren als die durchschnittliche Kantenlänge für diese Phylogenie. Dieser willkürliche Längenschwellenwert wurde verwendet, um eine Liste potenziell problematischer Genfamilien bereitzustellen, die dann durch BLAST-Analyse gescreent wurden. Wenn ein Satz von Homologen niedrigere BLAST-Erwartungs-Werte für Nicht-Haloarchaea hatte als die anderen Sätze dieser Genfamilie, wurde ein HGT von außerhalb der Haloarchaea geschlossen und dieser Satz von Homologen wurde von den folgenden Analysen ausgeschlossen, um eine falsche Schlussfolgerung von HGT . zu vermeiden durch phylogenetische Inkongruenz.

Identifizieren von angestammten HGT-Empfängerpaaren in den beprobten Haloarchaea

Statistisch gesicherte Inkongruenzen zwischen einer Genfamilien-Phylogenie und derjenigen der vertikalen Abstammung können als HGT zwischen einem Paar von Vorfahrenlinien interpretiert werden, vorausgesetzt, der Nachkomme der Spenderlinie wird beprobt (siehe vorheriger Abschnitt). Der durch ein einzelnes HGT verursachte Unterschied in den Topologien führt zu einer unterschiedlichen Anzahl von widersprüchlichen eingebetteten Quartetten, je nachdem, wie viele nicht triviale Splits in der Referenztopologie durchlaufen wurden. Beispielsweise können zwei HGTs, die eine kleine Anzahl von Splits kreuzen, weniger widersprüchliche eingebettete Quartette verursachen als ein HGT, das eine große Anzahl von Splits kreuzt. Der folgende Algorithmus leitet Empfänger𠄽onor-Paare durch Analyse widersprüchlicher eingebetteter Quartette ab, die topologischen Inkongruenzen entsprechen. Eingebettete Quartette aus Bootstrap-Replikaten, die eine bessere Auflösung als Bipartition-Träger in vollständigen Gen-Phylogenien bieten, wurden mit denen der verketteten ribosomalen Protein-Phylogenie verglichen, die als Proxy für die des vertikalen Abstiegs angesehen wurde. Die eingebetteten Quartette, die sich zwischen der ribosomalen Proteinphylogenie und der Genfamilie mit ausreichender Auflösung (㺀% BSS) unterscheiden, wurden in Gruppen eingeteilt, die die gleichen Inkongruenzen beschrieben (eine Phylogenie kann von mehr als einem HGT beeinflusst werden). Jede Gruppe wurde auf ein einzelnes Quartett reduziert, in dem jede Spitze Bereiche der vollständigen Topologien repräsentierte, die kongruent waren (manchmal als 𠇋ranch und bind” bezeichnet). Dies wurde erreicht, indem alle zweigliedrigen Quartett-Topologie-definierten Sätze kombiniert wurden, wenn sie eine gemeinsame Mitgliedschaft hatten (“single-linkage-Clustering”). Dies ergab mehrere Sätze, die Homologe oder Gruppen von Homologen enthielten, die kongruenten Regionen der beiden Topologien entsprechen. Zwei dieser Gruppen repräsentieren Austauschpartner und sind Cousin-Clans (sensu Wilkinson et al. 2007) in der Phylogenie der Genfamilie, aber keine Schwesterclades in der Phylogenie der Genomlinie.

HGT-Austauschpartner, die in der Phylogenie der Genfamilie benachbart erscheinen, können durch Verwerfen jener Sätze, die Schwestern in der Phylogenie der Genomlinie sind, wiedergewonnen werden. Wenn mehrere Homologe gefunden werden, wurde eine Vorfahren-HGT abgeleitet, die mehr als einen untersuchten Nachkommen betrifft. Durch Wiederholen dieses Prozesses unter Verwendung einer Genom-Referenz-Phylogenie, auf die zuvor abgeleitete Übertragungen durch Beschneidung von Unterbäumen und Neuverpflanzungsoperationen angewendet werden, können verschachtelte und überlappende Übertragungen in einer einzigen Gen-Phylogenie wiedergewonnen werden. Umordnungen, die Schwester-Kladen mit zwei oder vier Mitgliedern Kamm-Stammstämme beinhalten, wurden durch eine Reihe einfacher Bedingungen für jedes Szenario abgeleitet. Wenn HGT-Paare nicht wiederhergestellt werden können, aber widersprüchliche eingebettete Quartette verbleiben, können aufgrund unzureichender Auflösung in den Daten nur unspezifische Hinweise auf HGT in dieser Genfamilie geschlossen werden. Auf den Empfänger im HGT-Paar kann geschlossen werden, indem beurteilt wird, welcher in einem anderen phylogenetischen Kontext in der Phylogenie der Genfamilie steht.

Charakterisierung von HGTs

Übertragung mehrerer Homologe

Für HGT-Donor-Empfänger-Linienpaare, die aus widersprüchlichen eingebetteten Quartetten für ein bestimmtes Homolog abgeleitet wurden, wurde die Hypothese getestet, dass seine benachbarten ORFs ebenfalls im selben Ereignis übertragen wurden. Zuerst wurde die Homologie des nächsten ORF in 5′ Richtung entlang der Chromosomen des Spenders, Empfängers und Nichtempfängers getestet (dh gehörte er zur gleichen Genfamilie?), was bis zu vier eingefügte oder deletierte ORFs in jedem erlaubte Strand. Wenn homolog und in einer einzigen Kopie pro Genom, weit verbreitete Genfamilie, für die eingebettete Quartette erhalten wurden, die auf die gleiche Spender-Empfänger-Linie HGT hinweisen, wurde sie in das gleiche Multi-ORF-HGT-Ereignis eingeschlossen. Dieser Prozess wurde entlang beider Strangrichtungen fortgesetzt, bis kein Homolog zwischen dem Paar übertragen oder nicht identifiziert wurde.

Zusätzlich für Spender-𠄾mpfänger-Linienpaare, die durch die Entfernung getrennt sind D entlang der Ränder der Ribosomen-Phylogenie, wo sich der Empfänger befand D × 0,85 auf andere Genome, die nicht von HGT für diese Genfamilie betroffen sind (Nichtempfänger), wurde ein multipler ORF-Transfer abgeleitet, wenn die ML-Schätzung der Substitutionen pro Standortentfernung (abgeleitet unter Verwendung des WAG-Substitutionsmodells [Whelan und Goldman 2001] mit fünf Ratenkategorien) in einer Gamma-Verteilung, wie sie in RAxML 7.3.0 [Stamatakis 2006] aus einem multiplen Sequenz-Alignment aller Homologen in den abgetasteten Genomen implementiert ist) zum Donor kleiner war als zum Nicht-Empfänger, d. h., wenn das Verhältnis der paarweisen Abstände für dieses Homolog im Widerspruch zu der Phylogenie des konkatenierten ribosomalen Proteins stand (siehe Abb. 2 für ein Beispiel). Viele Spender-Empfänger-Paare hatten mehrere untersuchte Nachkommen, in diesem Fall wurde die Analyse mit dem kürzesten Multi-ORF-Transfer beibehalten, um eine konservative Schätzung der HGT-Einheitsgröße zu erhalten. Chromosomengenkarten zur Unterstützung dieser Analyse wurden mit dem R-Paket genoPlotR (Guy et al. 2010) aufgetragen.

Ein Diagramm, das einen horizontalen Transfer eines ORF kodierenden Proteins anzeigt, der durch eingebettete Quartettzerlegung und Baumabgleich mit einem benachbarten ORF abgeleitet wurde, von dem angenommen wurde, dass er im selben Ereignis horizontal transferiert wurde. Die drei horizontalen Linien repräsentieren Chromosomenregionen von Halobacterium salinarum R1 (oben, mutmaßlicher Spender des übertragenen genetischen Materials), Haloarcula californiae ATCC 33799 (mittlerer, mutmaßlicher Empfänger) und Halorhabdus utahensis DSM 12940 (unten, ein Referenzgenom). Einheiten sind Megabasen (Mb). Horizontale Pfeile repräsentieren die 3′𠄵′-Strangrichtung und den Bereich der proteinkodierenden Regionen. Gemeinsame Farben zeigen die neueste Homologie mit Ausnahme von Grau an, das keine lokale Homologie anzeigt. Der vertikale rote Pfeil zeigt an, welche Homologen durch eingebettete Quartettzerlegung und Baumabgleich zwischen den Vorfahren von übertragen wurden Halobacterium salinarum R1 und Halorhabdus utahensis DSM 12940 und die Richtung. Das Referenzgenom wurde so ausgewählt, dass es gemäß der ribosomalen Proteinphylogenie, aufgetragen auf der linken Seite, enger mit dem mutmaßlichen Empfänger als dem Spender verwandt ist und dass für das mit eingebetteten Quartetten analysierte Gen nicht auf eine Beeinflussung durch HGT geschlossen wurde. ML-Schätzungen der in Substitutionen pro Stelle gemessenen evolutionären Distanzen sind zwischen homologen Protein-kodierenden Regionen angegeben, wobei die kürzere Distanz durch eine Farbe angezeigt wird.

Modus der chromosomalen Integration

Das übertragene Homolog oder die übertragenen Homologe wurden als HR abgeleitet, wenn sie sich in einer chromosomalen Region mit einer Orthologie zu der Region befanden, die die Vorfahrenversionen im Referenzgenom enthält (beschrieben im vorherigen Abschnitt). Die Verwendung eines Referenzgenoms ermöglichte die Bestätigung, dass ein ORF innerhalb einer orthologen Region mit gemeinsamen Vorfahren zwischen Spender und Empfänger einer HR unterzogen wurde, indem die Möglichkeit einer Übertragung dieser gesamten Region oder genomischen Insel (einer xenologen Region) ausgeschlossen wurde, die eine syntenische Konservierung verursacht. Wenn der übertragene ORF oder die übertragenen ORFs in einer anderen Region als der im mutmaßlichen Spender und nahen Verwandten gefunden wurden, wurde auf eine nichthomologe Insertion (NHI) gefolgt von einem Verlust der vorbestehenden Version aus der orthologen Region geschlossen. Chromosomale Neuordnungen während der Evolution bedeuten, dass die Wahrscheinlichkeit, homologe Regionen zu identifizieren, mit der evolutionären Distanz abnimmt, und für viele HGTs hatte der Empfänger keine nahen Verwandten mit Orthologie für das Gen. Ob diese Anforderungen für jedes HGT erfüllt waren, hing daher von der phylogenetischen Einordnung des Spenders und des Empfängers unter die verfügbaren Genome ab.

Wenn homologe Regionen nicht identifiziert wurden, konnte nicht auf den Integrationsmodus geschlossen werden. Wenn homologe Regionen identifiziert wurden und die Region von HGT ORF(s) ein Fenster von acht ORFs um das Zentrum der Region im Empfänger schneidet, wurde HR abgeleitet, andernfalls NHI (gefolgt von Verlust des ursprünglichen Homologs für die analysierten Einzelkopie-Familien hier) wurde als Modus der chromosomalen Integration abgeleitet.

Zunächst wurden die Chromosomen des Referenzgenoms mit einem beweglichen Fenster von acht ORFs gescannt. Wenn eine einzelne Region im Nichtempfänger zwei gleiche Homologe enthielt, die innerhalb von vier ORFs in oder um die HGT-Einheit im Empfängerchromosom gefunden wurden, wurden diese Regionen als homolog betrachtet. Die wenigsten Genfamilien pro Genom waren 2.212 in der Halobacterium salinarum, wobei die durchschnittliche Wahrscheinlichkeit von 3.077, zwei von vier Homologen in einem Fenster von acht in einem Genom von 2.212 Homologen zu finden, (4 × 8 × [1/2,212]) 2 = 0,0002 beträgt, was eine falsch-positive Rate von ergibt 0,02 % für Überweisungen nach Halobakterium aber für die meisten Schlussfolgerungen durchschnittlich 0,01 %.

Modellieren der Ähnlichkeit der Exchange-Partnersequenz gegen Häufigkeit von HGTs

Die HGT-Häufigkeit wurde als die Anzahl der HGT-Ereignisse während der Koexistenz eines Paares von HGT-Partnerlinien berechnet. Die Koexistenzzeit wurde als die Länge überlappender Kanten in einer Phylogenie der maximalen Kladen-Glaubwürdigkeit geschätzt (z. B. die Region mit der Bezeichnung “t” in Abb. 1 B) aus einer Bayesschen posterior-Verteilung von Phylogenien unter Verwendung der zuvor beschriebenen ribosomalen Proteinsequenzen unter einer unkorrelierten log-normal relaxierten molekularen Uhr (Drummond et al. 2006). Die Daten wurden in große und kleine ribosomale Untereinheiten-assoziierte Sätze von Sequenzen unterteilt, der Baum-Vorher-Satz in ein Yule-Modell und das Substitutionsmodell nach WAG (Whelan und Goldman 2001) mit fünf Kategorien in einer Gamma-Verteilung der Frequenzvariation zwischen den Standorten. Vier Markov-Ketten-Monte-Carlo-Sampling-Ketten von 20.000.000 und eine von 14.000.000 Generationen mit einem verworfenen Burnin von 800.000 Generationen unter Verwendung von BEAST v1.6.1 (Drummond und Rambaut 2007) und BEAGLE v1.0 (Ayres et al. 2011) mit einem MSI (City of Industry, CA) N560GTX-TI TWIN FROZR II 2G GPU berechnet. Die kleinste effektive Stichprobengröße betrug 170, berechnet von Tracer v1.4.1 (Rambaut und Drummond 2007) als fünf separate Trace-Dateien oder nach Serialisierung mit LogCombiner (Teil des BEAST-Pakets), was sowohl ein angemessenes Burnin als auch eine angemessene Konvergenz anzeigt.

(EIN) ML-phylogenetische Rekonstruktion aus 59 verketteten ribosomalen Proteinsequenzen von 21 Haloarchaea mit Kantenlängen, die auf Substitutionen pro Stelle skaliert sind. Als Fremdgruppe wurden zwei Sätze Nanohaloarchaeal und ein mesophiles Methanogen aus Methanomicrobia verwendet. Proteinhomologe, von denen angenommen wurde, dass sie eine kompositorische Heterogenität verursachen, wurden ausgeschlossen, und die tiefsten Doppelpartitionen wurden aufgrund von Inkonsistenz zwischen nichtparametrischen Bootstrapping-Replikaten und Beweisen von LBAA kollabiert. (B) Bayesianisch abgetastete Phylogenie, abgeleitet aus demselben Datensatz mit Kantenlängen, die auf eine entspannte molekulare Uhr skaliert sind. Als Beispiel sind die mit d1𠄴 markierten Kanten in (EIN) und die mit "t" gekennzeichneten Regionen in (B) geben die genetische Distanz zwischen bzw. die Dauer der Koexistenz der Ahnenlinien von an Halalkalikokkus und von Haloarcula und Halomikrobium in der HGT-Frequenz im Vergleich zur genetischen Distanzmodellierung verwendet. Alle paarweisen, koexistierenden, nicht-schwester Kanten wurden eingeschlossen.

Die Sequenzähnlichkeit wurde als die Substitutionen pro Stelle über die RAxML-abgeleitete ribosomale Proteinphylogenie, die früher beschrieben wurde, verstanden. Obwohl die Evolutionsraten zwischen den Genfamilien variieren werden, können die relativen Raten zwischen den Abstammungslinien innerhalb der Genfamilien denen der ribosomalen Proteine ​​ähnlich sein. Insbesondere zwischen den Punkten auf den Donor𠄾mpfängerkanten auf halbem Weg entlang der überlappenden Region im entspannten molekularen Uhrenbaum (z. B. die Region mit der Bezeichnung “t” in Abb. 1 B) skaliert auf den äquivalenten Punkt in den Substitutionen pro Standortbaum (z. B. die terminalen Enden der Regionen, die mit �” und �” in Abb. 1 . gekennzeichnet sind EIN) über die Kantenlängen seit dem letzten gemeinsamen Vorfahren des Spenders𠄾mpfänger (z. B. die mit �” bis �” in Abb. 1 . bezeichneten Regionen) EIN). Die Abstände zwischen den Partnern können unterschätzt werden, wenn die phylogenetische Auflösung innerhalb eines Clans von mutmaßlichen Transferpartnerhomologen (entweder Empfänger- oder Spendernachkommen) nicht ausreichte, um die genaue Kante des horizontalen Transfers abzuleiten: die nächsttiefere Kante der Auflösung 80 wäre von der Algorithmus, der verwendet wird, um HGT durch phylogenetische Inkongruenz abzuleiten. Die Auflösung in den Gen-Phylogenien innerhalb der abgeleiteten HGT-Partnergruppen wurde getestet, indem nach eingebetteten Quartetten gesucht wurde, die jede der nächsten Kanten innerhalb der Regionen der Genfamilien-Phylogenie unterstützten, die mit einem der Austauschpaare assoziiert waren, bis sie unterstützt wurden. Der mittlere Abstand in die Ribosomenphylogenese entlang unaufgelöster Kanten wurde zum Abstand zwischen den Austauschpartnern addiert, um dieser Unsicherheit Rechnung zu tragen. Ein lineares Modell wurde mit der Funktion lm() nach einer logarithmischen Transformation der HGT-Frequenzdaten unter Verwendung der log()-Funktion des Basispakets von R 2.14.2 (Ihaka und Gentleman 1996) angepasst.

Ableitung der relativen Beiträge von “in-lineage”- und “out-lineage”-Sequenzsubstitutionen in entspannten Kerngenen

Die gesamten “in-Linien”-Substitutionen für ORFs in Einzelkopie-Relaxed-Core-Familien wurden berechnet als der Abstand von jeder Spitze zur Wurzel der ribosomalen ML-Proteinphylogenie multipliziert mit der Menge solcher ORFs im Genom, die für diese Linie beprobt wurden (Einheiten : ORF.substitutions.site − 1 ).

Die gesamten “out-lineage”-Substitutionen wurden berechnet, indem die HGT-Frequenz für jede Kante zwischen einer Spitze und der Wurzel mit allen anderen koexistierenden Abstammungslinien gemäß der entspannten Phylogenie der molekularen Uhr unter Verwendung der entsprechenden Abstände in den Substitutionen pro . vorhergesagt wurde Site-Phylogenie als Abstand für das angepasste lineare Modell.Für jedes Kantenpaar wurde die HGT-Frequenz (Einheiten: HGT.time − 1 ) mit der mittleren Anzahl von ORFs pro HGT (Einheiten: ORF.time − 1 ) und dann mit dem Durchschnitt der Hälfte der Kante multipliziert Längen in jeder Linie seit dem letzten gemeinsamen Vorfahren zu (unter der Annahme gleicher Übertragungen in jede Richtung: ansonsten würde die Kantenlänge in der Spenderlinie verwendet) ergeben horizontal erworbene Substitutionen (Einheiten: ORF.substitutions.time − 1 .site − x02212 1 ), schließlich mit der Länge der überlappenden Kanten multipliziert (Einheiten: ORF.substitutions.site − 1 ).


ERGEBNISSE

Wir erzeugten pseudo-zufällige Sequenzen, um zu bestimmen, inwieweit typische Alignment-Scoring-Schemata Alignments in benachbarte, nicht verwandte Sequenzen fälschlicherweise überdehnen. Zufällige Proteinsequenzen spiegelten die Standard-Robinson-Robinson(16)-Aminosäurefrequenzen, zufällige DNA-Sequenzen, die durchschnittliche Frequenz des menschlichen Genoms von 60% AT wider. Um die Erweiterung von einem echten Alignment zu imitieren, optimierte eine Variante des Needleman-Wunsch-Algorithmus den Score über alle Alignments, beginnend (möglicherweise mit Lücken) am Anfang der beiden Sequenzen, aber endend irgendwo. Für ein gegebenes Paar von Zufallssequenzen haben wir, nachdem wir ein eingeschränktes Alignment mit der maximalen Punktzahl gefunden hatten, seine Flankenlänge aufgezeichnet, die die Anzahl der Reste ist, die in der ersten Zufallssequenz ausgerichtet sind. Wir schätzten Flankenlängenverteilungen, sowohl durch „rohes Monte-Carlo-Sampling“ (der Name für Brute-Force-Simulation in der Statistik), das Buchstaben unabhängig von den entsprechenden Hintergrundfrequenzen generiert, als auch durch ein anerkanntes, effizienteres, aber komplizierteres Verfahren namens „ Wichtigkeitsstichproben“ (weitere Einzelheiten finden Sie im Abschnitt Methoden) ( 12).

Abbildung 3 zeigt die Flankenlängenverteilungen für verschiedene Bewertungsschemata. Tabelle 2 listet die erwarteten Längen und Wahrscheinlichkeiten für Länge = 0 auf. Obwohl die Verteilungen stark variieren, stimmen die groben Schätzungen von Monte Carlo und Wichtigkeitsstichproben gut überein. Unter den Proteinbewertungsschemata hat BLOSUM50 mit GOP = 10 und GEP = 2 eine erwartete Flankenlänge von 23 und eine Wahrscheinlichkeit von 0,1 einer Flankenlänge von mehr als 65. Somit sind bei diesem Bewertungsschema beträchtliche Überdehnungen wahrscheinlich. Die anderen Proteinbewertungsschemata in Abbildung 3 sind viel zurückhaltender: BLOSUM62 mit GOP = 11 und GEP = 1 hat beispielsweise eine erwartete Flankenlänge von 5,5 und eine Wahrscheinlichkeit von 0,1 für eine Flankenlänge von mehr als 17. Allerdings gibt es immer eine kleine Wahrscheinlichkeit große Flanken zu erhalten: BLOSUM62 mit GOP = 11 und GEP = 1 hat eine Wahrscheinlichkeit von 0,01 einer Flankenlänge von mehr als 69. Da es üblich ist, Hunderte oder sogar Millionen von Ausrichtungen durchzuführen, sind diese Wahrscheinlichkeiten nicht vernachlässigbar. Die Flankenlängen für NCBI BLAST können ungefähr halbiert werden, indem die Lückenerweiterungsstrafe auf 2 erhöht wird.

Wahrscheinlichkeitsverteilungen für die Länge der Überausrichtung in zufällige Sequenzen. Die durchgezogenen Linien zeigen Verteilungen, die aus dem Alignment von 10 000 Zufallssequenzpaaren erhalten wurden (unter Verwendung der im Abschnitt Ergebnisse erwähnten Variante des Needleman-Wunsch-Algorithmus). Die gestrichelten Linien zeigen durch Wichtigkeitsstichproben vorhergesagte Verteilungen. Die obere Reihe bezieht sich auf Proteinsequenzen mit Robinson-Robinson-Frequenzen und die untere Reihe bezieht sich auf DNA mit 60% AT. Die Abkürzungen sind GOP (Gap Opening Cost), GEP (Gap Extension Cost) und + X/–Y (Match-Score/Mismatch-Score).

Wahrscheinlichkeitsverteilungen für die Länge der Überausrichtung in zufällige Sequenzen. Die durchgezogenen Linien zeigen Verteilungen, die aus dem Alignment von 10 000 zufälligen Sequenzpaaren erhalten wurden (unter Verwendung der im Abschnitt Ergebnisse erwähnten Variante des Needleman-Wunsch-Algorithmus). Die gestrichelten Linien zeigen durch Wichtigkeitsstichproben vorhergesagte Verteilungen. Die obere Reihe bezieht sich auf Proteinsequenzen mit Robinson-Robinson-Frequenzen und die untere Reihe bezieht sich auf DNA mit 60% AT. Die Abkürzungen sind GOP (Gap Opening Cost), GEP (Gap Extension Cost) und + X/–Y (Match-Score/Mismatch-Score).

Die Flankenlängenverteilungen für gängige DNA-Scoring-Schemata variieren sogar noch stärker. Das +5/−4-Schema mit GOP = 0 und GEP = 10 ist stark anfällig für Überdehnung, mit einer erwarteten Flankenlänge von 41 und einer Wahrscheinlichkeit von 0,1 einer Flankenlänge von mehr als 141. Überraschenderweise beträgt hier die Lückenerweiterungsstrafe das Doppelte des Match-Scores , was vielleicht die Bedeutung einer großen Lückenöffnungsstrafe bei der Eindämmung der Überdehnung hervorhebt. Überraschenderweise ist die HoxD55-Matrix selbst bei den gleichen Lückenstrafen und trotz offensichtlicher Ähnlichkeit viel anfälliger für Überdehnung als HoxD70. Da das HoxD55-Schema mit GOP = 400 und GEP = 30 eine erwartete Flankenlänge von 24 und eine Wahrscheinlichkeit von 0,1 einer Flankenlänge von mehr als 94 hat, sind Überdehnungen wie in Abbildung 1 wahrscheinlich. Andererseits sind die Standardschemata für NCBI BLAST extrem zurückhaltend: das +2/−3-Schema mit GOP = 5, GEP = 2 hat nur die Wahrscheinlichkeit 0,01 einer Flankenlänge größer 8, und das +1/−3-Schema ist , natürlich noch konservativer.

Da lokale Alignments von Zufallssequenzen sich nicht über den größten Teil der Sequenzlänge erstrecken sollten, sind praktische Bewertungssysteme darauf beschränkt, angemessen starke Fehlpaarungen und Lücken zu bestrafen. Trotz umfangreicher Simulation konnten wir nicht verifizieren, dass die Standardbewertungsschemata in zwei EMBOSS-Programmen, Water und Supermatcher (aber nicht Matcher), diese Bedingung für Sequenzen mit 60% AT erfüllen (15). [Technisch gesehen müssen praktische Bewertungssysteme im „lokalen Regime“ ( 13) liegen, das auch von den Buchstabenhäufigkeiten in zufälligen Sequenzen abhängt. Mit anderen Worten, ein Scoring-System könnte für GC-reiche DNA im lokalen Regime vorhanden sein, aber nicht für AT-reiche DNA. Obwohl einige ungefähre analytische Studien vorliegen (17, 18), sind im Allgemeinen Simulationen erforderlich, um zu zeigen, dass ein Scoring-System im lokalen Regime liegt. Wir konnten nicht verifizieren, dass die Punktesysteme Wasser und Supermatcher dem lokalen Regime entsprechen.]

Mismatch- und/oder Gap-Strafen schränken eine Überdehnung ein, aber es gibt natürlich einen Kompromiss: Wenn die Strafen zu hoch sind, enthalten Alignments keine schwach ähnlichen Teilsequenzen. Da der Kompromiss von der Art der schwachen biologischen Ähnlichkeiten abhängt, haben wir ihn in realen biologischen Sequenzen untersucht, indem wir Alignments von mtDNA zu neueren menschlichen NUMTs untersuchten. Da NUMTs nicht verwandte DNA-Insertionen mit gut definierten Kanten sind, erfüllen sie unsere Zwecke besonders gut. Wie im Abschnitt Methoden beschrieben, haben wir 31 aktuelle NUMTs identifiziert. Die 31 NUMTs, mit 1000 bp flankierender Sequenz auf beiden Seiten (ergänzender Datensatz 2), wurden dann mit mtDNA von Maus, Fugu und Hagfish (einem Borderline-Wirbeltier) abgeglichen, was drei Divergenzniveaus repräsentiert.

Abbildung 4 zeigt die Längenverteilung von Überausrichtungen, bei denen die Ausrichtung über die Kante der NUMT hinausreicht, und Unterausrichtungen, bei denen die Ausrichtung vor der Kante der NUMT endet, für sechs Bewertungsschemata. Obwohl das Default-Schema von NCBI BLAST (+2/−3 mit GOP = 5, GEP = 2) zwar resistent gegen Overalignment ist, zahlt es sich dafür mit einer starken Underalignment-Tendenz aus. Andererseits weisen die aggressivsten Bewertungsschemata (+5/−4 mit GOP = 0, GEP = 10 und HoxD55 mit GOP = 400, GEP = 30) die geringste Unterausrichtung, aber übermäßige Überausrichtung auf. Das Standardschema von BLASTZ (HoxD70 mit GOP = 400, GEP = 30) bietet eine gute Balance zwischen Under- und Overalignment, insbesondere für den Grad der Divergenz zwischen humaner und fugu mtDNA. (Um Missverständnisse zu vermeiden, beachten Sie, dass menschliche und Fugu-DNA im Durchschnitt viel weniger divergent sind als menschliche und Fugu-Kern-DNA.) Im Allgemeinen bieten konservative Bewertungsschemata ein besseres Gleichgewicht für eng verwandte Sequenzen und aggressive Schemata für divergente Sequenzen. Wenn man ein einfaches Match/Mismatch-Bewertungsschema wünscht, dann bietet +1/–1 mit GOP = 2, GEP = 1 einen vernünftigen Ausgleich für ein breites Spektrum von Problemen und ist etwas konservativer als der BLASTZ-Standard.

Kompromiss zwischen Über- und Unterausrichtung. Diese Grafiken beziehen sich auf Smith-Waterman-Alignments von Maus-, Fugu- und Hagefisch-mtDNA zu 31 menschlichen NUMTs mit 1000 bp flankierender Sequenz auf beiden Seiten. Die 62 Endpunkte der NUMTs sind mit einer Genauigkeit von ±5 bp bekannt. Die durchgezogenen Linien zeigen die Verteilung der Überausrichtungen und die gestrichelten Linien die Verteilung der Unterausrichtungen. Ausrichtungen, die die NUMT überhaupt nicht überlappen, haben wir verworfen: Die horizontalen gepunkteten Linien geben die Anzahl der noch zu berücksichtigenden Endpunkte an.

Kompromiss zwischen Über- und Unterausrichtung. Diese Grafiken beziehen sich auf Smith-Waterman-Alignments von Maus-, Fugu- und Hagefisch-mtDNA zu 31 menschlichen NUMTs mit 1000 bp flankierender Sequenz auf beiden Seiten. Die 62 Endpunkte der NUMTs sind mit einer Genauigkeit von ±5 bp bekannt. Die durchgezogenen Linien zeigen die Verteilung der Überausrichtungen und die gestrichelten Linien die Verteilung der Unterausrichtungen. Ausrichtungen, die die NUMT überhaupt nicht überlappen, haben wir verworfen: Die horizontalen gepunkteten Linien geben die Anzahl der noch zu berücksichtigenden Endpunkte an.

Eine vernünftige Wahl des Bewertungsschemas kann große Überdehnungen selten machen, aber sie verhindert sie nicht vollständig. Daher müssen wir Überdehnungen erkennen, wenn sie auftreten. Abbildung 2 legt nahe, dass lange Überdehnungen relativ niedrige Werte aufweisen. Bei gegebener Score-Verteilung für Alignments, die sich von echten Alignments in zufällige Sequenzen erstrecken, a P-Wert (die Wahrscheinlichkeit einer zufälligen Flanke mit gleicher oder größerer Punktzahl) könnte helfen, falsche Ausrichtungsflanken zu identifizieren.

Bei einer echten Ausrichtung ist eine falsche Ausrichtungsflanke ungefähr die Ausrichtung von zwei zufälligen Sequenzen, beginnend mit dem letzten ausgerichteten Buchstabenpaar in der wahren Ausrichtung. [Um die Robustheit unserer Ergebnisse durch Variieren der Natur des wahren Alignments zu testen, simulierten wir lange Sequenzpaare unter dem Hybrid-Alignment-Modell verwandter Sequenzen (19) und verketteten dann zufällige nicht verwandte Sequenzen mit den ausgerichteten Sequenzen. Die Ergebnisse blieben im Wesentlichen unverändert (Daten nicht gezeigt).] In der Näherung entspricht der Beitrag der Flanke zum Alignment-Score einer Größe, die als „globaler Maximalwert“ bekannt ist (20). Die globale Höchstpunktzahl ja hat ein P-Wert P ≈ ce λy , wobei C ist eine feste Konstante und λ ist der sogenannte „Gumbel-Skalenparameter für die lokale Ausrichtung“. Analytische Formeln für C und λ sind nur für lückenloses Alignment bekannt ( 21), aber die Bedeutungsstichprobentechniken können schätzen C und λ sehr effizient für lückenhafte Ausrichtung (siehe Abschnitt Methoden). Rohölproben von Monte Carlo bestätigten die Genauigkeit von P-Werte aus der Wichtigkeitsstichprobe ( Abbildung 5).

Wahrscheinlichkeitsverteilungen für die Bewertungen von Überlagerungen in zufällige Sequenzen. Die durchgezogenen Linien zeigen Score-Verteilungen aus dem Alignment von 10 000 Zufallssequenzpaaren (unter Verwendung der im Abschnitt Ergebnisse erwähnten Variante des Needleman-Wunsch-Algorithmus). Die gestrichelten Linien zeigen Verteilungen, die durch die Formel P ce λy vorhergesagt werden. Tabelle 2 enthält die Werte der Überausrichtungsparameter C und λ. Die gepunkteten Linien sind die Verteilungen der maximalen linken Punktzahl, wie im Abschnitt Ergebnisse beschrieben.

Wahrscheinlichkeitsverteilungen für die Bewertungen von Überlagerungen in zufällige Sequenzen. Die durchgezogenen Linien zeigen Score-Verteilungen aus dem Alignment von 10 000 zufälligen Sequenzpaaren (unter Verwendung der im Abschnitt Ergebnisse erwähnten Variante des Needleman-Wunsch-Algorithmus). Die gestrichelten Linien zeigen Verteilungen, die durch die Formel P ce λy vorhergesagt werden. Tabelle 2 enthält die Werte der Überausrichtungsparameter C und λ. Die gepunkteten Linien sind die Verteilungen der maximalen linken Punktzahl, wie im Abschnitt Ergebnisse beschrieben.

Tabelle 2 gibt Werte von λ und an C für sechzehn Bewertungsschemata Der ergänzende Datensatz 1 enthält Werte für viele andere Bewertungsschemata. Abbildung 2 zeigt, wie die Formel P ≈ ce λy einen gegebenen Flankenwert in eine Überausrichtung umwandelt P-Wert. In der unteren Reihe von Abbildung 2 erreicht die kumulierte Punktzahl am Ende der großen Lücke in der unteren Sequenz einen Mindestwert von 515. Da P ≈ ce λy ≈ 0,038 (C = 0,802, = 0,00592 und ja = 515), und da die UCSC-Fugu-Mensch-Daten viele tausend individuelle Ausrichtungen enthalten, erwarten wir viele falsche Erweiterungen mit P-Werte dieser Größenordnung.

Wie können wir dann die Überausrichtung verwenden? P-Wert, um Schlussfolgerungen aus Ausrichtungen zu verstärken? Abbildung 2 zeigt die Flanke P-Wert gegen die Ausrichtungsposition mit einer durchgezogenen Linie. Nach Ausschluss der größten Flanke mit P-Wert P, 1−P wird eine untere Grenze für die (theoretische) Wahrscheinlichkeit, dass an dieser Flanke das verbleibende Alignment keine zwei zufälligen Sequenzen umfasst. (Die Schlussfolgerung mag schwach erscheinen, aber sie ist die einzige mögliche Schlussfolgerung aus irgendein Ausrichtung P-Wert).

In der Bioinformatik, P-Werte kennzeichnen normalerweise biologische Ähnlichkeiten, daher mag diese Aussage kontraintuitiv erscheinen. Die Überausrichtung P-Wert hingegen zielt darauf ab, biologisch störende Flanken auszuschließen, um die Zuverlässigkeit der verbleibenden Ausrichtung zu erhöhen. Mehrere Intervalle auf einer Flankenausrichtung können die gleiche Kerbe (und damit die gleiche Überausrichtung) aufweisen P-Wert) jedoch. Welches Intervall sollten wir ausschließen?

Um einige relevante Feinheiten einzuführen, betrachten Sie die Grenzposition zwischen der wahren und der Flankenausrichtung in Abbildung 2. Betrachten Sie nun die linke Endposition der maximalen lokalen Ausrichtung. Lassen Sie die „linken Scores“ die aufeinanderfolgenden kumulativen globalen Alignment-Scores innerhalb der Flanke sein, beginnend von der linken Endposition und sich nach rechts bewegend (wie durch die gestrichelte Linie in Abbildung 2 gezeigt). Kehren Sie nun die Richtung um und betrachten Sie die „richtigen Scores“ (in Abbildung 2 nicht gezeigt), bei denen es sich um aufeinanderfolgende kumulative globale Alignment-Scores handelt, die von der Grenzposition beginnen und sich nach links bewegen. Da die linke Endposition das Ende der maximalen lokalen Ausrichtung ist, erreicht sie die maximale rechte Punktzahl, die wir hier mit bezeichnen m. Glücklicherweise ist die P-Wert für die maximale richtige Punktzahl m ist aus anderen Arbeiten bekannt ( 20).

Da der Alignment-Score für jedes Intervall bei Sequenzumkehr gleich bleibt, ist auch der linke Score an der Grenzposition m. Da wir die linke Endposition einer optimalen lokalen Ausrichtung kennen, aber nicht die Grenzposition, um eine Grenzposition mit einem linken Score auszuschließen m = ja, müssen wir ausschließen jeden Position mit linkem Score ja. In Abbildung 2, z.B. wir müssen die Position ganz rechts mit linker Punktzahl ausschließen ja, angezeigt durch den nach unten gerichteten Doppelpfeil. Betrachten Sie als intuitive Ausrichtung jede Ausrichtungsposition mit linker Partitur ja. Alle dazwischenliegenden Alignment-Intervalle haben einen Score von 0, was unserer Zuversicht, dass sie Teile eines biologisch interessanten Alignments darstellen, nicht hilft.

Es ist jedoch zu beachten, dass die statistische Signifikanz nicht immer die biologische Signifikanz widerspiegelt. Verschiedene Faustregeln können die biologische Bedeutung von BLAST . abschätzen E-Werte, z.B. PSI-BLAST-Iterationen behalten Sequenzen mit einem statistischen E-Wert von 0,005. Abbildung 2 legt nahe, dass für eine Überausrichtung P-Werte, statistische und biologische Signifikanz sind ähnlich, aber es sind weitere praktische Erfahrungen erforderlich, um diesen Punkt zu bestätigen.

Um das Vertrauen in eine Ausrichtung zu erhöhen, könnte ein Untersucher die Ausrichtungsflanken mit der Überausrichtung trimmen P-Wert, aber das Trimmen beinhaltet auch einen Kompromiss: Überausrichtung wird seltener, aber Unterausrichtung wird häufiger. Die P-Schwellenwert für das Trimmen von Flanken sollte daher die subjektiven Strafen widerspiegeln, die einer Über- und Unterausrichtung zugeordnet werden. Abbildung 6 zeigt die gleichen mtDNA-NUMT-Alignments wie Abbildung 4, jedoch nach Entfernung der Flanken mit P > 0,01. Wie erwartet nimmt die Überausrichtung ab, die Unterausrichtung nimmt jedoch zu. Insbesondere sind Underalignments mit einer Länge von etwa 10 bp häufig, da sich echte Alignments wahrscheinlich um einige Basen in nahegelegene Sequenzen erstrecken. Da die Überausrichtung P-Werte für kurze Erweiterungen liegen nahe 1,0, es ist keine solide Beurteilung über einige Reste am Ende eines Alignments möglich.

Kompromiss zwischen Über- und Unterausrichtung nach dem Beschneiden der Flanken mit P > 0,01. Diese Grafiken beziehen sich auf die gleichen Ausrichtungen wie in Abbildung 4. Diesmal wurden die Ausrichtungen jedoch an beiden Enden verkürzt, indem Flanken mit . entfernt wurden P > 0,01. In einigen Fällen entfernte das Trimmen die gesamte Ausrichtung: Wir haben diese Fälle aus der Betrachtung ausgeschlossen.

Kompromiss zwischen Über- und Unterausrichtung nach dem Beschneiden der Flanken mit P > 0,01. Diese Grafiken beziehen sich auf die gleichen Ausrichtungen wie in Abbildung 4. Diesmal wurden die Ausrichtungen jedoch an beiden Enden verkürzt, indem Flanken mit . entfernt wurden P > 0,01. In einigen Fällen entfernte das Trimmen die gesamte Ausrichtung: Wir haben diese Fälle aus der Betrachtung ausgeschlossen.

Basierend auf diesen Ergebnissen empfehlen wir kein routinemäßiges Trimmen von Ausrichtungsflanken, insbesondere weil ausgewogene Scoring-Schemata selten große Überdehnungen erzeugen. Vielmehr sollten Programme die P-Wert der Flanken, damit Ermittler wissen können, wie oft eine zufällige Flanke die angegebene Ausrichtung erzeugt. Bei minderwertigen Alignments von Transkriptionsfaktor-Bindungsstellen können die Untersucher dann beispielsweise beliebige Flanken mit großen P-Werte mit entsprechendem Verdacht.


Danksagung

B.B. dankt D. Tserendulam für Hilfe, Weisheit und Führung. E.W. dankt dem St John’s College in Cambridge für die Förderung der wissenschaftlichen Diskussion. Wir danken S. Rankin und den Mitarbeitern des High Performance Computing Service der University of Cambridge und des National High-Throughput Sequencing Center (Kopenhagen). Diese Arbeit wurde unterstützt von: The Danish National Research Foundation, The Danish National Advanced Technology Foundation (The Genome Denmark platform, Grant 019-2011-2), The Villum Kann Rasmussen Foundation, KU2016, European Union FP7 program ANTIGONE (Grant Agreement No. 278976), die Forschungs- und Innovationsprogramme Horizon 2020 der Europäischen Union, COMPARE (Fördervereinbarung Nr. 643476), VIROGENESIS (Fördervereinbarung Nr. 634650) und die Lundbeck-Stiftung. Das Nationale Referenzzentrum für Hepatitis-B- und -D-Viren wird vom Bundesgesundheitsministerium über das Robert-Koch-Institut (Berlin) gefördert. B.B. wurde vom Taylor Family-Asia Foundation Stiftungslehrstuhl für Ökologie und Naturschutzbiologie unterstützt. A.D.M.E.O. wurde von N-RENNT des Niedersächsischen Ministeriums für Wissenschaft und Kultur gefördert.

Informationen zum Rezensenten

Natur dankt P. Simmonds, B. Shapiro, C. Pepperell und den anderen anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.


Diskussion

Wir berichten über eine Analyse des TE-Gehalts der Keimbahntranskriptome der Eierstöcke und des Hodens für die Feuerameise, die die erste für ein Hymenoptera-Insekt ist. Eine frühere Studie profilierte nur die ovarielle Genexpression bei Honigbienen ( Niu et al. 2014) und untersuchte keine TEs.Darüber hinaus ist unsere Studie eine von wenigen Insektenkeimbahntranskriptomen außerhalb von Drosophila und Mücken (Akbari et al. 2013 Yang und Xi 2017). Wir berichten auch über die Entdeckung eines seltenen Falles einer derzeit aktiven TE nach einer kürzlichen HTT (<3 My) bei Insekten. Dies trägt zu den wenigen Fällen von HTT bei, die für Hymenoptera dokumentiert wurden (Dotto et al. 2015, 2018). Unsere Studie zeigt, dass das Profiling der Keimbahnexpression ein potenzieller Ansatz zur Identifizierung aktiver TEs sein kann.

Unsere Analyse ergab, dass ∼50% der TE-haltigen Transkripte sowohl in der weiblichen als auch in der männlichen Keimbahn der Feuerameise Sequenzen von Mitgliedern der IS630-Tc1-Mariner Überfamilie ( Abb. 1A). Obwohl frühere Studien dies nahelegten Seeleute wurden typischerweise in eukaryotischen Genomen inaktiviert ( Feschotte und Pritham 2007 Muñoz-López und García-Pérez 2010 Yang und Xi 2017), unsere Ergebnisse stimmen mit der Tatsache überein, dass alle sechs bekannten Fälle von aktiven Seeleute bei Tieren stammen von wirbellosen Tieren (Muñoz-López und García-Pérez 2010). Unsere Ergebnisse bestätigen auch die frühere Beobachtung, dass die Seemann Familie ist bei Insekten weit verbreitet ( Robertson 1993 Peccoud et al. 2017).

Aktive TEs sind eine genomische Belastung, und folglich haben Organismen Abwehrmechanismen gegen TEs entwickelt ( Levin und Moran 2011, Yang und Xi 2017). In Übereinstimmung mit der Kontrolle durch die Wirtsabwehr wurden >84% der TE-enthaltenden Transkripte in unserer Studie in geringen Mengen exprimiert ( 1B ). Auch eine Selbstregulation könnte vorkommen ( Kidwell und Lisch 2001 Bire et al. 2016). Dennoch können 17 autonome TEs der Wirtsabwehr entkommen sein oder noch nicht der Wirtsabwehr unterliegen, da sie in der Keimbahn stark exprimiert werden.

Davon haben wir gefunden Mariner-2_DF besonders interessant, weil es möglicherweise noch aktiv ist in S. invicta, und möglicherweise in einer jüngsten Expansionsphase. Sechs Beweisstränge unterstützen diese Möglichkeit nachdrücklich. Erstens weist es eine hohe Keimbahnexpression auf und ist die einzige, die in allen drei Keimbahnproben im Vergleich zu den BUSCO-Genen exprimiert wird, und es hat die höchste Keimbahnexpression in allen drei Proben unter Verwendung von Repbase als Referenz (Zusatztabelle S5, Ergänzungsmaterial online) . Zweitens ist es von den 17 untersuchten stark exprimierten TEs das einzige mit Nichtreferenzkopien. Drittens hat es mehrere einzigartige Insertionspolymorphismen in sieben Feuerameisenfamilien (Abb. 3B, ergänzende Abb. S4–S10, ergänzendes Material online). Wir fanden mindestens zwei Insertionen pro Familie, was wahrscheinlich eine Unterschätzung ist, da unsere Analyse nur die ∼67 % der zu Pseudochromosomen verbundenen Gerüste untersuchte. Viertens kann es einer somatischen Exzision unterzogen werden (ergänzende Abb. S11, Ergänzendes Material online). Fünftens ist es der TE mit den meisten Kopien (n = 857 alle anderen n ≤ 306 Sequenzen ≥ 60 % der Gesamtlänge). Diese Kopiennummer ähnelt anderen Seemann Linien in Drosophila (z. B. ∼460 Kopien von Dromar6 in D. Erektion), die sich wahrscheinlich in einer jüngsten Expansionsphase befinden ( Wallau et al. 2014). Schließlich weist es die geringste genetische Diversität zwischen Kopien, einschließlich vieler identischer Kopien, im Genom der Feuerameise auf ( Abb. 2, Tabelle 1). Die geringe genetische Vielfalt unter den Mariner-2_DF Kopien lassen vermuten, dass es sich um den jüngsten Aktiven handelt Seemann im Genom der Feuerameise. Dies deutet auch darauf hin, dass die Feuerameise noch keine starke Abwehr entwickelt hat Mariner-2_DF.

Obwohl es uns gelungen ist, ein aktives TE zu entdecken, hat unsere Analyse die Anzahl der aktiven TE in Feuerameisen aus mehreren Gründen möglicherweise unterschätzt. Zum Beispiel haben wir in unserer Analyse für stark exprimierte TEs ausgewählt, daher würden wir aktive, aber mäßig oder schwach exprimierte TEs übersehen. In Verbindung damit haben wir nur einen Zeitpunkt für die Eierstöcke (jungfräuliche Erwachsene) und Hoden (dritte und vierte Erscheinungsform) profiliert, sodass TEs, die zu anderen Entwicklungszeiten oder in Stressphasen exprimiert wurden (z. B. Naito et al. 2009), ebenfalls übersehen würden. Ebenso haben wir keine Hoden aus dem Sb Genotyp. Obwohl wir ein verbessertes Feuerameisen-Genom verwendet haben, gibt es außerdem immer noch Montagelücken, genau dort, wo TEs typischerweise überrepräsentiert sind. TE-Polymorphismus (ein Hinweis auf Aktivität) in den Lücken wäre unentdeckt. Ebenso nehmen Feuerameisen-Zentromere ein Drittel des Genoms ein (Huang et al. 2018), und jegliche polymorphe Insertion wäre dort schwer zu erkennen.

Neben zeitgenössischen Mariner-2_DF Aktivität bei der Feuerameise wurde dieses Transposon möglicherweise in letzter Zeit horizontal auf mehrere andere Arten übertragen (<5.1 My). Mit dem Vorbehalt, dass die analysierten Genom-Assembly-Qualitäten variabel waren, wodurch möglicherweise falsch negative Ergebnisse in Mariner-2_DF Präsenz und Vollständigkeit der Sequenz, unsere Untersuchung seiner taxonomischen Verteilung ergab eine lückenhafte Verteilung, die in acht Arten unter 52 verschiedenen Insekten gefunden wurde. Von drei der acht Arten sind nur Reste der Mariner-2_DF Transposonsequenzen wurden nachgewiesen, was auf eine Wirtsinaktivierung des Transposons hinweist und möglicherweise auf ein älteres horizontales Transferdatum hindeutet. Bei den verbleibenden fünf Arten gab es eine hohe Sequenzidentität zwischen den Arten und weniger synonyme Substitutionen in Mariner-2_DF als bei nuklearen Genen in paarweisen Vergleichen, was auf mindestens fünf unabhängige relativ neue horizontale Transferereignisse schließen lässt ( Abb. 4). Intakt in voller Länge Mariner-2_DF Sequenzen wurden nur in S. invicta und D. grimshawi (der jüngste, ∼0.18–0.23 My), was darauf hindeutet, dass Mariner-2_DF möglicherweise nur bei diesen beiden Arten aktiv sein. Unsere Ergebnisse stimmen mit früheren Studien über HTT überein Mariner-2_DF in D. ficusphila (Dromar8Mfic), D. grimshawi (Dromar8) (Wallau et al. 2014, 2016) und R. prolixus (Rpmar57) (Filee et al. 2015).

HTT ist ein gut dokumentiertes Phänomen bei Insekten. Eine kürzlich durchgeführte Studie ergab, dass einige Insekten große Anteile des Genoms von HTT haben (24,69% in der Stallfliege, Stomoxys calcitrans), bei Feuerameisen beträgt dieser Wert jedoch nur 0,75% ( Peccoud et al. 2017). Im Allgemeinen schlugen frühere Forschungen vor, dass eng interagierende Arten mit größerer Wahrscheinlichkeit TEs austauschen ( Soucy et al. 2015). Es ist unwahrscheinlich, dass HTT direkt unter den acht in unserer Studie untersuchten Arten aufgetreten ist, da sie keine dokumentierten direkten ökologischen Wechselwirkungen aufweisen. Dennoch sind die aktuellen nativen geografischen Bereiche für R. prolixus und die beiden Ameisen können sich überlappen (Tabelle 2) und die historischen geografischen Verbreitungsgebiete der anderen Arten können sich überschnitten haben, was möglicherweise HTT ermöglicht. Wahrscheinlicher ist, dass HTT indirekt durch einen oder eine Reihe von gemeinsamen Vektoren zwischen den Empfängerspezies aufgetreten ist. Dazu könnten Viren wie Baculoviren oder das Flockhouse-Virus gehören, von denen bekannt ist, dass sie TEs tragen ( Loreto et al. 2008 Routh et al. 2012 Gilbert et al. 2014) und eng verbundene Parasiten, Wolbachia, oder andere TEs (Houck et al. 1991 Loreto et al. 2008 Schaack et al. 2010 Venner et al. 2017). Wir haben eine phoretische Milbe von Feuerameisen untersucht, Histiostoma blomquisti (Sokolov et al. 2003 Wirth und Moser 2010), die häufig zwischen oder unter den Bauch-Tergiten von Königinnen angebracht wird. Wir können diese Milbe jedoch als Vektor ausschließen, da die Genomsequenzierung keine Mariner-2_DF Kopien ( Lee und Wang 2016 und unveröffentlichtes Genom).

Die Richtung von HTT, entweder direkt oder indirekt, unter den acht untersuchten Arten ist aus unserer Studie nicht klar. Dennoch besteht eine Möglichkeit darin, dass die drei Arten (D. yakuba, D. erecta, und R. prolixus) enthält nur stark fragmentierte und vermutlich ziemlich alte Kopien von Mariner-2_DF, könnte die Quelle für die HTT-Ereignisse bei den anderen fünf Arten gewesen sein. Verbunden und mit der ersten Möglichkeit vereinbar ist, dass die beiden Ameisen, die geschätzt haben, Mariner-2_DF Kolonisationsdaten von >2,6 Mya, könnte die Quelle für die drei Arten mit neueren Insertionsdaten gewesen sein (D. ficusphila, D. grimshawi, und M. Rotunde alle <0.57 Mya). Zukünftige Studien mit zusätzlichen Genomen sind erforderlich, um dieses Problem zu lösen.

Phasen der aktiven Transposition können das Genom des Wirts überproportional formen, was zu einer erhöhten Vielfalt des Wirtsgenoms führt. Bei Affen, Nagetieren und Fledermäusen wurde ein Zusammenhang zwischen TE-Aktivitätsausbrüchen und Artenstrahlungen vorgeschlagen (Warren et al. 2015). Angesichts der evolutionären jüngsten Verbreitung von Mariner-2_DF und der hohen Wahrscheinlichkeit, dass es derzeit aktiv, stark exprimiert und stark polymorph ist, schlagen wir vor, dass von allen TEs Mariner-2_DF hat das Genom der Feuerameise unverhältnismäßig stark beeinflusst. Eine spannende Frage wäre: Hat dieses Transposon nützliche Mutationen im Genom der Feuerameise erzeugt, die zu seiner Anpassung an die invasiven Bereiche beigetragen haben? Dieses Thema wird Gegenstand zukünftiger Experimente und Analysen sein.


Schau das Video: Pairwise Sequence Alignment of Proteins using EMBOSS Needle. Basic Science Series (Kann 2022).