Information

Welche Funktion haben ultrakonservierte Elemente im Genom?

Welche Funktion haben ultrakonservierte Elemente im Genom?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Wenn Selektionsdruck zur Konservierung von DNA-Sequenzen führt, was ist die plausibelste Erklärung für die Existenz ultrakonservierter Elemente (siehe hier und hier), da die funktionelle Bedeutung dieser Elemente außer a . nicht signifikant bestätigt wurde? viele bioinformatische Analysen über verschiedene Genomdatensätze hinweg? Wenn diese von so hoher Bedeutung sind, bedeutet dies dann, dass es immer noch eine erhebliche Lücke in unserem Verständnis der Grundlagenbiologie gibt oder gibt es eine andere Erklärung? Insbesondere die zweite Referenz zeigt, dass Pflanzen und Tiere UCEs gemeinsam haben, aber nicht syntenisch sind (was nicht unbedingt überraschend ist), sodass dies nahelegen könnte, dass zumindest eine Klasse von UCE eher mit strukturellen als mit funktionellen Elementen assoziiert ist.

Es scheint, dass es mindestens mehrere verschiedene „Klassen“ von ultrakonservierten Elementen gibt, basierend auf der Anzahl der übereinstimmenden/identischen bps, ihrer räumlichen Verteilung über das Genom und der Spezies, in der sie vorkommen. Auch wenn es wahrscheinlich keine einzige Erklärung für alle möglichen Funktionen gibt, die sie haben können, ist es überraschend, dass sie nur schwer funktional zu testen sind. Dies liegt wahrscheinlich wiederum an einem mangelnden Verständnis ihrer Eigenschaften und daher an keiner wirklichen Methode, um ihre Funktion zu validieren. Ich denke, hier müssen wir über den Tellerrand schauen, um die Antwort zu finden.

Was wäre die offensichtlichste (und möglicherweise nicht so offensichtliche) Funktion für UCEs?


Wahrscheinlich Entwicklung, insbesondere Transkriptionsregulation. Um jeden Link nacheinander zu zitieren,

Sie finden sich in Clustern im gesamten menschlichen Genom, hauptsächlich um Gene herum, die an der Regulation der Entwicklung beteiligt sind, einschließlich vieler Transkriptionsfaktoren. Diese hochkonservierten nicht-kodierenden Sequenzen sind wahrscheinlich Teil des genomischen Schaltkreises, der die Entwicklung von Wirbeltieren auf einzigartige Weise definiert.

und

[Hochkonservierte nicht-kodierende Sequenzen] sind signifikant mit Transkriptionsfaktoren verbunden, die spezifische Funktionen zeigen, die für die Entwicklung von Tieren grundlegend sind, wie die Entwicklung von multizellulären Organismen und sequenzspezifische DNA-Bindung. Die Mehrheit dieser Regionen kartiert auf ultrakonservierten Elementen und wir zeigen, dass sie als funktionelle Enhancer im Ursprungsorganismus sowie in Cross-Transgenese-Experimenten wirken können

Zusätzlich,

Hier berichten wir, dass 45% dieser Sequenzen reproduzierbar als gewebespezifische Enhancer der Genexpression am Tag 11.5 des Embryos funktionierten. Während die Expression in einem breiten Spektrum anatomischer Strukturen im Embryo gelenkt wurde, lenkte die Mehrheit der 75 Enhancer die Expression in verschiedene Regionen des sich entwickelnden Nervensystems.

Diese Regionen sind in der Regel in etwa 200 Gebieten stark geclustert, und die meisten von ihnen sind nicht kodierend. ncRNA ist oft regulatorisch, und diese UCE-Cluster sind eng mit Entwicklungsgenen verbunden. Davon abgesehen befinden sich nicht alle von ihnen in der Nähe bekannter Genregionen, was ein guter Indikator dafür sein könnte, dass es in diesen Gebieten bisher unbekannte Gene gibt; UCEs können für die Erkennung nützlich sein. Und hier ist ein Papier, das versucht, einem bei Krebs eine Rolle zu geben.


Es ist anzumerken, dass nur weil etwas evolutionär durch Spezialisierung sequentiell divergiert ist, nicht bedeutet, dass diese Funktion nicht in gleichem Maße konserviert wurde. Nicht kodierende RNA sind beispielsweise nicht allein durch sequentielle Homologie gekennzeichnet, sondern durch strukturelle Konservierung. Diese Struktur-Funktions-Beziehung existiert in größerem Maße sogar in anderen Teilen des Genoms mit Retro-Elementen und außerhalb des Genoms mit Proteinen, insbesondere Antikörpern.


Konservierung kann als allgemeine Regel auf selektiven Druck hinweisen, aber das ist keine Selbstverständlichkeit; Sie können einige ultrakonservierte Elemente löschen und immer noch lebensfähige Mäuse erhalten ...

http://www.plosbiology.org/article/info%3Adoi%2F10.1371%2Fjournal.pbio.0050234


Die Genombiologie der Effektorgenevolution in filamentösen Pflanzenpathogenen

Filamentöse Krankheitserreger, darunter Pilze und Oomyceten, stellen eine große Bedrohung für die globale Ernährungssicherheit dar. Pflanzenpathogene verursachen Schäden, indem sie Effektoren absondern, die den Wirt zum Vorteil des Pathogens manipulieren. Gene, die für solche Effektoren kodieren, gehören zu den sich am schnellsten entwickelnden Genen in Pathogengenomen. Hier überprüfen wir, wie die wichtigsten Merkmale der Entstehung, Funktion und Regulation von Effektorgenen eng mit den Genomkompartimenten verknüpft sind, in denen sich diese Gene in Pathogengenomen befinden. Das Vorhandensein von repetitiven Elementen in diesen Kompartimenten ist mit erhöhten Raten von Punktmutationen und Sequenzumlagerungen mit einem großen Einfluss auf die Effektordiversifikation verbunden. Die Expression vieler Effektoren konvergiert auf eine epigenetische Kontrolle, die durch das Vorhandensein repetitiver Elemente vermittelt wird. Populationsgenomische Analysen zeigten, dass sich schnell entwickelnde Pathogene hohe Umsatzraten an Effektor-Loci aufweisen und ein Mosaik im Effektor-Präsenz-Absenz-Polymorphismus zwischen den Stämmen aufweisen. Wir kommen zu dem Schluss, dass effektive Strategien zur Eindämmung von Pathogenen ein gründliches Verständnis der Biologie des Effektorgenoms und des Potenzials des Pathogens für eine schnelle Anpassung erfordern.

Schlüsselwörter: Effektoren Epigenetik Genregulation Genom-Evolution Pangenom-Polymorphismus Populationsgenomik.


Einführung

Die Revolution der vergleichenden Genomik des letzten Jahrzehnts beruht auf der Vorstellung, dass Variationen der Sequenzkonservierung entlang des Genoms aufschlussreich für die Definition funktioneller genomischer Elemente sind (z. B. Birney et al. 2007 Roy et al. 2010 Dunham et al. 2012). Es wird vorhergesagt, dass funktionelle Regionen (Exons, Enhancer, Promotoren usw.) durch die natürliche Selektion in ihrer Sequenzentwicklung eingeschränkt werden und daher weniger Sequenzdivergenz zwischen Spezies aufweisen sollten als nichtfunktionelle Regionen des Genoms. In Übereinstimmung mit dieser Erwartung haben sich die Informationen zur Sequenzkonservierung erheblich verbessert von Anfang an Gen- und RNA-Prädikation (z. B. Carter und Durbin 2006 Pedersen et al. 2006).

Obwohl die Sequenzkonservierung eine attraktive Informationsquelle ist, ist überraschend wenig über die biologische Rolle vieler konservierter Sequenzen bekannt, insbesondere derjenigen, die keine Proteine ​​kodieren. Humane ultrakonservierte Elemente (UCEs) verkörpern dieses Paradox am besten. Bejeranoet al. (2004) beschrieben Hunderte von Abschnitten des menschlichen Genoms mit einer Länge von 200 bp oder mehr, die in Ausrichtungen des menschlichen, Maus- und Rattengenoms perfekt konserviert sind, was ungefähr 100 Myr Evolution entspricht. Die überwiegende Mehrheit dieser Elemente kommt in Regionen ohne bekannte Annotation vor, und weniger als ein Viertel der UCEs überlappen ein bekanntes Transkript. Aufgrund ihrer ersten Beschreibung wurden nur begrenzte Fortschritte bei der Aufklärung der Funktion von Wirbeltier-UCEs gemacht. Einige UCEs scheinen eine Rolle bei der Genregulation zu spielen (Bernstein et al. 2006 Lee et al. 2006 Pennacchio et al. 2006 Paparidis et al. 2007 Visel et al. 2008). Tatsächlich fungieren einige Elemente spezifisch als distale Enhancer für benachbarte Entwicklungsgene (Pennacchio et al. 2006 Paparidis et al. 2007 Visel et al. 2008). Diese Rolle in der Entwicklung wird auch durch bioinformatische Analysen unterstützt, die Clustering in Regionen zeigen, die für Transkriptionsfaktoren und Entwicklungsgene angereichert sind (Bejerano et al. 2004). Es wurde gezeigt, dass andere Elemente als Transkriptionsregulatoren fungieren, von denen eine Untergruppe bei menschlichem Krebs verändert ist (Calin et al. 2007 Ferreira et al. 2012 Lin et al. 2012). Knockout-Mausstämme von vier separaten UCE zeigten jedoch keine nachweisbaren Auswirkungen auf die Lebensfähigkeit oder Fruchtbarkeit (Ahituv et al. 2007). Diese Ergebnisse sind besonders überraschend, da für jedes dieser vier Elemente zuvor gezeigt wurde, dass es eine gewebespezifische in-vivo-Enhancer-Aktivität in transgenen Maus-Assays aufweist (Pennacchio et al. 2006). Inwieweit sind UCE also für die Fitness und Entwicklung des Organismus essentiell?

Inferentielle Beweise aus der Populations- und Evolutionsgenetik legen nahe, dass UCEs tatsächlich sehr wichtig für die Fitness des Organismus sind. UCEs unterliegen in menschlichen Populationen einer starken reinigenden Selektion (Katzman et al. 2007), sind durch segregierende segmentale Duplikationen und Kopienzahlvarianten erschöpft (Chiang et al. 2008) und sind in Säugetiergenomen über tiefere evolutionäre Zeitskalen hinweg nahezu unverzichtbar (McLean und Bejerano .). 2008). Eine alternative Hypothese zur Erklärung der Existenz von UCEs ist, dass sie einfach Mutations-Coldspots des Genoms sind. Glücklicherweise können wir zwischen diesen beiden Hypothesen testen, indem wir Vorhersagen aus probabilistischen genetischen Populationsmodellen verwenden. Solche Analysen zeigen, dass humane UCE durch Selektion stark eingeschränkt zu sein scheinen und daher als funktionell vorhergesagt werden. Humane UCEs wurden mit gezielter Resequenzierung aus menschlichen Populationen und einer hierarchischen Bayesian-Analyse untersucht und es wurde festgestellt, dass sie im Vergleich zu nicht-synonymen Sites (Aminosäurewechselstellen Katzman et al. 2007) einer etwa 3-fach stärkeren negativen Selektion (d. h. Einschränkung) unterliegen. Anders ausgedrückt, die Selektionsgrade auf Aminosäuresequenzen, unserem früheren Goldstandard für die Sequenzkonservierung, sind nur ein Bruchteil dessen, was wir bei der Wirkung von UCE beim Menschen beobachten. Dieses Muster verallgemeinert sich auch auf den gesamten “tail” der Verteilung konservierter Sequenzen. Zum Beispiel werden unabhängige Sätze konservierter nicht-kodierender Sequenzen (Nicht-CDS) durch unterschiedliche Definitionen sowohl beim Menschen (Drake et al. 2005) als auch beim Menschen einer starken Selektion unterzogen (Drake et al. 2005). Drosophila (Casillas et al. 2007).

Auch wenn UCEs für die Fitness wichtig sein müssen, bleibt die Frage, welche Fitnessaspekte sie kodieren. Hier präsentieren wir ein umfassendes Set von UCEs innerhalb der Drosophila Genom, das wir mithilfe von 12 vollständig sequenzierten Fruchtfliegengenomen aufgedeckt haben. Wir zeigen anhand von populationsgenetischen Daten, dass diese Elemente durch die natürliche Selektion sowohl historisch als auch aktuell stark eingeschränkt sind Drosophila melanogaster Bevölkerungen. Weiterhin zeigen wir, dass mehrere UCEs transkribiert werden und somit wahrscheinlich neuen ncRNAs entsprechen.


Inhalt

SINEs werden als Nicht-LTR-Retrotransposons klassifiziert, da sie keine Long Terminal Repeats (LTRs) enthalten. [4] Es gibt drei Arten von SINEs, die Wirbeltieren und Wirbellosen gemeinsam sind: CORE-SINEs, V-SINEs und AmnSINEs. [3] SINEs haben 50-500 Basenpaare interne Regionen, die ein tRNA-abgeleitetes Segment mit A- und B-Boxen enthalten, die als interner Promotor für die RNA-Polymerase III dienen. [5] [3]

Interne Struktur Bearbeiten

SINEs zeichnen sich durch ihre unterschiedlichen Module aus, die im Wesentlichen eine Aufteilung ihrer Sequenz sind. SINEs können, müssen aber nicht unbedingt einen Kopf, einen Körper und einen Schwanz besitzen. Der Kopf befindet sich am 5'-Ende von kurz eingestreuten Kernelementen und ist evolutionär von einer RNA abgeleitet, die von RNA-Polymerase III synthetisiert wurde, wie ribosomale RNAs und tRNAs der 5'-Kopf zeigt an, von welchem ​​endogenen Element SINE abgeleitet wurde und konnte seine Transkriptionsmaschinerie parasitär nutzen. [1] Zum Beispiel leitet sich das 5' des Alu-Sinus von 7SL-RNA ab, einer von RNA-Polymerase III transkribierten Sequenz, die für das RNA-Element von SRP, einem reichlich vorhandenen Ribonukleoprotein, kodiert. [6] Der Körper von SINEs besitzt einen unbekannten Ursprung, teilt aber oft viel Homologie mit einer entsprechenden LINE, was es SINEs somit ermöglicht, durch LINEs kodierte Endonukleasen (die bestimmte Sequenzmotive erkennen) parasitär zu kooptieren. Schließlich besteht der 3′-Schwanz von SINEs aus kurzen einfachen Wiederholungen unterschiedlicher Länge. Diese einfachen Wiederholungen sind Stellen, an denen sich zwei (oder mehr) kurz verstreute Kernelemente zu einem dimeren SINE verbinden können. [7] Kurz eingestreute Kernelemente, die nicht nur Kopf und Schwanz besitzen, werden einfache SINEs genannt, während kurz eingestreute Kernelemente, die auch einen Körper besitzen oder eine Kombination aus zwei oder mehr SINEs sind, komplexe SINEs sind. [1]

Kurz eingestreute Kernelemente werden von der RNA-Polymerase III transkribiert, von der bekannt ist, dass sie ribosomale RNA und tRNA transkribiert, zwei Arten von RNA, die für den ribosomalen Zusammenbau und die mRNA-Translation wichtig sind. [8] SINEs besitzen wie tRNAs und viele kleinnukleare RNAs einen internen Promotor und werden daher anders als die meisten proteinkodierenden Gene transkribiert. [1] Mit anderen Worten, kurz eingestreute Kernelemente haben ihre Schlüsselpromotorelemente innerhalb der transkribierten Region selbst. Obwohl SINEs und andere Gene, die interne Promotoren besitzen, von RNA-Polymerase III transkribiert werden, rekrutieren sie andere Transkriptionsmaschinen und Faktoren als Gene, die stromaufwärts gelegene Promotoren besitzen. [9]

Veränderungen in der Chromosomenstruktur beeinflussen die Genexpression hauptsächlich, indem sie die Zugänglichkeit von Genen für die Transkriptionsmaschinerie beeinflussen. Das Chromosom hat ein sehr komplexes und hierarchisches System zur Organisation des Genoms. Dieses Organisationssystem, das Histone, Methylgruppen, Acetylgruppen und eine Vielzahl von Proteinen und RNAs umfasst, ermöglicht, dass verschiedene Domänen innerhalb eines Chromosoms für Polymerasen, Transkriptionsfaktoren und andere assoziierte Proteine ​​in unterschiedlichem Maße zugänglich sind. [10] Darüber hinaus können die Form und Dichte bestimmter Bereiche eines Chromosoms die Form und Dichte benachbarter (oder sogar entfernter) Regionen auf dem Chromosom durch Interaktion, die durch verschiedene Proteine ​​und Elemente ermöglicht wird, beeinflussen. Nicht-kodierende RNAs, wie zum Beispiel kurz durchsetzte Kernelemente, von denen bekannt ist, dass sie mit der Chromatinstruktur assoziieren und dazu beitragen, können daher eine große Rolle bei der Regulierung der Genexpression spielen. [11] Kurze, durchsetzte Kernelemente können in ähnlicher Weise an der Genregulation beteiligt sein, indem sie die genomische Architektur modifizieren.

Tatsächlich haben Usmanova et al. 2008 schlugen vor, dass kurz eingestreute Kernelemente als direkte Signale bei der Chromatinumlagerung und -struktur dienen können. Die Arbeit untersuchte die globale Verteilung von SINEs in Maus- und Humanchromosomen und stellte fest, dass diese Verteilung der genomischen Verteilung von Genen und CpG-Motiven sehr ähnlich war. [12] Die Verteilung von SINEs auf Gene war signifikant ähnlicher als die von anderen nicht-kodierenden genetischen Elementen und unterschied sich sogar signifikant von der Verteilung von lang eingestreuten Kernelementen. [12] Dies deutete darauf hin, dass die SINE-Verteilung kein bloßer Zufall war, der durch LINE-vermittelte Retrotransposition verursacht wurde, sondern dass SINEs eine Rolle bei der Genregulation spielen. Darüber hinaus enthalten SINEs häufig Motive für YY1-Polycomb-Proteine. [12] YY1 ist ein Zinkfingerprotein, das als transkriptioneller Repressor für eine Vielzahl von Genen fungiert, die für die Entwicklung und Signalübertragung essentiell sind. [13] Es wird angenommen, dass das Polycomb-Protein YY1 die Aktivität von Histon-Deacetylasen und Histon-Acetyltransferasen vermittelt, um die Chromatin-Reorganisation zu erleichtern. Dies dient häufig der Bildung von Heterochromatin (Gen-Silencing-Zustand). [14] Somit legt die Analyse nahe, dass kurz eingestreute Kernelemente als „Signalverstärker“ bei der polycomb-abhängigen Stilllegung von Gen-Sets durch Chromatin-Reorganisation fungieren können. [12] Im Wesentlichen ist es die kumulative Wirkung vieler Arten von Wechselwirkungen, die zum Unterschied zwischen Euchromatin, das nicht dicht gepackt und im Allgemeinen für die Transkriptionsmaschinerie zugänglicher ist, und Heterochromatin, das dicht gepackt und für die Transkription im Allgemeinen nicht zugänglich ist, unterscheidet Maschinen-SINEs scheinen in diesem Prozess eine evolutionäre Rolle zu spielen.

Neben der direkten Beeinflussung der Chromatinstruktur gibt es eine Reihe von Möglichkeiten, wie SINEs potenziell die Genexpression regulieren können. Zum Beispiel kann lange nicht-kodierende RNA direkt mit transkriptionalen Repressoren und Aktivatoren interagieren und deren Funktion abschwächen oder modifizieren. [15] Diese Art der Regulation kann auf verschiedene Weise erfolgen: Das RNA-Transkript kann auch als Co-Regulator direkt an den Transkriptionsfaktor binden, die RNA kann die Fähigkeit der Co-Regulatoren, mit dem Transkriptionsfaktor zu assoziieren, regulieren und modifizieren. [15] Beispielsweise ist bekannt, dass Evf-2, eine bestimmte lange nicht-kodierende RNA, als Co-Aktivator für bestimmte Homöobox-Transkriptionsfaktoren fungiert, die für die Entwicklung und Organisation des Nervensystems entscheidend sind. [16] Darüber hinaus können RNA-Transkripte die Funktionalität des Transkriptionskomplexes durch Wechselwirkung oder Assoziation mit RNA-Polymerasen während der Transkription oder des Ladeprozesses stören. [15] Darüber hinaus können nicht-kodierende RNAs wie SINEs direkt an den DNA-Duplex, der das Gen kodiert, binden oder mit ihm interagieren und so dessen Transkription verhindern. [fünfzehn]

Außerdem sind viele nicht-kodierende RNAs in der Nähe von Protein-kodierenden Genen verteilt, oft in umgekehrter Richtung. Dies gilt insbesondere für kurz eingestreute Kernelemente, wie in Usmanova et al. Diese nicht-kodierenden RNAs, die neben Gensätzen liegen oder diese überlappen, stellen einen Mechanismus bereit, durch den Transkriptionsfaktoren und Maschinen rekrutiert werden können, um die Transkription lokaler Gene zu erhöhen oder zu unterdrücken. Das besondere Beispiel von SINEs, die möglicherweise den YY1-Polycomb-Transkriptionsrepressor rekrutieren, wird oben diskutiert. [12] Alternativ bietet es auch einen Mechanismus, durch den die lokale Genexpression eingeschränkt und reguliert werden kann, da die Transkriptionskomplexe die Transkription benachbarter Gene behindern oder verhindern können. Es gibt Untersuchungen, die darauf hindeuten, dass dieses Phänomen insbesondere bei der Genregulation pluripotenter Zellen beobachtet wird. [17]

Zusammenfassend lässt sich sagen, dass nicht-kodierende RNAs wie SINEs in der Lage sind, die Genexpression auf einer Vielzahl unterschiedlicher Ebenen und auf unterschiedliche Weise zu beeinflussen. Es wird angenommen, dass kurz eingestreute Kernelemente tief in ein komplexes regulatorisches Netzwerk integriert sind, das in der Lage ist, die Genexpression im gesamten eukaryotischen Genom fein abzustimmen.

Die von dem kurz eingestreuten Kernelement kodierte RNA kodiert für kein Proteinprodukt, wird aber dennoch revers transkribiert und in eine alternative Region im Genom zurückinseriert. Aus diesem Grund wird angenommen, dass sich kurze interspersed Nuclear Elements (LINEs) gemeinsam mit langen interspersed Nuclear Elements (LINEs) entwickelt haben, da LINEs tatsächlich Proteinprodukte kodieren, die es ihnen ermöglichen, revers transkribiert und wieder in das Genom integriert zu werden. [4] Es wird angenommen, dass SINEs die Proteine ​​kooptiert haben, die von LINEs kodiert werden, die in 2 Leserastern enthalten sind. Open Reading Frame 1 (ORF 1) kodiert für ein Protein, das an RNA bindet und als Chaperon fungiert, um die LINE-Protein-RNA-Komplexstruktur zu erleichtern und aufrechtzuerhalten. [18] Open Reading Frame 2 (ORF 2) kodiert für ein Protein, das sowohl Endonuklease- als auch Reverse-Transkriptase-Aktivität besitzt. [19] Dies ermöglicht es, die LINE-mRNA revers in DNA zu transkribieren und basierend auf den Sequenzmotiven, die von der Endonuklease-Domäne des Proteins erkannt werden, in das Genom zu integrieren.

LINE-1 (L1) wird am häufigsten in der Keimbahn und während der frühen Entwicklung transkribiert und retrotransponiert, daher bewegen sich SINEs während dieser Zeiträume am häufigsten im Genom. Die SINE-Transkription wird durch Transkriptionsfaktoren in somatischen Zellen nach der frühen Entwicklung herunterreguliert, obwohl Stress eine Hochregulierung von normalerweise stummen SINEs verursachen kann. [20] SINEs können zwischen Individuen oder Spezies durch horizontalen Transfer durch einen viralen Vektor übertragen werden. [21]

Es ist bekannt, dass SINEs Sequenzhomologie mit LINES teilen, was eine Grundlage bildet, auf der die LINE-Maschinerie SINE-Transkripte revers transkribieren und integrieren kann. [22] Alternativ wird angenommen, dass einige SINEs ein viel komplexeres System der Rückintegration in das Genom verwenden. Seite? ˅). [22] Diese DNA-Brüche werden genutzt, um die reverse Transkriptase zu primen und schließlich das SINE-Transkript wieder in das Genom zu integrieren. [22] SINEs hängen jedoch von Enzymen ab, die von anderen DNA-Elementen kodiert werden, und werden daher als nicht-autonome Retrotransposons bezeichnet, da sie von der Maschinerie der LINEs abhängen, die als autonome Retrotransposons bekannt sind.< [23]

Die Theorie, dass sich kurz eingestreute Kernelemente entwickelt haben, um die Retrotransposon-Maschinerie lang eingestreuter Kernelemente zu nutzen, wird durch Studien gestützt, die das Vorhandensein und die Verteilung von LINEs und SINEs in Taxa verschiedener Arten untersuchen. [24] Beispielsweise zeigen LINEs und SINEs in Nagetieren und Primaten eine sehr starke Homologie am Insertionsstellen-Motiv. [24] Solche Beweise sind eine Grundlage für den vorgeschlagenen Mechanismus, bei dem die Integration des SINE-Transkripts mit LINE-kodierten Proteinprodukten kooptiert werden kann. Dies wird insbesondere durch eine detaillierte Analyse von über 20 Nagetierarten profilierten LINEs und SINEs gezeigt, hauptsächlich L1s und B1s. Dies sind Familien von LINEs und SINEs, die zusammen mit anderen Säugetieren mit hoher Häufigkeit in Nagetieren gefunden werden. [24] Ziel der Studie war es, phylogenetische Klarheit im Kontext der LINE- und SINE-Aktivität zu schaffen.

Die Studie gelangte zu einem Kandidatentaxa, von dem angenommen wird, dass es das erste Aussterben der L1 LINE ist. Sie stellte erwartungsgemäß fest, dass es keine Hinweise darauf gab, dass B1 SINE-Aktivität in Arten auftrat, die keine L1 LINE-Aktivität aufwiesen. [24] Die Studie deutete auch darauf hin, dass das kurzzeitig durchsetzte Kernelement-Silencing von B1 tatsächlich vor der Auslöschung des langdurchsetzten Kernelement-Aussterbens von L1 auftrat keine aktiven L1 LINEs enthalten (obwohl die Gattung mit B1 SINE Silencing noch aktive L1 LINEs enthält). [24] Es wurde auch eine andere Gattung gefunden, die in ähnlicher Weise aktive, lang eingestreute L1-Kernelemente enthielt, aber keine kurz eingestreuten B1-Kernelemente enthielt das umgekehrte Szenario, in dem aktive B1-SINEs in einer Gattung vorhanden waren, die keine aktiven L1-Linien besaß nicht gefunden. [24] Dieses Ergebnis wurde erwartet und unterstützt stark die Theorie, dass sich SINEs entwickelt haben, um die von LINEs kodierten RNA-bindenden Proteine, Endonukleasen und reversen Transkriptasen zu kooptieren. In Taxa, die lange eingestreute nukleare Elemente-Proteinprodukte nicht aktiv transkribieren und translatieren, haben SINEs nicht die theoretische Grundlage, durch die sie innerhalb des Genoms retrotransponiert werden können. Die Ergebnisse von Rinehart et al. unterstützen somit das aktuelle Modell der SINE-Retrotransposition sehr.

Die Insertion eines SINEs stromaufwärts einer kodierenden Region kann zu einem Exon-Shuffling oder zu Veränderungen der regulatorischen Region des Gens führen. Die Insertion eines SINE in die kodierende Sequenz eines Gens kann schädliche Auswirkungen haben und eine unregulierte Transposition kann genetische Erkrankungen verursachen. Die Transposition und Rekombination von SINEs und anderen aktiven Kernelementen wird als einer der wichtigsten Beiträge zur genetischen Diversität zwischen Linien während der Artbildung angesehen. [21]

Es wird angenommen, dass kurz eingestreute Kernelemente parasitären Ursprung in eukaryotischen Genomen haben. Diese SINEs haben sich auf einer evolutionären Zeitskala viele Male mutiert und repliziert und bilden somit viele verschiedene Abstammungslinien. Ihr früher evolutionärer Ursprung hat dazu geführt, dass sie in vielen eukaryotischen Abstammungslinien allgegenwärtig sind.

Alu-Elemente, kurz eingestreute Kernelemente von etwa 300 Nukleotiden, sind die am häufigsten vorkommenden SINE beim Menschen, mit >1.000.000 Kopien im gesamten Genom, was über 10 Prozent des Gesamtgenoms ausmacht. Dies ist bei anderen Arten nicht ungewöhnlich. [25] Die Kopienzahlunterschiede von Alu-Elementen können verwendet werden, um die Phylogenien von Primatenarten zu unterscheiden und zu konstruieren. [21] Hunde unterscheiden sich hauptsächlich in ihrer Häufigkeit von SINEC_Cf-Wiederholungen im gesamten Genom und nicht in anderen Mutationen auf Gen- oder Allelebene. Diese hundespezifischen SINEs können für eine Spleißakzeptorstelle kodieren, wodurch die Sequenzen verändert werden, die in jeder Spezies als Exons oder Introns erscheinen. [26]

Abgesehen von Säugetieren können SINEs bei einer Reihe von Arten hohe Kopienzahlen erreichen, darunter nichtknöcherne Wirbeltiere (Elefantenhai) und einige Fischarten (Coelacanths). [27] In Pflanzen sind SINEs oft auf eng verwandte Arten beschränkt und sind während der Evolution häufig aufgetaucht, zerfallen und verschwunden. [28] Dennoch sind einige SINE-Familien wie die Au-SINEs [29] und die Angio-SINEs [30] ungewöhnlich weit über viele oft nicht verwandte Pflanzenarten verbreitet.

Es gibt >50 menschliche Krankheiten, die mit SINEs verbunden sind. [20] Wenn SINEs in der Nähe oder innerhalb des Exons eingefügt werden, können sie ein falsches Spleißen verursachen, zu kodierenden Regionen werden oder den Leserahmen verändern, was häufig zu Krankheitsphänotypen bei Menschen und anderen Tieren führt. [26] Die Insertion von Alu-Elementen in das menschliche Genom wird mit Brustkrebs, Dickdarmkrebs, Leukämie, Hämophilie, Dent-Krankheit, Mukoviszidose, Neurofibromatose und vielen anderen in Verbindung gebracht. [4]

MicroRNAs Bearbeiten

Die Rolle von kurz eingestreuten Kernelementen bei der Genregulation innerhalb von Zellen wurde durch mehrere Studien unterstützt. Eine solche Studie untersuchte die Korrelation zwischen einer bestimmten Familie von SINEs mit microRNAs (in Zebrafischen). [31] Die spezifische Familie von SINEs, die untersucht wurden, waren die Anamnia V-SINEs. Diese Familie von kurzen eingestreuten Kernelementen wird oft in der untranslatierten Region des 3'-Endes vieler Gene gefunden und kommt in Wirbeltiergenomen vor. [31] Die Studie umfasste eine Computeranalyse, bei der die genomische Verteilung und Aktivität der Anamnia V-SINEs in Danio rerio Zebrafische weiter untersucht wurde, wurde das Potenzial dieser V-SINEs zur Generierung neuartiger microRNA-Loci analysiert. [31] Es wurde festgestellt, dass Gene, von denen vorhergesagt wurde, dass sie V-SINEs besitzen, von microRNAs mit signifikant höheren Hybridisierungs-E-Werten (im Vergleich zu anderen Bereichen im Genom) angegriffen wurden. [31] Die Gene mit hohen Hybridisierungs-E-Werten waren Gene, die besonders an Stoffwechsel- und Signalwegen beteiligt sind. [31] Fast allen miRNAs, die eine starke Fähigkeit zur Hybridisierung mit mutmaßlichen V-SINE-Sequenzmotiven in Genen aufweisen, wurde (bei Säugern) eine regulatorische Rolle zugeschrieben. [31] Diese Ergebnisse, die eine Korrelation zwischen kurz eingestreuten Kernelementen und verschiedenen regulatorischen microRNAs herstellen, legen stark nahe, dass V-SINEs eine bedeutende Rolle bei der Abschwächung von Reaktionen auf verschiedene Signale und Stimuli im Zusammenhang mit Metabolismus, Proliferation und Differenzierung spielen. Viele andere Studien müssen durchgeführt werden, um die Gültigkeit und das Ausmaß der Rolle von Retrotransposons mit kurzen Einstreuungen von nuklearen Elementen in regulatorischen Genexpressionsnetzwerken zu bestimmen. Zusammenfassend lässt sich sagen, dass, obwohl nicht viel über die Rolle und den Mechanismus bekannt ist, durch den SINEs miRNA-Genloci erzeugen, allgemein bekannt ist, dass SINEs eine bedeutende evolutionäre Rolle bei der Entstehung von "RNA-Genen" gespielt haben, dies wird auch oben in SINEs . angesprochen und Pseudogene.

Angesichts solcher Beweise, die darauf hindeuten, dass kurz verstreute Kernelemente evolutionäre Quellen für die Generierung von microRNA-Loci waren, ist es wichtig, die möglichen Beziehungen zwischen den beiden sowie den Mechanismus, durch den die microRNA den RNA-Abbau und im weiteren Sinne die Genexpression reguliert, weiter zu diskutieren. Eine microRNA ist eine nicht-kodierende RNA, die im Allgemeinen 22 Nukleotide lang ist. [32] Dieses nicht-proteinkodierende Oligonukleotid wird selbst von einer längeren nuklearen DNA-Sequenz kodiert, die normalerweise von der RNA-Polymerase II transkribiert wird, die auch für die Transkription der meisten mRNAs und snRNAs in Eukaryoten verantwortlich ist. [33] Einige Forschungen deuten jedoch darauf hin, dass einige microRNAs, die stromaufwärts kurz eingestreute Kernelemente aufweisen, von der RNA-Polymerase III transkribiert werden, die weithin an ribosomaler RNA und tRNA beteiligt ist, zwei Transkripten, die für die mRNA-Translation wichtig sind. [34] Dies bietet einen alternativen Mechanismus, durch den kurz eingestreute Kernelemente mit Genregulationsnetzwerken, an denen microRNAs beteiligt sind, wechselwirken oder diese vermitteln.

Die Regionen, die miRNA kodieren, können unabhängige RNA-Gene sein, die oft Antisense zu benachbarten Protein-kodierenden Genen sind, oder können innerhalb der Introns von Protein-kodierenden Genen gefunden werden. [35] Die Co-Lokalisierung von microRNA und proteinkodierenden Genen bietet eine mechanistische Grundlage, durch die microRNA die Genexpression reguliert. Darüber hinaus haben Scarpato et al. zeigt (wie oben diskutiert), dass Gene, von denen durch Sequenzanalyse vorhergesagt wurde, dass sie kurz eingestreute nukleare Elemente (SINEs) besitzen, durch microRNAs, die signifikant stärker als andere Gene sind, gezielt und hybridisiert wurden. [31] Dies bietet einen evolutionären Weg, auf dem die parasitären SINEs kooptiert und verwendet wurden, um RNA-Gene (wie microRNAs) zu bilden, die sich entwickelt haben, um eine Rolle in komplexen Genregulationsnetzwerken zu spielen.

Die microRNAs werden als Teil längerer RNA-Stränge von in der Regel etwa 80 Nukleotiden transkribiert, die durch komplementäre Basenpaarung Haarnadelschleifen-Strukturen bilden können [36] Diese Strukturen werden im Kern vom Kernprotein DiGeorge Syndrome Critical Region 8 ( DGCR8), das das Drosha-Protein rekrutiert und mit ihm assoziiert. [37] Dieser Komplex ist für die Abspaltung einiger Haarnadelstrukturen von der Prä-microRNA verantwortlich, die ins Zytoplasma transportiert wird. Die prä-miRNA wird vom Protein DICER zu einem doppelsträngigen 22 Nukleotid verarbeitet. [38] Danach wird einer der Stränge in einen Multi-Protein-RNA-induzierten Silencing-Komplex (RISC) eingebaut. [39] Zu diesen Proteinen gehören Proteine ​​der Argonaute-Familie, die für die Fähigkeit des Komplexes entscheidend sind, mit der Ziel-mRNA zu interagieren und deren Translation zu unterdrücken. [40]

Das Verständnis der verschiedenen Arten, in denen microRNA die Genexpression reguliert, einschließlich der mRNA-Translation und -Degradation, ist der Schlüssel zum Verständnis der potenziellen evolutionären Rolle von SINEs bei der Genregulation und bei der Erzeugung von microRNA-Loci. Dies ist neben der direkten Rolle von SINEs in regulatorischen Netzwerken (wie in SINEs als lange nicht-kodierende RNAs diskutiert) entscheidend, um die Beziehung zwischen SINEs und bestimmten Krankheiten zu verstehen. Mehrere Studien haben gezeigt, dass eine erhöhte SINE-Aktivität mit bestimmten Genexpressionsprofilen und der Posttranskriptionsregulierung bestimmter Gene korreliert. [41] [42] [43] Tatsächlich haben Peterson et al. 2013 zeigte, dass eine hohe SINE-RNA-Expression mit einer posttranskriptionellen Herunterregulierung von BRCA1 korreliert, einem Tumorsuppressor, der an mehreren Krebsarten, nämlich Brustkrebs, beteiligt ist. [43] Darüber hinaus haben Studien eine starke Korrelation zwischen der transkriptionellen Mobilisierung von SINEs und bestimmten Krebsarten und Zuständen wie Hypoxie festgestellt. Dies kann auf die genomische Instabilität, die durch die SINE-Aktivität verursacht wird, sowie auf direktere Downstream-Effekte zurückzuführen sein. [42] SINEs wurden auch mit unzähligen anderen Krankheiten in Verbindung gebracht. Im Wesentlichen sind kurz eingestreute Kernelemente tief in unzählige Regulations-, Stoffwechsel- und Signalwege integriert und spielen somit eine unvermeidliche Rolle bei der Entstehung von Krankheiten. Über diese genomischen Parasiten ist noch viel zu wissen, aber es ist klar, dass sie in eukaryontischen Organismen eine bedeutende Rolle spielen.

Die Aktivität von SINEs weist jedoch genetische Überreste auf, die weder positiv noch negativ eine wesentliche Rolle zu spielen scheinen und sich im Genom als Pseudogene manifestieren. SINEs sollten jedoch nicht als RNA-Pseudogene verwechselt werden. [1] In general, pseudogenes are generated when processed mRNAs of protein-coding genes are reverse-transcribed and incorporated back into the genome (RNA pseudogenes are reverse transcribed RNA genes). [44] Pseudogenes are generally functionless as they descend from processed RNAs independent of their evolutionary-context which includes introns and different regulatory elements which enable transcription and processing. These pseudogenes, though non-functional may in some cases still possess promoters, CpG islands, and other features which enable transcription they thus can still be transcribed and may possess a role in the regulation of gene expression (like SINEs and other non-coding elements). [44] Pseudogenes thus differ from SINEs in that they are derived from transcribed- functional RNA whereas SINEs are DNA elements which retrotranspose by co-opting RNA genes transcriptional machinery. However, there are studies which suggest that retro-transposable elements such as short-interspersed nuclear elements are not only capable of copying themselves in alternate regions in the genome but are also able to do so for random genes too. [45] [46] Thus SINEs can be playing a vital role in the generation of pseudogenes, which themselves are known to be involved in regulatory networks. This is perhaps another means by which SINEs have been able to influence and contribute to gene-regulation.


Ergebnisse

Assembly produced 632,401 contigs (min = 224 bp, max = 17,453 bp) with a mean length of 396.6 bp (±0.27 bp 95% CI) for a total of 250,802,355 bp. Fully 9,194 contigs were over one Kb in length. After identifying UCE loci and removing potential paralogs, we recovered 4,018 UCE loci. After filtering UCE loci for quality, calling SNPs, phasing (reconstructing haplotypes), and applying additional quality filters, we identified 2,635 loci that contained data for all individuals and were variable. This complete matrix of variable loci included a total of 9,449 SNPs (averaging 3.6 sites per locus). Per-site sequencing depth for these SNPs averaged 26.3 reads (±16.9 SD). An additional 587 loci exhibited variation but the data were not of sufficient quality (i.e., GQ < 10) among all individuals to confidently call both alleles. There were 796 high-quality invariant loci (loci with invariant data, rather than an absence of data), providing a full dataset of 3,431 loci with mean length of 1153.6 bp (±4.95 bp 95% CI). The shortest locus was 228 bp, the longest 2,543 bp, and 2,482 loci were longer than one Kb (Fig. S2). The total length of these loci was 3,957,876 bp. The distribution of SNP variation among loci confidently called for all individuals is given in Fig. 2. Nucleotide diversity (π) was 0.000519 overall, 0.000523 for snow buntings, and 0.000493 for McKay’s buntings.

Figure 2: Distribution of single nucleotide polymorphisms (SNPs) per locus.

No alleles showed fixed differences (FNS = 1.0) between the two populations, and few alleles showed strong segregation. No variable sites had an FNS value above 0.9, and there were only three each at 0.86 and 0.72 (Fig. S3 two of these sites were on the same locus). One of the five loci with the highest FNS values was Z-linked all of the others were on different chromosomes (figshare https://doi.org/10.6084/m9.figshare.6453125.v1). There were 128 Z-linked loci among the 2,635 variable loci. As noted, only one showed high FNS between the two species. The two populations had an overall FNS = 0.034, which was significant (P = 0.03). The average distance between taxa (Dxy) was 5.3 × 10 −4 , and the net average distance (DEIN) was 2.0 × 10 −5 . DAPC in adegenet assigned all individuals to their correct taxon of origin (retaining the first four PCs), with 100% probabilities for each, indicating a high level of genomic diagnosability (Fig. S4).

Fully 2,510 loci were in Hardy–Weinberg equilibrium 124 were not (one was triallelic). McKay’s buntings had fewer unique alleles (4,238) than snow buntings (4,389), concordant with the smaller population size of McKay’s buntings. Bartlett’s test rejected homogeneity of variance between observed heterozygosity (hÖ = 0.18, 0.19) and expected heterozygosity (he = 0.20, 0.22), but hÖ did not differ from he (T = −3.1653, dF = 2,633, P = 1.0).

The four-gametes test suggested that recombination occurred in hundreds of loci. For 405 loci, locus lengths were shortened by IMgc to meet the four-gametes test, and for 252 loci one or more individuals were removed to meet the same criteria (a few of these loci had both done IMgc automatically performs one or the other or both operations to obtain non-recombinant sequence data). There were thus 15.4–24.9% of variable loci exhibiting patterns indicative of recombination. As noted in the Methods, these sequence data, together with all other unchanged sequences, were not used further we used only SNP data for further analyses.

In testing our six, two-population models with δaδi, the highest maximum log composite likelihood values were obtained for the split-with-migration model (−112.76), which made it the best-fitting model for these data (model 2 in Fig. 1). We obtained successively lower likelihood values for the neutral (−588.45), isolation with bidirectional migration and population growth (−803.30), and isolation with population growth and no migration (−2026.93) models. The final model tested, split-bidirectional-migration, had an intermediate likelihood of −286.49. The split-with-no-migration model was unstable under all conditions tried, and we could not get it to run to convergence. We provide jackknifed estimates and CIs for the best-fitting, split-with-migration model in Table 1.

Model parameters Parameter (+95% CI) Estimates (+95% CI) Lower–upper bounds Biological units
nu1 (pop size McKay’s) 3.52 (±0.54) 109,330 (±16,790) 92,540–126,120 Individuals McKay’s
nu2 (pop size snow) 5.95 (±1.79) 184,991 (±55,523) 129,467–240,514 Individuals snow
T (split time) 1.44 (±0.37) 241,491 (±62,429) 179,061–303,920 Jahre
m1 (migration) 1.65 (±0.39) 2.90 (±0.10) 2.8–3.0 Individuals using nu1
m2 (migration) 1.65 (±0.39) 4.90 (±0.35) 4.6–5.2 Individuals using nu2
theta 249.97 (±32.71) a 31,072 (±4,066) a 27,006–35,138 Ancestral population individuals

Diskussion

We have developed a powerful new genomic tool for estimating phylogenetic relationships among members of the hyperdiverse insect order Hymenoptera. By extending and improving prior work (Faircloth et al. 2012 ), we identified over 1500 highly conserved genomic regions between distantly related Hymenoptera taxa, collected these loci from 14 genome-enabled and 30 non-genome-enabled taxa using in silico und in vitro techniques and used the resulting genome-scale sequence data to accurately infer both deep (C. 220–300 Ma) and relatively shallow (≤1 Ma) relationships. Although other phylogenomic approaches have been employed among arthropods (Johnson et al. 2013 ), this is the first time that sequence capture of conserved regions has been used to collect genome-scale DNA data from this group.

Compared to recent phylogenetic studies investigating higher-level relationships within Hymenoptera (Sharkey 2007 Heraty et al. 2011 Klopfstein et al. 2013 ), the UCE data recovered all well-established relationships with complete support. In addition, the UCE data suggest a novel relationship within the Aculeata, in which the ants are sister to all remaining aculeate lineages included here. The aculeates contain all major lineages of social insects (except termites) including ants, vespid wasps and several lineages of social bees. Aculeata also includes the most important group of pollinators (bees). Hence, understanding relationships among the aculeates is critical to provide the comparative framework needed to study the origins and evolution of sociality and pollination biology in this group (Danforth 2013 ). Until recently, phylogenetic studies of aculeates have been based on a relatively small number of characters and have produced conflicting results (Brothers 1999 Pilgrim et al. 2008 Peters et al. 2011 Debevec et al. 2012 ). A recent transcriptome-based study (Johnson et al. 2013 ) sequenced key lineages within Aculeata and produced a fully resolved phylogeny of aculeate lineages, recovering a novel relationship in which ants are sister to the Apoidea (spheciform bees+wasps). Our UCE data set did not recover this relationship. Instead, we found ants to be sister to all remaining aculeate lineages with complete support, but there were several nodes within each clade receiving moderate (≥58%) support. Our study also differed from Johnson et al. ( 2013 ) in the placement of vespid wasps as sister to the tiphioid-pompiloid wasps (Chyphotidae+Pompilidae+Sapygidae) and the scoliid wasps as sister to the spheciform wasps+bees (Apoidea). Previous work by Debevec et al. ( 2012 ) also recovered this placement of scoliid wasps as sister to the spheciform wasps+bees.

Given the importance of resolving relationships among aculeate lineages, we tested the effects of removing sawfly lineages on the topology and support inferred across the UCE tree presented in Fig. 1. Following inference from this updated data set with R Ax ML, the resulting phylogeny (Fig. S6, Supporting information) had the same topology as the tree including sawflies, except that in Fig. 1, two nonaculeate taxa, Evaniella und Orthognalys form a clade with maximum support, while in Fig. S6 (Supporting information), these taxa form a grade, also with maximum support. Support values for internal nodes were marginally higher in the tree excluding sawflies. The stability of the recovered relationships within Aculeata between these two trees and across different assembly methods suggests that neither the count of loci, nor the total amount of data, nor the assembly approach are driving the differences we observed between our results and those of Johnson et al. ( 2013 ).

Rather, taxon sampling (e.g. our study does not include any chrysidoid wasps) or other differences among each data set including size, analytical approach, nucleotide composition, locus type, the number of independent loci sampled and matrix completeness could explain the differences in topology we observed. For example, Johnson et al. ( 2013 ) collected and analysed both larger and smaller amounts of data (175 404–3 001 657 sites) of a different type (amino acid residues) from fewer taxa (n = 19) that included variable counts of loci (308–5214 genes) spanning a range of matrix completeness (50–100%), and they inferred their phylogeny using concatenated maximum likelihood, concatenated Bayesian and summary-statistic gene tree species tree approaches. In contrast, we collected and analysed a less variable amount of data (102 418–469 081 sites), from a larger number of taxa (n = 41–43) that included variable counts of loci (196 – 638 loci) spanning a small range of matrix completeness (70–75%). We inferred the phylogeny using a concatenated maximum-likelihood approach. The types of differences between these two studies and their effects on phylogenetic reconstruction are the sorts of questions that deserve the bulk of current and future analytical effort in phylogenomics.

A major advantage of the UCE approach we describe over transcriptome-based methods is that it does not require specially preserved tissues. Here, we successfully extracted and enriched DNA from insect specimens that ranged from 12 years old to weeks old using a variety of collection methods, including several that were suboptimal for DNA preservation (ethanol preserved or dry pinned) and resulted in the extraction of little DNA (Table S1, Supporting information). Furthermore, we successfully generated and enriched UCE loci from genomic libraries constructed using as little as 70 ng of DNA. This finding is significant because many arthropod taxa are small, yielding very low amounts of DNA, and our results suggest we can successfully prepare and enrich libraries from low DNA inputs. New library preparation approaches, including the Hyper Prep Kit (Kapa Biosystems) and the NEBNext Ultra Kit (New England Biolabs), should make it possible to use even less DNA in the future without resorting to expensive modifications of protocol. The ability to use small, moderately old and sometimes low-quality specimens with the UCE approach we describe means that much of the available materials in museums and other collections can be used as a DNA source for phylogenomic studies – making it possible to sequence very rare and, often, very important taxa.


Note Added in Proof

In a response to previous critiques which appeared as this Perspective was in final revision, ENCODE investigators admit to some difficulties around defining function ( Kellis et al. 2014). Remarkably, however, these authors focus on reconciling "the strengths and limitations of biochemical, evolutionary, and genetic approaches for defining functional DNA segments" but avoid dealing with the central conceptual issue, which is the problematic nature of "function" itself. A simple folk-philosophical dismissal of this issue leaves the confusion over "junk DNA" unresolved.


Zusammenfassung des Autors

Gene expression is regulated at different levels and by different mechanisms in Eukaryotes. At the DNA level, transcription factors (TFs) are supposed to play a key role by binding short motifs in promoters or enhancers. In Plasmodium falciparum, the causative agent of severe malaria in humans, different levels of gene regulation are also present, but very few TFs have been identified and validated so far. We propose here a computational method for the identification of a new type of regulatory elements called long regulatory elements (LRE). Contrary to TF motifs, that are usually 6-12bp long, LREs may span dozens or hundreds of base pairs. Moreover, no computational method have been specifically dedicated to their identification until now. We show with our method that, depending on species and conditions, LREs may play important role in gene regulation. Zum P. falciparum, these elements appear to determine a very large part of gene expression variation in all stages of the parasite life cycle.

Citation: Menichelli C, Guitard V, Martins RM, Lèbre S, Lopez-Rubio J-J, Lecellier C-H, et al. (2021) Identification of long regulatory elements in the genome of Plasmodium falciparum and other eukaryotes. PLoS Comput Biol 17(4): e1008909. https://doi.org/10.1371/journal.pcbi.1008909

Editor: Ilya Ioshikhes, University of Ottawa, CANADA

Received: 7. September 2020 Accepted: March 24, 2021 Veröffentlicht: 16. April 2021

Copyright: © 2021 Menichelli et al. Dies ist ein Open-Access-Artikel, der unter den Bedingungen der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium gestattet, sofern der ursprüngliche Autor und die Quelle angegeben werden.

Data Availability: The source code (python) of DExTER is available at address https://gite.lirmm.fr/menichelli/DExTER. This git repository also provides the R scripts for reproducing the main experiments described in the paper.

Funding: The work was supported by funding from CNRS (International Associated Laboratory "miREGEN", C-H.L. & L.B.), INSERM-ITMO Cancer (BIO2015-04 "LIONS", C-H.L. & S.L. & L.B.), Plan d’Investissement d’Avenir (#ANR-11-BINF-0002 "Institut de Biologie Computationnelle", C-H.L. & S.L. & L.B. and #ANR-11-LABX-0024-01 "ParaFrap", J-J.L-R. & V.G.), Labex NUMEV (GEM Flagship project, C-H.L. & S.L. & L.B.), CNRS/INSERM funding Défi Santé numérique (project REGAI, C-H.L.), the Fondation pour la Recherche Médicale (DEQ2018033199, J-J.L-R. & R.M.M.), and the program ATIP-Avenir (J-J. L-R.) The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript.

Competing interests: The authors have declared that no competing interests exist.


Einführung

Comparative genomics has substantially contributed to detecting and classifying functional regions in genomes and understanding genome evolution [ 1, 2]. A foundation for most comparative genomics analyses are alignments between entire genomes. Several computational methods rely on genome alignments for annotating coding and non-coding genes, and genome alignments have been used to detect novel coding exons, revise exon-intron boundaries, and correct the positions of annotated start or stop codons [ 3–9]. Many gene or exon finders utilize genome alignments to increase the reliability of their predictions [ 10–14]. In addition, genome alignments provide an effective way to project genes from a reference species annotation to aligned (query) species [ 15–17]. Genome alignments have also been used to identify regions that evolve under purifying selection and thus likely have a biological function [ 18, 19]. Approximately 3–15% of the human genome is estimated to be evolutionarily constrained [ 20], and most of the constraint detected in genome alignments is located in conserved non-exonic elements that often overlap cis-regulatory elements such as enhancers [ 21, 22]. Furthermore, genome alignments have been instrumental for understanding the evolution of genomes, which uncovered genomic determinants of trait differences [ 23–30] and provided insights into evolutionary history and species’ biology [ 31–34].

A key factor affecting the power of comparative analyses is the number of species included in the genome alignment. Because higher taxonomic coverage increases the power to detect evolutionary constraint [ 35] and yields more robust results in phylogenetic and evolutionary studies [ 36, 37], it is desirable to include many sequenced genomes to capture the diversity of species in a respective clade. While the availability of sequenced genomes was a limiting factor in the past, advances in sequencing and assembly technology have led to a wealth of sequenced genomes, illustrated by the availability of >100 mammalian genomes.

To provide a comparative genomics resource that reflects the increased availability of sequenced mammals and is easily accessible to genomics experts and non-experts, we generated a multiple genome alignment of 120 mammals. We used the human gene annotation and Coding Exon-Structure Aware Realigner (CESAR) to provide comparative gene annotations for all 119 non-human mammals. Furthermore, we demonstrate the utility of the high species coverage in our alignment by (i) quantifying how variable ultraconserved elements are among placental mammals and (ii) identifying cis-regulatory elements (enhancers) that arose in the placental mammal lineage and showing that these enhancers are significantly associated with placenta-related genes. To facilitate comparative analyses using our resources, we provide the multiple genome alignment, a phylogenetic tree, conserved regions including GERP++ and PhastCons conservation scores, and the comparative gene annotations in a UCSC genome browser installation [ 38].


An Ultraconserved Brain-Specific Enhancer Within ADGRL3 (LPHN3) Underpins Attention-Deficit/Hyperactivity Disorder Susceptibility

Hintergrund: Genetic factors predispose individuals to attention-deficit/hyperactivity disorder (ADHD). Previous studies have reported linkage and association to ADHD of gene variants within ADGRL3. In this study, we functionally analyzed noncoding variants in this gene as likely pathological contributors.

Methoden: In silico, in vitro, and in vivo approaches were used to identify and characterize evolutionary conserved elements within the ADGRL3 linkage region (

207 Kb). Family-based genetic analyses of 838 individuals (372 affected and 466 unaffected patients) identified ADHD-associated single nucleotide polymorphisms harbored in some of these conserved elements. Luciferase assays and zebrafish green fluorescent protein transgenesis tested conserved elements for transcriptional enhancer activity. Electromobility shift assays were used to verify transcription factor-binding disruption by ADHD risk alleles.

Ergebnisse: An ultraconserved element was discovered (evolutionary conserved region 47) that functions as a transcriptional enhancer. A three-variant ADHD risk haplotype in evolutionary conserved region 47, formed by rs17226398, rs56038622, and rs2271338, reduced enhancer activity by 40% in neuroblastoma and astrocytoma cells (pBonferroni < .0001). This enhancer also drove green fluorescent protein expression in the zebrafish brain in a tissue-specific manner, sharing aspects of endogenous ADGRL3 expression. The rs2271338 risk allele disrupts binding of YY1 transcription factor, an important factor in the development and function of the central nervous system. Expression quantitative trait loci analysis of postmortem human brain tissues revealed an association between rs2271338 and reduced ADGRL3 expression in the thalamus.

Schlussfolgerungen: These results uncover the first functional evidence of common noncoding variants with potential implications for the pathology of ADHD.

Schlüsselwörter: ADGRL3 ADHD Cis-acting regulatory element Enhancer Evolutionary conserved regions Genetics LPHN3 Latrophilin Zebrafish.


Schau das Video: Создание таблицы в Excel простыми словами. Урок excel для начинающих (August 2022).