Information

Welche Sequenzen liegen zwischen benachbarten Genen?

Welche Sequenzen liegen zwischen benachbarten Genen?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Das menschliche Genom hat viele nicht-kodierende Regionen, die regulatorische Elemente, repetitive DNA und Introns umfassen. Angenommen, es gibt zwei benachbarte Gene auf einem Chromosom, und ihre Positionen auf dem Chromosom sind, sagen wir,

Für das erste Gen: 11.785.723 bis 11.803.245 bp.

Für das zweite Gen: 11.806.096 bis 11.806.143 bp. Diese Werte enthalten auch deren regulatorische Elemente, Promotor und Introns.

Welche Sequenz liegt also zwischen den Basen 11.803.245 und 11.806.096 vor? Sind das Satellitensequenzen? Handelt es sich bei dieser nicht-kodierenden, nicht-regulatorischen Region um 11.803.245 bis 11.806.096 bp Heterochromatin?


Nein. Die intergenischen Regionen sind nicht unbedingt Heterochromatin. Chromatin-Konformationen haben normalerweise eine sehr lange Reichweite und sind normalerweise nicht auf ein einzelnes Gen beschränkt. Die Ausbreitung des Chromatinzustands kann durch Isolatoren/Grenzelemente verhindert werden, die wiederum nicht Teil der transkribierten Region sind. Die intergenischen Regionen können auch distale regulatorische Elemente wie Enhancer und Silencer beherbergen; sie können auch Mikrosatelliten, Transposons usw. haben. Um zu wissen, was alles in einer bestimmten Region vorhanden ist, können Sie sich die verschiedenen Spuren im UCSC-Genombrowser ansehen.

Kurz gesagt kann sich zwischen den transkribierten Regionen funktionelle und/oder nicht-funktionelle DNA befinden.

Wiederholungsbereiche müssen nicht heterochromatinisiert sein und umgekehrt bestehen nicht alle heterochromatischen Bereiche aus Wiederholungen.


Einfügesequenzen

Entdeckung

Insertionssequenzen (ISs) sind kleine DNA-Stücke, die sich mit ihren eigenen spezialisierten Rekombinationssystemen innerhalb oder zwischen Genomen bewegen. Sie wurden Mitte der 1960er Jahre bei Studien zur Genexpression in entdeckt Escherichia coli und seine Bakteriophagen. Ursprünglich erkannt durch ihre Fähigkeit, hochpolare, aber instabile Mutationen im gal und lac Operons und in den frühen Genen des Bakteriophagen Lambda wurden sie später elektronenmikroskopisch als kurze DNA-Insertionen identifiziert. Die wiederholte Isolierung einer begrenzten Anzahl identischer DNA-Sequenzen, die mit diesen instabilen Mutationen verbunden sind, führte dazu, dass sie als „Insertionssequenzen“ bezeichnet wurden.

Die Ähnlichkeit von ISs und den mobilen genetischen Elementen, die Barbara McClintock in Zea mays in den 1940er Jahren wurde deutlich, als erkannt wurde, dass der IS integraler Bestandteil der E coli Genom und dass ihre mutagene Aktivität das Ergebnis ihrer Bewegung an neue genetische Orte war. Ungefähr zu dieser Zeit wurden auch übertragbare Antibiotikaresistenzen beobachtet. Genetische Studien dieses Phänomens implizierten einen analogen Mechanismus der Genmobilität bei der Verteilung dieser arzneimittelresistenten Gene unter den an dieser Übertragung beteiligten konjugalen Plasmiden und Phagen. In der Folge wurde gezeigt, dass ISs in vielen Fällen eine Schlüsselrolle bei der Mobilisierung dieser Gene spielen.


DNA besteht aus zwei Strängen. An einem Ende jedes Strangs befindet sich eine Phosphatgruppe am Kohlenstoffatom Nummer 5 der Desoxyribose (dies zeigt das 5'-Ende an) und am anderen Ende jedes Strangs befindet sich eine Hydroxylgruppe an dem Kohlenstoffatom Nummer 3 der Desoxyribose (dies zeigt das 3'-Ende an). Die Stränge verlaufen in entgegengesetzte Richtungen und daher sagen wir, dass sie antiparallel sind. Ein Strang verläuft in 5'-3'-Richtung und der andere in 3'-5'-Richtung. Benachbarte Nukleotide sind über eine Bindung zwischen der Phosphatgruppe eines Nukleotids und dem Kohlenstoffatom Nummer 3 der Desoxyribose des anderen Nukleotids miteinander verbunden.

Die Basen jedes Strangs sind über Wasserstoffbrücken miteinander verbunden. Adenin und Guanin sind Purine, da sie zwei Ringe in ihrer Molekülstruktur haben. Thymin und Cytosin sind Pyrimidine, da sie nur einen Ring in ihrer Molekülstruktur haben. Ein Purin verbindet sich mit einem Pyrimidin. Adenin und Thymin verbinden sich, indem sie zwei Wasserstoffbrücken bilden, während Guanin und Cytosin miteinander verbunden sind, indem sie 3 Wasserstoffbrücken bilden.


Resultate und Diskussionen

Genommontage und Annotation

Wir haben eine Person sequenziert Anser cygnoides Genom mit einem Illumina HiSeq-2000-Instrument, das ungefähr 139,55 Gb mit Bibliotheken mit kleiner Insert-Größe (200 bp, 500 bp oder 800 bp durchschnittliche Leselänge: 100 bp) und Bibliotheken mit großer Insert-Größe (2 kb, 5 kb .) erhält , 10 kb oder 20 kb durchschnittliche Leselänge: 49 bp Zusätzliche Datei 1: Tabelle S1). Sequenzdaten wurden unter Verwendung der SOAPdenovo-Software zu einem 1,12-Gb-Entwurfsgenom zusammengesetzt (Tabelle 1). Unsere Zusammenstellung deckte >98% der transkriptom-assemblierten Unigene ab (zusätzliche Datei 1: Tabelle S2), was darauf hinweist, dass die Genomsequenz von hoher Qualität war. Der durchschnittliche GC-Gehalt des Gänsegenoms beträgt ungefähr 38%, ähnlich dem anderer Vögel wie Huhn, Ente, Pute und Zebrafink (Zusatzdatei 2: Abbildung S1). Durch die Kombination von homologiebasierten, von Anfang an Vorhersage- und Transkriptom-gestützten Methoden haben wir 16.150 Gene vorhergesagt (Zusatzdatei 1: Tabelle S3), von denen 75,7% durch homologiebasierte Evidenz gestützt werden (Zusatzdatei 1: Tabelle S4) und 77,7% durch Transkriptom-Reads abgedeckt werden (Tabelle 1). Wir fanden, dass 77,7% der identifizierten Gene durch öffentliche Proteindatenbanken gut unterstützt wurden (Zusatzdatei 1: Tabelle S5). Der Wiederholungsgehalt des Gänsegenoms ist ähnlich dem von Huhn, Ente, Pute und Zebrafink (Zusatzdatei 1: Tabelle S6). Wir sagten auch 153 microRNAs (miRNAs), 69 rRNAs, 226 tRNAs und 206 kleine nukleäre RNAs (snRNAs) im Gänsegenom voraus (Zusätzliche Datei 1: Tabelle S7).

Vergleichende Genomanalyse

Wir verglichen Genomsyntenie und orthologe Beziehungen zwischen Vogelgenomen. Das Gänsegenom weist eine hohe Syntenie mit dem Entengenom auf [8], das ungefähr 81,09 % bzw. 82,35% jedes Genoms abdeckt (Zusatzdatei 1: Tabelle S8 und Zusatzdatei 2: Abbildung S2), während ca. 592 Gänsegerüste mit Längen >5 kb zugeordnet und besetzt 67,67% des Hühnergenoms [9] (Zusatzdatei 1: Tabelle S8 und Zusatzdatei 2: Abbildung S3). Darüber hinaus fanden wir, dass chromosomale Umlagerungen zwischen dem Gänse- und Hühnergenom auftreten (Zusatzdatei 1: Tabellen S9 und S10 und Zusatzdatei 2: Abbildung S4). Gerüst 45 ist zum Beispiel ein Sequenzfragment des Gänsegenoms, aber es war in Synteny mit den Chromosomen 4 und 5 des Hühnergenoms. Beim Vergleich von Orthologen entsprachen 70 % der Gänse-Gene 1:1-Orthologen im Hühner-Gen-Set (Zusatzdatei 2: Abbildung S5). Von den 1:1-Orthologen für Gans vs. Ente (8.322 Orthologe) teilen jedoch 26,62 % bis zu 90 % Identität (Zusatzdatei 2: Abbildung S5). Für Huhn vs. Truthahn teilen 48,33 % der 1:1-Orthologe (9.378 Orthologe) bis zu 90 % Identität (zusätzliche Datei 2: Abbildung S5). Bei Wanderfalken vs. Saker teilen 57,87 % der 1:1 Orthologe (10.569 Orthologe) bis zu 90 % Identität (Zusätzliche Datei 2: Abbildung S5).

Ein phylogenetischer Baum von acht Vogelarten (Gans, Ente, Huhn, Truthahn, Zebrafink, Taube, Wanderfalke und Saker) wurde unter Verwendung von vierfach degenerierten Stellen aus 5.081 Einzelkopie-Orthologen erstellt. Die Analyse des resultierenden Baumes ergab, dass Gänse und Enten zu einer Untergruppe gehören, die höchstwahrscheinlich vor etwa 20,8 Millionen Jahren (Mya) von einem gemeinsamen Vorfahren abstammte, während Huhn und Truthahn 20,0 Mya divergierten und der Wanderfalke und Saker 1,3 Mya divergierten ( Abbildung 1 und Zusatzdatei 2: Abbildung S6). Von den neun Arten haben gansspezifische Genfamilien (anderen Arten fehlen diese Familien) erweiterte Funktionen der Genontologie (GO), wie Zinkionenbindung, Integraseaktivität und DNA-Integration. Darüber hinaus weisen die GO-Kategorien olfaktorische Rezeptoraktivität, metabolische DNA-Prozessierung, G-Protein-gekoppelte Rezeptoraktivität und Transmembranrezeptoraktivität die signifikanteste Genfamilien-Erweiterung im Vergleich zu anderen Vögeln auf (Zusatzdatei 1: Tabelle S11), was darauf hindeutet, dass diese Funktionen wurden während der Gänsevolution verbessert.

Divergenzzeiten für die neun in dieser Studie untersuchten Arten. Ein phylogenetischer Baum basierend auf 4-fach degenerierten Stellen in orthologen Genen in Einzelkopie wird gezeigt. Die Schätzungen der Divergenzzeit wurden mit fossilen Daten für Eidechsen-Vögel und Hühner-Zebrafinken kalibriert. Die geschätzten Divergenzzeiten und die zugehörigen 95 %-KIs werden angezeigt.

Schnell und langsam entwickelte GO-Begriffe

Um die GO-Kategorien zu identifizieren, die sich bei Wasservögeln schnell oder langsam entwickelt haben, haben wir zwei Wasservögel (Gans und Ente) mit Landvögeln (Huhn und Truthahn) verglichen. Wir suchten nach funktionell verwandten Genen mit außergewöhnlich hohen oder niedrigen Selektionsbeschränkungen bei Gans und Ente. Für Kategorien mit mindestens 10 Genen wurde der ω-Wert (ω = Ka/Ks, wobei Ka = Anzahl nicht-synonymer Substitutionen pro nicht-synonymer Stelle und Ks = Anzahl synonymer Substitutionen pro synonymer Stelle) für diese Kategorien berechnet und normalisiert unter Verwendung des Medians ω jedes Artenpaares. Wir identifizierten 191 GO-Kategorien mit erhöhten Ka/Ks-Verhältnissen an der angegebenen Schwelle zwischen Wasservögeln und Landvögeln (Zusatzdatei 1: Tabelle S12). Neunzehn dieser GO-Kategorien, einschließlich GTPase-Aktivität, Galactosyltransferase-Aktivität, Chloridtransport und GABA-A-Rezeptor-Aktivität, können eine signifikant schnelle Entwicklung durchgemacht haben (Zusatzdatei 1: Tabelle S12).

Positivauswahl

Ortholog-Identifizierung wurde für Gans-, Enten-, Zebrafinken-, Hühner-, Puten- und Tauben-Genomsequenzen unter Verwendung der Methode für die beschleunigte GO-Kategorieanalyse durchgeführt. Alignments von 7.861 orthologen Genen wurden verwendet, um das Verhältnis der Raten nicht-synonymer und synonymer Substitutionen pro Gen (ω) unter Verwendung des Codeml-Programms unter einem Branch-Site-Modell und F3x4-Codon-Frequenzen abzuschätzen. Anschließend führten wir einen Likelihood-Ratio-Test durch und identifizierten 21 positiv selektierte Gene (PSGs) in Wasservogelzweigen mittels FDR-Anpassung mit Q-Werten <0,05 (Zusatzdatei 1: Tabelle S13). Mehrere der PSGs, einschließlich eIF-3S1, GATA1 und eIF-3A, sind an der Transkriptions- oder Translationsregulation beteiligt. Kinase (PIK3R, FGFR2) und Signalmoleküle (KAI1) wurden ebenfalls positiv selektiert, was darauf hindeutet, dass sie an der Anpassung an eine aquatische Umgebung beteiligt sein könnten (Zusatzdatei 1: Tabelle S13).

Die Widerstandsfähigkeit von Wasservögeln gegen Krankheiten

Das Gen des Haupthistokompatibilitätskomplexes (MHC) wird häufig in Wirbeltieren mit Kiefer exprimiert, und seine Funktion korreliert mit der Resistenz gegen Wirtskrankheiten und Immunantworten [10-12]. Transponierbare Elemente in der Hühner-MHC-Region sind häufiger als in der Gans-MHC-Region (54,62 % bei Hühnern vs. 15,11 % bei Gans. Zusätzliche Datei 1: Tabelle S14). Darüber hinaus ist die Verteilung der Gänse- und Hühner-MHC-Region unterschiedlich (Zusatzdatei 1: Tabelle S15 und Zusatzdatei 2: Abbildung S7). Darüber hinaus fanden wir, dass das Genom von Gänsen im Vergleich zu Hühner-, Puten-, Zebrafinken-, Menschen- und Rattengenomen erhebliche Variationen der Kopienzahl von Genen im Zusammenhang mit der angeborenen Immunantwort sowie Genstrukturen aufweist (Zusätzliche Datei 1: Tabelle S16). RNA-Viren, die Toll-like-Rezeptoren entkommen und das Zytoplasma infiltrieren, werden vom Retinsäure-induzierbaren Gen I (RIG-I) erkannt, einem Mustererkennungsrezeptor, der eine wichtige antivirale Rolle spielt [13-16]. Ergebnisse neuerer Studien haben gezeigt, dass RIG-I in den meisten Säugetieren und einigen Vögeln vorhanden ist [17-19]. Wir fanden heraus, dass die RIG-I-Gene zwischen Gans und Zebrafinken gut ausgerichtet sind (Zusatzdatei 1: Tabellen S17 und S18), aber nur Fragmente des Gänse-RIG-I ausgerichtet mit den Hühner- und Puten-RIG-I-Genen (Zusatzdatei 1: Tabelle .) S19). Auf der Grundlage dieser Daten erstellten wir einen phylogenetischen Baum (Zusatzdatei 2: Abbildungen S8 und S9) und stellten fest, dass das RIG-I-Gen bei Hühnern und Puten fehlt. Im Vergleich zu Puten und Hühnern weisen einige Säugetier- und Wasservogelarten eine erhöhte Resistenz gegen das Influenzavirus auf [20,21]. Dieses Phänomen kann daran liegen, dass die meisten Säugetiere zwei Myxovirus-Resistenz (Mx)-Gene haben, während Vögel nur eines haben. Das Mx-Gen gehört zur Familie der Guanin-3-Phosphokinase-Gene und seine Expression wird durch Interferone induziert [21]. Es wurde gezeigt, dass viele Mx-Proteine ​​eine Influenzavirus-Resistenz auf zellulärer Ebene bewirken [22]. Darüber hinaus verleihen die verschiedenen Mx-Proteine ​​Resistenz gegen verschiedene Krankheiten, und einzelne Basenmutationen können die Fähigkeit des Proteins beeinflussen, Resistenz zu verleihen [21,22]. Darüber hinaus zeigt der phylogenetische Baum, dass Mutationen an Schlüsselstellen in den Mx-Genen von Huhn und Pute das Mx-Protein inaktivieren können, was die antivirale Aktivität beeinflusst und zu einer verminderten Virusresistenz führt (Zusatzdatei 2: Abbildungen S10 und S11).

Die Anfälligkeit von Gänsen für Fettleber

Die Leber ist ein lebenswichtiges Organ, das eine wichtige Rolle für den Fettstoffwechsel, die Verdauung, die Aufnahme, die Synthese, den Abbau und den Transport spielt. Unter natürlichen Bedingungen zeigen Vögel, insbesondere einige wildlebende Wasservögel, eher eine nicht pathologische Lebersteatose als Folge der Energiespeicherung vor dem Zug [23]. Um den genetischen Mechanismus zu identifizieren, der dem Auftreten einer Fettleber zugrunde liegt, haben sich viele frühere Studien auf die Bildung von Gänsefettleber konzentriert [5-7,24,25]. Bis heute müssen jedoch die adaptiven molekularen Mechanismen, die eine höhere Synthese von Leberlipiden, insbesondere ungesättigten Fettsäuren, als Reaktion auf eine kohlenhydratreiche Ernährung induzieren, bei Wasservogelarten verstanden werden. Um den für die Fettablagerung in der Gänseleber verantwortlichen molekularen Mechanismus aufzuklären, analysierten wir Gänselebergewebe in Bezug auf Zellmorphologie und Plasmaparameter sowie führten Gewebetranskriptom- und microRNA-Sequenzierung und -Analyse durch. Nach 20 Tagen Überfütterung war das Körpergewicht der überfütterten Gänse signifikant höher als das der Kontrollgänse. Bei überfütterten Gänsen war das Lebergewicht deutlich höher (P <0,01) und machten 8,44 % des Gesamtkörpergewichts aus, verglichen mit 3,26 % bei den Kontrollgänsen (Zusatzdatei 1: Tabelle S20). Während der Zwangsernährungsphase erhöhte die Überfütterung die Serumkonzentrationen von Glucose, Gesamtcholesterin (TC), Triglycerid (TG) und freien Fettsäuren signifikant (Zusatzdatei 1: Tabelle S21). Abbildung 2 zeigt, dass die Überfütterung von Gänsen mit einer energiereichen Ernährung zu einer Lebervergrößerung führte, wobei sich mehrere Lipidtröpfchen in den Leberzellen ablagerten. Die Transkriptomanalyse zeigte, dass die Genexpressionsniveaus der Schlüsselenzyme, die an der Fettsäuresynthese der Hepatozyten beteiligt sind (hk1, gpi, pfkm, pdh, cs, aly, mdh1, ich1, acc, fasn, elovl6, scd, Modeerscheinungen1, Modeerscheinungen2, und dgat2) waren signifikant erhöht (rote Kursivschrift in Abbildung 3 und Tabelle 2), während die Aktivitäten der extrazellulären Leberlipoproteinlipase (lpl) und das erste Schlüsselenzym (pksG), die an der hepatischen Cholesterinsynthese beteiligt sind, signifikant reduziert (grüne Kursivschrift in Abbildung 3 und Tabelle 2). Die Expression von Fettsäuretransportproteingenen (Fettp), die für den Transport von exogenen Lipiden in Zellen verantwortlich sind [26], signifikant erhöht (Abbildung 3 und Tabelle 2). Im Gegensatz dazu ist die Expression von Apolipoprotein B (apoB), das als Lipoproteine ​​mit sehr niedriger Dichte (VLDLs) für die Bindung mit endogenen Lipiden verantwortlich ist und deren Diffusion aus Leberzellmembranen fördert [27,28], signifikant abgeschwächt (Abbildung 3 und Tabelle 2). Frühere Studien haben gezeigt, dass lpl spielt eine wichtige Rolle bei der Lipolyse von Fettsäuren aus extrazellulären Chylomikronen oder VLDL, die dann verwendet oder in Fett- oder Muskelgewebe abgelagert werden können [7,23]. Die Reduzierung in lpl Aktivität erhöht die Tendenz, dass eine große Menge extrazellulärer Lipide in die Leberzellen diffundiert. Diese Ergebnisse legen nahe, dass der Mechanismus der Gänsefettleberbildung hauptsächlich auf ein Ungleichgewicht zwischen der Speicherung und Sekretion (als Plasmalipoproteine) von neu synthetisierten endogenen Lipiden und exogenen Lipiden im Zytoplasma zurückzuführen ist. Die Lipidsekretionskapazität der Leber kann die Speicherung neu synthetisierter zytoplasmatischer Lipide nicht ausgleichen, was zu einer Fettablagerung in der Leber führt.

Vergleich von Lebern und Lebergewebeschnitten zwischen überfütterten und Kontrollgänsen. (EIN) Gänseleber-Gewebeschnitt nach 3 Wochen Überfütterung (200×) (a) Gänseleber nach 3 Wochen Überfütterung. (B) Normaler Gänseleber-Gewebeschnitt (200×) (b) Normale Gänseleber.


Was das neue Pangenom über Rindergene verrät

Genomdaten des ursprünglichen Brown Swiss wurden in das erste Pangenom des Hausrinds eingearbeitet. Bildnachweis: Colourbox

Als Forschende der ETH Zürich die Referenzgenome mehrerer Hausrinderrassen mit nahe verwandten Wildrindern verglichen, entdeckten sie Gene mit bisher unbekannten Funktionen.

Die moderne Genforschung arbeitet oft mit sogenannten Referenzgenomen. Ein solches Genom umfasst Daten aus DNA-Sequenzen, die Wissenschaftler als repräsentatives Beispiel für die genetische Ausstattung einer Art zusammengestellt haben.

Um das Referenzgenom zu erstellen, verwenden Forscher im Allgemeinen DNA-Sequenzen von einem einzelnen oder wenigen Individuen, die die gesamte genomische Vielfalt von Individuen oder Subpopulationen schlecht darstellen können. Die Folge ist, dass eine Referenz nicht immer exakt der Genmenge eines bestimmten Individuums entspricht.

Bis vor wenigen Jahren war es sehr mühsam, teuer und zeitaufwendig, solche Referenzgenome zu generieren. Aus diesem Grund konzentrierten sich die Forscher auf menschliche Genome und die wichtigsten biologischen Modellorganismen wie den Fadenwurm C. elegans.

Da Forscher jedoch jetzt Zugang zu schnellen Sequenzierungsmaschinen, ausgeklügelten Algorithmen, die DNA-Sequenzauslesungen zu vollständigen Chromosomen zusammensetzen, und viel größerer Rechenleistung haben, wird die Erstellung von Referenzgenomen für andere Arten immer praktischer. Um die Evolution und andere grundlegende Fragen der Biologie besser zu verstehen, brauchen Forscher qualitativ hochwertige Referenzgenome für möglichst viele Arten.

Dazu gehört auch Vieh. Für Hausrinder (Bos taurus) war bis vor kurzem nur ein einziges Referenzgenom verfügbar: von einer Hereford-Kuh namens Dominette. Forscher hatten zuvor andere DNA-Sequenzen von Rindern mit dieser Referenz verglichen, um genetische Variationen zu erkennen und entsprechende Genotypen zu definieren. Da sie jedoch keine genetischen Varianten enthielt, durch die sich Individuen unterscheiden, spiegelte die vorherige Referenz nicht die Vielfalt der Arten wider.

Ein Forschungsteam um Hubert Pausch, Assistenzprofessor für Tiergenomik an der ETH Zürich, hat diese Lücke nun geschlossen: Mit den Genomen von drei weiteren Hausrinderrassen, darunter dem Braunvieh (Original Schweizer Braunvieh), zwei eng verwandten (Sub- )Arten wie dem Zebu und dem Yak sowie dem bestehenden Referenzgenom für Hausrinder haben die Forscher ein "Pangenom" geschaffen. Die Studie zu diesen Ergebnissen wurde gerade in der Fachzeitschrift veröffentlicht PNAS.

Dieses Rinder-Pangenom integriert Sequenzen, die in den sechs einzelnen Referenzgenomen enthalten sind. „Damit können wir sehr genau aufdecken, welche Sequenzen beispielsweise im Hereford‑basierten Referenzgenom fehlen, aber beispielsweise in unserem Brown Swiss Genom oder den Genomen anderer Rinderrassen und -arten vorhanden sind“, sagt Pausch.

Stammbaum der Hausrinder: So sind verschiedene Rinderrassen und -arten miteinander verwandt. In das Pan-Genom flossen die Genome der jeweiligen Rassen und (Unter-)Arten (Yak und Brahman) ein. Bild: Grafik: ETH Zürich / Colourbox

Neue Gene und Funktionalitäten entdeckt

Auf diese Weise entdeckten die ETH-Forscher zahlreiche DNA-Sequenzen und sogar ganze Gene, die im bisherigen Referenzgenom der Hereford-Kuh fehlten. In einem weiteren Schritt untersuchten die Forscher die Transkripte dieser Gene (Messenger-RNA-Moleküle), wodurch sie einige der neu entdeckten Sequenzen als funktionell und biologisch relevant einstufen konnten. Viele der von ihnen entdeckten Gene hängen mit Immunfunktionen zusammen: Bei Tieren, die Kontakt mit pathogenen Bakterien hatten, waren diese Gene stärker oder weniger aktiv als bei Tieren, die keinen Kontakt zu den Krankheitserregern hatten.

Möglich wurde dieses Projekt durch eine neue Sequenzierungstechnologie, die seit einem Jahr am Functional Genomics Center Zürich zur Verfügung steht. Mit dieser neuen Technologie sind die Forscher in der Lage, lange DNA-Abschnitte präzise auszulesen, was die Komplexität des Rechenprozesses reduziert, der für den korrekten Zusammenbau der analysierten Abschnitte erforderlich ist. „Die neue Technologie vereinfacht den Genom-Assembly-Prozess. Jetzt können wir schnell und präzise Referenzgenome von Grund auf neu erstellen“, sagt Pausch. Zudem kosten solche Analysen auch weniger, sodass Forscher nun aus vielen Individuen einer Art Genome in Referenzqualität generieren können.

Die ETH-Forschenden arbeiten eng mit dem Bovine Pangenome Consortium zusammen, das von jeder Rinderrasse weltweit ein Referenzgenom von mindestens einem Tier erstellen will. Auch das Erbgut wildlebender Verwandter von Hausrindern soll auf diese Weise analysiert werden.

Gezieltere Zucht möglich

Das Konsortium und ETH-Professor Pausch erhoffen sich von der Referenzgenomsammlung nützliche Entdeckungen wie genetische Varianten, die bei domestizierten Tieren nicht mehr vorhanden sind, aber ihre wilden Verwandten noch besitzen. Dies würde Hinweise darauf geben, welche genetischen Merkmale durch die Domestikation verloren gingen.

„Ganz spannend wird es, wenn wir unsere einheimischen Rinder mit dem Zebu oder mit an andere Klimabedingungen angepassten Rassen vergleichen“, erklärt Pausch. So können Forscher herausfinden, welche genetischen Varianten Tiere in tropischen Umgebungen hitzetoleranter machen. Der nächste Schritt könnte sein, diese Varianten gezielt durch Kreuzungen in andere Rinderrassen einzuführen oder durch Genome Editing gezielt einzuführen. Das ist jedoch noch ein weiter Weg. Derzeit können die Forscher von der höheren Geschwindigkeit und Präzision profitieren, die das neue Rinder-Pangenom beim Nachweis der Gene und DNA-Varianten ermöglicht, die sich zwischen Rinderrassen unterscheiden.


Ergebnisse

Die mikrobiellen Profile wurden aus insgesamt zehn kolorektalkarzinomassoziierten Studien analysiert, die 588 übereinstimmende Tumor- und tumorbenachbarte Proben (n = 294 Paare aus neun Studien) und 84 übereinstimmende Stuhl- und Tumorbiopsien (n = 42 Paare aus vier Studien) umfassten und 2). Die Hauptkoordinatenanalyse (PCoA) von gepaarten Tumor:Tumor-benachbarten Proben zeigte, dass diese Gemeinschaften hauptsächlich nach Studie, dann nach Plattform und Genziel gruppiert wurden. Obwohl eine Trennung zwischen diesen mikrobiellen Gemeinschaften erkennbar war, war sie nicht vollständig ausgeprägt (S1 Abb.). Tumorbiopsie:Kot-Paare aus demselben CRC-Fall zeigten eine Veränderung der Zusammensetzung der Taxonhäufigkeit, insbesondere in den Untersuchungen von Chen et al. (Chen_V13_454) und Mira-Pascual et al. (Pascual_V13_454) (Panel A in S2 Abb). Dieser Unterschied war noch deutlicher, wenn die PC3-Achse gegen PC4 aufgetragen wurde (Panel B in S2 Abb). Die Procustes-Rotation zeigte eine mäßige Ähnlichkeit bei den meisten gepaarten Tumoren: Tumor-benachbarte Proben, während in den Studien von Marchesi et al. (Marchesi_V13_454), Dejea et al. (Dejea_V35_454), Weir et al. (Weir_V4_454) und Kostic et al. (Kostic_V35_454) (Fig. 1A und 1B). Die Gesamtkorrelation betrug 0,68 für Achse 1 vs. 2 (Summe der quadrierten Abweichungen m 2 = 0,53) und 0,85 für Achse 2 vs. 3 (m 2 = 0,27 [Werte für m 2 reichen von 0 (Matrizen sind sehr ähnlich)) bis 1 (Matrizen sind unähnlich)]), mit p = 0,001, wodurch die Nullhypothese zurückgewiesen wird, dass der Grad der Kongruenz zwischen den beiden Procustes-Matrizen nicht größer als zufällig ist (Abb. 1A und 1B). Die gleiche grafische Überlagerung von Procustes zeigte eine Trennung zwischen dem übereinstimmenden CRC-Tumorgewebe und den Stuhlproben (m 2 = 0,57 für Achse 1 vs. 2 und 0,25 für Achse 2 vs. 3, permutationsbasierter p-Wert = 0,001 Abb. 1C und 1D) .

In Abb. 1 zeigte die Procustes-Analyse einen mäßigen [in der Größenordnung], aber statistisch signifikanten Unterschied zwischen dem gepaarten Tumor und der tumorbenachbarten Biopsie (Abb. 1A und 1B) Mikrobiom (m 2 = 0,68, p < 0,001) sowie gepaarte Kot- und CRC-Tumorgewebeproben (Abb. 1C und 1D) m 2 = 0,65, p < 0,001) aus dem gleichen Fall von CRC. Linien verbinden gepaarte Samples. Formen zeigen Muster-Phänotyp-Farben zeigen Studienkohorte an.

Unterschiede auf der Stammebene zeigten, dass CRC-Tumorbiopsien größere Mengen an Fusobakterien und Actinobakterien aufwiesen, während ihre gepaarten benachbarten Gewebegegenstücke eine erhöhte Menge an Firmicutes enthielten. Im Vergleich zu ihren Tumorbiopsie-Gegenstücken enthielten Stuhlproben eine größere Häufigkeit von Verrucomicrobia und Euryarcheota und weniger Proteobakterien (S3 Abb.). In einem paarweisen Vergleich der am häufigsten annotierten Gattungen wiesen CRC-Tumorproben größere mittlere Häufigkeiten von Fusobakterium und Parvimonas während Tumor-benachbarte Proben größere mittlere Häufigkeiten von Ruminococcaceae aufwiesen, Fäkalibakterium und Parabacteroides unter anderem (Abb. 2A). Im angepassten Vergleich ergaben Stuhlproben größere durchschnittliche Häufigkeiten von Roseburia, Blautia, und Bifidobakterium während Biopsieproben größere mittlere Häufigkeiten von Fusobakterium, Streptokokken, Prevotella, und Staphylokokken (Abb. 2B). Innerhalb der gepaarten Stichproben gab es eine beträchtliche Heterogenität innerhalb und zwischen den Studien in Bezug auf die Größe und Richtung (erhöht gegenüber abgeschwächt in der Tumorbiopsie) der taxonomischen Veränderungen. Das heißt, eine kleine Anzahl von Taxa, e.g., Fusobakterium, Parvimonas, und Streptokokken wurden in tumorassoziierten Proben im Vergleich zu benachbarten Geweben und Fäkalien konsistent in größerer Häufigkeit nachgewiesen.

Boxplots zeigen die Verteilung der relativen Häufigkeiten verschiedener Taxa und entsprechende Linien verbinden gepaarte Proben, die die Richtung der Änderung der relativen Häufigkeit statistisch signifikant unterschiedlicher Familien zwischen CRC-Tumorbiopsieproben (links) und angrenzendem, nicht betroffenem Gewebemikrobiom darstellen (Abb. 2A, n = 294 Paare, 588 Proben) oder Stuhlprobe (Abb. 2B, n = 42 Paare, n = 84 Proben) für die verschiedenen Studien (Farben) * zeigt an, dass die durchschnittliche relative Häufigkeit statistisch signifikant unterschiedlich zwischen den Gattungen im gepaarten Wilcoxon-Vorzeichen-Rang-Test und p<0,05 nach FDR-Anpassung war. Alle auf Biopsie basierenden Taxa, die in 2A dargestellt sind, unterschieden sich statistisch signifikant zwischen Tumor- und Tumorbiopsieproben durch den oben erwähnten Test.

Um robuste, gattungsspezifische Assoziationen über alle Studien hinweg zu identifizieren, führten wir unterschiedliche Häufigkeitstests durch, die dem gepaarten Studiendesign Rechnung trugen, indem wir übereinstimmenden Proben eine „Paarfaktor-ID“ zuordneten. Die Ergebnisse dieser DESEq2-Bewertung pro Studie für 294 benachbarte Tumor:Tumor-Biopsiepaare wurden über die neun Studien hinweg mit einem Zufallseffektmodell verglichen. Von den 80 analysierten Gattungen wurden 41 in 5 oder mehr Studien als unterschiedlich häufig identifiziert (d. h. > 50% der analysierten Studien), und 5 dieser Gattungen blieben nach FDR-Anpassung signifikant (p ≤ 0,1). Konsequent beobachtet wurden die erhöhten Häufigkeiten von Fusobakterium spp. (8/8 Studien, angepasstes REM-Modell Log2fache Änderung: 2,6, 95 %-KI: (0,9, 4,5), p = 0,002, FDR p = 0,02, Leptotrichie (5/8 Studien, angepasstes REM-Modell Log2fache Änderung: 1,4, 95 % KI: (0,7, 3,7), p = 0,002, FDR p = 0,02 und Parvimonas (8/8 Studien, angepasstes REM-Modell Log2Faltungsänderung: 1,5, 95 %-KI: (0,6, 2,5), p < 0,001, FDR p = 0,001), zusammen mit Peptostreptokokken und Streptokokken, in Tumorbiopsiegeweben im Vergleich zu tumorbenachbarten Geweben. Eine nicht klassifizierte Gattung der Familie Ruminococcaceae (8/8 Studien, angepasstes REM-Modell Log2fache Änderung: -0,7, 95 % KI: (-1,1, -0,4), p = 1,9*10 -5 , FDR p = 0,001) und Spezies von Fäkalibakterium (8/8 Studien, angepasstes REM-Modell Log2fache Änderung: -0,7, 95% CI: (-1,1, -0,3), p = 0,001, FDR p = 0,02 waren in angrenzenden Geweben signifikant häufiger als in tumorassoziierten Proben (Fig. 3A und S2 Tabelle).

Die Diagramme zeigen pro Studie und adjustiertem (REM-Modell) die log-fache Änderung über alle Studien für Taxa, die in >50% der verfügbaren Studien unterschiedlich häufig waren, dh fünf der acht Studien mit gepaarten CRC-Biopsieproben (Verschiebung nach rechts zeigt an, dass Taxa im Tumor erhöht sind Verschiebung nach links weist auf erhöhte Taxa in der tumornahen Biopsie hin) in Abb. 3A und ≥ drei der insgesamt vier Studien für die gepaarten CRC-Kot- und Biopsieproben-Studien (d. h. sowohl für Fig. 3A als auch 3B) (rechts zeigt erhöhte Taxa in Tumorbiopsien und links zeigt erhöhte Taxa in fäkalen CRC-Fällen an) in Abb. 3B. Individuelle Log-Falten-Änderungen und FDR-p-Werte für gepaarte Biopsien und gepaarte Stuhlvergleiche sind in den Tabellen S2 bzw. S3 angegeben. Fehlerbalken bezeichnen 95 %-Konfidenzintervalle, die Punktgröße gibt die Präzision der Punktschätzung für einzelne Studien an [1/ (95 % KI Obergrenze – 95 % KI Untergrenze)]. Die Punktgröße des REM-Modells ist festgelegt. Leerwerte für eine bestimmte Studie weisen darauf hin, dass DESeq2 nicht bestimmt hat, dass diese Taxa in dieser bestimmten Studienkohorte unterschiedlich häufig vorkommen.

Bei der Auswertung von Stuhl- und Biopsieproben aus demselben CRC-Fall wurden insgesamt 42 Paare (n = 84 Proben) aus vier verschiedenen Studien berücksichtigt. Von den 73 in diesen Proben nachgewiesenen Gattungen waren 38 in mindestens drei der vier Kohorten unterschiedlich häufig (d. h. > 50% der analysierten Studien) und drei Gattungen waren im REM signifikant unterschiedlich häufig. Dazu gehörte die beobachtete Zunahme der Häufigkeit von Pseudomonas (3 von 4 Studien, angepasstes REM-Modell Log2fache Änderung: 4,0, 95 % KI: (2,5, 5,5), p = 2,8*10 –7 , FDR p = 1,1*10 –5 ), Streptokokken (3 von 4 Studien, angepasstes REM-Log2Faltungsänderung: 1,9, 95 %-KI: (0,8, 3,0), p < 0,001, FDR p = 0,006) und Porphyrmonas (angepasstes REM-Log2fache Änderung: 2,3, 95 % KI: (0,7, 3,8), p = 0,004, FDR p = 0,05 in tumorassoziierten Proben im Vergleich zu Stuhlproben. Obwohl Fusobakterium und Parvimonas zeigte einen hohen REM-bereinigten Log2Änderungswerte (1,8 in 3 von 4 Studien bzw. 2,0 in 4 von 4 Studien) behielten diese nach der FDR-Korrektur keine statistische Signifikanz (Abb. 3B und S3-Tabelle). Gemäß dem RE-Modell waren vier Taxa in den gepaarten Biopsie- und Biopsie:Kot-Vergleichen gemeinsam: Spezies von Parvimonas, Porphyrmonas, Phascolarctobacterium, und Lachnobakterium.

Wir bewerteten die Ähnlichkeit (und Unähnlichkeit) von Taxa in Biopsien und Kotproben. Von den 35 Nicht-Null-Häufigkeitsgattungen, die in beiden vorhanden waren, waren 6 einzigartig in Biopsien, 21 waren in Biopsien sowie in Stuhlproben vorhanden, während Stuhlproben weitere 8 einzigartige Taxa aufwiesen (S4-Tabelle). Ein Random Forest-Klassifikator zur Unterscheidung von mukosalen und fäkalen Taxa, die mit angemessener Genauigkeit durchgeführt wurden. Mit einer Fläche unter der ROC-Kurve von 82,5% (Abb. 4) waren die Taxa, die zur Differenzierung zwischen den beiden Probentypen beitrugen, Mitglieder des Stamms der Proteobakterien (Feld B in S4 Abb.). Es sollte beachtet werden, dass der Kotbiopsie-Klassifikator eher auf der relativen Häufigkeit mikrobieller Merkmale beruhte als auf deren bloßem Vorhandensein oder Fehlen. Wir fanden viele überlappende Taxa zwischen diesen ökologischen Nischen, und das RF-Modell zeigt, dass, obwohl die Verbreitung dieser Taxa geteilt wird, ihr Reichtum oder ihre Dichte je nach Nische variiert. Das Random-Forest-Modell zur Klassifizierung von gepaarten Tumorbiopsien und tumorbenachbarten Geweben wies eine Fläche unter der ROC-Kurve von 64,3% auf (Abb. 4), was darauf hindeutet, dass tumorbenachbarte Gewebe mikrobielle Gemeinschaften beherbergen, von denen schwerer zu unterscheiden ist, und damit mehr ähnlich wie tumorassoziierte Gemeinschaften als Tumor- versus Stuhl-assoziierte Gemeinschaften. Zu den diskriminierenderen Taxa für die gepaarten Biopsieproben gehörten diejenigen innerhalb der Gattungen Fusobakterium und Fäkalibakterium (Panel A in S4 Abb).

The tumor biopsy vs. fecal classifier [area under curve (AUC) = 82.5] was better able to distinguish CRC fecal samples from tumor tissue samples than tumor vs. tumor adjacent biopsy classifier (AUC = 64.3). Again, given the compositional overlap between these niches, these classifiers relied on differentially abundant features rather than niche-specific distribution.

The final aim of this study was to determine which functional differences may be present in tumor-associated communities and the degree to which these differences may be driven by the primary taxonomic perturbations we identified or were the result of subtle shifts among multiple taxa. The single-taxon filter in FishTaco was used to identify 14 differentially abundant KEGG pathways. Of these, six statistically significant pathways remained after being further evaluated in the multi-taxa mode (accounting for taxa co-variation) and subjected to multiple comparison adjustment. The relative abundances of pathways for tyrosine metabolism, glutathione metabolism, lipopolysaccharide (LPS) biosynthesis, polycylic aromatic hydrocarbon degradation, ethylbenzene degradation, and stillbenoid, diarylheptanoid and gingerol biosynthesis differed significantly between tumor and tumor-adjacent tissue samples. Ein Art von Fusobakterium und Leptotrichia were the primary CRC case-associated taxa associated with enrichment of tyrosine metabolism, LPS biosynthesis, and polycyclic aromatic hydrocarbon degradation (Panel A in Fig 5).

For each pathway presented, the top left bar shows the tumor biopsy-associated taxa that attenuate the functional shift, the top right bar shows the tumor biopsy-associated taxa that are associated with an increase in the functional shift magnitude, and the bottom bars are referring to Fig 5A: tumor-adjacent taxa or Fig 5B: fecal-associated taxa. OTUs mentioned in the legend are OTUs classified to genus level. Red diamond markers indicate the cumulative metagenome-based shift in Wilcoxon score. In Fig 5A, tumor (top bar): tumor-adjacent biopsy (bottom bar) samples, Fusobakterium und Leptotrichia are tumor biopsy associated and related with increased function. Parvimonas, is also tumor biopsy associated but related with attenuated functional shifts for most pathways. On the other hand, in Fig 5B, in tumor biopsy (top bar) and fecal samples (bottom bar) obtained from the same CRC patient, several different Proteobacteria (e.g., Xanthomonadaceae, Comamonadaceae, Enterobacteriaceae, Halomonas, und Morganella) were associated with tumor biopsy and enrichment of the functional pathways.

In a paired tumor biopsy:fecal comparison, single-taxon permutation analyses identified 13 differentially abundant KEGG pathways that, when subject to multi-taxa analysis coupled with Shapley orderings, yielded a total of six statistically significant functional pathways. These included synthesis and degradation of ketone bodies, which were largely impacted by differing abundances of Xanthomonadaceae, Shewanella, und Acinetobacter (all belonging to Phylum Proteobacteria). Pseudomonas, members of the families Comamondaceae and Enterobacteriaceae, and Staphylokokken contributed marginally to valine, leucine, and isoleucine degradation, tyrosine metabolism, alpha-Linolenic metabolism, and the renin-angiotensin system (Fig 5B).


Identification of genes that are associated with DNA repeats in prokaryotes

Using in silico analysis we studied a novel family of repetitive DNA sequences that is present among both domains of the prokaryotes (Archaea and Bacteria), but absent from eukaryotes or viruses. This family is characterized by direct repeats, varying in size from 21 to 37 bp, interspaced by similarly sized non-repetitive sequences. To appreciate their characteri-stic structure, we will refer to this family as the clustered regularly interspaced short palindromic repeats (CRISPR). In most species with two or more CRISPR loci, these loci were flanked on one side by a common leader sequence of 300-500 b. The direct repeats and the leader sequences were conserved within a species, but dissimilar between species. The presence of multiple chromosomal CRISPR loci suggests that CRISPRs are mobile elements. Four CRISPR-associated (cas) genes were identified in CRISPR-containing prokaryotes that were absent from CRISPR-negative prokaryotes. The cas genes were invariably located adjacent to a CRISPR locus, indicating that the cas genes and CRISPR loci have a functional relationship. The cas3 gene showed motifs characteristic for helicases of the superfamily 2, and the cas4 gene showed motifs of the RecB family of exonucleases, suggesting that these genes are involved in DNA metabolism or gene expression. The spatial coherence of CRISPR and cas genes may stimulate new research on the genesis and biological role of these repeats and genes.


Why repetitive DNA is essential to genome function?

There are clear theoretical reasons and many well-documented examples which show that repetitive, DNA is essential for genome function. Generic repeated signals in the DNA are necessary to format expression of unique coding sequence files and to organize additional functions essential for genome replication and accurate transmission to progeny cells. Repetitive DNA sequence elements are also fundamental to the cooperative molecular interactions forming nucleoprotein complexes. Here, we review the surprising abundance of repetitive DNA in many genomes, describe its structural diversity, and discuss dozens of cases where the functional importance of repetitive elements has been studied in molecular detail.

In particular, the fact that repeat elements serve either as initiators or boundaries for heterochromatin domains and provide a significant fraction of scaffolding/matrix attachment regions (S/MARs) suggests that the repetitive component of the genome plays a major architectonic role in higher order physical structuring. Employing an information science model, the ‘functionalist’ perspective on repetitive DNA leads to new ways of thinking about the systemic organization of cellular genomes and provides several novel possibilities involving repeat elements in evolutionarily significant genome reorganization. These ideas may facilitate the interpretation of comparisons between sequenced genomes, where the repetitive DNA component is often greater than the coding sequence component.


What sequences are between adjacent genes? - Biologie

I Historical questions

II.1 Light chains (kappa or lambda)

II.1.1 Kappa chain: V-J rearrangements
II.1.2 Lambda chain: V-J rearrangements
II.1.3 Allele exclusion and isotype

II.2.1 V-D-J rearrangements
II.2.2 Isotype switching

II.3 Membrane and secreted Igs

III.1. Germline diversity: multigene families
III.2. Diversity due to DNA rearrangements
III.3. Diversity as a result of somatic hypermutations

An immunoglobulin (Ig) consists of 2 identical light chains (L) and 2 identical heavy chains (H) (for example IgG-type) at the three-dimensional level, an Ig chain consists of one N-terminal variable domain, V, and one (for an L chain) or several (for an H chain) C-terminal constant domain(s), C.

The cells of the B line synthesize immunoglobulins. They are either produced at a membrane (on the surface of the B-lymphocytes) or are secreted (by the plasmocytes).

As soon as the main characteristics of the immunoglobulins were discovered, a number of questions arose:

II.1. Light chains (kappa or lambda)

II.1.1. Kappa chain: V-J rearrangements

NOTE: Only the genes for the immunoglobulins and T-receptors undergo DNA rearrangement.

Each IGKV gene is followed downstream (in the 3' position) by an RS consisting of a CACAGTG heptamer, and then by a 12-bp spacer, and then an ACAAAAACC nonamer.

Each IGKJ gene is preceded upstream (in the 5' position) by an RS consisting, between 5' and 3', of a GGTTTTTGT nonamer, a 23-bp spacer and a CACTGTG heptamer.

II.1.2. Lambda chain: V-J rearrangements

II.1.3. Allele exclusion and isotype

II.3. Membrane and secreted Igs

III.1. Germline diversity: multigene families

III.2. Diversity due to DNA rearrangements

III.3.Diversity as a result of somatic hypermutations

Finally, somatic mutations are extremely numerous (somatic hypermutations) and produce very targeted characterization of the rearranged V-J and V-D-J genes of the Ig, but their mechanism of onset is not yet known. AID (activation-induced cytidine deaminase) may be implicated both in the occurrence of the mutations and the switch mechanism. The mutations appear during the differentiation of the B lymphocyte in the lymph glands and contribute to increasing the diversity of the Igs by a further factor of 10 3 , which makes it possible to achieve a potential diversity of 10 12 different Igs (answer to question A).

These different mechanisms of diversity make it possible to obtain 10 12 different immunoglobulins, capable of responding to the several million known antigens (answer to question A).

The number of different Igs is in fact limited by the number of B cells in a given species.