Information

3.8: Eukaryotische Genstruktur - Biologie

3.8: Eukaryotische Genstruktur - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Man kann viel über jedes Gen lernen, nachdem es durch rekombinante DNA-Techniken isoliert wurde. Dies gilt für bakterielle und virale Gene sowie für eukaryontische zelluläre Gene. Die nächsten Abschnitte dieses Kapitels konzentrieren sich auf die Analyse eukaryontischer Gene und zeigen die Leistungsfähigkeit der Untersuchung gereinigter Kopien von Genen.

Gespaltene Gene und Introns

Vorläufer von mRNA länger als mRNA

Erste Hinweise auf eine komplexe Struktur eukaryontischer Gene ergaben sich aus der Analyse nukleärer RNAs in den 1970er Jahren. Die Vorläufer von Messenger-RNA oder Prä-mRNAs wurden überraschenderweise gefunden lang, erheblich größer als die durchschnittliche mRNA-Größe (Abbildung (PageIndex{1})).

Abbildung (PageIndex{1})

Denaturierende Saccharosegradienten (mit hoher Formamidkonzentration, z. B. >50 %) trennen RNAs nach Größe. Die Analyse der nukleären RNA zeigte, dass die durchschnittliche Größe viel größer war als die durchschnittliche Größe der zytoplasmatischen RNA. Markierte RNA konnte vom Zellkern ins Zytoplasma „gejagt“ werden – d. h. nukleäre RNA war ein Vorläufer von mRNA und anderen zytoplasmatischen RNAs. War die zusätzliche RNA an den Enden? oder mitten in der prä-mRNA? Genauer gesagt könnte man spezifische RNAs untersuchen, indem man Fraktionen aus den denaturierenden Saccharosegradienten an markierte Kopien von z.B. Globin-mRNA. Die hybridisierende RNA aus dem Kern war ungefähr 11S (sowie die reife 8S-Botschaft), während zytoplasmatische RNA von ungefähr 8S hybridisierte. Somit ist die Globin kodierende nukleäre RNA größer als die zytoplasmatische mRNA.

Die Visualisierung von mRNA-DNA-Heteroduplexen zeigte zusätzliche Sequenzen innerhalb der mRNA-kodierenden Segmente

R-Schleifen sind Hybride zwischen RNA und DNA, die im EM sichtbar gemacht werden können, unter Bedingungen, unter denen DNA-RNA-Duplexe gegenüber DNA-DNA-Duplexen bevorzugt werden (Abbildung (PageIndex{2})). Bei einer einfachen Genstruktur sieht man einen durchgehenden RNA-DNA-Duplex (glatt, langsam gebogen) und einen verschobenen DNA-Einzelstrang (dünner, viel mehr Windungen und Krümmungen – auch einzelsträngige DNA ist keine starre wie doppelsträngige Nukleinsäure) Duplex-DNA oder RNA-DNA).

Abbildung (PageIndex{2})

EM-Bilder von Duplexen zwischen gereinigten Adenovirus-mRNAs und der genomischen DNA zeigten Verlängerungen sowohl am 3'- (Poly A) als auch am 5'-Ende, die an anderer Stelle im Genom kodiert sind. Alle späten mRNAs haben die gleiche Sequenz am 5'-Ende; dies leitet sich vom dreigliedrigen Führer ab. R-Schleifen zwischen späten mRNAs und Adenovirus-DNA-Fragmenten, einschließlich des späten Hauptpromotors, zeigten Doppelstränge mit den Leader-Segmenten, die durch Doppelstrang-DNA-Schleifen getrennt waren (Abbildung 3.23, unteres Feld). Die RNA-DNA-Hybride identifizieren DNA-Regionen, die für RNA kodieren. Das überraschende Ergebnis ist, dass RNA-kodierende Teile eines Gens bei der R-Schleifen-Analyse durch Schleifen von Duplex-DNA getrennt werden. Beispiele für R-Schleifen in Genen mit Introns sind in Abbildung (PageIndex{3}) gezeigt.

Diese Daten zeigten, dass das Adenovirus RNAs werden in verschiedenen Segmenten des viralen Genoms kodiert; d.h. die Gene sind gespalten. Der Teil eines Gens, der mRNA kodiert, wurde als an . bezeichnet exon. Der Teil des Gens, der nicht für Sequenzen in der reifen mRNA kodiert, wird als an . bezeichnet intron. Diese Beobachtungen führten zum Nobelpreis für Phil Sharp und Rich Roberts. Louise Chow und Sue Berget waren auch Schlüsselfiguren bei der Entdeckung von Introns.

Abbildung (PageIndex{3}): R-Schleifen zwischen Klonen von Kaninchen-beta-ähnlichen Globin-Genen (jetzt HBE und HBG genannt) und mRNA aus embryonalen Kaninchen-Erythroidzellen. Oben auf jeder Tafel ist ein Foto aus dem Elektronenmikroskop zu sehen, darunter eine interpretierende Zeichnung. Der verdrängte Nicht-Matrizenstrang der DNA bildet partielle oder vollständige Duplexe mit dem Matrizenstrang im großen Intron. Ein kleines Intron ist auch in Tafel C sichtbar. Tafel G zeigt die beiden Gene zusammen auf einem großen Klon.

Unterbrechungen im Zellular Gene wurden später in den späten 1970er Jahren in Globin-Genen, Immunglobulin-Genen und anderen entdeckt. Wir wissen jetzt, dass die meisten Gene in komplexen Eukaryoten durch mehrere Introns gespalten werden.

Exons sind (in den meisten Fällen) stärker konserviert als Introns, da gegen Veränderungen in proteinkodierenden Regionen, die die Funktion verändern oder verringern, selektiert werden, wohingegen viele Sequenzen in Introns verändert werden können, ohne die Funktion des Genprodukts zu beeinträchtigen. Wichtige Sequenzen in Introns (wie Splice Junctions, der Verzweigungspunkt und gelegentlich Enhancer) werden in Teil 3 ausführlich behandelt.

Unterschiede in den Restiktionskarten zwischen cDNA und genomischen Klonen zeigen Introns

Restriktionskarten, die auf Kopien der mRNA (cDNA) basierten, unterschieden sich von denen in genomischer DNA – die Gene wurden durch einige Restriktionsendonukleasen gespalten, die die cDNAs nicht waren, und einige Restriktionsstellen lagen in der genomischen DNA weiter auseinander. Diese Beobachtungen wurden durch das Vorhandensein von dazwischenliegenden Sequenzen oder Introns erklärt (Abbildung (PageIndex{4})).

Abbildung (PageIndex{4})

Die experimentellen Verfahren, um dies zu tun, beinhalten die Herstellung eines Beschränkung Karte der Klone genomischer DNA, und dann Identifizierung der Regionen, die mRNA kodieren, durch Hybridisierung von markierter cDNA Sonden zu den Restriktionsverdauen. Geklonte genomische DNA, verdaut mit geeigneten Restriktionsendonukleasen, nach Größe auf einem Agarosegel getrennt und dann auf einen festen Nylon- oder Nitrozelluloseträger übertragen. Dies Südlicher Fleck wird dann mit einer markierten Sonde hybridisiert, die spezifisch für die cDNA ist (die nur aus Exons besteht). Das Muster der markierten Fragmente auf dem resultierenden Autoradiogramm zeigt die Fragmente, die Exons enthalten. Die Ausrichtung dieser mit der Restriktionskarte des Gens ergibt eine Annäherung an die Position der Exons.

Der Blot-Hybridisierungs-Ansatz kann für eine höhere Auflösung mit einer PCR-Analyse (Polymerase Chain Reaction) kombiniert werden. Es werden Primer synthetisiert, die an benachbarte Exons anlagern. Der Größenunterschied des PCR-Amplifikationsprodukts zwischen genomischer DNA und cDNA ist die Größe des Introns. Das PCR-Produkt kann für detailliertere Informationen kloniert und sequenziert werden, z. um die Exon/Intron-Übergänge genau zu definieren.

Anschließend wird die Nukleotidsequenz exonischer Regionen und vorzugsweise des gesamten Gens bestimmt. Das Vorhandensein von Introns wurde bestätigt und ihre Lage in DNA-Sequenzen von isolierten Klonen der Gene genau definiert.

Arten von Exons

Eukaryotische Gene sind eine Kombination aus Introns und Exons. Allerdings tun nicht alle Exons dasselbe (Abbildung (PageIndex{5})). Insbesondere die proteinkodierenden Regionen oder Gene sind eine Untermenge der Sequenzen in Exons. Exons umfassen sowohl die untranslatierten Regionen als auch die Protein-kodierenden, translatierten Regionen. Introns sind die Segmente von Genen, die im primären Transkript (oder Vorläufer-RNA) vorhanden sind, aber durch Spleißen bei der Produktion von reifen RNA entfernt werden. Methoden, die verwendet werden, um kodierende Regionen nachzuweisen, werden nicht alle Exons finden.

Abbildung (PageIndex{5}): Arten von Exons


Regulation der Genexpression in Eukaryoten | Genregulation

Die Variation der Transkriptionsrate reguliert häufig die Genexpression. Interaktionen zwischen RNA-Polymerase II und basalen Transskriptionsfaktoren, die zur Bildung des Transkriptionsinitiationskomplexes führen, beeinflussen die Transkriptionsrate. Andere Transkriptionsfaktoren verändern die Rate der Transkriptionsinitiation durch Bindung an Promotorsequenzen. Die Transkriptionsrate wird auch durch Enhancer und Silencer beeinflusst.

Dies ist eine Stelle zur Regulierung der Transkription. Jedes Strukturgen in Eukaryoten hat die Promotorstelle, die aus mehreren hundert Nukleotidsequenzen besteht, die als Erkennungspunkt für die RNA-Polymerase-Bindung dienen, in einem festen Abstand von der Stelle, an der die Transkription initiiert wird.

Eukaryotische Pro­motoren benötigen die Bindung einer Reihe von Proteinfaktoren, um die Transkription zu initiieren. Promotorregionen werden von der RNA-Polymerase II erkannt, die hauptsächlich mRNA transkribiert und aus kurzen DNA-Sequenzen besteht, die sich normalerweise innerhalb von 100 bp stromaufwärts (in der Richtung 5′) des Gens befinden.

Die Promotorregionen der meisten eukaryotischen Gene enthalten mehrere spezifische Regionen wie:

Variationen in der Transkriptionsrate regulieren oft die Genexpression. Interaktionen zwischen RNA-Polymerase II und basalen Transkriptionsfaktoren führen zur Bildung des Transkriptionsinitiationskomplexes (TIC) an der TATA-Box.

Es befindet sich etwa 25-30 Basen stromaufwärts vom Anfangspunkt der Transkription, es besteht aus einer 8 bp-Konsensussequenz, die nur aus A = T-Basenpaaren (TATAAA) besteht, aber auf beiden Seiten von G=C-reichen Regionen flankiert wird. Eine Mutation in der TATA-Box reduziert die Transkription oder kann den Initiationspunkt verändern. Die TATA-Box ist auch als Hogness-Box bekannt.

Viele Promotoren enthalten andere Komponenten und tragen auch die Konsensussequenz wie GGCCAATC, die sich in der Region 70-80 bp von der Startstelle befindet, sie kann sowohl in 5-3′- als auch in einer 3-5′-Orientierung funktionieren. Mutationsanalysen zeigten, dass die CAAT-Box die stärkste Rolle bei der Bestimmung der Effizienz des Promotors spielt.

Ein weiteres Element, das häufig in einigen Promotorregionen zu sehen ist, die sogenannte GC-Box, hat die Konsensussequenz GGGCGG und wird etwa an Position -110 gefunden, kommt oft in mehreren Kopien vor, die GC-Elemente binden Transkriptionsfaktoren und wirken eher wie Enhancer.

Bindung von RNA-Polymerase II an Promotoren:

Die Bindung der RNA-Polymerase II an ihre Promo­ter-Stelle erfordert eine Reihe von Transkriptionsfaktoren (TPs).

Promotoren haben mehrere Bindungsstellen für Transkriptionsfaktoren, von denen jeder die Transkription beeinflussen kann. TF IID bindet als erster Transkriptionsfaktor in der Nähe des Promotors an einer Initiatorstelle etwa -20 bis -10 Basenpaare vor der Transkriptions-Startstelle, also an den TATA-Boxen, daher wird es auch als TATA-Box-Bindungsprotein (TBP) bezeichnet. .

TF IID kann auch mit anderen Transkriptionsfaktoren wie TF IIA, TF MB und TF ME interagieren. Ein Komplex aus allen Transkriptionsfaktoren bestimmt, welche RNA-Polymerase bindet und welches Gen transkribiert werden kann, und der Komplex wird Prä-Initiationskomplex genannt.

Die Transkriptionsfaktoren sind modular aufgebaut und enthalten DNA-Bindungs-, Dimerisierungs- und Transaktivierungsdomänen.

DNA-Bindungsdomänen enthalten drei Motive: Helix-Turn-Helix, Zinkfinger und basische Domänen, die in Kombination mit Dimerisierungsdomänen auftreten.

Dimeri&Shyzation-Domänen enthalten zwei Motive: Leucin-Reißverschlüsse und Helix-Loop-Helix.

Die Dimerisierung ermöglicht die Bildung von Homo- und Heterodimeren, wodurch Transkriptionsfaktoren mit unterschiedlichen Funktionen erzeugt werden. Transaktivierungsdomänen haben keine Motive, sind aber oft mit sauren Aminosäuren, Glutaminen oder Pro-Linien angereichert. Sie interagieren mit einer Vielzahl von Proteinen in verschiedenen Stadien während der Transskription. Transkriptionsfaktoren können die Transkription auch durch direkte oder indirekte Mechanismen unterdrücken.

Die Transkriptionsfaktoren werden konstitutiv produziert, aber außer diesen gibt es einige Transkriptionsaktivatoren (TAs), die an die Enhancer-Stelle binden, die viele hundert Basenpaare von der Promotor-Stelle entfernt liegt.

Diese Transkriptionsaktivatoren sind induzierte Proteine, d. h. nur als Reaktion auf spezifische Signale synthetisiert, die bei Bindung mit DNA die Rückschleife auf sich selbst bilden, wenn sie mit den TFs in der Nähe des Promotors interagieren. Diese Interaktion zwischen Enhancer- und Initiationsstelle ist normalerweise für eine Transkription oberhalb eines basalen Niveaus notwendig (Abb. 17.10).

Co-Aktivatoren sind Aktivatorproteine, die häufig TFs und TAs verbinden und für die Expression von Genen auf hohem Niveau essentiell sein können.

Es gibt viele Wege, auf denen eine negative Kontrolle der Transkription in Eukaryoten stattfindet.

Diese lassen sich in 3 Hauptkategorien einteilen:

(1) Hemmung der DNA-Bindung

(ii) Sperrung der Aktivierung

(iii) Silencing, d. h. Transkriptionsaktivierungsfaktor (TAP) kann aufgrund der Prävalenz des Silencerfaktors nicht an den Transkriptionsinitiationskomplex (TIC) binden.

Wie ein Enhancer funktioniert auch ein Silencer unabhängig von seiner Position (viele tausend Basenpaare entfernt) und Orientierung relativ zum Gen, dessen Expression er kontrolliert. Der Silencer Factor (ein Protein) sperrt entweder den Transkriptionsinitiationskomplex oder macht ihn für aktivierende Faktoren unzugänglich oder er desorganisiert den Transkriptionsinitiationskomplex (Abb. 17.11).

Unter den verschiedenen Modellen ist das Britten- und Davidson-Modell zur Regulation der Proteinsynthese in Eukaryoten am beliebtesten. Dieses Modell wird auch als Gene bezeichnet, die von einer Sensorstelle gesteuert werden, die als Batterie bezeichnet wird.

Dieses Modell geht von vier Klassen von Sequenzen aus (Abb. 17.12a):

Es ist vergleichbar mit dem Strukturgen eines prokaryotischen Operons.

Es ist mit dem Operatorgen im bakteriellen Operon vergleichbar, und es wird immer angenommen, dass eine solche Rezeptorstelle neben jedem Produzentengen oder einem Satz von Produzentengenen vorhanden ist.

Es ist mit dem regu­lator-Gen vergleichbar und ist für die Synthese einer Aktivator-RNA verantwortlich, die Proteine ​​bilden kann oder nicht, bevor es die Rezeptorstelle aktiviert.

Eine Sensorstelle reguliert die Aktivität des Integratorgens, das nur transkribiert werden kann, wenn die Sensorstelle durch Wirkstoffe wie Hormone und Proteine ​​aktiviert wird, verändert das Muster der Genexpression. In diesem Modell sind die Gene (Produzentengen und Integratorgene) an der RNA-Synthese beteiligt, während Rezeptor- und Sensorstellen diejenigen Sequenzen sind, die nur bei der Erkennung helfen, ohne an der RNA-Synthese teilzunehmen.

In diesem Modell wird vorgeschlagen, dass Rezeptorstellen und Integratorgene mehrere Male wiederholt werden können, um die Aktivität einer großen Anzahl von Genen in derselben Zelle zu kontrollieren. Die Wiederholung des Rezeptors stellt sicher, dass derselbe Aktivator alle erkennt und mehrere Enzyme eines Weges gleichzeitig synthetisiert werden.

Wenn die Transkription desselben Gens in verschiedenen Entwicklungsstadien benötigt wird, kann dies durch eine Vielzahl von Rezeptorstellen und Integratorgenen erreicht werden.

Jedes Produzentengen kann mehrere Rezeptorstellen haben, von denen jede auf einen Aktivator anspricht (Abb. 17.12b), so dass ein einzelner Aktivator somit mehrere Gene gleichzeitig erkennen kann. Eine Sensorstelle kann die Aktivität mehrerer Integratoren regulieren und verschiedene Aktivatoren können das gleiche Gen zu unterschiedlichen Zeiten aktivieren. Ein Integrator-Gen kann auch in Cluster mit derselben Sensorstelle fallen (Abb. 17.12c).

Regulation der Genexpression durch Hor­mones:

Hormone beeinflussen Zielzellen, indem sie die Gentranskription aktivieren. Steroidhormone binden beim Eintritt in die Zellen das Steroidhormonrezeptorprotein und setzen es von einem inhibitorischen Proshytein frei. Der Rezeptor dimerisiert und wird in den Kern transloziert, wo er an Zielgen-Promotoren bindet, die die Transkription aktivieren.

Polypeptidhormone binden Rezeptorproteine ​​auf der Oberfläche von Zielzellen. Die Signaltransduktion löst eine Genaktivierung aus, bei der eine sequentielle Aktivierung mehrerer Proteine ​​durch Phosphorylierung stattfindet.

Posttranskriptionelle Regulation der Genexpression in Eukaryoten:

Die posttranskriptionelle Regulation der Genexpression kann auf verschiedene Weise erfolgen.

Regulierung der Verarbeitung:

Posttranskriptionale Regulationsmodi treten auch in vielen Organismen auf, bei denen die eukaryontischen Kern-RNA-Transkripte vor der Translation modifiziert werden, nicht-kodierende Introns entfernt werden, die verbleibenden Exons präzise zusammengespleißt werden und die mRNA durch Hinzufügen von Cap an der 5& modifiziert wird #8242 Ende und ein Poly-A-Ende nach dem Ende.

Die Botschaft wird dann mit Proteinen komplexiert und in das Zytoplasma exportiert. Jeder dieser Verarbeitungsschritte bietet mehrere Regulationsmöglichkeiten, zum Beispiel mehrere alternative Spleißwege eines einzelnen prä-mRNA-Transskripts zu multiplen mRNAs und die Regulierung der Stabilität der mRNA selbst. Dies führt zur Synthese verschiedener Proteine ​​oder Isoformen in der gleichen Zeit und im gleichen Raum.

Übersetzungsregelung:

Regulierung auf translationaler Ebene erfolgt auf unterschiedliche Weise:

(i) Aktivierung und Unterdrückung der Übersetzung:

In Eukaryoten bindet das Aktivatorprotein an mRNA und führt zur Bildung einer Haarnadelstruktur, die bei der Ribosomenbindung mit mRNA durch die Freilegung des 5′ -Endes hilft. Das Translational Repressor Protein (IRE-BP) kontrolliert die Ferritinsynthese durch Herunterregulierung und die Übertragung der Rezeptorsynthese durch Hochregulierung.

(ii) Regulierung durch Phosphorylierungsmaschinerie:

Translationales Repressorprotein kann die Translation im eukaryontischen System regulieren oder die Regulation der Translation wird durch Modifikation allgemeiner Komponenten der Translationsmaschinerie bewirkt.

Eine reversible Phosphorylierungsmaschinerie ist an der Regulation der Genexpression beteiligt, da die phosphorylierten oder dephosphorylierten Formen der Komponenten der Translationsmaschinerie eine spezifische mRNA aus der Massen-mRNA-Population identifizieren sollten.


Grundlegende eukaryotische Genstruktur

Grundlegende eukaryotische Genstruktur

Exons und Introns sind in der Richtung von 5′ bis 3′ des kodierenden Strangs nummeriert. Sowohl Exons als auch Introns werden in eine Vorläufer-RNA (primäres Transkript) transkribiert. Das erste und das letzte Exon enthalten normalerweise nicht translatierte Sequenzen. Diese werden als 5′ untranslatierte Region (5′ UTR) von Exon 1 und als 3′ UTR am 3′ Ende des letzten Exons bezeichnet. Die nicht kodierenden Segmente (Introns) werden aus dem primären Transkript entfernt und die Exons auf beiden Seiten werden durch einen Prozess namens Spleißen verbunden. Das Spleißen muss sehr genau sein, um eine unerwünschte Änderung des korrekten Leserahmens zu vermeiden. Introns beginnen fast immer mit den Nukleotiden GT im 5′ bis 3′ Strang (GU in RNA) und enden mit AG. Die Sequenzen am 5′ Ende des Introns, beginnend mit GT, werden als Spleiß-Donorstelle bezeichnet und am 3′ Ende, endend mit AG, werden als Spleiß-Akzeptorstelle bezeichnet. Reife mRNA wird am 5? endet durch Hinzufügen einer stabilisierenden Struktur, die als „Cap“ bezeichnet wird, und durch Hinzufügen vieler Adenine am 3’Ende (Polyadenylierung).


Biologie Genstruktur und Expression

Start-Triplett:
- gibt an, wo die Transkription beginnt
- das Starttriplett wird in das Startcodon AUG in mRNA . transkribiert
- die meisten funktionellen Proteine ​​beginnen mit diesem Codon - es kodiert für die Aminosäure Methionin

- Genexpression ist der Begriff, der verwendet wird, um die Synthese von Aminosäuresequenzen zu beschreiben, die Proteine ​​aus Genen bilden.

- Nur das Gen, das für dieses Protein kodiert, muss kopiert und das Produkt synthetisiert werden – nicht das gesamte Genom.

- Das Kopieren der kodierten Informationen erfolgt im Zellkern und wird als Transkription bezeichnet.

- Die DNA ist zu groß, um die Kernpore zu passieren, daher nimmt die mRNA eine Kopie des genetischen Codes.

- Tritt im Kern eukaryontischer Zellen auf.

- Das Enzym RNA-Polymerase steuert die Transkription.

- Das primäre RNA-Transkript wird dann in seine endgültige mRNA-Form verarbeitet.

- RNA-Polymerase verwendet diese Transkriptionsfaktoren, um an die Promotorregion zu binden.

- Release-Faktoren binden an das Stopp-Triplett, um die Beendigung zu signalisieren.

- Die RNA-Polymerase löst sich ab und setzt das primäre RNA-Transkript (Prä-mRNA) frei.

1.Introns werden entfernt (gespleißt)

2.Exons sind miteinander verbunden

3.Eine methylierte Kappe wird hinzugefügt

- Die meisten eukaryotischen Gene haben Regionen von Basensequenzen (Introns), die nicht in die Aminosäuren von Polypeptiden übersetzt werden.

1.Introns werden entfernt (gespleißt)

2.Exons sind miteinander verbunden

3.Eine methylierte Kappe wird hinzugefügt

- Die meisten eukaryotischen Gene haben Regionen von Basensequenzen (Introns), die nicht in die Aminosäuren von Polypeptiden übersetzt werden.

- Exons sind in der mRNA vertreten und Introns werden transkribiert, aber nicht in der mRNA vorhanden.

- In einigen Genen wird mehr als 90% der prä-mRNA zerstört, um nie in der mRNA zu erscheinen, aber in anderen können 99% ihrer Länge aus Introns bestehen.

- Ein Poly-A-Schwanz wird hinzugefügt (am 3'-Ende) - etwa 100-200 Adeninnukleotide.

- Die 5'-Kappe und der Poly-A-Schwanz erhöhen die Stabilität der RNA und verhindern den Abbau.

- Mit nur etwa 21 000 Genen können menschliche Zellen durch alternatives Spleißen tatsächlich viel mehr als diese Anzahl an Proteinen produzieren.

2. RNA-Polymerase fügt RNA-Nukleotide gemäß komplementären Basenpaarungsregeln hinzu

3. Primäres RNA-Transkript wird produziert

RNA-VERARBEITUNG
1. Introns gespleißt und Axone verbunden

2. Poly-A Schwanz und 5' Kappe werden hinzugefügt

- Eine Sequenz von drei Nukleotidbasen auf einem Boten-RNA-Molekül, das für eine bestimmte Aminosäure kodiert.

- Nukleotide müssen als Dreiergruppen gelesen werden, was mehr als genug Kombinationen ist, um die 20 Aminosäuren (43 = 64 mögliche Codons) zu bilden.

- Der genetische Code wird als degeneriert bezeichnet, da mehr als ein Codon für dieselbe Aminosäure kodieren kann.

Ribosom: die Maschinerie. Es hat Bindungsstellen für tRNA-Moleküle

Sie existieren im Zytoplasma normalerweise in zwei Untereinheiten (einer kleinen und einer großen Untereinheit).

Die Untereinheiten wandern vom Zellkern in das Zytoplasma, wo sie sich zu den funktionellen Translationseinheiten verbinden.

Sie finden sich entweder frei im gesamten Zytosol oder sind an das raue endoplasmatische Retikulum (RER) gebunden.


Materialen und Methoden

Generierung von Beweisen für Genstrukturen

Die von Anfang an Auf die Reisgenomsequenzen wurden die Genvorhersageprogramme Fgenesh [5], GeneMark.hmm [6] und GlimmerHMM [4] angewendet. Fgenesh und GlimmerHMM wurden auf wiederholt maskierte Genomsequenzen angewendet. Repeats wurden mit RepeatMasker [50] und der Reis-Repeat-Bibliothek [51] maskiert. GeneMark.hmm wurde auf die unmaskierte Genomsequenz angewendet Softwareprobleme hinderten uns daran, GeneMark.hmm auf allen wiederholt maskierten Genomsequenzen auszuführen, und so entschieden wir uns, in diesem Fall stattdessen das unmaskierte Genom zu verwenden. Die AAT-Software [12] wurde verwendet, um gespleißte Protein- und Transkript-Alignments zu erzeugen. Zur Generierung gespleißter Protein-Alignments wurde mit AAT eine umfassende und nicht redundante Proteindatenbank durchsucht, die zunächst aus Reisproteinsequenzen gefiltert wurde. Eine Datenbank mit anderen Pflanzentranskriptsequenzen wurde zusammengestellt, indem alle Pflanzengenindizes heruntergeladen und zusammengeführt wurden, die von The Gene Index am Dana Farber Cancer Institute [52] bereitgestellt wurden, mit Ausnahme der Reisgenindizes. Reis-ESTs und FL-cDNAs wurden auf das Reisgenom ausgerichtet und wie zuvor beschrieben zu Genstrukturen zusammengesetzt [53], mit der Ausnahme, dass hier neben den gespleißten Alignments auch die hochwertigen Single-Exon-Transkript-Alignments enthalten waren.

Zusammenstellung eines Referenz-Reis-Gensets

Wir extrahierten PASA-Assemblies, die einen vollständigen ORF von mehr als 100 Aminosäuren kodieren, und betrachteten diese als Kandidaten für vollständige Genstrukturen mit hoher Zuverlässigkeit, die zunächst manuell überprüft werden mussten. Zum Zwecke des Trainings und der Evaluierung von EVM suchten wir insgesamt ungefähr 1.000 Genstrukturen mit hoher Konfidenz, von denen die Hälfte für das Training und der Rest für die Evaluierung verwendet wurde. In dem Bemühen, diese Untergruppe von Genen auszuwählen, haben wir die Kandidaten-PASA-basierten Strukturen im Kontext der verfügbaren Beweise mit dem grafischen Genom-Viewing-Dienstprogramm TkGFF3, das in der EVM-Softwareverteilung bereitgestellt wird, manuell untersucht. Wir wählten dann PASA-basierte Strukturen aus, die als Referenzgenstrukturen die beste Genstruktur zu bieten schienen, was 1.058 solcher Gene ergab. Wir schlossen PASA-Assemblies aus, die seltene AT-AC-Introns enthalten, weniger als volle ORFs kodieren oder Spleißvarianten darstellen, die den zusätzlichen Beweis nicht am besten repräsentieren. Diese ausgeschlossenen Baugruppen machten etwa 10 % der Gesamtmenge aus. Um das Training und die Evaluierung von EVM zu vereinfachen, haben wir jedes Hochkonfidenz-Gen und jede flankierende 30-kb-Region aus dem vollständigen Reisgenom extrahiert und diese als unabhängige und individuelle Datensätze vorbereitet.

Alle Sequenzen, Genstrukturen und Beweise stehen zum Download bereit [41]. Ein Vergleich der Verteilung der kodierenden Exon-Zählungen zwischen den Genstrukturen im Trainingssatz im Vergleich zu allen Kandidaten und den Anmerkungen der Genstruktur von Release-4 (Nicht-TE-Satz) ist in Datei 1 (Abbildung S3) enthalten. Obwohl unser verifizierter Satz bekannter Genstrukturen einen deutlichen Mangel an Single-Exon-Genen aufweist, stimmt er insgesamt mit den anderen Auswahlen von Reisgenen überein und wird für unsere Zwecke hier als geeignet erachtet.

GENCODE-Anmerkungen für ENCODE-Regionen

Wir erhielten die ENCODE-Regionssequenzen, GENCODE-Annotationen und die verschiedenen EGASP-Annotationsdatensätze von der EGASP-ftp-Site [54]. Bei der Arbeit mit den heruntergeladenen Datendateien stießen wir auf einige Schwierigkeiten aufgrund inkonsistenter Dateiformate, inkonsistenter Annotation von Stop-Codons und Annotationsfunktionen, die über den Sequenzbereich hinausgehen. Wir haben daher jede Datendatei in ein strengeres GTF-Format konvertiert, Annotationen an den Grenzen der ENCODE-Regionen abgeschnitten und Stop-Codons hinzugefügt, wo sie offensichtlich fehlten. Die Vorhersagegenauigkeiten der EGASP-Datensätze wurden neu berechnet (zusätzliche Datendatei 1 [Abbildung S4]) und es wurde festgestellt, dass sie mit den zuvor gemeldeten Werten übereinstimmten kleine Unterschiede zwischen unseren neu berechneten Werten und zuvor veröffentlichten Werten sind wahrscheinlich aufgrund der geringfügigen Unterschiede in unserer angegebenen Implementierung von unsere Genauigkeitsbewertungssoftware und die Unterschiede, die sich aus unseren Dateikonvertierungen ergeben. Unsere verfeinerten Versionen der EGASP-Datensätze sind auf der EVM-Software-Website verfügbar [41].

Zusätzliche Beweise, die für die GENCODE-Annotationen zusammengestellt wurden, umfassten Homologien zu nicht-menschlichen Proteinen unter Verwendung von AAT-nap und GeneWise, Alignments zu zusammengesetzten tierischen ESTs, die aus dem Gene Index unter Verwendung von AAT-gap2 heruntergeladen wurden, und PASA-Alignment-Assemblies. Dieser zusätzliche Nachweis ist auch auf der EVM-Software-Site verfügbar [41].

EVM-Algorithmus

EVM berichtet über Konsensus-Genstrukturen als hoch bewertete Pfade durch einen gerichteten azyklischen Graphen, der vollständige Intron-, Exon- und intergenische Regionsmerkmale als Vertices enthält. Jedes der möglichen Merkmale wird basierend auf den Beweisen in Form der Genomsequenz berechnet, von Anfang an Genvorhersagen und die Transkript- und Protein-Alignments. Jede Art von Beweisen, wie der Name des Genvorhersageprogramms oder die Kombination aus Alignment-Methode und durchsuchter Sequenzdatenbank, hat einen zugehörigen numerischen Gewichtungswert. Dieser Gewichtswert wird entweder von Hand oder durch den unten beschriebenen Trainingsprozess eingestellt. Der Nachweis und die entsprechenden Gewichtungen werden verwendet, um die Exon-, Intron- und intergenischen Regionsmerkmale zu bewerten. Von EVM berichtete Konsensus-Genstrukturen werden berechnet, indem Exons, Introns und intergenische Regionen über die gesamte Genomsequenz hinweg so verbunden werden, dass die Reihe verbundener Komponenten die höchste kumulative Punktzahl liefert. Ein Beispiel für EVM, das auf einen Abschnitt des Reisgenoms angewendet wird, einschließlich der Komponenten des Bewertungssystems und des Merkmalssatzes, ist in Abbildung 5 dargestellt. Für große Genomsequenzen (>1 Megabase) werden die Daten in überlappende Segmente aufgeteilt und die EVM-Vorhersagen aus den separaten Partitionen werden anschließend zu einem einzigen nicht redundanten Satz von Vorhersagen zusammengefügt.

Zerlegung von Vorhersagen und Ausrichtungen in Exons und Introns

Exons eukaryotischer Genstrukturen werden üblicherweise als vier verschiedene Typen behandelt: anfängliches Exon, einschließlich des Startcodons zu einer Donor-Spleißstelle internes Exon, einschließlich einer Akzeptor-Spleißstelle zu einer Donor-Spleißstelle terminales Exon, einschließlich der Akzeptor-Spleißstelle zum Stoppcodon und das einzelne Exon, das einem intronlosen Gen vom Startcodon bis zum Stoppcodon entspricht. Dies sind die vier Arten von Exons, die von EVM berücksichtigt werden. Die von Anfang an Genvorhersagen, die als Eingaben für EVM bereitgestellt werden, werden in ihre Komponenten-Exons und Introns zerlegt und zu einem nicht redundanten entsprechenden Exon- oder Intron-Feature-Set hinzugefügt. Jedes Exon eines bestimmten Typs wird von EVM mit seinen Koordinaten, der Codonposition seiner führenden Basis und einer Liste aller Beweistypen, die es perfekt unterstützen, gespeichert. Introns werden ebenfalls als diskrete Merkmale basierend auf eindeutigen Koordinatenpaaren und ihren unterstützenden Beweisen gespeichert. Nur die Konsensus-GT- oder GC-Donor- und AG-Akzeptor-Dinukleotid-Spleißstellen werden von EVM als gültig behandelt. Von EVM wird keine maximale Intronlänge erzwungen, jedoch wird eine minimale Intronlänge von 20 bp festgelegt und kann nach Bedarf abgestimmt werden.

Protein- und Transkript-gespleißte Alignment-Eingaben in EVM sind standardmäßig nur in der Lage, interne Exons und Introns zum Funktionsumfang von EVM beizutragen. Gespleißte Ausrichtungen tragen interne Exons zum Merkmalssatz für diejenigen internen Ausrichtungssegmente bei, die Konsensus-Spleißstellen aufweisen und einen ORF in mindestens einem der drei Leserahmen kodieren. Ein internes Exon wird dem Merkmalssatz für jede auftretende Codonposition hinzugefügt, die einen ORF auf diesem Strang bereitstellt. Eine letzte Möglichkeit für Alignment-Daten, anfängliche, terminale oder einzelne Exons zum Merkmalssatz beizutragen, besteht darin, EVM . explizit solche Kandidaten-Exons bereitzustellen a priori. Dies ist ein Mechanismus, der es EVM ermöglicht, die von PASA bereitgestellten Genstrukturen besser zu nutzen. PASA umfasst Funktionen, um den längsten ORF innerhalb jeder PASA-Anordnung bereitzustellen, und EVM umfasst ein Dienstprogramm, das anfängliche, terminale und einzelne Exons aus Genstrukturen extrahiert, die dem längsten ORF innerhalb jeder PASA-Anordnung entsprechen. Diese Liste von PASA-basierten Exon-Kandidaten kann EVM direkt zur Verfügung gestellt werden. Interne Exons, die von PASA-Ausrichtungsbaugruppen bereitgestellt werden, sind im Merkmalssatz genauso enthalten wie andere Formen von oben beschriebenen gespleißten Ausrichtungsdaten.

Experimente, die am Reisgenom unter Verwendung von PASA-Beweisen als Input durchgeführt wurden, umfassten stattdessen die Struktur des längsten ORF (Mindestlänge von 50 Aminosäuren) innerhalb jeder PASA-Ausrichtungsanordnung anstelle der Ausrichtungsanordnungen selbst, ergänzt mit den terminalen Exon-Kandidaten, wie oben beschrieben. Diese längsten PASA-ORF-Strukturen wurden EVM als OTHER_PREDICTION-Evidenzklasse zur Verfügung gestellt. Die Verwendung der PASA-Daten auf diese Weise war notwendig, um im Rahmen des Genauigkeitsvergleichs des Reiskombinierers identische PASA-basierte Evidenz für die alternativen Annotationstools Glean und JIGSAW bereitzustellen.

Bewerten von Genommerkmalen

Die in Frage kommenden einzigartigen Exon-, Intron- und intergenischen Regions-Merkmalstypen leiten ihre Bewertung entweder von einer merkmalsspezifischen Bewertung und/oder einem entsprechenden Merkmalstyp-Bewertungsvektor ab, wie unten beschrieben. Für jede EVM-Beweisart wird angegeben, dass sie einen numerischen Gewichtungswert hat und zu einer der vier zulässigen Klassen gehört: PROTEIN, TRANSCRIPT, ABINITIO_PREDICTION oder OTHER_PREDICTION. Tabelle 1 zeigt den Bewertungsmechanismus für jeden Merkmalstyp und jede Klassifizierung. Die Hauptunterschiede zwischen diesen vier Beweisklassen bestehen darin, dass von den Klassen PROTEIN und TRANSCRIPT nicht erwartet wird, dass sie vollständige Genstrukturen vom Start- bis zum Stoppcodon kodieren, sondern stattdessen Komponenten von Genstrukturen wie interne Exons und im Fall der PROTEIN-Klasse ein Hinweis auf kodierende Nukleotide. Vollständige Genvorhersagen werden in die Klassen ABINITIO_PREDICTION und OTHER_PREDICTION unterteilt, wobei die Klasse ABINITIO_PREDICTION nichtkodierende intergenische Regionen vorhersagt (GeneMark.hmm) und OTHER_PREDICTION die Aufnahme hochspezifischer Formen vollständiger Vorhersagen ermöglicht, die nicht dazu gedacht sind, die nichtkodierenden intergenischen Regionen abzugrenzen ( Bekanntes Gen).

Ein Merkmalstyp-Scoring-Vektor enthält einen numerischen Wert für jedes Nukleotid in der Genomsequenz. Ein Nachweis, der zu einem Merkmalstyp-Bewertungsvektor beiträgt, trägt seinen entsprechenden Gewichtungswert zu jedem Nukleotid innerhalb der Spanne seiner Merkmalskoordinaten bei. Beweise, die einen merkmalsspezifischen Score beisteuern, tragen stattdessen einen Wert seiner (Gewicht × Merkmalslänge) zu diesem einzigartigen Merkmal bei, das er unterstützt, in diesem Fall entweder dieses vollständige Intron oder Exon. Exons leiten ihre Bewertungen aus einer Kombination von merkmalsspezifischen Bewertungen und einem entsprechenden Bewertungsvektor ab. In diesem Fall werden die merkmalsspezifischen Bewertungen mit den Werten im entsprechenden Bewertungsvektor für jede Nukleotidposition innerhalb seiner Spanne summiert. Zum Beispiel ein komplettes Feature mit Koordinaten ein zu B würde so gewertet:

Da jede Genvorhersage oder jedes gespleißte Alignment in seine Bestandteile zerlegt wird, tragen die Teile das Gewicht dieser Beweise zum Bewertungsschema bei. Zum Beispiel wird ein einzelnes gespleißtes Protein-Alignment in die Protein-Alignment-Segmente und dazwischenliegende Lücken zerlegt, was möglicherweise zu den Merkmalstypen Exon und Intron der Merkmalsklasse PROTEIN beiträgt. Diese 'perfekten' vollständigen Introns und Exons, die durch das Zerlegen dieser Protein-Alignment-Kette erhalten werden, werden dem Kandidaten-Exon- und Intron-Feature-Set hinzugefügt, wenn diese Features noch nicht existieren. Jedes Protein-Alignment-Segment trägt sein entsprechendes Beweisgewicht zu jeder überlappenden Nukleotidposition im Exon-Merkmalstyp-Bewertungsvektor bei. Jene Protein-Alignment-Lücken, die vollständigen Introns in unserem Feature-Set entsprechen, tragen einen Wert von (Gewicht × Länge) zum merkmalsspezifischen Score jedes entsprechenden Introns bei.

Die Fülle an Beweisen spiegelt sich sowohl in den merkmalsspezifischen als auch in den vektorisierten Scores wider. Beispielsweise existieren oft viele Proteinhomologien an einem gegebenen Locus. Jeder Proteindatenbank-Match (Zugriff) an einem gegebenen Locus wird separat bewertet, und so werden Exon und Introns, die durch riesige Mengen an Beweisen gestützt werden, Bewertungen haben, die sowohl das Gewicht als auch die Fülle dieser Beweise widerspiegeln.

Um Exons und Introns zu bewerten und die Speicheranforderungen zu minimieren, die zum Speichern der Bewertungsvektoren erforderlich sind, wird jeder Strang und der zugehörige Beweissatz zunächst separat untersucht. Beachten Sie, dass unsere endgültige Genvorhersage beide Stränge gleichzeitig untersucht. Während der anfänglichen strangbasierten Analyse werden verschiedene Exons und Introns aus den auf den analysierten Strang beschränkten Beweisen gesammelt und entsprechend bewertet. Nach dem Sammeln von richtig bewerteten Genstrukturkomponenten von jedem Strang werden sie zu einer einzigen Sammlung von Merkmalen von beiden DNA-Strängen zusammengefasst.

Dynamische Programmierung wird verwendet, um den Satz verbundener Exons, Introns und intergenischer Regionen mit der höchsten Punktzahl über die gesamte Genomsequenz zu finden (siehe Abbildung 5). Im Gegensatz zu Exon- und Intron-Merkmale werden die intergenischen Merkmale nicht vorberechnet und stattdessen während der dynamischen Programmierungsphase bewertet Feature-Spalier). Der Pfad mit der höchsten Bewertung der verbundenen Merkmale wird aus dem Merkmalsgitter extrahiert und in die einzelnen Genvorhersagen unterteilt. Eine Haupteinschränkung innerhalb unseres Feature-Trellis besteht darin, dass die Introns, die Exons verbinden, als explizite Komponenten unseres Feature-Sets existieren müssen Protein- oder Transkript-Alignment.

Beachten Sie, dass EVM standardmäßig lange Introns erneut untersucht, um verschachtelte Kandidatengene zu identifizieren. Obwohl wir diese Funktionalität für die automatisierte Annotation, insbesondere für Insektengenome, außerordentlich nützlich finden, wurde diese Funktion in keiner der hier beschriebenen Analysen verwendet. Obwohl sich aus der Suche nach verschachtelten Genen Verbesserungen der Sensitivität ergeben können, sind die Kosten für die Spezifität damit verbunden (Daten nicht gezeigt).

Verbesserung der intergenischen Scores von ungefähren Anfängen und Enden von Genen

Da die Evidenzklasse ABINITIO_PREDICTION die einzige Klasse ist, die explizit zur Vorhersage intergenerischer Regionen beiträgt und Fälle bewältigt, in denen der Konsens von von Anfang an Vorhersagen mehrere benachbarte Gene zu einer einzigen Genstruktur verschmilzt, ist besonders problematisch. Um den verschmolzenen Konsens in separate individuelle Vorhersagen aufzuteilen, würde die wahre intergenische Region eine Bewertung benötigen, die geeignet ist, die Alternative auszugleichen, wobei typischerweise ein vorhergesagtes Intron beinhaltet, das sich an verschiedene Loci anschließt. Um die Auswahl separater vollständiger Genstrukturen zu fördern, die durch Proteinhomologien anstelle des fusionierten Gens unterstützt werden, erhöht EVM die Bewertungen der intergenischen Regionen, die indirekt durch Proteinnachweise gestützt werden, wie unten ausgeführt.

Die ungefähren Grenzen von intergenischen Kandidatenregionen, die durch Proteinhomologien unterstützt werden, werden durch Untersuchung der Grenzen von Protein-Alignment-Ketten lokalisiert. Die Anfänge und Enden aller PROTEIN-Beweisstrukturen (die fernen Grenzen aller gespleißten Ausrichtungsketten, nicht der einzelnen Segmente) werden ausgezählt. Ein gleitendes Fenster von 300 Nukleotiden wird auf jeden Strang angewendet, und alle Peaks von Anfängen und Enden werden separat gezählt. Zusätzlich zu den Protein-Alignment-Ketten tragen auch die terminalen Exons, die durch die Extraktion langer ORFs aus PASA-Alignment-Assemblies bereitgestellt werden, zur Zählung von Kandidaten-Anfängen und -Enden von Genen bei.

Von jedem Anfangspeak wird ein entsprechendes anfängliches Exon aus dem Merkmalssatz lokalisiert. Der intergene Score für jedes Nukleotid vom anfänglichen Kandidaten-Exon stromaufwärts zum vorhergehenden Gen wird auf den maximalen intergenen Score gesetzt, der der Summe der Gewichte für ABINITIO_PREDICTION-Beweisklassen entspricht. Ebenso wird von jedem Kandidatengenende ein terminales Exon aus dem Merkmalssatz lokalisiert, und die Genomregion stromabwärts zum nächsten Gen wird auf den maximalen intergenischen Score eingestellt. Beachten Sie, dass einzelne Exon-Gene bei der Suche nach der nächstmöglichen benachbarten Genstruktur auch ähnlich wie anfängliche oder terminale Exons behandelt werden.

Obwohl diese Suche nach Gengrenzen nicht sehr präzise ist, funktioniert die hier verwendete Heuristik in der Praxis in der Regel akzeptabel. Die Wahl der richtigen Grenzen einer Genstruktur ist entscheidend für die korrekte Vorhersage des gesamten Gens, wie die größere Variabilität der anfänglichen und terminalen Exon-Vorhersage unter den verschiedenen . zeigt von Anfang an Programme zur Genvorhersage.

Filtern von EVM-Vorhersagen mit geringer Unterstützung

Anstatt die einzelne Genstruktur mit der besten Bewertung an jedem Locus anzugeben, berichtet EVM den Satz von Genstrukturen, die, wenn sie mit den dazwischenliegenden intergenischen Regionen verbunden sind, eine optimale kumulative Bewertung liefert. Es gibt manchmal Fälle, in denen zufällige Gene mit geringer Bewertung im vorläufigen EVM-Gensatz enthalten sind, hauptsächlich als Folge von ABINITIO_PREDICTION-Introns, die auf einem der Stränge in wirklich intergenischen Regionen aufgerufen werden. Um diese zufälligen Gene aus dem EVM-Genset zu entfernen, wird der Score jeder EVM-Vorhersage im Kontext von . erneut untersucht von Anfang an vorhergesagte Introns werden bewertet, als ob sie intergenische Regionen wären. Ein alternativer nicht-kodierender Score wird für jede EVM-Gen-Vorhersage berechnet, indem die vorhergesagten intergenischen Regionen mit dem . summiert werden von Anfang an vorhergesagte Intronregionen. Diese nicht codierende Bewertung wird dann mit der anfänglichen EVM-Vorhersagebewertung verglichen, und diejenigen EVM-Vorhersagen mit einem codierenden/nicht codierenden Bewertungsverhältnis unter 0,75 werden eliminiert. Ein Beispiel für eine EVM-Vorhersage mit niedriger Bewertung, die während dieser Nachbearbeitungsphase entfernt wurde, ist in Zusätzliche Datendatei 1 (Abbildung S5) dargestellt. In der EVM-Software ist eine Option verfügbar, um diese eliminierten Gene zu melden. In den Fällen, in denen alle Vorhersagen übereinstimmen, den Vorhersagen Introns fehlen und der entsprechende intergenische Score null ist, wird das Score-Verhältnis auf einen willkürlichen hohen Wert gesetzt und entsprechend gemeldet.

Bewertung der Vorhersagegenauigkeit

Die Genauigkeit der Genvorhersage (Sensitivität und Spezifität) wurde auf der Ebene von Nukleotiden, Exons, Transkripten und vollständigen Genen berechnet, wie zuvor beschrieben [10], jedoch mit leichten Modifikationen. Obwohl einige Genstrukturen untranslatierte Regionsannotationen enthalten, wurden bei der Berechnung der Genauigkeit nur die proteinkodierenden Teile jedes Exons berücksichtigt.

Bei unserer Bewertung der Referenzgenstrukturen in Reis wurde alternatives Spleißen ignoriert, und es wurde kein Versuch unternommen, einen Referenzgensatz für Reis zu generieren, der alternativ gespleißte Transkripte enthielt. Angesichts des einen Transkripts pro Gen im Reisdatensatz wären die Berechnungen der Genauigkeit der Genvorhersage daher notwendigerweise identisch mit den Berechnungen der Genauigkeit des Transkripts, und daher wurde nur die Genauigkeit der Genvorhersage berichtet. Obwohl jede Referenzgenregion als Input für EVM im Zusammenhang mit den flankierenden 30 kb der Genomsequenz und entsprechenden Beweisen bereitgestellt wurde, basierten alle Genauigkeitsberechnungen auf den Genvorhersagen, die aus der Referenzgenregion isoliert wurden, einschließlich einer flankierenden 500 bp. Bei unserem Vergleich der Genauigkeit von EVM mit den Annotationstools Glean und JIGSAW haben wir die aktuellsten Versionen der Software bezogen, die von den jeweiligen Sites verfügbar sind, nämlich Version 3.2.9 für JIGSAW [55] und Version 1.0.1 für GLEAN [56 ], direkt aus dem Subversion-Quell-Repository heruntergeladen.

Genauigkeitsberechnungen der humanen ENCODE-Genomregionen schlossen diese Regionen und entsprechende Vorhersagen in ihrer Gesamtheit ein. Angesichts der Tatsache, dass die GENCODE-Annotationen alternativ gespleißte Transkripte enthielten, war die Vorhersage von alternativ gespleißten Genen ein Hauptbestandteil unserer Analyse, und so wurden Berechnungen der Genauigkeit der Transkriptvorhersage zusammen mit vollständigen Gen-, Exon- und Nukleotidvorhersagegenauigkeiten berichtet.

Schätzung optimaler Evidenzgewichte

Der EVM-Trainingsprozess ist in drei Phasen unterteilt, die im Folgenden beschrieben werden:

Anfänglich optimierte PREDICTION-Gewichte

In the first stage, optimal weights are explored for the ABINITIO_PREDICTION class in isolation from evidence of the other classes. The proper balance between the evidence weights applied to exons, introns, and intergenic regions is explored to optimize gene prediction accuracy. Weights are randomly chosen for each von Anfang an gene prediction type and normalized so that they sum to one. EVM is applied to each reference gene and specified length of flanking region included. EVM prediction accuracy is measured, and a conglomerate accuracy score is computed as follows:

AccuracyScore = F + gSn + eSn

Where F = (2 × nSn × nSp)/(nSn + nSp), Sn = TP/(TP + FN), and Sp = TP/(TP + FP). (TP, FP, FN correspond to true positives, false positives, and false negatives, respectively. The nSn and nSp indicate nucleotide sensitivity and specificity, respectively.)

Twenty random trials are performed. The weight combination that yielded the greatest AccuracyScore is chosen. These weight values are gradually adjusted while applying gradient ascent to find weight values that improve performance.

Initially optimized best individual evidence weights

Using the combination of weights now temporarily fixed for the ABINITIO_PREDICTION evidence, each other evidence type is introduced separately to find the minimum corresponding weight that provides the greatest AccuracyScore in the context of the ABINITIO_PREDICTION types. The weight for the other evidence type is first set to zero and evaluated. Next, the weight is set to the average weight value of the ABINITIO_PREDICTION types and evaluated. Gradient ascent is performed to explore adjusted weight values and a higher scoring weight. The minimum weight value that yielded the highest AccuracyScore is initially assigned to the other evidence type.

Simultaneous application of all evidence and relative weight refinements

The weight values for all evidence types are adjusted to find weight combinations that demonstrate improved prediction accuracies when all evidence is examined simultaneously. Evidence types are examined in descending order of their initially set weight values computed from phase 1 (ABINITIO_PREDICTION) or phase 2 (other) above. Weight values are gradually adjusted and gradient ascent is applied to explore better performing weight value in the context of the other evidence types. Cycling through the evidence types in this manner occurs until no appreciable improvement in performance is observed, in which case the training process ceases and the final weight values are reported.

Evidence weights and EVM prediction accuracies encountered during the training process using the rice data are illustrated in Additional data file 1 (Figure S6).

Manual annotation of gene structures

The genome sequence, von Anfang an gene predictions, protein alignments, GeneWise predictions, and other plant EST alignments were examined using the Neomorphic/Affymetrix Annotation Station software (described by Haas and coworkers [28]). No rice transcript alignments either alone or in the context of PASA assemblies were made available to users so that we could reasonably estimate optimal gene structure annotation accuracy in the context of von Anfang an gene predictions and homologies to sequences derived from other organisms. A group of annotators were provided with the same data sets evaluated by EVM, only in graphical form. Annotators were instructed to model a gene structure in the targeted region that best reflected the available evidence using the Annotation Station software. Annotators were not allowed to examine the data deeper than the visual display provided. The sequence alignments themselves were not available except in the context of the glyphs highlighting their end points, and no additional sequence analyses such as running blast was allowed. The focus of this effort was not to measure the maximal accuracy of manual gene annotation accuracy in general, but only to measure the maximal possible accuracy of an automated annotation such as EVM given the restricted inputs.


Schau das Video: Was sind eukaryotische und prokaryotische Zellen?! (Kann 2022).