Information

Open Reading Frames vs Coding Sequences (CDS), unterscheiden sie sich?

Open Reading Frames vs Coding Sequences (CDS), unterscheiden sie sich?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Die beiden Begriffe verwirren mich schon lange. Was ist der Unterschied zwischen ORF und CDS. Manche Leute sagen, dass ORF Intron enthalten könnte und CDS nicht. Die Wikipedia-Definition von ORF enthält kein Intron. Könnte jemand die beiden Begriffe definieren und auf ihre Unterschiede hinweisen? Vielen Dank!


Ich mag (meistens) die Definitionen auf dieser Seite.

Ein ORF ist eine DNA-Sequenz, die mit dem Startcodon „ATG“ beginnt (nicht immer) und mit einem der drei Terminationscodons (TAA, TAG, TGA) endet. Je nach Ausgangspunkt gibt es sechs Möglichkeiten (drei am Vorwärtsstrang und drei am komplementären Strang), um eine beliebige Nukleotidsequenz gemäß dem genetischen Code in eine Aminosäuresequenz zu übersetzen. Diese werden als Leserahmen bezeichnet.

Die Coding Sequence (CDS) ist die eigentliche DNA-Region, die in Proteine ​​übersetzt wird. Während der ORF auch Introns enthalten kann, bezieht sich das CDS auf diejenigen Nukleotide (verkettete Exons), die in Codons unterteilt werden können, die tatsächlich von der ribosomalen Translationsmaschinerie in Aminosäuren übersetzt werden.

Allerdings stimme ich dieser Aussage nicht ganz zu:

Bei Prokaryoten sind ORF und CDS gleich.

Es stimmt zwar, dass alle CDSs in ORFs enthalten sind, aber nicht alle ORFs sind CDSs. Sie können ORFs haben, die als nicht-kodierende RNA-Elemente transkribiert werden, und ORFs, die überhaupt nicht transkribiert werden. CDS bezieht sich speziell auf die ORFs, deren posttranskriptionelles Schicksal übersetzt werden soll.


Open Reading Frames vs Coding Sequences (CDS), unterscheiden sie sich? - Biologie

Übersetzung und offene Leserahmensuche

DNA-Regionen, die Proteine ​​kodieren, werden zuerst in Boten-RNA transkribiert und dann in Protein übersetzt. Allein durch die Untersuchung der DNA-Sequenz können wir die Aminosäuresequenz bestimmen, die im endgültigen Protein erscheinen wird. Bei der Translation bestimmen Codons von drei Nukleotiden, welche Aminosäure als nächstes in der wachsenden Proteinkette hinzugefügt wird. Es ist dann wichtig zu entscheiden, mit welchem ​​Nukleotid die Translation gestartet und wann gestoppt werden soll. Dies wird als offener Leserahmen bezeichnet.

Nachdem ein Gen sequenziert wurde, ist es wichtig, den richtigen offenen Leserahmen (ORF) zu bestimmen. Jede DNA-Region hat sechs mögliche Leserahmen, drei in jede Richtung. Der verwendete Leserahmen bestimmt, welche Aminosäuren von einem Gen kodiert werden. Typischerweise wird bei der Translation eines Gens (in Eukaryoten) nur ein Leserahmen verwendet, und dies ist oft der längste offene Leserahmen. Sobald der offene Leserahmen bekannt ist, kann die DNA-Sequenz in ihre entsprechende Aminosäuresequenz translatiert werden. Ein offener Leserahmen beginnt bei den meisten Arten mit einem atg (Met) und endet mit einem Stoppcodon (taa, tag oder tga).

Beispielsweise kann die folgende DNA-Sequenz in sechs Leserastern gelesen werden. Drei in Vorwärts- und drei in Rückwärtsrichtung. Die drei Leserahmen in Vorwärtsrichtung sind mit den translatierten Aminosäuren unter jeder DNA-Sequenz gezeigt. Rahmen 1 beginnt mit dem "a", Rahmen 2 mit dem "t" und Rahmen 3 mit dem "g". Stopcodons sind durch ein "*" in der Proteinsequenz gekennzeichnet. Der längste ORF befindet sich in Frame 1 .


5' 3'
atg cccaagctgaatagcgtagaggggttttcatcatttgaggacgatgta taa

1 a tg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa
M P K L N S V E G F S S F E D D V *
2 t gc cca agc tga ata gcg tag agg ggt ttt katze ttg agg acg atg tat
C P S * I A * R G F H H L R T M Y
3 g cc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata
A Q A E * R R G V F I I * G R C I

Um eine DNA-Sequenz zu übersetzen, verwenden wir das Programm namens SIXFRAME auf der Biology Workbench. Oder Sie besuchen die Site direkt http://searchlauncher.bcm.tmc.edu/seq-util/Options/sixframe.html


1. Rufen Sie die Biologie-Workbench auf und setzen Sie die Sitzung fort oder erstellen Sie eine neue Sitzung.

2. Wählen Sie Nucleic Tools und wählen Sie dann die Sequenz aus, die Sie übersetzen möchten, indem Sie das Kontrollkästchen neben der Datei aktivieren.

3. Wählen Sie SIXFRAME und dann Ausführen aus.

4. Sie erhalten ein Feld, in dem Sie aufgefordert werden, verschiedene Parameter auszuwählen. Standardmäßig werden alle sechs Leserahmen der gesamten DNA-Sequenz übersetzt. Wenn Sie ``Längsten offenen Leserahmen anzeigen" auswählen, wählt das Programm automatisch den längsten Leserahmen aus, beginnend mit einem Startcodon (ATG) und endend mit einem Stoppcodon (TAA, TAG oder TGA). Dies ist sehr praktisch.

5. Nachdem Sie die Parameter ausgewählt haben, wählen Sie Senden.

  1. Alle sechs Leserahmen werden angezeigt. Stopcodons werden durch ein Sternchen (*) gekennzeichnet.
  2. Unten auf der Seite sehen Sie den ``Längsten ORF". Um diese Übersetzung Ihrer DNA zu importieren, klicken Sie alle anderen Kästchen neben jedem Leserahmen an und lassen Sie das Kästchen neben dem längsten ORF ausgewählt. Wählen Sie dann Importieren Reihenfolge.
  3. Unter Protein Tools wird eine neue Datei mit der übersetzten Aminosäuresequenz angezeigt.


Hintergrund

Pseudogene sind Genkopien, von denen angenommen wird, dass sie aufgrund von Frame-unterbrechenden Mutationen oder Transkriptions-Silencing defekt sind [1, 2]. Die meisten menschlichen Pseudogene (72%) stammen aus der Retrotransposition von prozessierten mRNAs, die durch Proteine ​​vermittelt wird, die vom LINE-1-Retrotransposon kodiert werden [3, 4]. Aufgrund des Verlusts der Eltern cis-regulatorischen Elementen wurden prozessierte Pseudogene zunächst als transkriptionell stumm angenommen [1] und von genomweiten funktionellen Screens und den meisten Transkriptomanalysen ausgeschlossen [2]. Transkriptomische Untersuchungen von Krebs [5] und normalem menschlichem Gewebe [6] mittels Hochdurchsatz-Short-Read-Sequenzierung legen nahe, dass die Pseudogen-Transkription weit verbreitet sein könnte. Studien zur Pseudogen-Transkription werden jedoch durch die begrenzte Fähigkeit der Short-Read-Sequenzierung und der Microarray-Hybridisierung behindert, Pseudogene von ihren sehr ähnlichen Elterngenen zu unterscheiden [2, 7]. Die meisten bisher gefundenen Pseudogen-Transkripte voller Länge wurden durch Kapillarsequenzierung von cDNA-Bibliotheken voller Länge mit relativ niedrigem Durchsatz identifiziert [8,9,10]. Infolgedessen bleibt die Ausdehnung des menschlichen Pseudogen-Transkriptoms in den meisten raumzeitlichen Kontexten weitgehend ungeklärt.

Pseudogen-Transkripte können die Expression ihrer Elterngene kontrollieren, indem sie als kompetitive endogene RNAs [11] (ceRNAs), Antisense-Transkripte [12], Vorläufer für kleine interferierende RNAs [13, 14] (siRNAs) und piwi-interagierende RNAs [15 ] (piRNAs). Während angenommen wird, dass die meisten Pseudogene durch nichtkodierende Mechanismen wirken, behalten einige die Fähigkeit, Proteine ​​in voller Länge oder verkürzte Proteine ​​zu kodieren [16,17,18,19].


Open Reading Frames vs Coding Sequences (CDS), unterscheiden sie sich? - Biologie

ORF (Open Reading Frame) kann am besten als Hypothese einer proteinkodierenden Region angesehen werden. Es ist die DNA-Strecke zwischen einem Startcodon und dem nächsten Stopcodon. Es ist keine Hypothese der gesamten proteinkodierenden Region in Eukaryoten (aufgrund von Introns). CDS sollte die gesamte kodierende Region sein.

Diese beiden Start-/Stopp-Codons könnten einfach sein nach dem Zufallsprinzip in einer intergenen Region gefunden, die eigentlich kein Protein kodiert – daher bedeutet nicht jeder ORF ein Protein. Zwischen dem eigentlichen Startcodon eines proteinkodierenden Gens und dem nächsten Stopcodon wird ein ORF gefunden. Es ist durchaus möglich, dass dieses Stopcodon in einem Intron gefunden wird, wobei der ORF dann ein Exon und einen Teil eines Introns enthält. Da Introns meist nur zufällige Sequenzen sind, könnte ein Stoppcodon zufällig auftreten. Wenn das Intron zufällig kein Stop-"Codon" enthält (dh 3 Nukleotide TAA/TAG/TGA im gleichen Leserahmen wie das Exon), dann wird der ORF fortgesetzt, bis er auf ein Stop-Codon trifft - entweder zufällig im nächsten Intron, sonst ein echter Stopp am Ende des Gens.

Wenn das Intron ohne Stopp ist nicht ein Vielfaches von 3 Nukleotiden, dann wird es eine Rasterverschiebung einführen, und der nächste Stopp könnte leicht innerhalb des nächsten Exons erfolgen. Wenn es ein Vielfaches von 3 ist, führt es falsche Aminosäuren in den ORF ein, während er durch das Intron und in das Exon fortschreitet. Diese Art von Fehlern sind bei der Gen-Annotation nicht ungewöhnlich, da die Intron-Detektion komplex ist und das Intron beim "Durchlesen" möglicherweise nicht annotiert wird, bis die cDNA-Sequenzen mit der Genomsequenz verglichen werden.

Wenn Sie eine Demonstration dieser Ideen sehen möchten, versuchen Sie, eine Sequenz von GenBank für ein Gen zu erhalten, das eine Leadersequenz 5'-UTR, Exons, Introns, 3'UTR enthält. Die CDS werden als solche annotiert und bestehen nur aus exonischen Regionen. Nehmen Sie diese Gensequenz und verwenden Sie den NCBI ORF-Finder, der alle möglichen ORFs umreißt. Einige davon, aber nicht alle, werden die eigentlichen Codierungsteile sein.


ÜBERSETZUNG : DNA-PROTEIN

SEITEN: Es gibt eine Reihe hervorragender Sites, die alle eine Translation in allen sechs Leserahmen ermöglichen. Ich würde "ORF Finder" wegen seiner Optik und Pipeline oder GeneMark empfehlen, wenn Sie ernsthaft daran interessiert sind, Gene innerhalb Ihrer Sequenz zu identifizieren. Die beiden letztgenannten Programme ermöglichen die Analyse langer Sequenzen (Einreichen per Anhang nicht im Karton).

Frameshift-Fehler:

AMIGene
Pfad :: Proteinrückübersetzung und -ausrichtung - befasst sich mit dem Problem des Auffindens entfernter Proteinhomologien, bei denen die Divergenz das Ergebnis von Rasterverschiebungsmutationen und -substitutionen ist. Bei zwei eingegebenen Proteinsequenzen richtet das Verfahren implizit alle möglichen Paare von DNA-Sequenzen aus, die sie codieren, indem speichereffiziente Graphendarstellungen des vollständigen Satzes von mutmaßlichen DNA-Sequenzen für jedes Protein manipuliert werden. (Referenz: Gîrdea M et al. 2010. Algorithms for Molecular Biology 5:)

Einfache Übersetzungswerkzeuge - DNA zu Proteinsequenzen:

Leserahmen-Finder öffnen (NCBI) - sucht nach offenen Leserastern (ORFs) in der von Ihnen eingegebenen DNA-Sequenz. Das Programm gibt den Bereich jedes ORFs zusammen mit seiner Proteintranslation zurück. Verwenden Sie den ORF-Finder, um neu sequenzierte DNA nach potenziellen proteinkodierenden Segmenten zu durchsuchen, das vorhergesagte Protein mit neu entwickeltem SMART BLAST oder regulärem BLASTP zu überprüfen.

Sechs-Frame-Übersetzungen können bei Tübingen, Russland, Bioline und Science Launcher durchgeführt werden.

EMBOSS Sixpack (EMBL-EBI) - liest eine DNA-Sequenz und gibt die drei Vorwärts- und (optional) drei Rückwärtsübersetzungen visuell aus. Alternativ EMBOSS Transeq . verwenden

MBS-Übersetzer (JustBio-Tools) - Eine ausgezeichnete neue Site, da man spezifisch von ATG translatieren kann und die Ergebnisse mit der Nukleotidsequenz präsentiert werden, die die Aminosäuresequenz überlagert. Ideal zum Ausschneiden/Einfügen in ein Manuskript. Sie müssen sich registrieren, um dieses kostenlose Tool zu verwenden. Andere schnelle Übersetzungstools finden Sie hier und hier.

Übersetzen (ExPASy, Schweiz) - ist ein Werkzeug, das die Translation einer Nukleotidsequenz (DNA/RNA) in eine Proteinsequenz ermöglicht.

DNA-zu-Protein-Translation (Universität des Baskenlandes, Spanien) und hier.

Übersetzung mehrerer Sequenzen:

Virtual Ribosom (Referenz: R. Wernersson. 2006. Nucl. Acids Res. 34 (Webserver-Problem): W385-388) - Ich finde, dass die Ausgabe der ersten beiden Sites optimal für die Übersetzung mehrerer DNA-Sequenzen ist.

RevTrans 1.4-Server (CBS, Dänische Technische Universität)

TranslatorX - ist ein Webserver, der entwickelt wurde, um proteinkodierende Nukleotidsequenzen basierend auf ihren entsprechenden Aminosäuretranslationen auszurichten. Zu den Neuheiten von TranslatorX gehören: (i) Verwendung aller dokumentierten genetischen Codes und die Möglichkeit, jeder Sequenz unterschiedliche genetische Codes zuzuordnen (ii) eine Reihe verschiedener multipler Alignment-Programme (iii) Translation mehrdeutiger Codons, wenn möglich (iv) ein innovatives Kriterium für saubere Nukleotid-Alignments mit GBlocks basierend auf Proteininformationen und (v) eine reichhaltige Ausgabe, einschließlich Jalview-gestützter grafischer Visualisierung der Alignments, Codon-basierte Alignments, die entsprechend den entsprechenden Aminosäuren gefärbt sind, Messungen der Zusammensetzungsabweichung und des ersten, zweiten und dritten Codons Positionsspezifische Ausrichtungen. (Referenz: Abascal F, et al. (2010) Nucleic Acids Res. 38: W7-13).


Open Reading Frames vs Coding Sequences (CDS), unterscheiden sie sich? - Biologie

Eine Datenbank mit Informationen über die Struktur von zusammengesetzten Genomen, Zusammenbaunamen und anderen Metadaten, statistischen Berichten und Links zu genomischen Sequenzdaten.

Ein kuratierter Satz von Metadaten für Kultursammlungen, Museen, Herbarien und andere naturkundliche Sammlungen. Die Datensätze enthalten Sammlungscodes, Informationen über die Heimatinstitutionen der Sammlungen und Links zu relevanten Daten bei NCBI.

Eine Sammlung von Studien zur Genomik, funktionellen Genomik und Genetik sowie Links zu den daraus resultierenden Datensätzen. Diese Ressource beschreibt den Projektumfang, das Material und die Ziele des Projekts und bietet einen Mechanismus zum Abrufen von Datensätzen, die aufgrund inkonsistenter Anmerkungen, mehrerer unabhängiger Einreichungen und der unterschiedlichen Natur unterschiedlicher Datentypen, die oft in verschiedenen Datenbanken gespeichert sind, oft schwer zu finden sind.

Die BioSample-Datenbank enthält Beschreibungen von biologischen Ausgangsmaterialien, die in experimentellen Assays verwendet werden.

Datenbank, die biomedizinische Literatur, kleine Moleküle und Sequenzdaten in Bezug auf biologische Beziehungen gruppiert.

Eine Sammlung biomedizinischer Bücher, die direkt oder aus verknüpften Daten in anderen NCBI-Datenbanken durchsucht werden können. Die Sammlung umfasst biomedizinische Lehrbücher, andere wissenschaftliche Titel, genetische Ressourcen wie z GeneReviews, und NCBI-Hilfehandbücher.

Eine Ressource zur Bereitstellung einer öffentlichen, nachverfolgten Aufzeichnung der gemeldeten Beziehungen zwischen menschlichen Variationen und beobachtetem Gesundheitszustand mit unterstützenden Beweisen. Zugehörige Informationen im NIH Genetic Testing Registry (GTR), MedGen, Gene, OMIM, PubMed und anderen Quellen sind über Hyperlinks in den Datensätzen zugänglich.

Eine Register- und Ergebnisdatenbank von öffentlich und privat unterstützten klinischen Studien an menschlichen Teilnehmern, die auf der ganzen Welt durchgeführt wurden.

Eine zentralisierte Seite mit Zugang und Links zu Ressourcen, die von der Structure Group der NCBI Computational Biology Branch (CBB) entwickelt wurden. Diese Ressourcen umfassen Datenbanken und Werkzeuge, die bei der Untersuchung von makromolekularen Strukturen, konservierten Domänen und Proteinklassifizierungen, kleinen Molekülen und ihrer biologischen Aktivität sowie biologischen Pfaden und Systemen helfen.

Eine gemeinsame Anstrengung zur Identifizierung eines Kernsatzes von Protein-kodierenden Regionen von Mensch und Maus, die konsistent annotiert und von hoher Qualität sind.

Eine Sammlung von Sequenz-Alignments und -Profilen, die Proteindomänen darstellen, die in der molekularen Evolution konserviert wurden. Es enthält auch Ausrichtungen der Domänen zu bekannten dreidimensionalen Proteinstrukturen in der MMDB-Datenbank.

Die dbVar-Datenbank wurde entwickelt, um Informationen zu archivieren, die mit großen genomischen Variationen verbunden sind, einschließlich großer Insertionen, Deletionen, Translokationen und Inversionen. Neben der Archivierung der Variationserkennung speichert dbVar auch Assoziationen definierter Varianten mit Phänotypinformationen.

Ein Archiv und Distributionszentrum für die Beschreibung und Ergebnisse von Studien, die das Zusammenspiel von Genotyp und Phänotyp untersuchen. Diese Studien umfassen die genomweite Assoziation (GWAS), die medizinische Resequenzierung, molekulardiagnostische Assays sowie die Assoziation zwischen Genotyp und nicht-klinischen Merkmalen.

Umfasst einzelne Nukleotidvariationen, Mikrosatelliten und kleine Insertionen und Deletionen. dbSNP enthält populationsspezifische Häufigkeits- und Genotypdaten, experimentelle Bedingungen, molekularen Kontext und Kartierungsinformationen sowohl für neutrale Variationen als auch für klinische Mutationen.

Die genetische Sequenzdatenbank des NIH, eine kommentierte Sammlung aller öffentlich zugänglichen DNA-Sequenzen. GenBank ist Teil der International Nucleotide Sequence Database Collaboration, die die DNA DataBank of Japan (DDBJ), das European Molecular Biology Laboratory (EMBL) und die GenBank des NCBI umfasst. Diese drei Organisationen tauschen täglich Daten aus. GenBank besteht aus mehreren Abteilungen, von denen die meisten über die Nucleotide-Datenbank zugänglich sind. Ausnahmen sind die EST- und GSS-Abteilungen, auf die über die Datenbanken Nucleotide EST bzw. Nucleotide GSS zugegriffen wird.

Eine durchsuchbare Datenbank mit Genen, die sich auf Genome konzentriert, die vollständig sequenziert wurden und die über eine aktive Forschungsgemeinschaft verfügen, die genspezifische Daten beisteuert. Die Informationen umfassen Nomenklatur, chromosomale Lokalisation, Genprodukte und ihre Attribute (z. B. Proteininteraktionen), zugehörige Marker, Phänotypen, Interaktionen und Links zu Zitaten, Sequenzen, Variationsdetails, Karten, Expressionsberichte, Homologe, Proteindomäneninhalt und externe Datenbanken .

Ein öffentliches Repository für funktionale Genomikdaten, das MIAME-konforme Datenübermittlungen unterstützt. Array- und sequenzbasierte Daten werden akzeptiert und Tools werden bereitgestellt, um Benutzern beim Abfragen und Herunterladen von Experimenten und kuratierten Genexpressionsprofilen zu helfen.

Speichert kuratierte Genexpressions- und molekulare Abundanz-DataSets, die aus dem Gene Expression Omnibus (GEO)-Repository zusammengestellt wurden. DataSet-Datensätze enthalten zusätzliche Ressourcen, einschließlich Clustertools und Abfragen für differenzielle Ausdrücke.

Speichert individuelle Genexpressions- und molekulare Abundanzprofile, die aus dem Gene Expression Omnibus (GEO)-Repository zusammengestellt wurden. Suchen Sie nach bestimmten Profilen von Interesse basierend auf Genannotationen oder vorberechneten Profilmerkmalen.

Eine Sammlung von von Experten verfassten, von Experten begutachteten Krankheitsbeschreibungen im NCBI Bookshelf, die genetische Tests auf die Diagnose, das Management und die genetische Beratung von Patienten und Familien mit bestimmten Erbkrankheiten anwenden.

Zusammenfassungen von Informationen zu ausgewählten genetischen Störungen mit Diskussionen zu den zugrunde liegenden Mutationen und klinischen Merkmalen sowie Links zu verwandten Datenbanken und Organisationen.

Ein freiwilliges Register von Gentests und Laboratorien mit detaillierten Informationen zu den Tests, wie z. B. was gemessen wird und analytische und klinische Validität. GTR ist auch ein Nexus für Informationen über genetische Bedingungen und bietet kontextspezifische Links zu einer Vielzahl von Ressourcen, einschließlich Praxisleitlinien, veröffentlichter Literatur und genetischen Daten/Informationen. Der ursprüngliche Anwendungsbereich von GTR umfasst Einzelgentests für Mendelsche Erkrankungen sowie Arrays, Panels und pharmakogenetische Tests.

Enthält Sequenz- und Kartendaten aus dem gesamten Genom von über 1000 Organismen. Die Genome repräsentieren sowohl vollständig sequenzierte Organismen als auch solche, für die eine Sequenzierung im Gange ist. Alle drei Hauptdomänen des Lebens (Bakterien, Archaeen und Eukaryonten) sind vertreten sowie viele Viren, Phagen, Viroide, Plasmide und Organellen.

Das Genome Reference Consortium (GRC) trägt die Verantwortung für die Referenzgenome von Mensch und Maus. Mitglieder sind das Genome Center der Washington University, das Wellcome Trust Sanger Institute, das European Bioinformatics Institute (EBI) und das National Center for Biotechnology Information (NCBI). Das GRC arbeitet daran, falsch dargestellte Loci zu korrigieren und verbleibende Montagelücken zu schließen. Darüber hinaus versucht das GRC, alternative Anordnungen für komplexe oder strukturell abweichende Genom-Loci bereitzustellen. Auf der GRC-Website (http://www.genomereference.org) kann die Öffentlichkeit derzeit untersuchte Genomregionen einsehen, genombezogene Probleme melden und das GRC kontaktieren.

Eine zentralisierte Seite mit Zugang und Links zu Glykoinformatik- und Glykobiologie-bezogenen Ressourcen.

Eine Datenbank bekannter Wechselwirkungen von HIV-1-Proteinen mit Proteinen von menschlichen Wirten. Es bietet kommentierte Bibliographien veröffentlichter Berichte über Proteininteraktionen mit Links zu den entsprechenden PubMed-Datensätzen und Sequenzdaten.

Eine Sammlung konsolidierter Datensätze, die Proteine ​​beschreiben, die in annotierten kodierenden Regionen in GenBank und RefSeq identifiziert wurden, sowie SwissProt- und PDB-Proteinsequenzen. Diese Ressource ermöglicht es Ermittlern, gezieltere Suchergebnisse zu erhalten und ein interessierendes Protein schnell zu identifizieren.

Eine Zusammenstellung von Daten aus dem NIAID Influenza Genome Sequencing Project und der GenBank. Es bietet Tools für die Analyse von Grippesequenzen, Anmerkungen und die Übermittlung an die GenBank. Diese Ressource enthält auch Links zu anderen Ressourcen zur Grippesequenz sowie zu Veröffentlichungen und allgemeinen Informationen über Grippeviren.

Teilmenge der NLM-Katalogdatenbank mit Informationen zu Zeitschriften, auf die in NCBI-Datenbankeinträgen verwiesen wird, einschließlich PubMed-Abstracts. Diese Teilmenge kann anhand des Zeitschriftentitels, der MEDLINE- oder ISO-Abkürzung, der ISSN oder der NLM-Katalog-ID durchsucht werden.

MeSH (Medical Subject Headings) ist das kontrollierte Vokabular der U.S. National Library of Medicine zur Indexierung von Artikeln für MEDLINE/PubMed. Die MeSH-Terminologie bietet eine konsistente Möglichkeit, Informationen abzurufen, die möglicherweise unterschiedliche Terminologie für dieselben Konzepte verwenden.

Ein Portal zu Informationen über medizinische Genetik. MedGen enthält Begriffslisten aus mehreren Quellen und organisiert sie in Konzeptgruppierungen und Hierarchien. Es werden auch Links zu Informationen zu diesen Konzepten in der NIH Genetic Testing Registry (GTR), ClinVar, Gene, OMIM, PubMed und anderen Quellen bereitgestellt.

Ein umfassendes Handbuch zum NCBI C++-Toolkit, einschließlich seines Design- und Entwicklungs-Frameworks, einer C++-Bibliotheksreferenz, Softwarebeispielen und -Demos, FAQs und Versionshinweisen. Das Handbuch ist online durchsuchbar und kann als eine Reihe von PDF-Dokumenten heruntergeladen werden.

Bietet Links zu Tutorials und Schulungsmaterialien, einschließlich PowerPoint-Folien und gedruckten Handouts.

Dieses Glossar ist Teil des NCBI-Handbuchs und enthält Beschreibungen von NCBI-Tools und -Akronymen, Bioinformatik-Begriffen und Datendarstellungsformaten.

Eine umfangreiche Sammlung von Artikeln über NCBI-Datenbanken und -Software. Jeder Artikel wurde für Anfänger entwickelt und bietet einen allgemeinen Überblick über die Ressource und ihr Design sowie Tipps zum Suchen und Verwenden verfügbarer Analysetools. Alle Artikel können online gesucht und im PDF-Format heruntergeladen werden. Auf das Handbuch kann über das NCBI-Bücherregal zugegriffen werden.

Das Hilfehandbuch ist über das NCBI-Bücherregal zugänglich und enthält Dokumentation für viele NCBI-Ressourcen, darunter PubMed, PubMed Central, das Entrez-System, Gene, SNP und LinkOut. Alle Kapitel können im PDF-Format heruntergeladen werden.

Ein Projekt, das die Sammlung und Analyse von genomischen Sequenzen bakterieller Pathogene umfasst, die aus Nahrungsmittel-, Umwelt- und Patientenisolaten stammen. Derzeit gruppiert und identifiziert eine automatisierte Pipeline Sequenzen, die hauptsächlich von Labors des öffentlichen Gesundheitswesens bereitgestellt werden, um die Untersuchung von lebensmittelbedingten Krankheitsausbrüchen zu unterstützen und potenzielle Quellen für Lebensmittelkontaminationen zu entdecken.

Bibliografische Daten für alle Zeitschriften, Bücher, audiovisuelle Medien, Computersoftware, elektronische Ressourcen und andere Materialien, die sich im Bestand der Bibliothek befinden.

Eine Sammlung von Nukleotidsequenzen aus verschiedenen Quellen, darunter GenBank, RefSeq, die Third Party Annotation (TPA)-Datenbank und PDB. Das Durchsuchen der Nukleotiddatenbank liefert verfügbare Ergebnisse aus jeder ihrer Komponentendatenbanken.

Eine Datenbank mit menschlichen Genen und genetischen Störungen. NCBI pflegt aktuelle Inhalte und unterstützt weiterhin deren Suche und Integration mit anderen NCBI-Datenbanken. OMIM hat jetzt jedoch ein neues Zuhause auf omim.org, und Benutzer werden auf diese Site geleitet, um vollständige Datensätze anzuzeigen.

Datenbank verwandter DNA-Sequenzen, die aus vergleichenden Studien stammen: phylogenetisch, populations-, umwelt- und in geringerem Maße mutationsbedingt. Jeder Datensatz in der Datenbank ist ein Satz von DNA-Sequenzen. Zum Beispiel liefert ein Populationssatz Informationen über die genetische Variation innerhalb eines Organismus, während ein phylogenetischer Satz Sequenzen und deren Ausrichtung eines einzelnen Gens enthalten kann, das von mehreren verwandten Organismen erhalten wurde.

Eine Sammlung verwandter Proteinsequenzen (Cluster), bestehend aus Referenzsequenzproteinen, die von vollständigen prokaryontischen und Organellen-Plasmiden und Genomen kodiert werden. Die Datenbank bietet einfachen Zugriff auf Anmerkungsinformationen, Veröffentlichungen, Domänen, Strukturen, externe Links und Analysetools.

Eine Datenbank, die Proteinsequenzaufzeichnungen aus einer Vielzahl von Quellen enthält, darunter GenPept, RefSeq, Swiss-Prot, PIR, PRF und PDB.

Eine Datenbank, die eine Sammlung von Modellen enthält, die homologe Proteine ​​mit einer gemeinsamen Funktion darstellen. Es umfasst konservierte Domänenarchitektur, Hidden-Markov-Modelle und BlastRules. Eine Teilmenge dieser Modelle wird von der Prokaryotic Genome Annotation Pipeline (PGAP) verwendet, um den vorhergesagten Proteinen Namen und andere Attribute zuzuweisen.

Besteht aus hinterlegten Bioaktivitätsdaten und Beschreibungen von Bioaktivitätsassays, die zum Screening der in der PubChem-Substance-Datenbank enthaltenen chemischen Substanzen verwendet werden, einschließlich Beschreibungen der Bedingungen und der für das Screening-Verfahren spezifischen Messwerte (Bioaktivitätsniveaus).

Enthält einzigartige, validierte chemische Strukturen (kleine Moleküle), die anhand von Namen, Synonymen oder Schlüsselwörtern durchsucht werden können. Die zusammengesetzten Datensätze können mit mehr als einem PubChem-Substance-Datensatz verknüpft sein, wenn verschiedene Einleger dieselbe Struktur bereitgestellt haben. Diese Compound-Aufzeichnungen spiegeln validierte chemische Darstellungsinformationen wider, die zur Beschreibung von Substanzen in PubChem Substance bereitgestellt werden. In PubChem Compounds gespeicherte Strukturen sind vorab gruppiert und weisen Querverweise nach Identitäts- und Ähnlichkeitsgruppen auf. Darüber hinaus stehen berechnete Eigenschaften und Deskriptoren zum Suchen und Filtern chemischer Strukturen zur Verfügung.

PubChem-Substance-Datensätze enthalten Substanzinformationen, die von Einlegern elektronisch an PubChem übermittelt wurden. Dazu gehören alle übermittelten Informationen zur chemischen Struktur sowie chemische Namen, Kommentare und Links zur Website des Einlegers.

Eine Datenbank mit Zitaten und Abstracts für biomedizinische Literatur aus MEDLINE und weiteren Life-Science-Zeitschriften. Links werden bereitgestellt, wenn Volltextversionen der Artikel über PubMed Central (unten beschrieben) oder andere Websites verfügbar sind.

Ein digitales Archiv mit Volltextliteratur aus biomedizinischen und biowissenschaftlichen Zeitschriften, einschließlich klinischer Medizin und öffentlicher Gesundheit.

RefSeqGene Eine Sammlung von humangenspezifischen Referenzgenomsequenzen. Das RefSeq-Gen ist eine Untermenge der RefSeq-Datenbank des NCBI und wird auf der Grundlage der Überprüfung durch Kuratoren ortsspezifischer Datenbanken und der Gentest-Community definiert. Sie bilden eine stabile Grundlage, um Mutationen zu melden, konsistente Intron- und Exon-Nummerierungskonventionen zu etablieren und die Koordinaten anderer biologisch signifikanter Variationen zu definieren. RefSeqGene ist Teil der Locus Reference Genomic (LRG) Collaboration. Referenzsequenz (RefSeq)

Eine Sammlung kuratierter, nicht redundanter genomischer DNA-, Transkript- (RNA) und Proteinsequenzen, die von NCBI produziert werden. RefSeqs bieten eine stabile Referenz für Genom-Annotation, Genidentifikation und -charakterisierung, Mutations- und Polymorphismus-Analyse, Expressionsstudien und vergleichende Analysen. Auf die RefSeq-Sammlung wird über die Nukleotid- und Proteindatenbanken zugegriffen.

Eine Sammlung von Ressourcen, die speziell zur Unterstützung der Erforschung von Retroviren entwickelt wurden, darunter ein Genotypisierungstool, das den BLAST-Algorithmus verwendet, um den Genotyp einer Abfragesequenz zu identifizieren, ein Alignment-Tool für das globale Alignment mehrerer Sequenzen, ein automatisches HIV-1-Sequenzannotationstool und annotierte Karten zahlreicher Retroviren, die in GenBank-, FASTA- und Grafikformaten angezeigt werden können, mit Links zu zugehörigen Sequenzaufzeichnungen.

Eine Zusammenfassung der Daten zum SARS-Coronavirus (CoV), einschließlich Links zu den neuesten Sequenzdaten und Veröffentlichungen, Links zu anderen SARS-bezogenen Ressourcen und einem vorab berechneten Alignment von Genomsequenzen aus verschiedenen Isolaten.

Das Sequence Read Archive (SRA) speichert Sequenzierungsdaten der nächsten Generation von Sequenzierungsplattformen, darunter Roche 454 GS System®, Illumina Genome Analyzer®, Life Technologies AB SOLiD System®, Helicos Biosciences Heliscope®, Complete Genomics® und Pacific Biosciences SMRT® .

Enthält aus der Proteindatenbank abgeleitete makromolekulare 3D-Strukturen sowie Werkzeuge für deren Visualisierung und vergleichende Analyse.

Enthält die Namen und phylogenetischen Abstammungslinien von mehr als 160.000 Organismen, die molekulare Daten in den NCBI-Datenbanken haben. Neue Taxa werden der Taxonomie-Datenbank hinzugefügt, wenn Daten für sie hinterlegt werden.

Eine Datenbank, die Sequenzen enthält, die aus den vorhandenen Primärsequenzdaten in GenBank erstellt wurden. Die Sequenzen und die dazugehörigen Annotationen sind experimentell unterstützt und wurden in einer von Experten begutachteten wissenschaftlichen Zeitschrift veröffentlicht. TPA-Datensätze werden über die Nukleotid-Datenbank abgerufen.

Ein Repository von DNA-Sequenzchromatogrammen (Spuren), Base-Calls und Qualitätsschätzungen für Single-Pass-Reads aus verschiedenen groß angelegten Sequenzierungsprojekten.

Eine breite Palette von Ressourcen, einschließlich einer kurzen Zusammenfassung der Biologie von Viren, Links zu viralen Genomsequenzen in Entrez Genome und Informationen zu viralen Referenzsequenzen, einer Sammlung von Referenzsequenzen für Tausende von viralen Genomen.

Eine Erweiterung der Influenza-Virus-Ressource auf andere Organismen, die eine Schnittstelle zum Herunterladen von Sequenzsätzen ausgewählter Viren, Analysetools, einschließlich virusspezifischer BLAST-Seiten, und Genom-Annotationspipelines bietet.

Downloads

Ausführbare BLAST-Dateien zur lokalen Verwendung werden für Solaris-, LINUX-, Windows- und MacOSX-Systeme bereitgestellt. Weitere Informationen finden Sie in der README-Datei im ftp-Verzeichnis. Vorformatierte Datenbanken für BLAST-Nukleotid-, Protein- und übersetzte Suchen stehen ebenfalls zum Download im Unterverzeichnis db zur Verfügung.

Sequenzdatenbanken zur Verwendung mit den eigenständigen BLAST-Programmen. Die Dateien in diesem Verzeichnis sind vorformatierte Datenbanken, die mit BLAST verwendet werden können.

Diese Site bietet vollständige Datensätze für CDD, zusammen mit individuellen Positionsspezifischen Scoring-Matrizen (PSSMs), mFASTA-Sequenzen und Annotationsdaten für jede konservierte Domäne. Ausführliche Informationen finden Sie in der README-Datei.

Diese Site bietet vollständige Datenextraktionen in XML und zusammenfassende Daten im VCF-Format. Es enthält Dateien mit Informationen zu Standardbegriffen, die in ClinVar, MedGen und GTR verwendet werden.

Sequenzdatenbanken im FASTA-Format zur Verwendung mit den eigenständigen BLAST-Programmen. Diese Datenbanken müssen mit formatdb formatiert werden, bevor sie mit BLAST verwendet werden können.

Diese Site enthält Dateien für alle Sequenzdatensätze in GenBank im standardmäßigen Flatfile-Format. Die Dateien sind nach GenBank-Abteilungen geordnet und der vollständige Inhalt ist in der Datei README.genbank beschrieben.

Die Proteinsequenzen, die den Übersetzungen von kodierenden Sequenzen (CDS) in GenBank entsprechen, werden für jede GenBank-Version gesammelt. Weitere Informationen finden Sie in der README-Datei im Verzeichnis.

Diese Site enthält drei Verzeichnisse: DATA, GeneRIF und Tools. Das DATA-Verzeichnis enthält Dateien, die alle mit GeneIDs verknüpften Daten auflisten, zusammen mit Unterverzeichnissen, die ASN.1-Daten für die Gene-Datensätze enthalten. Das Verzeichnis GeneRIF (Gene References into Function) enthält PubMed-Identifikatoren für Artikel, die die Funktion eines einzelnen Gens oder Wechselwirkungen zwischen Produkten zweier Gene beschreiben. Beispielprogramme zum Manipulieren von Gendaten finden Sie im Tools-Verzeichnis. Einzelheiten entnehmen Sie bitte der README-Datei.

Diese Site enthält GEO-Daten in zwei Formaten: SOFT (Simple Omnibus in Text Format) und MINIML (MIAME Notation in Markup Language). Es stehen auch zusammenfassende Textdateien und ergänzende Daten zur Verfügung. Weitere Informationen finden Sie in der Datei README.TXT.

Diese Site enthält Genomsequenz- und Kartierungsdaten für Organismen im Entrez-Genom. Die Daten sind in Verzeichnissen für einzelne Arten oder Artengruppen organisiert. Kartierungsdaten werden im Verzeichnis MapView gesammelt und nach Arten geordnet. Ausführliche Informationen finden Sie in der README-Datei im Root-Verzeichnis und in den README-Dateien in den Spezies-Unterverzeichnissen.

Enthält Verzeichnisse für jedes Genom, die verfügbare Mapping-Daten für aktuelle und frühere Builds dieses Genoms enthalten.

Diese Site enthält die vollständige Taxonomie-Datenbank zusammen mit Dateien, die Nukleotid- und Proteinsequenzaufzeichnungen mit ihren Taxonomie-IDs verknüpfen. Weitere Informationen finden Sie in den Dateien taxdump_readme.txt und gi_taxid.readme.

Diese Site bietet Daten aus den PubChem-Datenbanken für Substanz, Verbindung und Bioassay zum Herunterladen über FTP. Vollständige Downloads der Datenbanken sind zusammen mit täglichen, wöchentlichen und monatlichen Updates für Substanz und Verbindung verfügbar. Stoff- und Verbunddaten werden in den Formaten ASN.1, SDF und XML bereitgestellt. Weitere Informationen finden Sie in den README-Dateien.

Diese Site enthält alle Nukleotid- und Proteinsequenzaufzeichnungen in der Reference Sequence (RefSeq)-Sammlung. Das Verzeichnis ""release"" enthält die aktuellste Version der gesamten Sammlung, während Daten für ausgewählte Organismen (wie Mensch, Maus und Ratte) in separaten Verzeichnissen verfügbar sind. Die Daten sind in FASTA- und Flatfile-Formaten verfügbar. Weitere Informationen finden Sie in der README-Datei.

Diese Site enthält SKY-CGH-Daten in den Formaten ASN.1, XML und EasySKYCGH. Weitere Informationen finden Sie in der Datei skycghreadme.txt.

Herunterladbare Daten für SNP.

Diese Site enthält Sequenzierungsdaten der nächsten Generation, die vom eingereichten Sequenzierungsprojekt organisiert wurden.

FTP-Download-Site für NCBI-Datenbanken, -Tools und -Dienstprogramme.

Diese Site enthält ASN.1-Daten für alle Datensätze in MMDB zusammen mit VAST-Alignment-Daten und den nicht redundanten PDB (nr-PDB)-Datensätzen. Weitere Informationen finden Sie in der README-Datei.

Diese Site enthält die Spurenchromatogrammdaten, die nach Spezies geordnet sind. Zu den Daten gehören Chromatogramme, Qualitätsbewertungen, FASTA-Sequenzen aus automatischen Basenaufrufen und andere Zusatzinformationen in tabulatorgetrenntem Text sowie im XML-Format. Weitere Informationen finden Sie in der README-Datei.

Diese Site enthält die Datenbanken UniVec und UniVec_Core im FASTA-Format. Weitere Informationen finden Sie in der Datei README.uv.

Diese Site enthält Sequenzdaten zu ganzen Schrotflinten, die nach dem 4-stelligen Projektcode organisiert sind. Die Daten umfassen GenBank- und GenPept-Flatfiles, Qualitätsbewertungen und zusammenfassende Statistiken. Weitere Informationen finden Sie in der Datei README.genbank.wgs.

Open-Access-Daten umfassen im Allgemeinen Zusammenfassungen von Genotyp/Phänotyp-Assoziationsstudien, Beschreibungen der gemessenen Variablen und Studiendokumente wie Protokoll und Fragebögen. Der Zugriff auf Daten auf individueller Ebene, einschließlich phänotypischer Datentabellen und Genotypen, erfordert unterschiedliche Berechtigungsstufen.

NLM vermietet MEDLINE/PubMed an US-Personen oder -Organisationen.

Spezifikationen für NCBI-Daten im ASN.1- oder DTD-Format sind auf der Seite Index of data_specs verfügbar. Die "NCBI_data_conversion.html" verlinkt auf das Konvertierungstool.

Eine Suite von Tag-Sets zum Verfassen und Archivieren von Zeitschriftenartikeln sowie zum Übertragen von Zeitschriftenartikeln von Verlagen zu Archiven und zwischen Archiven. Es gibt vier Tag-Sets: Archiving and Interchange Tag Set – Erstellt, um einem Archiv zu ermöglichen, so viele strukturelle und semantische Komponenten von vorhandenem gedruckten und mit Tags versehenen Zeitschriftenmaterial so bequem wie möglich zu erfassen Tag-Set für Journal Publishing – Optimiert für Archive, die eine Regularisierung wünschen und ihren Inhalt zu kontrollieren, die Reihenfolge und Anordnung, die ihnen von einem bestimmten Verlag präsentiert wird, nicht zu akzeptieren.

Mit diesem Dienst können Benutzer Verbindungen oder Substanzdatensätze herunterladen, die einer Reihe von PubChem-Identifikatoren entsprechen, die manuell oder über eine Textdatei bereitgestellt werden können. Es stehen zahlreiche Download-Formate zur Verfügung, darunter SDF, XML und SMILES.

Das PMC Open-Access Subset ist ein relativ kleiner Teil der gesamten Sammlung von Artikeln in PMC. Während die meisten Artikel in PMC traditionellen Urheberrechtsbeschränkungen unterliegen, sind diese Artikel urheberrechtlich geschützt, werden jedoch unter einer Creative Commons- oder ähnlichen Lizenz zur Verfügung gestellt, die im Allgemeinen eine großzügigere Weiterverteilung und Wiederverwendung als ein traditionelles Urheberrecht ermöglicht. Die spezifischen Nutzungsbedingungen entnehmen Sie bitte der Lizenzerklärung in jedem Artikel.

Abonnieren Sie Web-/RSS-Feeds für Updates zu NCBI-Ressourcen.

Einreichungen

Ein Online-Formular, das Forschenden, Konsortien und Organisationen eine Schnittstelle zur Registrierung ihrer BioProjekte bietet. Dies dient als Ausgangspunkt für die Einreichung von genomischen und genetischen Daten für die Studie. Die Daten müssen bei der BioProject-Registrierung nicht angegeben werden.

Richtlinien und Hinweise zur Abgabe von Aussagen zur Pathogenität humaner genetischer Varianten. Diese Einreichungen können zusammenfassende Daten zu einer Variante (Variantenebene/aggregierte Daten) enthalten. Unterstützung für Varianten pro Fall (Fallebene) befindet sich in der Entwicklung.

Richtlinien und Anforderungen für die Übermittlung von Genotyp- und Phänotyp-Assoziationsdaten an dbGaP.

Ein webbasiertes Tool zur Einreichung von Sequenzen für eine oder mehrere Einreichungen an die GenBank-Datenbank, das den Einreichungsprozess schnell und einfach macht.

Tool zur Übermittlung von Barcode-Kurznukleotidsequenzen von einem standardmäßigen genetischen Locus an die GenBank-Datenbank zur Verwendung bei der Artenidentifikation.

Ein vom NCBI entwickeltes eigenständiges Softwaretool zum Senden und Aktualisieren von Einträgen an öffentliche Sequenzdatenbanken (GenBank, EMBL oder DDBJ). Es ist in der Lage, einfache Einreichungen mit einer einzelnen kurzen mRNA-Sequenz, komplexe Einreichungen mit langen Sequenzen, mehrere Annotationen, segmentierte DNA-Sätze sowie Sequenzen aus phylogenetischen und Populationsstudien mit Alignments zu verarbeiten. Verwenden Sie für eine einfache Einreichung stattdessen das Online-Einreichungstool BankIt.

Ein Befehlszeilenprogramm, das die Erstellung von Sequenzdatensätzen zur Übermittlung an GenBank mit vielen der gleichen Funktionen wie Sequin automatisiert. Es wird hauptsächlich für die Übermittlung kompletter Genome und großer Sequenzen verwendet.

Senden Sie Expressionsdaten wie Microarray-, SAGE- oder Massenspektrometrie-Datensätze an die NCBI Gene Expression Omnibus (GEO)-Datenbank.

GeneRIF bietet einen einfachen Mechanismus, mit dem Wissenschaftler die funktionelle Annotation von Genen in der Gendatenbank ergänzen können.

Richtlinien und Anweisungen für die Registrierung von Labors und die Übermittlung von genetischen Testinformationen, einschließlich klinischer und Forschungstests für Keimbahn- oder somatische Testziele. GTR begrüßt die Registrierung zytogenetischer, biochemischer und molekularer Tests für Mendelsche Erkrankungen, pharmakogenetische Phänotypen und komplexe Panels.

Das NIH Manuscript Submission (NIHMS) System wird verwendet, um Manuskripte, die aus NIH-Finanzierungen stammen, in Übereinstimmung mit der NIH Public Access Policy und dem von ihr implementierten Gesetz an das PubMed Central Digitalarchiv einzureichen. Das Gesetz und die Public Access Policy sollen sicherstellen, dass die Öffentlichkeit Zugang zu den veröffentlichten Ergebnissen der NIH-finanzierten Forschung hat.

Diese Site ermöglicht es Benutzern, Daten an die PubChem-Substance- und BioAssay-Datenbanken zu übermitteln, einschließlich chemischer Strukturen, experimenteller biologischer Aktivitätsergebnisse, Anmerkungen, siRNA-Daten und mehr. Es kann auch verwendet werden, um zuvor übermittelte Datensätze zu aktualisieren.

Die Seite mit den SNP-Datenbanktools enthält Links zu den allgemeinen Richtlinien für die Einreichung und zum Antrag auf Übermittlungshandhabung. Die Seite enthält auch zwei spezifische Links für die Einzel- oder Batch-Einreichung der Human-Variationsdaten unter Verwendung der Nomenklatur der Human Genome Variation Society.

Dieser Link beschreibt, wie Einreicher von SRA-Daten eine sichere NCBI-FTP-Site für ihre Daten erhalten können, und beschreibt auch die zulässigen Datenformate und Verzeichnisstrukturen.

Ein einziger Einstiegspunkt für Einreicher, um sich mit allen Datenübermittlungsprozessen bei NCBI zu verlinken und Informationen zu ihnen zu finden. Diese dient derzeit als Schnittstelle zur Registrierung von BioProjects und BioSamples und zur Datenübermittlung für WGS und GTR. Zukünftige Ergänzungen dieser Seite sind geplant.

Dieser Link beschreibt, wie Absender von Ablaufverfolgungsdaten eine sichere NCBI-FTP-Site für ihre Daten erhalten können, und beschreibt auch die zulässigen Datenformate und Verzeichnisstrukturen.

Werkzeuge

Ein interaktiver grafischer Viewer, der es Benutzern ermöglicht, Variantenaufrufe, Genotypaufrufe und unterstützende Beweise (wie Aligned Sequence Reads) zu untersuchen, die vom 1000 Genomes Project erstellt wurden.

Dieses Tool ermöglicht es Benutzern, die Eigenschaften von Aminosäuren zu untersuchen, indem sie ihre strukturellen und chemischen Eigenschaften vergleichen, Veränderungen der Proteinsequenz durch Mutationen vorhersagen, häufige Substitutionen anzeigen und die Funktionen bestimmter Reste in konservierten Domänen durchsuchen.

Führt eine BLAST-Suche nach ähnlichen Sequenzen aus ausgewählten vollständigen eukaryotischen und prokaryotischen Genomen durch.

Führt eine BLAST-Suche der genomischen Sequenzen im RefSeqGene/LRG-Set durch. Die Standardanzeige bietet eine einfache Navigation, um Ausrichtungen in der Grafikanzeige zu überprüfen.

Diese Seite verlinkt zu einer Reihe von BLAST-bezogenen Tutorials und Leitfäden, einschließlich einer Auswahlhilfe für BLAST-Algorithmen, Beschreibungen der BLAST-Ausgabeformate, Erläuterungen der Parameter für eigenständiges BLAST, Anweisungen zum Einrichten von eigenständigem BLAST auf lokalen Computern und mit der BLAST-URL-API.

Findet Regionen mit lokaler Ähnlichkeit zwischen biologischen Sequenzen. Das Programm vergleicht Nukleotid- oder Proteinsequenzen mit Sequenzdatenbanken und berechnet die statistische Signifikanz von Übereinstimmungen. BLAST kann verwendet werden, um funktionelle und evolutionäre Beziehungen zwischen Sequenzen abzuleiten sowie Mitglieder von Genfamilien zu identifizieren.

Ermöglicht das Abrufen von Datensätzen aus vielen Entrez-Datenbanken durch Hochladen einer Datei mit GI- oder Zugangsnummern aus den Nukleotid- oder Protein-Datenbanken oder einer Datei mit eindeutigen Identifikatoren aus anderen Entrez-Datenbanken. Suchergebnisse können in verschiedenen Formaten direkt in einer lokalen Datei auf Ihrem Computer gespeichert werden.

Eine eigenständige Anwendung zur Klassifizierung von Proteinsequenzen und zur Untersuchung ihrer evolutionären Beziehungen. CDTree kann vorhandene Conserved Domain (CDD)-Datensätze und -Hierarchien importieren, analysieren und aktualisieren und ermöglicht es Benutzern auch, eigene zu erstellen. CDTree ist eng mit Entrez CDD und Cn3D integriert und ermöglicht Benutzern die Erstellung und Aktualisierung von Proteindomänen-Alignments.

COBALT ist ein Protein-Mehrfachsequenz-Alignment-Tool, das mithilfe von RPS-BLAST, BLASTP und PHI-BLAST eine Sammlung von paarweisen Einschränkungen findet, die aus einer Datenbank für konservierte Domänen, Proteinmotivdatenbanken und Sequenzähnlichkeiten abgeleitet sind.

Eine eigenständige Anwendung zum Anzeigen von dreidimensionalen Strukturen aus dem NCBI-Abrufdienst Entrez. Cn3D läuft auf Windows, Macintosh und UNIX und kann so konfiguriert werden, dass es Daten von den meisten gängigen Webbrowsern empfängt. Cn3D zeigt gleichzeitig Struktur, Sequenz und Ausrichtung an und verfügt über leistungsstarke Funktionen zum Bearbeiten von Anmerkungen und Ausrichtungen.

Als Teil des NCBI-Bücherregals kombiniert Coffee Break Berichte über neueste biomedizinische Entdeckungen mit der Verwendung von NCBI-Tools. Jeder Bericht enthält interaktive Tutorials, die zeigen, wie NCBI-Bioinformatik-Tools als Teil des Forschungsprozesses verwendet werden.

Zeigt die funktionellen Domänen an, aus denen eine bestimmte Proteinsequenz besteht. Es listet Proteine ​​mit ähnlichen Domänenarchitekturen auf und kann Proteine ​​abrufen, die bestimmte Kombinationen von Domänen enthalten.

Identifiziert die konservierten Domänen, die in einer Proteinsequenz vorhanden sind. CD-Search verwendet RPS-BLAST (Reverse Position-Specific BLAST), um eine Abfragesequenz mit positionsspezifischen Score-Matrizen zu vergleichen, die aus konservierten Domänen-Alignments in der Conserved Domain Database (CDD) erstellt wurden.

Tools, die den Zugriff auf Daten innerhalb des Entrez-Systems von NCBI außerhalb der regulären Web-Abfrageschnittstelle ermöglichen. Sie bieten eine Methode zur Automatisierung von Entrez-Aufgaben innerhalb von Softwareanwendungen. Jedes Dienstprogramm führt eine spezielle Abrufaufgabe aus und kann einfach durch Schreiben einer speziell formatierten URL verwendet werden.

Ein Tool, mit dem Benutzer mithilfe eines Online-Formulars eine E-Utility-Analysepipeline erstellen und dann ein Perl-Skript zum Ausführen der Pipeline generieren können.

Werkzeug zum Abgleichen einer Abfragesequenz (Nukleotid oder Protein) mit GenBank-Sequenzen, die auf Microarray- oder SAGE-Plattformen in der GEO-Datenbank enthalten sind.

Zeigt die genetischen Codes für Organismen in der Taxonomie-Datenbank in Tabellen und in einem taxonomischen Baum an.

Dieses Tool vergleicht Nukleotid- oder Proteinsequenzen mit genomischen Sequenzdatenbanken und berechnet die statistische Signifikanz von Übereinstimmungen unter Verwendung des Basic Local Alignment Search Tool (BLAST)-Algorithmus.

Ein Genom-Browser für die interaktive Navigation von eukaryotischen RefSeq-Genom-Assemblies mit umfassender Inspektion von Genen, Expression, Variation und anderen Annotationen. GDV bietet einfach zu ladende Vorkonfigurationen für analytische Tracks, ein Menü mit Datentracks zur einfachen Anzeige und Anpassung und unterstützt das Hochladen und Analysieren von Benutzerdaten. Dieser Browser ermöglicht auch die Erstellung von Displays für die Veröffentlichung.

Ein Online-Tool, das bei der Erstellung von Zahlen in Journalqualität von Anmerkungen zu einem Ideogramm oder einer Sequenzdarstellung einer Baugruppe hilft.

Das Remap-Tool von NCBI ermöglicht es Benutzern, Annotationsdaten zu projizieren und Positionen von Merkmalen von einer genomischen Anordnung in eine andere oder in RefSeqGene-Sequenzen durch eine Basis-für-Basis-Analyse zu konvertieren. Es werden Optionen bereitgestellt, um die Stringenz der Neuzuordnung anzupassen, und zusammenfassende Ergebnisse werden auf der Webseite angezeigt. Die vollständigen Ergebnisse können zur Anzeige im grafischen Viewer Genome Workbench von NCBI heruntergeladen werden, und Anmerkungsdaten für die neu zugeordneten Funktionen sowie zusammenfassende Daten stehen ebenfalls zum Download bereit.

Eine integrierte Anwendung zum Anzeigen und Analysieren von Sequenzdaten. Mit Genome Workbench können Sie Daten in öffentlich zugänglichen Sequenzdatenbanken des NCBI anzeigen und diese Daten mit Ihren eigenen Daten mischen.

Ein Dienst, der es Dritten ermöglicht, direkt von PubMed und anderen Entrez-Datenbankeinträgen auf relevante, über das Internet zugängliche Ressourcen außerhalb des Entrez-Systems zu verlinken. Beispiele für LinkOut-Ressourcen sind Volltextpublikationen, biologische Datenbanken, Verbrauchergesundheitsinformationen und Forschungsinstrumente.

Bietet spezielle Browsing-Funktionen von Karten und zusammengestellten Sequenzen für eine Untergruppe von Organismen. Sie können das komplette Genom eines Organismus anzeigen und durchsuchen, Karten anzeigen und in immer größere Detailstufen hineinzoomen, bis hin zu den Sequenzdaten für eine interessierende Region.

Eine interaktive Webanwendung, mit der Benutzer mehrere Ausrichtungen visualisieren können, die durch Datenbanksuchergebnisse oder andere Softwareanwendungen erstellt wurden. Mit dem MSA Viewer können Benutzer ein Alignment hochladen und eine Mastersequenz festlegen sowie die Daten mithilfe von Funktionen wie Zoomen und Farbänderung untersuchen.

Bietet Informationen zu neuen und aktualisierten Ressourcen und NCBI-Forschungs- und Entwicklungsprojekten. Die News-Site enthält Feature-Artikel, die Dienste, Ressourcenfunktionen und Tools hervorheben, sowie häufige Posts, die wichtige Ankündigungen zu wichtigen Datensätzen und Diensten beschreiben, die für die Benutzergemeinschaft von Interesse sind. Links zu den Social-Media-Sites des NCBI sowie eine Liste der verfügbaren RSS-Feeds und E-Mail-Listenservs werden bereitgestellt.

Eine Reihe von Software- und Datenaustauschspezifikationen, die vom NCBI verwendet werden, um tragbare, modulare Software für die Molekularbiologie zu erstellen. Die Software in der Toolbox ist in erster Linie zum Lesen von Datensätzen im Format Abstract Syntax Notation 1 (ASN.1) konzipiert, einem Datendarstellungsformat der International Standards Organization (ISO).

Ein Public-Domain-Softwarepaket zur Qualitätssicherung, das die Bewertung von Multiplex-Short-Tandem-Repeat (STR)-DNA-Profilen basierend auf laborspezifischen Protokollen erleichtert. OSIRIS wertet die Elektrophorese-Rohdaten mit einem unabhängig abgeleiteten mathematisch-basierten Größenalgorithmus aus. Es bietet zwei neue Spitzenqualitätsmaße - Fit-Level und Sizing-Residuum. Es kann an laborspezifische Signaturen wie Hintergrundgeräuscheinstellungen, benutzerdefinierte Namenskonventionen und zusätzliche interne Laborkontrollen angepasst werden.

Ein grafisches Analysetool, das alle offenen Leserahmen in der Sequenz eines Benutzers oder in einer Sequenz bereits in der Datenbank findet. Sechzehn verschiedene genetische Codes können verwendet werden. Die abgeleitete Aminosäuresequenz kann in verschiedenen Formaten gespeichert und mit BLAST in Proteindatenbanken durchsucht werden.

Ermöglicht es Benutzern, positionsspezifische Score-Matrizen (PSSMs) entweder aus CDD-Datensätzen oder aus positionsspezifischen iterierten (PSI)-BLAST-Proteinsuchen anzuzeigen, zu sortieren, zu unterteilen und herunterzuladen. Das Tool kann auch ein Abfrageprotein auf das PSSM ausrichten und Positionen mit hoher Konservierung hervorheben.

Unterstützt das Auffinden menschlicher Phänotyp/Genotyp-Beziehungen mit Abfragen nach Phänotyp, Chromosomenort, Gen und SNP-Identifikatoren. Enthält derzeit Informationen von dbGaP, dem NHGRI GWAS-Katalog und GTeX. Zeigt Ergebnisse zum Genom, zur Sequenz oder in Tabellen zum Download an.

Das Primer-BLAST-Tool verwendet Primer3, um PCR-Primer für eine Sequenzvorlage zu entwerfen. Die potenziellen Produkte werden dann automatisch mit einer BLAST-Suche gegen benutzerdefinierte Datenbanken analysiert, um die Spezifität für das beabsichtigte Ziel zu überprüfen.

Ein Dienstprogramm zum Berechnen des Alignments von Proteinen zur genomischen Nukleotidsequenz. Es basiert auf einer Variation des globalen Alignment-Algorithmus von Needleman Wunsch und berücksichtigt speziell Introns und Spleißsignale. Aufgrund dieses Algorithmus ist ProSplign bei der Bestimmung von Spleißstellen genau und tolerant gegenüber Sequenzierungsfehlern.

PUG bietet über eine programmatische Schnittstelle Zugriff auf PubChem-Dienste. PUG ermöglicht es Benutzern, Daten herunterzuladen, chemische Struktursuchen zu starten, chemische Strukturen zu standardisieren und mit den E-Dienstprogrammen zu interagieren. Auf PUG kann entweder über Standard-URLs oder über SOAP zugegriffen werden.

Standardisierung in der PubChem-Terminologie ist die Verarbeitung chemischer Strukturen auf die gleiche Weise, die zum Erstellen von PubChem Compound-Datensätzen aus den Originalstrukturen von Mitwirkenden verwendet wird. Mit diesem Dienst können Benutzer sehen, wie PubChem jede Struktur behandeln würde, die sie übermitteln möchten.

Die PubChem-Struktursuche ermöglicht die Abfrage der PubChem-Verbindungsdatenbank nach chemischer Struktur oder chemischem Strukturmuster. Der PubChem Sketcher ermöglicht das manuelle Zeichnen einer Abfrage. Benutzer können auch die Eingabe der strukturellen Abfrage durch PubChem Compound Identifier (CID), SMILES, SMARTS, InChI, Molecular Formula oder durch Hochladen eines unterstützten Strukturdateiformats angeben.

Ein spezielles PubMed-Suchformular für Kliniker und Forscher im Gesundheitswesen. Die Seite vereinfacht die Suche nach klinischen Studienkategorien, das Auffinden systematischer Übersichten und die Suche in der Literatur zur medizinischen Genetik.

Eine Sammlung von Web- und Flash-Tutorials zur PubMed-Suche und -Verknüpfung, zum Speichern von Suchen in MyNCBI, zur Verwendung von MeSH und anderen PubMed-Diensten.

Mit dem Tool Related Structures können Benutzer 3D-Strukturen aus der Molecular Modeling Database (MMDB) finden, die in ihrer Sequenz einem Abfrageprotein ähneln. Obwohl das Abfrageprotein möglicherweise noch keine aufgelöste Struktur aufweist, kann die 3D-Form einer ähnlichen Proteinsequenz Aufschluss über die mutmaßliche Form und biologische Funktion des Abfrageproteins geben.

Für die Suche in der SNP-Datenbank stehen verschiedene Tools zur Verfügung, die eine Suche nach Genotyp, Methode, Population, Einreicher, Markern und Sequenzähnlichkeit mit BLAST ermöglichen. Diese sind unter ""Suchen"" in der linken Seitenleiste der dbSNP-Hauptseite verlinkt.

Sequence Cytogenetic Conversion Service Ein Online-Tool, das Sequenz- und zytogenetische Koordinaten für genomische Baugruppen von Mensch, Ratte, Maus und Fruchtfliege umwandelt. Sequenzbetrachter

Bietet eine konfigurierbare grafische Anzeige einer Nukleotid- oder Proteinsequenz und Merkmale, die auf dieser Sequenz annotiert wurden. Zusätzlich zur Verwendung auf Seiten der NCBI-Sequenzdatenbank ist dieser Viewer als einbettbare Webseitenkomponente verfügbar. Für Entwickler, die den Viewer in ihre eigenen Seiten einbetten möchten, steht eine ausführliche Dokumentation einschließlich eines API-Referenzhandbuchs zur Verfügung.

Ein Dienstprogramm zum Berechnen von cDNA-zu-Genom-Sequenz-Alignments. Es basiert auf einer Variation des Needleman-Wunsch Global Alignment Algorithmus und berücksichtigt speziell Introns und Spleißsignale. Aufgrund dieses Algorithmus ist Splign bei der Bestimmung von Spleißstellen genau und tolerant gegenüber Sequenzierungsfehlern.

Unterstützt die Suche im Taxonomiebaum mit partiellen taxonomischen Namen, gebräuchlichen Namen, Platzhaltern und phonetisch ähnlichen Namen. Für jeden taxonomischen Knoten stellt das Tool Links zu allen Daten in Entrez für diesen Knoten bereit, zeigt die Abstammung an und stellt Links zu externen Sites bereit, die sich auf den Knoten beziehen.

Erzeugt einen taxonomischen Baum für eine ausgewählte Gruppe von Organismen. Benutzer können eine Datei mit Taxonomie-IDs oder Namen hochladen oder Namen oder IDs direkt eingeben.

Zeigt die Anzahl der taxonomischen Knoten in der Datenbank für einen bestimmten Rang und das Datum der Aufnahme an.

Zeigt den aktuellen Status eines Satzes taxonomischer Knoten oder IDs an.

Ein Werkzeug zum Erstellen und Anzeigen von phylogenetischen Baumdaten. Tree Viewer ermöglicht die Analyse Ihrer eigenen Sequenzdaten, erzeugt druckfähige Vektorbilder als PDFs und kann in eine Webseite eingebettet werden.

Variation Viewer Ein genomischer Browser zum Suchen und Anzeigen von genomischen Variationen, die in dbSNP-, dbVar- und ClinVar-Datenbanken aufgeführt sind. Suchen können unter Verwendung von Chromosomenort, Gensymbol, Phänotyp oder Varianten-IDs von dbSNP und dbVar durchgeführt werden. Der Browser ermöglicht die Untersuchung von Ergebnissen in einem dynamischen grafischen Sequenzbetrachter mit annotierten Variationstabellen. VecScreen

Ein System zum schnellen Identifizieren von Segmenten einer Nukleinsäuresequenz, die aus einem Vektor stammen können. VecScreen durchsucht eine Abfragesequenz nach Segmenten, die einer beliebigen Sequenz in einer spezialisierten, nicht redundanten Vektordatenbank (UniVec) entsprechen.

Ein Computeralgorithmus, der ähnliche dreidimensionale Proteinstrukturen identifiziert. Strukturnachbarn für jede Struktur in MMDB sind vorberechnet und über Links auf den MMDB-Strukturübersichtsseiten zugänglich. Diese Nachbarn können verwendet werden, um entfernte Homologe zu identifizieren, die allein durch Sequenzvergleich nicht erkannt werden können.

Dieses Tool hilft bei der Identifizierung des Genotyps einer Virussequenz. Ein Fenster wird entlang der Abfragesequenz verschoben und jedes Fenster wird durch BLAST mit jeder der Referenzsequenzen für einen bestimmten Virus verglichen.


7.2. Bestimmung der Funktionen einzelner Gene

Nachdem ein neues Gen in einer Genomsequenz lokalisiert wurde, stellt sich die Frage nach seiner Funktion. Dies entpuppt sich als wichtiger Bereich der Genomforschung, denn abgeschlossene Sequenzierungsprojekte haben gezeigt, dass wir über den Inhalt einzelner Genome eher weniger wissen, als wir dachten. E coli und S. cerevisiae, wurden zum Beispiel vor dem Aufkommen von Sequenzierungsprojekten intensiv durch konventionelle genetische Analysen untersucht, und Genetiker waren einst ziemlich sicher, dass die meisten ihrer Gene identifiziert waren. Die Genomsequenzen zeigten, dass es in der Tat große Wissenslücken gibt. Von den 4288 proteinkodierenden Genen im E coli Genomsequenz, nur 1853 (43% der Gesamtmenge) waren zuvor identifiziert worden (Blattner et al., 1997). Zum S. cerevisiae die Zahl betrug nur 30 % (Dujon, 1996).

Wie bei der Genlokalisierung wird versucht, die Funktionen unbekannter Gene durch Computeranalysen und experimentelle Studien zu bestimmen.

7.2.1. Computeranalyse der Genfunktion

Wir haben bereits gesehen, dass die Computeranalyse eine wichtige Rolle beim Auffinden von Genen in DNA-Sequenzen spielt und dass eines der leistungsfähigsten Werkzeuge für diesen Zweck die Homologiesuche ist, bei der Gene durch Vergleich der untersuchten DNA-Sequenz mit allen anderen DNA-Sequenzen lokalisiert werden in den Datenbanken. Grundlage der Homologiesuche ist, dass verwandte Gene ähnliche Sequenzen aufweisen und so ein neues Gen aufgrund seiner Ähnlichkeit mit einem äquivalenten, bereits sequenzierten Gen aus einem anderen Organismus entdeckt werden kann. Jetzt werden wir uns die Homologieanalyse genauer ansehen und sehen, wie man damit einem neuen Gen eine Funktion zuordnen kann.

Homologie spiegelt evolutionäre Beziehungen wider

Homologe Gene sind solche, die einen gemeinsamen evolutionären Vorfahren haben, was durch Sequenzähnlichkeiten zwischen den Genen offenbart wird. Diese Ähnlichkeiten bilden die Daten, auf denen molekulare Phylogenien basieren, wie wir in Kapitel 16 sehen werden. Homologe Gene lassen sich in zwei Kategorien einteilen:

Ein Paar homologer Gene hat normalerweise keine identischen Nukleotidsequenzen, weil die beiden Gene durch Mutation unterschiedliche zufällige Veränderungen erfahren, aber sie haben ähnliche Sequenzen, weil diese zufälligen Veränderungen auf der gleichen Ausgangssequenz, dem gemeinsamen Vorfahrengen, operiert haben. Die Homologiesuche nutzt diese Sequenzähnlichkeiten. Grundlage der Analyse ist, dass, wenn sich herausstellt, dass ein neu sequenziertes Gen einem zuvor sequenzierten Gen ähnlich ist, auf eine evolutionäre Verwandtschaft geschlossen werden kann und die Funktion des neuen Gens wahrscheinlich die gleiche oder zumindest ähnlich ist wie die Funktion des bekannten Gens.

Es ist wichtig, die Wörter nicht zu verwechseln Homologie und Ähnlichkeit. Es ist falsch, ein Paar verwandter Gene als �% homolog zu beschreiben, wenn ihre Sequenzen eine Nukleotididentität von 80% aufweisen (Abbildung 7.9). Ein Genpaar ist entweder evolutionär verwandt oder es gibt keine Zwischensituationen und es ist daher bedeutungslos, der Homologie einen prozentualen Wert zuzuschreiben.

Abbildung 7.9

Zwei DNA-Sequenzen mit 80% Sequenzidentität.

Die Homologieanalyse kann Aufschluss über die Funktion eines ganzen Gens oder einzelner Abschnitte darin geben

Eine Homologiesuche kann mit einer DNA-Sequenz durchgeführt werden, aber normalerweise wird eine vorläufige Gensequenz in eine Aminosäuresequenz umgewandelt, bevor die Suche durchgeführt wird. Ein Grund dafür ist, dass es in Proteinen 20 verschiedene Aminosäuren gibt, aber in der DNA nur vier Nukleotide, so dass nicht verwandte Gene beim Vergleich ihrer Aminosäuresequenzen normalerweise unterschiedlicher erscheinen (Abbildung 7.10). Eine Homologiesuche führt daher weniger wahrscheinlich zu falschen Ergebnissen, wenn die Aminosequenz verwendet wird. Die praktischen Aspekte der Homologiesuche sind keineswegs entmutigend. Für diese Art der Analyse gibt es mehrere Softwareprogramme, das bekannteste ist BLAST (Basic Local Alignment Search Tool Altschul et al., 1990). Die Analyse kann einfach durchgeführt werden, indem man sich auf der Website einer der DNA-Datenbanken einloggt und die Sequenz in die Online-Suche eingibt.

Abbildung 7.10

Ein Mangel an Homologie zwischen zwei Sequenzen wird oft deutlicher, wenn Vergleiche auf Aminosäureebene durchgeführt werden. Zwei Nukleotidsequenzen sind gezeigt, wobei Nukleotide in den beiden in Rot angegebenen Sequenzen identisch sind und in Blau Nicht-Identitäten. (mehr. )

Eine positive Übereinstimmung mit einem bereits in der Datenbank vorhandenen Gen kann einen klaren Hinweis auf die Funktion des neuen Gens geben, oder die Auswirkungen der Übereinstimmung können subtiler sein. Insbesondere Gene, die keine offensichtliche evolutionäre Verwandtschaft aufweisen, können kurze Abschnitte haben, die einander ähnlich sind. Die Erklärung dafür ist oft, dass, obwohl die Gene nicht miteinander verwandt sind, ihre Proteine ​​ähnliche Funktionen haben und die gemeinsame Sequenz eine Domäne innerhalb jedes Proteins kodiert, die für diese gemeinsame Funktion zentral ist. Obwohl die Gene selbst keinen gemeinsamen Vorfahren haben, tun dies die Domänen, aber da ihr gemeinsamer Vorfahr in einer sehr alten Zeit vorkommt, haben sich die homologen Domänen später nicht nur durch einzelne Nukleotidänderungen, sondern auch durch komplexere Umlagerungen entwickelt, die neue Gene innerhalb erzeugt haben in denen die Domänen gefunden werden (Abschnitt 15.2.1). Ein interessantes Beispiel liefert die Tudor-Domäne, ein etwa 120 Aminosäuren umfassendes Motiv, das erstmals in der Sequenz der Drosophila melanogaster Gen namens tudor (Ponting, 1997). Das von der kodierte Protein tudor Gen, dessen Funktion unbekannt ist, besteht aus zehn Kopien der Tudor-Domäne nacheinander (Abb. 7.11). Eine Homologiesuche unter Verwendung der Tudor-Domäne als Test ergab, dass mehrere bekannte Proteine ​​diese Domäne enthalten. Die Sequenzen dieser Proteine ​​sind einander nicht sehr ähnlich und es gibt keinen Hinweis darauf, dass sie echte Homologe sind, aber sie alle besitzen die Tudor-Domäne. Zu diesen Proteinen gehört eines, das am RNA-Transport während der Drosophila Oogenese, ein menschliches Protein mit einer Rolle im RNA-Stoffwechsel, und andere, deren Aktivitäten RNA auf die eine oder andere Weise zu involvieren scheinen. Die Homologieanalyse legt daher nahe, dass die Tudor-Sequenz eine gewisse Rolle bei der Interaktion zwischen dem Protein und seinem RNA-Substrat spielt. Die Informationen aus der Computeranalyse sind an sich unvollständig, weisen aber den Weg zu den Experimenten, die durchgeführt werden sollten, um klarere Daten über die Funktion der Tudor-Domäne zu erhalten.

Abbildung 7.11

Die Tudor-Domäne. Die obere Zeichnung zeigt den Aufbau der Drosophila Tudor-Protein, das zehn Kopien der Tudor-Domäne enthält. Die Domain ist auch in einer Sekunde gefunden Drosophila Protein, obdachlos, und im humanen A-Kinase-Ankerprotein (AKAP149), (mehr.)

Homologieanalyse im Hefegenomprojekt

Die S. cerevisiae-Genomprojekt hat sowohl das Potenzial als auch die Grenzen der Homologieanalyse als Mittel zur Zuweisung von Funktionen an neue Gene aufgezeigt. Das Hefegenom enthält etwa 6000 Gene, von denen 30 % durch konventionelle genetische Analyse identifiziert wurden, bevor das Sequenzierungsprojekt begann. Die restlichen 70 % wurden durch Homologieanalyse untersucht und ergaben die folgenden Ergebnisse (Abbildung 7.12 Dujon, 1996):

Abbildung 7.12

Genkategorien im Hefegenom.

7.2.2. Zuweisung von Genfunktion durch experimentelle Analyse

Es ist klar, dass die Homologieanalyse kein Allheilmittel ist, das die Funktionen aller neuen Gene identifizieren kann. Daher werden experimentelle Methoden benötigt, um die Ergebnisse von Homologiestudien zu ergänzen und zu erweitern. Dies erweist sich als eine der größten Herausforderungen in der Genomforschung, und die meisten Molekularbiologen sind sich einig, dass die derzeit verwendeten Methoden und Strategien nicht ganz ausreichen, um den vielen unbekannten Genen, die in Sequenzierungsprojekten entdeckt werden, Funktionen zuzuordnen. Das Problem besteht darin, dass das Ziel - einen Weg vom Gen zur Funktion zu zeichnen - der umgekehrte Weg ist, den normalerweise eine genetische Analyse einschlägt, bei dem der Ausgangspunkt ein Phänotyp ist und das Ziel darin besteht, das zugrunde liegende Gen oder die zugrunde liegenden Gene zu identifizieren. Das Problem, mit dem wir uns derzeit beschäftigen, führt uns in die entgegengesetzte Richtung: Beginnend mit einem neuen Gen und hoffentlich zur Identifizierung des zugehörigen Phänotyps.

Funktionsanalyse durch Geninaktivierung

Bei der herkömmlichen genetischen Analyse wird die genetische Grundlage eines Phänotyps normalerweise untersucht, indem nach mutierten Organismen gesucht wird, bei denen der Phänotyp verändert wurde. Die Mutanten könnten experimentell erhalten werden, beispielsweise durch Behandlung einer Population von Organismen (z. B. einer Bakterienkultur) mit ultravioletter Strahlung oder einer mutagenen Chemikalie (siehe Abschnitt 14.1.1), oder die Mutanten könnten in einer natürlichen Population vorhanden sein. Das Gen oder die Gene, die im mutierten Organismus verändert wurden, werden dann durch genetische Kreuzungen untersucht (Abschnitt 5.2.4), die die Position eines Gens in einem Genom lokalisieren und auch feststellen können, ob das Gen mit einem bereits vorhandenen identisch ist charakterisiert worden. Das Gen kann dann durch molekularbiologische Techniken wie Klonen und Sequenzieren weiter untersucht werden.

Das allgemeine Prinzip dieser herkömmlichen Analyse besteht darin, dass die für einen Phänotyp verantwortlichen Gene identifiziert werden können, indem bestimmt wird, welche Gene in Organismen inaktiviert sind, die eine mutierte Version des Phänotyps aufweisen. Wenn der Ausgangspunkt das Gen und nicht der Phänotyp ist, besteht die äquivalente Strategie darin, das Gen zu mutieren und die resultierende phänotypische Veränderung zu identifizieren. Dies ist die Grundlage der meisten Techniken, die verwendet werden, um unbekannten Genen Funktionen zuzuweisen.

Einzelne Gene können durch homologe Rekombination inaktiviert werden

Der einfachste Weg, ein bestimmtes Gen zu inaktivieren, besteht darin, es mit einem nicht verwandten DNA-Segment zu zerstören (Abbildung 7.13). Dies kann durch homologe Rekombination zwischen der chromosomalen Kopie des Gens und einem zweiten DNA-Stück erreicht werden, das eine gewisse Sequenzidentität mit dem Zielgen teilt. Homologe (und andere Arten von) Rekombination sind komplexe Ereignisse, auf die wir in Abschnitt 14.3.1 ausführlich eingehen werden. Für die vorliegenden Zwecke reicht es zu wissen, dass, wenn zwei DNA-Moleküle ähnliche Sequenzen aufweisen, die Rekombination dazu führen kann, dass Segmente der Moleküle ausgetauscht werden.

Abbildung 7.13

Geninaktivierung durch homologe Rekombination. Die chromosomale Kopie des Zielgens rekombiniert mit einer zerstörten Version des Gens, die von einem Klonierungsvektor getragen wird. Als Ergebnis wird das Zielgen inaktiviert. Weitere Informationen zur Rekombination (mehr.)

Wie wird die Geninaktivierung in der Praxis durchgeführt? Wir betrachten zwei Beispiele, das erste mit S. cerevisiae. Seit der Fertigstellung der Genomsequenz im Jahr 1996 haben Hefe-Molekularbiologen eine koordinierte internationale Anstrengung unternommen, um die Funktionen möglichst vieler Orphan-Gene zu bestimmen (Oliver, 1996b). Eine verwendete Technik ist in Abbildung 7.14 (Wach et al., 1994). Zentraler Bestandteil ist die �letionskassette’, die ein Gen für Antibiotikaresistenz trägt. Dieses Gen ist kein normaler Bestandteil des Hefegenoms, aber es funktioniert, wenn es auf ein Hefechromosom übertragen wird, wodurch eine transformierte Hefezelle entsteht, die gegen das Antibiotikum Geneticin resistent ist. Vor der Verwendung der Deletionskassette werden an beiden Enden neue DNA-Segmente als Schwänze angehängt. Diese Segmente haben Sequenzen, die mit Teilen des Hefegens identisch sind, das inaktiviert wird. Nachdem die modifizierte Kassette in eine Hefezelle eingeführt wurde, findet eine homologe Rekombination zwischen den DNA-Schwänzen und der chromosomalen Kopie des Hefegens statt, wobei letztere durch das Antibiotikaresistenzgen ersetzt wird. Zellen, die dem Austausch unterzogen wurden, werden daher durch Ausplattieren der Kultur auf Agarmedium, das Geneticin enthält, selektiert. Den resultierenden Kolonien fehlt die Aktivität des Zielgens und ihre Phänotypen können untersucht werden, um einen Einblick in die Funktion des Gens zu erhalten.

Abbildung 7.14

Die Verwendung einer Hefe-Deletionskassette. Die Deletionskassette besteht aus einem Antibiotikumresistenzgen, dem die zur Expression in Hefe benötigten Promotorsequenzen vorausgehen und von zwei Restriktionsschnittstellen flankiert werden. Die Start- und Endsegmente des Zielgens (mehr. )

Das zweite Beispiel für die Geninaktivierung verwendet einen analogen Prozess, jedoch mit Mäusen und nicht mit Hefe. Die Maus wird häufig als Modellorganismus für den Menschen verwendet, da das Mausgenom dem menschlichen Genom ähnelt und viele der gleichen Gene enthält. Die Identifizierung der Funktionen unbekannter menschlicher Gene erfolgt daher weitgehend durch Inaktivierung der entsprechenden Gene in der Maus, wobei diese Experimente beim Menschen ethisch undenkbar sind. Der homologe Rekombinationsteil des Verfahrens ist identisch mit dem für Hefe beschriebenen und führt wiederum zu einer Zelle, in der das Zielgen inaktiviert wurde. Das Problem ist, dass wir nicht nur eine mutierte Zelle wollen, sondern eine ganze mutierte Maus, denn nur mit dem gesamten Organismus können wir die Wirkung der Geninaktivierung auf den Phänotyp vollständig abschätzen. Um dies zu erreichen, ist es notwendig, eine spezielle Art von Mauszelle zu verwenden, und embryonaler Stamm oder ES-Zelle (Evans et al., 1997). Im Gegensatz zu den meisten Mauszellen sind ES-Zellen totipotent, das heißt, sie sind nicht auf einen einzigen Entwicklungsweg festgelegt und können daher alle Arten von differenzierten Zellen hervorbringen. Die manipulierte ES-Zelle wird daher in einen Mausembryo injiziert, der sich weiter entwickelt und schließlich zu einer Chimäre führt, einer Maus, deren Zellen eine Mischung aus mutierten Zellen sind, die von den gentechnisch veränderten ES-Zellen abgeleitet sind, und nicht mutierten Zellen, die von abgeleitet sind alle anderen Zellen des Embryos. Das ist immer noch nicht ganz das, was wir wollen, also dürfen sich die chimären Mäuse miteinander paaren. Einige der Nachkommen resultieren aus der Fusion zweier mutierter Gameten und sind daher nicht chimär, da jede ihrer Zellen das inaktivierte Gen trägt. Diese sind KO-Mäuse, und mit etwas Glück liefern ihre Phänotypen die gewünschten Informationen über die Funktion des untersuchten Gens. Dies funktioniert bei vielen Geninaktivierungen gut, aber einige sind tödlich und können daher nicht an einer homozygoten Knockout-Maus untersucht werden. Stattdessen wird eine heterozygote Maus erhalten, das Produkt der Fusion zwischen einem normalen und einem mutierten Gameten, in der Hoffnung, dass der phänotypische Effekt der Geninaktivierung offensichtlich wird, obwohl die Maus noch eine korrekte Kopie des untersuchten Gens besitzt.

Geninaktivierung ohne homologe Rekombination

Die homologe Rekombination ist nicht die einzige Möglichkeit, ein Gen zu zerstören, um seine Funktion zu untersuchen. Eine Alternative ist die Verwendung von Transposon-Tagging, bei der die Inaktivierung durch die Insertion eines transponierbaren Elements in das Gen erreicht wird. Die meisten Genome enthalten transponierbare Elemente (Abschnitt 2.4.2) und obwohl der Großteil davon inaktiv ist, gibt es normalerweise einige, die ihre Fähigkeit zur Transposition behalten. Unter normalen Umständen ist die Transposition ein relativ seltenes Ereignis, aber manchmal ist es möglich, rekombinante DNA-Techniken zu verwenden, um modifizierte Transposons herzustellen, die ihre Position als Reaktion auf einen externen Stimulus ändern. Eine Möglichkeit hierfür ist das Hefe-Retrotransposon Ty1, ist in Abbildung 7.15 dargestellt.

Abbildung 7.15

Künstliche Induktion der Transposition. Rekombinante DNA-Techniken wurden verwendet, um eine Promotorsequenz (Abschnitt 3.2.2), die auf Galactose anspricht, stromaufwärts von a . zu platzieren Ty1 Element im Hefegenom. Wenn Galaktose fehlt, Ty1 Element ist nicht (mehr.)

Transposon-Tagging ist von zentraler Bedeutung für die Technik, die als genetischer Fußabdruck (Smith et al., 1995), mit dem viele der Hefe-Waisen als erster Schritt zur Beurteilung ihrer Funktion inaktiviert wurden. Das Transposon-Tagging ist auch bei der Analyse des Fruchtfliegengenoms unter Verwendung der endogenen Drosophila Transposon namens P Element (Engels, 2000). Die Schwäche beim Transposon-Tagging besteht darin, dass es schwierig ist, einzelne Gene gezielt anzusprechen, da die Transposition mehr oder weniger ein Zufallsereignis ist und es unmöglich ist, vorherzusagen, wo ein Transposon nach einem Sprung landet. Wenn die Absicht besteht, ein bestimmtes Gen zu inaktivieren, dann ist es notwendig, eine beträchtliche Anzahl von Transpositionen zu induzieren und dann die resultierenden Organismen zu screenen, um eines mit der richtigen Insertion zu finden. Transposon-Tagging ist daher besser auf globale Studien zur Genomfunktion anwendbar, bei denen Gene zufällig inaktiviert und Gruppen von Genen mit ähnlichen Funktionen identifiziert werden, indem die Nachkommen auf interessante Phänotypänderungen untersucht werden.

Einen völlig anderen Ansatz zur Geninaktivierung bietet die RNA-Interferenz. Bei dieser Technik wird nicht das Gen selbst zerstört, sondern seine mRNA zerstört. Dies wird erreicht, indem in die Zelle kurze doppelsträngige RNA-Moleküle eingeführt werden, deren Sequenzen mit denen der anvisierten mRNA übereinstimmen. Die doppelsträngigen RNAs werden in kürzere Moleküle zerlegt, die den Abbau der mRNA induzieren (Abbildung 7.16). Es hat sich gezeigt, dass der Prozess im Wurm effektiv funktioniert Caenorhabditis elegans (Feuer et al., 1998), deren Genom vollständig sequenziert wurde (siehe Tabelle 2.1) und der als wichtiger Modellorganismus für höhere Eukaryoten gilt (Abschnitt 12.3.2). Fast 2500 der 2769 vorhergesagten Gene auf Chromosom I von C. elegans wurden einzeln durch RNA-Interferenz inaktiviert, indem einfach die Würmer in eine Lösung mit der doppelsträngigen RNA gegeben wurden und normale Aufnahmeprozesse zugelassen wurden, um die Moleküle in die Zellen zu transportieren (Fraser et al., 2000). Ähnliche Projekte richten sich an die anderen C. elegans-Chromosomen.

Abbildung 7.16

RNA-Interferenz. Das doppelsträngige RNA-Molekül wird von der Dicer-Ribonuklease in ‘kurze interferierende RNAs’ (siRNAs) von 21� bp Länge zerlegt. Ein Strang jeder siRNA-Base paart sich mit der Ziel-mRNA, die dann abgebaut wird (mehr.)

Es ist bekannt, dass RNA-Interferenzen in einer Reihe von Eukaryoten natürlich vorkommen, aber ihre Anwendung auf Säugerzellen wurde als schwierig erwartet, da diese Organismen eine parallele Reaktion auf doppelsträngige RNA zeigen, bei der die Proteinsynthese im Allgemeinen gehemmt ist, was zum Zelltod führt ( Bass, 2001). Diese Sorgen waren jedoch unbegründet, da nun gezeigt wurde, dass die Einführung doppelsträngiger RNAs in kultivierte menschliche Zellen durch Fusion mit Liposomen (Abbildung 7.17) zu einer Inaktivierung der Ziel-mRNA führt, ohne dass die Gesamtproteinsynthese messbar abnimmt (Elbashir et al., 2001). Der Nachteil dieser Technik bei Säugetieren besteht darin, dass nur mit Einzelzellen und nicht mit ganzen Organismen gearbeitet werden kann, da die doppelsträngigen RNAs eine begrenzte Lebensdauer innerhalb der Zelle haben und nicht verwendet werden können, um dauerhafte Veränderungen wie die notwendigen zu erzeugen beim Bau von Knockout-Mäusen.

Abbildung 7.17

Die Fusion mit Liposomen kann verwendet werden, um doppelsträngige RNA in eine menschliche Zelle zu transportieren.

Genüberexpression kann auch verwendet werden, um die Funktion zu beurteilen

Bisher haben wir uns auf Techniken konzentriert, die zur Inaktivierung des untersuchten Gens führen (𠆏unktionsverlust’). Der komplementäre Ansatz besteht darin, einen Organismus zu konstruieren, in dem das Testgen viel aktiver als normal ist (𠆏unktionsgewinn’) und zu bestimmen, welche Veränderungen dies gegebenenfalls auf den Phänotyp hat. Die Ergebnisse dieser Experimente sind mit Vorsicht zu genießen, da zwischen einer Phänotypänderung, die auf die spezifische Funktion eines überexprimierten Gens zurückzuführen ist, und einer weniger spezifischen Phänotypänderung, die die Anomalie der Situation widerspiegelt, in der ein einzelnes Genprodukt in übermäßigen Mengen synthetisiert wird, möglicherweise in Geweben, in denen das Gen normalerweise inaktiv ist. Trotz dieser Einschränkung hat die Überexpression einige wichtige Informationen über die Genfunktion geliefert.

Um ein Gen zu überexprimieren, muss ein spezieller Klonierungsvektor verwendet werden, der darauf ausgelegt ist, dass das klonierte Gen die Synthese von so viel Protein wie möglich steuert. Der Vektor ist also multicopy, dh er vermehrt sich innerhalb des Wirtsorganismus auf 40� Kopien pro Zelle, sodass es viele Kopien des Testgens gibt. Außerdem muss der Vektor einen hochaktiven Promotor (Abschnitt 9.2.2) enthalten, damit jede Kopie des Testgens in große Mengen mRNA umgewandelt wird und wieder so viel Protein wie möglich hergestellt wird. Ein Beispiel für die bei Mäusegenen verwendete Technik ist in Abbildung 7.18 (Simonet et al., 1997). In diesem Projekt wurden die zu untersuchenden Gene ausgewählt, weil ihre Sequenzen darauf hindeuten, dass sie für Proteine ​​kodieren, die in den Blutkreislauf sezerniert werden. Der verwendete Klonierungsvektor enthielt einen hochaktiven Promotor, der nur in der Leber exprimiert wird, so dass jede transgene Maus das Testgen in ihrer Leber überexprimierte und das resultierende Protein anschließend ins Blut sezernierte. Der Phänotyp jeder transgenen Maus wurde auf der Suche nach Hinweisen auf die Funktionen der klonierten Gene untersucht. Eine interessante Entdeckung wurde gemacht, als festgestellt wurde, dass eine transgene Maus Knochen hatte, die signifikant dichter waren als die von normalen Mäusen. Dies war aus zwei Gründen wichtig: Erstens konnte das relevante Gen identifiziert werden, das an der Knochensynthese beteiligt ist .

Abbildung 7.18

Funktionsanalyse durch Genüberexpression. Ziel ist es festzustellen, ob die Überexpression des untersuchten Gens einen Einfluss auf den Phänotyp einer transgenen Maus hat. Eine cDNA des Gens wird daher in einen Klonierungsvektor eingefügt, der eine hoch (mehr.)

Kasten 7.1

Analyse von Chromosom I von Caenorhabditis elegans durch RNA-Interferenz. 339 Genen wurden Funktionen zugewiesen auf C. elegans Chromosom I nach individueller Inaktivierung durch die RNA-Interferenztechnik. C. elegans ist ein winziger Fadenwurm (siehe Abbildung (mehr.)

7.2.3. Detailliertere Studien zur Aktivität eines Proteins, das von einem unbekannten Gen kodiert wird

Geninaktivierung und Überexpression sind die primären Techniken, die Genomforscher verwenden, um die Funktion eines neuen Gens zu bestimmen, aber dies sind nicht die einzigen Verfahren, die Informationen über die Genaktivität liefern können. Andere Methoden können die Ergebnisse der Inaktivierung und Überexpression erweitern und ausarbeiten. Diese können verwendet werden, um zusätzliche Informationen bereitzustellen, die zur Identifizierung einer Genfunktion beitragen oder die Grundlage für eine umfassendere Untersuchung der Aktivität eines Proteins bilden, dessen Gen bereits charakterisiert wurde.

Die gezielte Mutagenese kann verwendet werden, um die Genfunktion im Detail zu untersuchen

Inaktivierung und Überexpression können die allgemeine Funktion eines Gens bestimmen, aber sie können keine detaillierten Informationen über die Aktivität eines von einem Gen kodierten Proteins liefern. Beispielsweise könnte vermutet werden, dass ein Teil eines Gens für eine Aminosäuresequenz kodiert, die sein Proteinprodukt zu einem bestimmten Kompartiment in der Zelle lenkt oder für die Fähigkeit des Proteins verantwortlich ist, auf ein chemisches oder physikalisches Signal zu reagieren.Um diese Hypothesen zu testen, wäre es notwendig, den relevanten Teil der Gensequenz zu löschen oder zu verändern, aber den Großteil unverändert zu lassen, damit das Protein noch synthetisiert wird und den größten Teil seiner Aktivität behält. Die verschiedenen Verfahren von Site-gerichtet oder in vitro Mutagenese (Technische Anmerkung 7.1) kann verwendet werden, um diese subtilen Änderungen vorzunehmen. Dies sind wichtige Techniken, deren Anwendung nicht nur bei der Untersuchung der Genaktivität liegt, sondern auch im Bereich des Protein-Engineerings, wo das Ziel ist, neuartige Proteine ​​mit Eigenschaften zu schaffen, die sich besser für den Einsatz in industriellen oder klinischen Umgebungen eignen.

Kasten 7.1

Ortsgerichtete Mutagenese. Verfahren zur präzisen Veränderung einer Gensequenz, um die Struktur und möglicherweise die Aktivität eines Proteins zu verändern. Veränderungen in der Proteinstruktur können durch ortsgerichtete Mutagenesetechniken erzeugt werden, die (mehr.)

Nach der Mutagenese muss die Gensequenz in die Wirtszelle eingeführt werden, damit eine homologe Rekombination die vorhandene Kopie des Gens durch die modifizierte Version ersetzen kann. Dies stellt ein Problem dar, da wir wissen müssen, welche Zellen eine homologe Rekombination durchlaufen haben. Selbst bei Hefe wird dies nur ein Bruchteil der Gesamtmenge sein, und bei Mäusen wird der Bruchteil sehr klein sein. Normalerweise würden wir dieses Problem lösen, indem wir neben dem mutierten Gen ein Markergen (z.B. eines für Antibiotikaresistenz) platzieren und nach Zellen suchen, die den von diesem Marker verliehenen Phänotyp annehmen. In den meisten Fällen fügen Zellen, die das Markergen in ihr Genom einfügen, auch das eng verbundene mutierte Gen ein, und so sind die von uns gewünschten. Das Problem besteht darin, dass wir bei einem ortsgerichteten Mutagenese-Experiment sicher sein müssen, dass jede Änderung der Aktivität des untersuchten Gens das Ergebnis der spezifischen Mutation ist, die in das Gen eingeführt wurde, und nicht das indirekte Ergebnis einer Veränderung seiner Umgebung in das Genom durch Einfügen eines Markergens daneben. Die Antwort besteht darin, einen komplexeren zweistufigen Genersatz zu verwenden (Abbildung 7.19). Dabei wird zunächst das Zielgen allein durch das Markergen ersetzt, wobei die Zellen, in denen diese Rekombination stattfindet, durch Selektion auf den Markergen-Phänotyp identifiziert werden. Diese Zellen werden dann in der zweiten Stufe des Genersatzes verwendet, wenn das Markergen durch das mutierte Gen ersetzt wird, wobei der Erfolg nun überwacht wird, indem nach Zellen gesucht wird, die den Markergen-Phänotyp verloren haben. Diese Zellen enthalten das mutierte Gen und ihre Phänotypen können untersucht werden, um die Wirkung der gerichteten Mutation auf die Aktivität des Proteinprodukts zu bestimmen.

Abbildung 7.19

Genersatz in zwei Schritten. Details finden Sie im Text.

Reportergene und Immunzytochemie können verwendet werden, um zu lokalisieren, wo und wann Gene exprimiert werden

Hinweise auf die Funktion eines Gens lassen sich oft dadurch gewinnen, dass man bestimmt, wo und wann das Gen aktiv ist. Wenn die Genexpression auf ein bestimmtes Organ oder Gewebe eines vielzelligen Organismus oder auf einen einzelnen Satz von Zellen innerhalb eines Organs oder Gewebes beschränkt ist, dann kann diese Positionsinformation verwendet werden, um die allgemeine Rolle des Genprodukts abzuleiten. Das gleiche gilt für Informationen bezüglich des Entwicklungsstadiums, in dem ein Gen exprimiert wird. Diese Art der Analyse hat sich als besonders nützlich erwiesen, um die Aktivitäten von Genen zu verstehen, die an den frühesten Entwicklungsstadien beteiligt sind Drosophila (Abschnitt 12.3.3) und wird zunehmend verwendet, um die Genetik der Säugetierentwicklung zu enträtseln. Sie ist auch auf einzellige Organismen wie Hefen anwendbar, die in ihrem Lebenszyklus unterschiedliche Entwicklungsstadien aufweisen.

Die Bestimmung des Musters der Genexpression innerhalb eines Organismus ist mit einem Reportergen möglich. Dies ist ein Gen, dessen Expression auf bequeme Weise überwacht werden kann, idealerweise durch visuelle Untersuchung (Tabelle 7.1), wobei Zellen, die das Reportergen exprimieren, blau werden, fluoreszieren oder ein anderes sichtbares Signal abgeben. Damit das Reportergen einen zuverlässigen Hinweis darauf gibt, wo und wann ein Testgen exprimiert wird, muss der Reporter denselben regulatorischen Signalen ausgesetzt sein wie das Testgen. Dies wird erreicht, indem der ORF des Testgens durch den ORF des Reportergens ersetzt wird (Abbildung 7.20). Die meisten regulatorischen Signale, die die Genexpression kontrollieren, sind in der DNA-Region stromaufwärts des ORF enthalten, so dass das Reportergen nun das gleiche Expressionsmuster wie das Testgen aufweisen sollte. Das Expressionsmuster kann daher bestimmt werden, indem der Organismus auf das Reportersignal untersucht wird.

Tabelle 7.1

Beispiele für Reportergene.

Abbildung 7.20

Ein Reportergen. Der offene Leserahmen des Reportergens ersetzt den offenen Leserahmen des untersuchten Gens. Das Ergebnis ist, dass das Reportergen unter die Kontrolle der regulatorischen Sequenzen gestellt wird, die normalerweise das Expressionsmuster diktieren (mehr.)

Neben dem Wissen, in welchen Zellen ein Gen exprimiert wird, ist es oft nützlich, die Position innerhalb der Zelle zu lokalisieren, an der das von dem Gen kodierte Protein gefunden wird. Schlüsseldaten zur Genfunktion können beispielsweise gewonnen werden, indem gezeigt wird, dass sich das Proteinprodukt in Mitochondrien, im Zellkern oder auf der Zelloberfläche befindet. Reportergene können hier nicht helfen, da die DNA-Sequenz stromaufwärts des Gens – die Sequenz, an die das Reportergen angehängt ist – nicht daran beteiligt ist, das Proteinprodukt an seinen korrekten intrazellulären Ort zu lenken. Stattdessen ist die Aminosäuresequenz des Proteins selbst wichtig. Daher ist der einzige Weg, um festzustellen, wo sich das Protein befindet, direkt danach zu suchen. Dies geschieht durch die Immunzytochemie, die einen Antikörper verwendet, der für das interessierende Protein spezifisch ist und so an dieses und kein anderes Protein bindet. Der Antikörper wird so markiert, dass seine Position in der Zelle und damit die Position des Zielproteins sichtbar gemacht werden kann (Abbildung 7.21). Fluoreszenzmarkierung und Lichtmikroskopie werden für Studien mit niedriger Auflösung verwendet. Alternativ kann eine hochauflösende Immunzytochemie durch Elektronenmikroskopie unter Verwendung einer elektronendichten Markierung wie kolloidalem Gold durchgeführt werden.

Abbildung 7.21

Immunzytochemie. Die Zelle wird mit einem Antikörper behandelt, der mit einem blauen Fluoreszenzmarker markiert ist. Die Untersuchung der Zelle zeigt, dass das Fluoreszenzsignal mit der inneren Mitochondrienmembran verbunden ist. Eine Arbeitshypothese würde daher (mehr.)


Was ist ein ORF?

Open Reading Frame oder ORF ist der kontinuierliche Abschnitt einer Nukleotidsequenz, der mit einem Startcodon beginnt und mit einem Stopcodon endet. In einfachen Worten bezieht sich ORF auf den Bereich der Nukleotidsequenz, der sich zwischen Start- und Stoppcodon befindet. Dazwischen gibt es kein Stopcodon, das den ORF unterbricht. Die Nukleotidsequenz zwischen Start- und Stoppcodon kodiert für Aminosäuren. Im Allgemeinen ist das Startcodon ATG, während die Stoppcodons TAG, TAA und TGA sind. ORF liefert ein funktionelles Protein, wenn es transkribiert und translatiert wird. Daher enthält ORF ein Startcodon, mehrere Codons im mittleren Bereich und ein Stopcodon. Interessanterweise hat der ORF eine Länge, die durch drei geteilt werden kann.

Abbildung 02: Offener Leserahmen

Da es in Prokaryonten keine Introns gibt, ist ORF die kodierende Sequenz eines Gens, das direkt in mRNA transkribiert. Daher sind CDS und PRF in Prokaryonten gleich. Bei der Suche nach Genen in Prokaryoten ist es einfach, einen ORF zu erkennen und ein Gen in Prokaryoten zu finden. In Eukaryoten ist ORF, da es Introns gibt, die Codon-Sequenz, die sich nach Prozessierung oder RNA-Spleißen bildet. ORF ist ein Beweisstück, das die Genvorhersage unterstützt, solange ORF wahrscheinlich Teil eines Gens ist.


Open Reading Frames vs Coding Sequences (CDS), unterscheiden sie sich? - Biologie

Bitte beachten Sie, dass dieses Glossar in Arbeit. Finden Sie fehlende Begriffe oder möchten Sie Definitionen vorschlagen, teilen Sie uns dies bitte mit.

  • 3’-Regel für alle Beschreibungen wird die höchstmögliche 3’-Position der Referenzsequenz willkürlich als verändert zugewiesen. Wenn ATTTG zu ATTG wechselt, beschreibt HGVS dies als eine Änderung des T an Position 4 (nicht des T an Position 2 oder 3)
  • Allelvariantenformen desselben Gens (MESH) LKW: eine Reihe von Varianten auf einem Chromosom. Beschreibungen siehe EmpfehlungenDNA, RNA oder Protein.
  • Aminosäure ein Buchstabe aus dem Proteincode (siehe Normen).
  • cap site erstes Nukleotid eines Transkripts (5’-Ende), an das ein speziell verändertes Nukleotid angefügt wird.
  • Bruchstelle die Stelle, an der zwei Sequenzen, die sich in der Referenzsequenz an unterschiedlichen Positionen befinden, als Folge einer genomischen Umlagerung verbunden sind (Strukturvariante)
  • cDNA cDNA, „copy DNA“ oder „complementary DNA“, ist die DNA-Kopie eines einzelsträngigen RNA-Moleküls, die mit dem Enzym Reverse Transkriptase (Wikipedia, MESH) synthetisiert wird. HINWEIS: cDNA ist nicht gleich „kodierende DNA“ (siehe unten).
  • CDS-kodierende DNA-Sequenz, eine Sequenz, die in eine Aminosäuresequenz (Protein) translatiert wird.
  • Chimärismus das Auftreten in einem Individuum von zwei oder mehr Zellpopulationen, die von verschiedenen Zygoten stammen, mit unterschiedlichen Sequenzen (basierend auf MESH). Gegenteil von Mosaik. Beschreibungen siehe Allgemeines/verwendete Zeichen.
  • cis zwei Varianten sind „in cis“ wenn sie sich auf demselben Allel befinden (DNA-Molekül, Chromosom).
  • CNV Kopienzahlvariante (CNV), eine Variante in einem Genom, bei der die Anzahl der Kopien eines großen DNA-Abschnitts von der im Referenzgenom abweicht, eine Kopie kann fehlen (gelöscht) oder mehr als einmal vorhanden sein (dupliziert, verdreifacht, … oder verstärkt). HINWEIS: eine „große Strecke“ ist nicht genau definiert, umfasst aber in der Regel mindestens ein Exon eines Gens oder 1.000 Nukleotide oder mehr. Alias ​​CNP (Kopienzahlpolymorphismus)
  • Codierende DNA die Segmente eines Genoms oder Segments eines Transkripts (RNA-Molekül), das für ein Protein kodiert.
  • kodierende DNA-Referenzsequenz eine DNA-Referenzsequenz (siehe Referenzsequenz), basierend auf einem proteinkodierenden Transkript eines Gens, das zur Nukleotidnummerierung unter Verwendung des „c“ verwendet werden kann. Präfix. Eine solche Referenzsequenz umfasst die kodierende DNA-Sequenz (CDS) und die 5'- und 3'-UTR-Regionen. HINWEIS: eine kodierende DNA-Referenzsequenz ist nicht eine cDNA-Sequenz (siehe oben)
  • Komplex LKW: eine Sequenzänderung, bei der im Vergleich zu einer Referenzsequenz eine Reihe von Änderungen auftreten, die nicht als einer der grundlegenden Variantentypen beschrieben werden können (Substitution, Deletion, Duplikation, Insertion, Konvertierung, Inversion, Deletion-Insertion oder Wiederholungssequenz) .
  • zusammengesetzte Heterozygote in Fällen von autosomal-rezessiv Krankheit, bei der die krankheitsverursachenden Varianten auf beiden Allelen an einem bestimmten Locus sind Nicht identisch (Gegenteil von homozygot)
  • Wandlung LKW-DNA: eine Sequenzänderung, bei der im Vergleich zu einer Referenzsequenz eine Reihe von Nukleotiden durch eine Sequenz von einer anderen Stelle im Genom ersetzt wird. HINWEIS: Konvertierungsvarianten werden als Deletion-Insertion bezeichnet (siehe DNA oder RNA).
  • Crick-Strang siehe Plus (+)-Strang.
  • Streichung
    • ein oder mehrere Buchstaben des DNA-Codes fehlen (gelöscht). Eine Löschung wird mit a . angezeigt "del"
    • LKW-DNA: eine Sequenzänderung, bei der im Vergleich zu einer Referenzsequenz ein oder mehrere Nukleotide nicht vorhanden sind (deletiert). Beschreibungen siehe EmpfehlungenDNA, RNA oder Protein.
    • ein oder mehrere Buchstaben im DNA-Code fehlen und werden durch mehrere neue Buchstaben ersetzt
    • LKW-DNA: eine Sequenzänderung, bei der im Vergleich zu einer Referenzsequenz ein oder mehrere Nukleotide durch ein oder mehrere andere Nukleotide ersetzt werden und die keine Substitution, Inversion oder Konversion ist. Beschreibungen siehe EmpfehlungenDNA, RNA oder Protein.
    • ein oder mehrere Buchstaben des DNA-Codes sind doppelt vorhanden (doppelt, dupliziert)
    • LKW-DNA: eine Sequenzänderung, bei der im Vergleich zu einer Referenzsequenz eine Kopie eines oder mehrerer Nukleotide direkt 3’ der Originalkopie dieser Sequenz eingefügt wird. HINWEIS: diagnostische Assays (wie MLPA) erkennen normalerweise ein zusätzliches Exemplar einer bestimmten Reihenfolge. Ob es sich bei der zusätzlichen Kopie um eine Vervielfältigung oder eine Einfügung handelt, muss noch festgestellt werden. Beschreibungen siehe EmpfehlungenDNA, RNA oder Protein.
    • ein oder mehrere Buchstaben im DNA-, RNA- oder Aminosäurecode sind neu (wurden eingefügt)
    • LKW-DNA: eine Sequenzänderung, bei der im Vergleich zur Referenzsequenz ein oder mehrere Reste eingefügt werden und bei der die Insertion keine Kopie einer Sequenz unmittelbar stromaufwärts ist. Beschreibungen siehe EmpfehlungenDNA, RNA oder Protein.
    • eine Variante, bei der ein Codon in ein Codon geändert wird, das den Einbau einer anderen Aminosäure steuert (basierend auf MESH).
    • LKW: eine Variante in einer Proteinsequenz, bei der im Vergleich zur Referenzsequenz eine Aminosäure durch eine andere Aminosäure ersetzt ist.
    • LKW: verwirrender Begriff, nicht verwenden, verwenden Variante (siehe Grundlagen)
    • Biologie: eine Änderung in der Reihenfolge
    • Medizin: eine Sequenzvariante damit verbundenen mit Krankheitsphänotyp.
    • eine Variante, die ein Aminosäure-spezifizierendes Codon in ein Stop-Codon (Terminationscodon, basierend auf MESH) verändert.
    • LKW: eine Variante in einer Proteinsequenz, bei der im Vergleich zur Referenzsequenz eine Aminosäure durch ein Translationsstopcodon (Terminationscodon) ersetzt ist.
    • Polymorphismus HINWEIS: Bitte verwenden Sie diesen Begriff nicht, siehe Terminologie.
      • LKW: verwirrender Begriff, nicht verwenden, verwenden Variante (siehe Grundlagen)
      • Biologie: eine Sequenzvariante, die in der Population mit einer Häufigkeit von 1% oder höher vorhanden ist
      • Medizin: eine Sequenzvariante nicht verbunden mit einem Krankheitsphänotyp
      • eine Variante in einer DNA-Sequenz, die die Aminosäuresequenz des kodierten Proteins nicht verändert (basierend auf MESH).
      • LKW: ein Aminosäurerest in einer Proteinsequenz, bei dem im Vergleich zur Referenzsequenz die DNA-Sequenz geändert wurde, aber nicht die kodierte Aminosäure.
      • ein Buchstabe des DNA-, RNA- oder Aminosäurecodes wird durch einen anderen Buchstaben ersetzt (ersetzt)
      • LKW-DNA: eine Sequenzänderung, bei der im Vergleich zu einer Referenzsequenz ein Rest durch einen anderen Rest ersetzt wird. Beschreibungen siehe EmpfehlungenDNA, RNA oder Protein.
      • eine Chromosomenanomalie, gekennzeichnet durch Chromosomenbruch und Übertragung des abgebrochenen Teils auf ein nicht homologes Chromosom (basierend auf MESH)
      • LKW: eine Sequenzänderung, bei der im Vergleich zu einer Referenzsequenz von einer bestimmten Nukleotidposition (dem Bruchpunkt) alle Nukleotide stromaufwärts von einem anderen Chromosom stammen als die stromabwärts HINWEIS: eine Translokation tritt auf, wenn zwei Chromosomen brechen und die Fragmente mit dem nicht homologen Chromosom wieder zusammenkommen. Eine vollständige Beschreibung einer (reziproken) Translokation besteht aus 2 Teilen, einer beschreibt die erste Kreuzung, der zweite beschreibt die andere Kreuzung (z. B. die Chromosom-4X-Kreuzung und die Chromosom-X4-Kreuzung).
      • Translokation, balancierte eine Translokation mit einem gleichmäßigen Austausch von DNA-Sequenzen und ohne gelöschte oder duplizierte Segmente
      • Translokation, unausgewogen eine Translokation mit einem ungleichmäßigen Austausch von DNA-Sequenzen und Segmenten, die deletiert oder dupliziert werden

      Geschichte

      Versionierung

      Externe Links

      • Gesellschaft für Humangenomvariation
      • Human Variom Projekt
      • Organisation des menschlichen Genoms

      Kontaktiere uns

        Diskussionen über die HGVS-Nomenklatur sind notwendig, um diese weiter zu verbessern. Was auf diesen Seiten aufgeführt ist, stellt den aktuellen Konsens der Empfehlungen dar. Wir laden alle ein, uns Fragen, Kommentare oder Beispiele für Fälle zu senden, die noch nicht behandelt wurden, mit einem Vorschlag, wie diese beschrieben werden können ( Email:VarNomen @ HGVS.org). Vergessen Sie bei spezifischen Fragen nicht, die Referenzsequenz Gebraucht!
        Folge uns auf Facebook

      Unterschied zwischen Codon und Anticodon

      Standort

      Kodon: Codon befindet sich auf dem mRNA-Molekül.

      Anticodon: Anticodon befindet sich im tRNA-Molekül.

      Komplementäre Natur

      Kodon: Codon ist komplementär zum Nukleotidtriplett in der DNA.

      Anticodon: Anticodon ist komplementär zum Codon.

      Kontinuität

      Kodon: Codon ist sequentiell auf der mRNA vorhanden.

      Anticodon: Anticodon ist einzeln auf tRNAs vorhanden.

      Funktion

      Kodon: Codon bestimmt die Position der Aminosäure.

      Anticodon: Anticodon bringt die angegebene Aminosäure durch das Codon.

      Abschluss

      Codon und Anticodon sind beide an der Positionierung von Aminosäuren in der richtigen Reihenfolge beteiligt, um während der Translation ein funktionelles Protein zu synthetisieren. Beide sind Nukleotidtripletts. Einundsechzig verschiedene Codons können gefunden werden, die die zwanzig essentiellen Aminosäuren spezifizieren, die für die Synthese einer Polypeptidkette erforderlich sind. Somit sind einundsechzig verschiedene tRNAs erforderlich, um ein Basenpaar mit den einundsechzig Codons zu komplementieren. Aufgrund der Anwesenheit von Wobble-Basenpaarungen wird die Anzahl der erforderlichen tRNAs jedoch auf einunddreißig reduziert. Die zum Codon komplementären Anticodon-Basenpaare werden als universelles Merkmal angesehen. Daher ist der Hauptunterschied zwischen Codon und Anticodon ihre komplementäre Natur.

      Referenz:
      "Genetischer Code". Wikipedia, die freie Enzyklopädie, 2017. Zugriff am 03. März 2017
      „RNA übertragen“. Wikipedia, die freie Enzyklopädie, 2017. Zugriff am 03. März 2017

      Bild mit freundlicher Genehmigung:
      “Reading Frame” Von Hornung Ákos – Eigene Arbeit (CC BY-SA 3.0) über Commons Wikimedia
      “RNA-codon” Von Der ursprüngliche Uploader war Sverdrup bei der englischen Wikipedia – Übertragen von en.wikipedia zu Commons., Public Domain) über Commons Wikimedia
      󈫶 chart pu” Von NIH – (Public Domain) über Commons Wikimedia
      “Ribosome” Von pluma – Eigene Arbeit (CC BY-SA 3.0) über Commons Wikimedia
      “TRNA-Phe Hefe 1ehz” Von Yikrazuul – Eigene Arbeit (CC BY-SA 3.0) über Commons Wikimedia

      Über den Autor: Lakna

      Lakna, Absolventin der Molekularbiologie und Biochemie, ist Molekularbiologin und hat ein breites und starkes Interesse an der Entdeckung naturbezogener Dinge


      Schau das Video: The Features of a Coding Sequence (Kann 2022).


Bemerkungen:

  1. Mushura

    Du liegst absolut richtig. Darin ist etwas eine hervorragende Idee, es stimmt Ihnen zu.

  2. Xuan

    Es tut mir leid, aber ich glaube, du liegst falsch. Ich bin sicher. Lassen Sie uns darüber diskutieren. Maile mir per PN.

  3. Deegan

    Sicherlich. Ich schließe mich allen oben genannten an. Über dieses Thema können wir sprechen. Hier oder am Nachmittag.

  4. Ruodrik

    Sehnsucht

  5. Mar

    Ich kann das kaum glauben.

  6. Anton

    FUNKTIONIERT AUSGEZEICHNET !!!!!! Vielen Dank

  7. Musar

    Ganz recht! Genau.

  8. Anzety

    Alles alles.



Eine Nachricht schreiben