Information

Was ist der Unterschied zwischen den Optionen Protein und Replikation in der NCBI-Datenbank?

Was ist der Unterschied zwischen den Optionen Protein und Replikation in der NCBI-Datenbank?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Nachdem ich die NCBI-Hilfeseite überprüft habe, bin ich mir immer noch unklar über den Unterschied zwischen Protein und Reproduzieren Wechselwirkungen für HIV.

http://www.ncbi.nlm.nih.gov/genome/viruses/retroviruses/hiv-1/interactions/


Interaktionen bezeichnen Protein-Protein-Interaktionen, was eine physikalische Assoziation zwischen Proteinen bedeutet. Von Natur aus sind diese Netzwerke/Graphen ungerichtet.

Replikationsinteraktionen (eigentlich ein nicht sehr guter Begriff) bezeichnen Genregulationsinteraktionen, die die HIV-Replikation beeinflussen. Diese Sets beinhalten auch die regulatorischen Wirkungen von HIV-Genen auf Wirtsgene (und daher ist die Terminologie ungeeignet). Diese Netzwerke sind sowohl gerichtet als auch vorzeichenbehaftet (positive oder negative Interaktionen, d. h. Aktivierung bzw. Hemmung).

Überzeugen Sie sich selbst in den Dropdown-Boxen und den Interaktionslisten auf dieser Seite.


Was ist der Unterschied zwischen den Optionen Protein und Replikation in der NCBI-Datenbank? - Biologie

Ihr Warenkorb ist derzeit leer. i <p>Wenn Sie verschiedene UniProt-Proteine ​​durchsuchen, können Sie sie im 'Warenkorb' speichern, damit Sie sie später wiederfinden oder analysieren können.<p><a href='/help/basket' target='_top'> Mehr. </a></p>

Artikel auswählen und auf "In den Warenkorb" klicken, um hier Ihre eigene Kollektion zu erstellen
(400 Einträge max.)

Mapping zwischen UniProtKB- und NCBI-Ressourcen (GeneID, RefSeq): Wie funktioniert es?

Zuletzt geändert 11. September 2018

Wie führt UniProt GeneID- und RefSeq-Mappings durch?

Gemäß einem Protokoll, das wir mit dem NCBI formalisiert haben, erstellen wir eine proteinzentrierte RefSeq-Kartierung. Wenn ein UniProtKB-Protein (kanonische oder isoforme Sequenz)

  • ist zu 100 % identisch (über die gesamte Sequenzlänge) mit einem RefSeq-Protein und stammt vom gleichen Organismus oder
  • hat gemeinsame EMBL/DDBJ/GenBank Protein Zugangsnummern (CDS, protein_id)

dann wird dieser RefSeq-Zugriff auf das UniProtKB-Protein abgebildet und folglich erhält der Eintrag auch den entsprechenden GeneID-Querverweis.

Warum fehlen GeneID-Querverweise in einigen menschlichen Einträgen?

Wenn ein UniProtKB-Protein keinem RefSeq-Protein zugeordnet ist, hat dieser Eintrag keinen GeneID-Querverweis.

Warum sind einige GeneID-Einträge mit UniProtKB-Einträgen verknüpft, aber diese UniProtKB-Einträge haben keinen GeneID-Querverweis?

Abgesehen von den UniProtKB-RefSeq-Zuordnungen, die das UniProt-Konsortium dem NCBI zur Verfügung stellt und die im Abschnitt "NCBI-Referenzsequenzen (RefSeq)" der RefSeq-Eintragsberichte berichtet werden, berechnet NCBI auch zusätzliche "Verwandte Sequenzen", die UniProtKB-Proteine ​​enthalten können und sind in einem separaten Abschnitt angezeigt.


Replikationsprotein

<p>Der Annotations-Score bietet ein heuristisches Maß für den Annotationsinhalt eines UniProtKB-Eintrags oder -Proteoms. Dieser Wert kann <strong>nicht</strong> als Maß für die Genauigkeit der Anmerkung verwendet werden, da wir nicht die 'richtige Anmerkung' für ein bestimmtes Protein definieren können.<p><a href='/help/annotation_score' target='_top'> Mehr. </a></p> - Protein abgeleitet aus Homologie i <p>Dies zeigt die Art des Beweises an, der die Existenz des Proteins unterstützt. Beachten Sie, dass der Nachweis der 'Proteinexistenz' keine Informationen über die Genauigkeit oder Korrektheit der angezeigten Sequenz(en) liefert.<p><a href='/help/protein_existence' target='_top'>Mehr. </a></p>

Wählen Sie links einen Abschnitt aus, um den Inhalt anzuzeigen.


Anmerkungen, die Lücken überqueren

Ein CDS kann nur eine Lücke unbekannter Größe in Introns überwinden, nicht in der eigentlichen kodierenden Region. Wenn sich die Lücke unbekannter Größe innerhalb eines Exons befindet, könnten Sie das CDS in zwei partielle CDS-Merkmale (und mRNAs in Eukaryoten) aufteilen, die an die Lücke angrenzen, mit einem einzigen Gen über den gesamten Locus. Alternativ kann eines der partiellen CDS/mRNA-Merkmale gelöscht werden, wenn es sehr kurz ist und es wenig oder keine Belege dafür gibt. Wenn Sie ein einzelnes Gen und zwei partielle CDS/mRNA-Merkmale haben, sollten Sie: (1) zu jedem CDS einen Hinweis hinzufügen, der auf die andere Hälfte des Gens verweist, (2) zu den Gen- und CDS-Merkmalen einen Hinweis mit der Angabe "Lücke" hinzufügen innerhalb der Kodierungssequenz gefunden." Ein CDS-Exon kann eine Lücke von geschätzter Größe überqueren, jedoch sollte eine CDS (oder mRNA) eine Lücke nicht überqueren, so dass über 50% der Translation X ist (dh in der Lücke liegt). Diese Situation erzeugt einen Fehler. Auch hier sollte die CDS/mRNA entweder bis zur Lücke teilweise sein oder sich in zwei partielle CDS/mRNA-Merkmale auf beiden Seiten der Lücke aufteilen, abhängig von Ihrem Vertrauen in die Translation auf jeder Seite der Lücke. Außerdem sollte kein Feature innerhalb einer Lücke beginnen oder enden. Stattdessen sollte das Feature an die Lücke angrenzen und partiell sein. Weitere Informationen zum Aufteilen von CDS-Features finden Sie entweder in den Richtlinien für eukaryotische Anmerkungen oder in den Richtlinien für prokaryontische Anmerkungen .


Die Genealogie und Struktur der Coronaviren

Menschliche Coronaviren sind Mitglieder des Nidovirales-Ordens, der die Coronaviridae, Arteriviridae, und Roniviridae Familien. Coronavirinae und Torovirinae sind zwei Unterfamilien der Coronaviridae. Die Coronavirinae Unterfamilie wird weiter in vier Alpha-, Beta-, Gamma- und Delta-Gruppen eingeteilt, von denen die ersten beiden Säugetiere und die zweiten beiden Vögel infizieren. In erster Linie wurden die Viren serologisch in diese Gruppen eingeteilt, derzeit werden sie jedoch nach phylogenetischer Klassifikation klassifiziert. Alle Coronaviren gehören zu den Baltimore-Klasse-IV-Viren (Positiv-Sense-Einzelstrang-RNA) und sind umhüllt. Bisher wurden sieben Arten menschlicher Coronaviren beschrieben: HCoV-NL63 und HCoV-229E, die zur Gattung Alpha gehören, und HCoV-OC43, HCoVHKU1, SARS-CoV, MERS-CoV und SARS-CoV-2 gehören zu die Beta-Gattung. β-Coronaviren sind umhüllte, einzelsträngige RNA-Viren, die Wildtiere, Herden sowie Menschen infizieren und unerwartete Ausbrüche und asymptomatische Infektionen auslösen. Während Fledermäuse als Quelle des Virus ein Hauptverdächtiger sind, kann es in der Fledermaus-Mensch-Übertragungskette einen Zwischenwirt geben (Abb. 1) [12].

Die wichtigsten Reservoirs und die artenübergreifende Übertragung von Coronaviren. Coronaviren haben sich von ihren Vorfahren in Fledermaus- und Vogelwirten zu neuen Virusarten entwickelt, die andere Tiere infizieren

Eine phylogenetische Baumanalyse basierend auf dem vollständigen Genom zeigte, dass das SARS-CoV-2-Virus mit dem SARS-Fledermausvirus, dem SCCoVZC21-Stamm (NCBI-Zugangsnummer MG772934) und dem Fledermaus-SL-CoVZC45 (NCBI-Zugangsnummer MG772933) mit etwa 89% eng verwandt war. Sequenzhomologie. Seine genomische Struktur ähnelt der gewöhnlicher β-Coronaviren. Weitere phylogenetische Analysen haben gezeigt, dass SARS-CoV-2 ein rekombinantes Virus ist, das eng mit denen von Fledermäusen verbunden ist. Jüngste Studien haben jedoch gezeigt, dass RaTG13, Fledermaus-Coronavirus, die größte Ähnlichkeit mit dem neuartigen Coronavirus aufweist (92–96 % Ähnlichkeit) und eine von anderen Coronaviren getrennte Ordnung bildet. Daher weist die Analyse des neuartigen Coronavirus die Hypothese der Emergenz als Ergebnis eines kürzlich erfolgten Rekombinationsereignisses zurück [13].

In den letzten 18 Jahren wurden zwei zoonotische und hochpathogene Arten der Coronavirus-Familie identifiziert, bekannt als SARS-CoV und MERS-CoV [14]. Coronaviren sind kugelförmige, polyedrische Viren mit einem Durchmesser von 80 bis 160 nm und einer großen Genomgröße (

27,6–31,6 kb) [15] Keulenartige Oberflächenprojektionen oder Peplomere [bestehend aus Trimeren eines Spike(S)-Proteins] sind in elektronenmikroskopischen Aufnahmen des Coronavirus erkennbar [16]. Die Virushülle wird durch ein Membranglykoprotein (M) geschützt, das das am häufigsten vorkommende Strukturprotein des Virus ist [16]. Das M-Protein bildet das Virus und verstärkt die Krümmung der Membran und heftet sich an das Nukleokapsid. Darüber hinaus enthält die Hülle eine kleine Menge eines vorübergehenden Membranproteins, das als Hüllprotein (E) bekannt ist und eine Rolle beim Aufbau, der Freisetzung und der Pathogenese des Virus spielt [5]. Das Nukleokapsid (N) ist ein weiteres virales Protein, das an das RNA-Genom bindet und ein symmetrisches helikales Nukleokapsid erzeugt (Abb. 2). Außerdem haben Nukleokapside zwei Domänen, die über verschiedene Mechanismen an das RNA-Genom anhaften können [5, 16].

Der schematische Aufbau von SARS-CoV-2 und seinen Strukturproteinen. Die Spike-, Hüll- und Membranglykoproteine ​​sind in die Lipiddoppelschicht eingebettet und das Nukleokapsidprotein bindet an genomische RNA

Coronaviren haben ein einzelsträngiges, positives RNA-Genom mit einer Kappe am 5'-Terminus, einem Poly-(A)-Schwanz am 3'-Terminus und mehreren offenen Leserahmen (ORFs). Die konsistente Anordnung der Gene vom 5'- zum 3'-Ende umfasst Replikase, S-E-M-N-Glykoproteine, zusammen mit mehreren kleinen ORFs, die Subproteine ​​darstellen, die unter Strukturgenen verstreut sind ( 3 ). Die Coronavirus-Replikase wird von zwei beträchtlich überlappenden ORFs (ORF1a und ORF1b) kodiert, die zwei Drittel des Genoms dominieren [17]. Die schnelle Sequenzierung der fast 30.000 Nukleotide des SARS-CoV-2-Genoms wurde in etwa 3 Wochen nach der Diagnose des ersten Krankenhauspatienten, der am 12. Dezember 2019 diagnostiziert wurde, von Zhangs Gruppe und mehreren anderen in China durchgeführt. Das Genom von SARS-CoV-2 enthält 14 ORFs, die für 27 Proteine ​​kodieren. Die Gene orf1a und orf1b befinden sich am 5'-Terminus des Genoms und kodieren für 15 nicht-strukturelle Proteine ​​(NSPs) von nsp1 bis nsp10 bzw. von nsp12 bis nsp16. Andererseits enthält der 3'-Terminus des Genoms vier Strukturproteine ​​(S, E, M und N) und acht sekundäre Proteine ​​(3a, 3b, p6, 7a, 7b, 8b, 9b und orf14). Obwohl SARSCoV-2 auf der Ebene der Aminosäure SARS-CoV größtenteils ähnlich ist, gibt es erhebliche Unterschiede zwischen den beiden Viren, wie z therapeutische Peptide für die SARS-CoV-Spike-RBD nicht richtig gegen SARS-CoV-2 wirken [17]. Darüber hinaus haben sich in einem systematischen Vergleich ein Mangel an 8a-Protein und ein größeres 8b-Protein bei SARS-CoV-2 im Vergleich zu SARS-CoV als auffällige Unterschiede gezeigt [17]. Es wurde auch gezeigt, dass SARS-CoV-2 in der Lage ist, menschliches Lungengewebe besser zu infizieren und zu replizieren als SARS-CoV [18]. Daher sind weitere Studien erforderlich, um zu beschreiben, wie sich diese Unterschiede auf die Infektion, Replikation und Pathogenese von SARS-CoV-2 auswirken.

Genomstruktur von SARS-CoV-2 und seinen kodierten Proteinen. Der offene Leserahmen 1a (ORF1a) und ORF1b sind als blaue bzw. orangefarbene Kästchen dargestellt, die für 15 nicht-strukturelle Proteine ​​(NSPs) kodieren. Die Gene, die die wichtigsten Strukturproteine ​​kodieren, einschließlich Spike (S), Hülle (E), Membran (M) und Nukleokapsid (N), sind als grüne Kästchen dargestellt. Die violetten, roten und rosa Kästchen am 3′-Ende stellen die sekundären (Zubehör-)Proteine ​​dar (Farbabbildung online)


ZUGRIFF AUF DEN REFSEQ-DATENSATZ

Die RefSeq-Homepage http://www.ncbi.nlm.nih.gov/refseq/ ist eine zentrale Drehscheibe für alle Aspekte des RefSeq-Datensatzes. Diese Website bietet Links, die Benutzer durch eine allgemeine Beschreibung des Projekts führen, sowie Factsheets, Wachstumsstatistiken und Informationen zu gezielteren RefSeq-Projekten wie der Prokaryotic Genome Re-Annotation Initiative, dem Consensus Coding Sequence (CCDS)-Projekt ( 11). RefSeqGene-Projekt und Targeted Loci-Projekte (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/). Links zum aktuellsten umfassenden FTP-Release und eine ausführliche Dokumentation zu Format und Inhalt des Releases finden Sie im Abschnitt „Ankündigungen“ der RefSeq-Homepage. Auf dieser Seite sind auch frühere RefSeq-Ankündigungen verfügbar. Wir empfehlen dringend, RefSeq-Daten direkt vom NCBI herunterzuladen, da Downloads von anderen Bioinformatik- und Genom-Browser-Ressourcen möglicherweise nicht alle verfügbaren Daten enthalten oder lediglich Ausrichtungen von RefSeq-Transkripten zu einem Genom und nicht die Genom-Annotationsergebnisse widerspiegeln, die von NCBI generiert werden .

Auf RefSeq-Sequenzdaten kann interaktiv über NCBIs Nukleotid- und Proteindatenbanken, in BLAST-Datenbanken, über die programmatische Schnittstelle von NCBI (E-Dienstprogramme) oder über das Dateiübertragungsprotokoll (FTP) zugegriffen werden. E-Dienstprogramme unterstützen skriptgesteuerten Zugriff zum Herunterladen von RefSeq-Daten in einer Vielzahl von Formaten basierend auf Suchbegriffen oder Beitrittslisten. Ausführliche Dokumentation ist im NCBI-Handbuch (www.ncbi.nlm.nih.gov/books/NBK25501/) und in Schulungsvideos verfügbar sind auf dem YouTube-Kanal des NCBI (https://www.youtube.com/user/NCBINLM) verfügbar. Sowohl die Nukleotid- als auch die Proteindatenbank ermöglichen es, die Abfrageergebnisse auf nur RefSeq-Datensätze zu beschränken, indem Sie in der Filter-Seitenleiste „RefSeq“ unter „Quelldatenbank“ auswählen. Auf RefSeq-Daten kann auch aus anderen NCBI-Datenbanken zugegriffen werden, einschließlich Assembly, BioProject, Gene und Genome, indem Sie den Links zu Nukleotid-, Protein- oder FTP-Ressourcen folgen durch verschiedene Quellen, einschließlich RefSeq FTP-Versionshinweisen, regelmäßig veröffentlichten Berichten, dem NCBI Announcements News Feed http://www.ncbi.nlm.nih.gov/news/ und über den NCBI Insights Blog http://ncbiinsights.ncbi.nlm. nih.gov/. Benutzer können auch die refseq-announce-Mailliste abonnieren, um regelmäßige Updates zum Projekt und eine Zusammenfassung des Inhalts jeder RefSeq-FTP-Version zu erhalten (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq- bekannt geben/).

RefSeq-Daten werden über FTP über zwei Sites verteilt, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) und Genome (ftp://ftp.ncbi.nlm.nih.gov/genomes/). Die refseq Die FTP-Site bietet tägliche Updates aller neuen und aktualisierten RefSeq-Datensätze, wöchentliche Updates einiger Datentypen und eine alle zwei Monate erscheinende umfassende RefSeq-Version (/refseq/release/). Darüber hinaus werden wöchentlich ausgewählte Organismen-spezifische Transkript- und Proteindatensätze, einschließlich Mensch und Maus, aktualisiert. Die RefSeqGene Das Unterverzeichnis wird täglich aktualisiert, wobei bei jedem Annotationslauf Abgleiche zum Genom freigegeben werden. Die umfassende zweimonatliche Veröffentlichung von RefSeq ist nach taxonomischen (z. B. Wirbeltieren) oder anderen Gruppierungen (z. B. Mitochondrien) organisiert. Daten für die gesamte RefSeq-Sammlung können auch aus dem Verzeichnis /refseq/release/complete/ heruntergeladen werden. Die RefSeq-Version bietet einen Vorteil für diejenigen, die regelmäßige Updates entweder der gesamten Sammlung oder einer einzelnen Gruppe pflegen möchten. Es enthält auch Datensätze, die nicht vom Begleiter verfügbar sind Genome FTP-Site, z. B. Transkripte in der Sammlung, die unabhängig von einer Genom-Assembly verwaltet werden und derzeit möglicherweise nicht mit Anmerkungen versehen sind. Das Release wird mit einer aussagekräftigen Dokumentation der installierten Dateien (/refseq/release/release-catalog/) einschließlich MD5-Prüfsummen, einer Liste aller installierten Dateien sowie Release Notes und Ankündigungen (/refseq/release/release-notes/ ).

RefSeq-Daten können auch von der . heruntergeladen werden Genome FTP-Site. Im August 2014 kündigte NCBI eine umfassende Reorganisation dieser FTP-Site an, die nun Assemblierungs- und Organismen-basierten Zugriff auf GenBank- und RefSeq-Genome bietet (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Dieses Verzeichnis ist weiter in Unterverzeichnisse unterteilt, die auf denselben Gruppen basieren, die in der RefSeq-Version verwendet werden, von denen jede zusätzliche Unterteilungen nach Arten bietet. Die Genome Die FTP-Site bietet Dateien, die alle RefSeq-Genomassemblys darstellen, die in der Assembly-Ressource des NCBI (www.ncbi.nlm.nih.gov/assembly/) aufgeführt sind. Der Vorteil der Genome site besteht darin, dass auf die Daten assemblage- oder organismenspezifisch zugegriffen werden kann. Die bereitgestellten Daten umfassen Genom- und Produktsequenzen (Transkript/Protein), Anmerkungen, Montageberichte und -statistiken sowie MD5-Prüfsummen. Diese Daten werden aktualisiert, wenn die Genombaugruppe und/oder die Anmerkung aktualisiert werden. Dieser Bereich umfasst keine RefSeq-Sequenzen, die außerhalb des Geltungsbereichs einer Genomanordnung liegen, oder Produkte, die nicht auf einem Genom annotiert sind.


Microarray-Analyse neuartiger Gene, die am Nasopharynxkarzinom beteiligt sind

Das Nasopharynxkarzinom (NPC) ist ein epithelialer Krebs, der mit dem Epstein-Barr-Virus in Verbindung gebracht wird. Obwohl NPC eine weit verbreitete bösartige Erkrankung ist, ist wenig über den Zusammenhang zwischen Tumorwachstum und Genexpression bekannt. Diese Studie zielt darauf ab, potenzielle Gene zu entdecken, die am molekularen Mechanismus von NPC beteiligt sind. Zu diesem Zweck haben wir die Bibliotheken GSE12452, GSE53819 und GSE64634 aus der GEO-Datenbank heruntergeladen. Die GEO2R-Schnittstelle wurde verwendet, um mit R- und LIMMA-Software nach den differentiell exprimierten Genen (DEGs) zu suchen, was die Venn-Diagramme der co-exprimierten Gene ergab. Die Datenbanken GO und KEGG wurden verwendet, um DEGs mit hoch- und herunterregulierter Expression zu finden. Dann konstruierte und analysierte die Cytoscape-Software die Protein-Protein-Interaktions-(PPI)-Netzwerke, die den aufgedeckten DEGs entsprachen, woraufhin die Hub-Gene in Geweben und Zellkulturen mit qRT-PCR analysiert wurden. Diese kombinierte Analyse ergab 483 koexprimierte DEGs, darunter 258 DEGs mit hochregulierter Expression und 225 DEGs mit herunterregulierter Expression, die hauptsächlich am Zellzyklus, der DNA-Replikation sowie an der Bildung und Reifung extrazellulärer Vesikel beteiligt sind und Exosomen. Im Vergleich zu normalen nasopharyngealen Geweben gesunder Personen war die Expression des CDK1-Gens im NPC-Gewebe herunterreguliert, während die Expression der PCNA-, MAD2L1-, PRC1-, CENPF- und ZWINT-Gene im Tumor hochreguliert war. Die Gene PCNA, MAD2L1 und ZWINT wurden in EBV+- und EBV-nasopharyngealen Karzinomzellen unterschiedlich exprimiert. Der Einsatz bioinformatischer Methoden zur Aufdeckung und Analyse der Unterschiede in der Genexpression zwischen normalem und NPC-Gewebe eröffnet den Weg für weitere Fortschritte bei der Entschlüsselung der molekularen Mechanismen der NPC-Bildung und -Entwicklung.

Schlüsselwörter: Epstein-Barr-Virus-Bioinformatik Differenzielle Genexpression Nasopharyngealkarzinom.


NCBI Gen & SNP Tutorial

Die Gendatenbank des National Center for Biotechnology Information (NCBI) (http://www.ncbi.nlm.nih.gov/gene) ist eine Online-Ressource, um mehr über Gensequenzen, Genallele und -mutationen, Genome und vieles mehr zu erfahren. Es wurde für die wissenschaftliche Gemeinschaft erstellt, aber mit ein wenig Aufwand und diesem Handbuch kann jeder mit einem grundlegenden Verständnis der Genetik lernen, es anzuwenden (siehe Tabelle 3 für eine Liste von Ressourcen, um die Genetik aufzufrischen). Im Folgenden finden Sie Anweisungen, Tipps und Ratschläge für die ersten Schritte mit dieser Ressource.

Wofür kann ich die NCBI-Gendatenbank verwenden?

Die NCBI-Gendatenbank enthält Informationen zu Gensequenzen, Genallelen und -mutationen, Genomen, Aminosäuresequenzen für Proteine ​​und viele weitere genetische Daten des Menschen sowie vieler anderer Tierarten. Sie können viele Ressourcen in der NCBI-Gendatenbank erkunden. In diesem Tutorial verwenden Sie die Datenbank, um nach einem interessierenden Gen zu suchen und zu erfahren, welche spezifischen Mutationen in diesem Gen bestimmte genetische Krankheiten verursachen können. Am Ende dieses Tutorials werden zusätzliche Ressourcen und die NCBI-eigenen Tutorials behandelt, um mehr über andere NCBI-Gen-Funktionen und -Tools zu erfahren.

Wie kann ich ein Gen nachschlagen und mehr darüber erfahren?

Hier zeigen wir Ihnen, wie Sie ein interessantes Gen nachschlagen können, um mehr darüber zu erfahren. Um die Anleitung zu vereinfachen, verwenden wir in diesem Tutorial Mukoviszidose als Beispiel.

  1. Rufen Sie die Website der NCBI-Gendatenbank auf, die in Abbildung 1 dargestellt ist: http://www.ncbi.nlm.nih.gov/gene. (Notiz: Dieser Link öffnet ein neues Fenster, damit Sie die Schritte einfacher befolgen können.)
  2. Geben Sie oben den Namen Ihres interessierenden Gens ein und klicken Sie auf "Suchen".
    1. Zum Beispiel ist das bei Mukoviszidose mutierte Gen CFTR. (Notiz: Wenn Sie sich für eine Krankheit interessieren, aber das/die zugehörige(n) Gen(e) nicht kennen, können Sie dies in einer anderen Science Buddies-Ressource nachschlagen, dem Genetics Home Reference Tutorial.) Um dieses Gen nachzuschlagen, geben Sie ein: CFTR

    Screenshot der Homepage der Website ncbi.nlm.nih.gov. Oben wird eine Suchleiste angezeigt, und unten auf der Seite befinden sich Quicklinks zu Ressourcen und Gentools.


    Abbildung 1. Die NCBI-Gendatenbank enthält Informationen über Gensequenzen, Genallele und -mutationen, Genome und viele weitere genetische Daten von Menschen und anderen Tierarten.

    1. Die resultierende Seite, die in Abbildung 2 dargestellt ist, kann eine lange Liste verwandter Ergebnisse enthalten. Die Top-Ergebnisse sind in der Regel die relevantesten. Sie suchen den ersten Eintrag, der beide mit Ihrem Gennamen beginnt und enthält den Artnamen für den Menschen (Homo sapiens). In unserem CFTR-Beispiel ist dies das erste Ergebnis, wenn Sie darauf klicken, um zur Genseite zu gelangen.

    Screenshot der Suchergebnisse auf der Website ncbi.nlm.nih.gov. Die Suche nach dem Gen CFTR zeigt eine Liste von Ergebnissen an, die einen Gennamen, eine Gen-ID, eine Beschreibung, einen Ort, Aliasnamen und einen mendelschen Vererbungswert im Menschen (MIM) enthalten. In diesem Beispiel wird das erste Ergebnis in der Liste ausgewählt.


    Figur 2. Wenn Sie einen Gennamen eingeben, erhalten Sie viele Ergebnisse in der NCBI-Gendatenbank. Auf der linken Seite wird der Genname angegeben, gefolgt von seiner Beschreibung (ungekürzter Name) in der zweiten Spalte. Der Artname steht in Klammern am Ende des Beschreibungseintrags. Zusätzliche Geninformationen, einschließlich der Position der Chromosomen, sind in den Spalten weiter rechts angegeben. Wählen Sie das oberste Genergebnis (rot eingekreist) für dieses Tutorial aus.

    Screenshot der Geninformationsseite der Website ncbi.nlm.nih.gov. Die Informationsseite zeigt das spezifische Gen oben auf der Seite mit einer Abkürzung und ausgeschriebenem vollständigen Namen an. In der Mitte der Seite befindet sich eine Zusammenfassung der Informationen für das Gen und ein Abschnitt zum genomischen Kontext, der zusätzliche Informationen enthält. Rechts auf der Seite zeigen zwei Seitenleisten ein Inhaltsverzeichnis für die Geninformationsseite und eine zugehörige Informationsseite an, die auf zusätzliche Ressourcen verweist.


    Figur 3. Die NCBI-Gendatenbank enthält eine große Menge an Informationen für jedes beliebige Gen. In diesem Tutorial werden die Links in den Abschnitten "Inhaltsverzeichnis" (grün eingekreist) und "Zugehörige Informationen" (rot eingekreist) auf der rechten Seite der Seite untersucht.

    Verwenden Sie das Inhaltsverzeichnis (in Abbildung 3 grün eingekreist), um zu verschiedenen Informationen auf der Genseite zu navigieren. Tabelle 1 gibt einen Überblick über die verschiedenen Arten von bereitgestellten Informationen.

    • Andere Tiere, zu denen dieses Gen gehört (unter "Homologie")
    • Pathways, an denen dieses Gen beteiligt ist (unter "Pathways from BioSystems")
    • Die verschiedenen Funktionen des Proteins aus diesem Gen (unter "Genontologie")

    Verwenden Sie den Abschnitt "Zugehörige Informationen" (in Abbildung 3 rot eingekreist), um zu weiteren NCBI-Seiten mit Informationen zum Gen und seiner Rolle in der Humanbiologie zu navigieren. Tabelle 2 hebt einige der Links hervor, die besonders relevant sind, um mehr über die normalen und krankheitsbezogenen Funktionen des Gens zu erfahren.

    Linkname Welche Informationen es bietet
    BioProjekte Chromosomen- und Sequenzierungsstudien, an denen das Gen beteiligt war.
    BioSysteme Körperfunktionen, an denen das Gen beteiligt sein kann.
    Konservierte Domains Funktionelle Domänen, das sind DNA-Regionen, die unterschiedliche Proteinstrukturen bilden, die die Gesamtfunktion des Proteins beeinflussen. Funktionelle Domänen werden von verschiedenen Mitgliedern derselben Genfamilie geteilt oder "konserviert".
    Volltext in PMC Wissenschaftliche Artikel zum Gen mit freiem Zugang zum Volltext.
    GEO-Profile Wie viel Protein aus diesem Gen in verschiedenen Geweben und in wissenschaftlichen Studien hergestellt wird, wird als Expressionsprofil des Gens bezeichnet.
    HomoloGen Eine Liste potenzieller Homologe des Gens (evolutionär verwandte Gene bei verschiedenen Tieren)
    Nukleotid Links, wo Sie die DNA-Sequenz des Gens finden können.
    OMIM Informationen zum Gen in der OMIM-Datenbank. Die Links hier diskutieren die Geschichte und Entdeckung des Gens, seine Funktion, wie sich die Krankheit manifestiert und vieles mehr.
    Protein Links, wo Sie die Aminosäuresequenz des Proteins finden, für das das Gen kodiert.
    PubMed Wissenschaftliche Artikel zum Gen veröffentlicht. Notiz: Einige Artikel sind nicht frei zugänglich.
    RefSeq-Proteine Aminosäuresequenz des Proteins, für das das Gen kodiert und zusätzliche Geninformationen.
    RefSeq-RNAs mRNA- und Aminosäuresequenzen, für die das Gen (DNA) kodiert.
    RefSeqGene Die genomische DNA-Sequenz des Gens (einschließlich Introns und Exons) und andere Informationen über das Gen.
    SNP Links, wo Sie kurze genetische Variationen des Gens finden können.
    SNP: GeneView Eine Liste kurzer genetischer Variationen des Gens und der funktionellen Aminosäureveränderungen, die sie verursachen.
    Variationsbetrachter Eine Liste der kurzen genetischen Variationen des Gens mit vielen Informationen über die Variationen, einschließlich der DNA-Mutationen und welche Variationen pathogen sind.
    Tabelle 2. Auf der rechten Seite der NCBI-Gen-Seite für ein bestimmtes Gen befindet sich eine Liste mit Links im Abschnitt "Zugehörige Informationen" (in Abbildung 3 rot eingekreist). Diese Tabelle zeigt, welche Ressourcen einige dieser Links bereitstellen.

    Ich möchte ein Gen suchen, das an einer genetischen Krankheit beteiligt ist, und herausfinden, wie es bei dieser Krankheit mutiert ist. Wie kann ich das machen?

    Nachdem Sie den Tutorial-Abschnitt „Wie kann ich ein Gen nachschlagen und mehr Informationen darüber erfahren? Um die Anleitung zu vereinfachen, verwenden wir in diesem Tutorial Mukoviszidose als Beispiel.

    1. Sobald Sie die NCBI-Gen-Seite für Ihr interessierendes Gen gefunden haben (Schritt 4), scrollen Sie nach unten durch den Abschnitt "Zugehörige Informationen" auf der rechten Seite (in Abbildung 3 rot eingekreist), bis Sie den Link "Variation Viewer" sehen (eingekreist). rot in Abbildung 4). Klicken Sie auf diesen Link.

    Screenshot der Geninformationsseite der Website ncbi.nlm.nih.gov. Auf der rechten Seite der Geninformationsseite befindet sich unter der Seitenleiste mit dem Titel "Zugehörige Informationen" ein Link mit der Bezeichnung "Variation Viewer". Dieser Link befindet sich am Ende der Linkliste für weiterführende Informationen.


    Figur 4. Scrollen Sie im Abschnitt "Zugehörige Informationen" auf der rechten Seite Ihrer Genseite nach unten, bis Sie "Variation Viewer" (rot eingekreist) sehen. Klicken Sie auf diesen Link, um mehr über die verschiedenen Variationen dieses Gens zu erfahren.

    1. Ein Gen kann viele verschiedene Allele oder alternative Formen haben, die durch Mutation der DNA auftreten. Jede Datenzeile auf dieser Seite (siehe Abbildung 5) listet ein anderes Allel für das gerade gesuchte Gen auf.
      1. Auf der linken Seite der Seite können Sie verschiedene Optionen zum Filtern der Daten auswählen. Klicken Sie auf „pathogen“ und „wahrscheinlich pathogen“ (in Abbildung 5 blau eingekreist), um die Allele nach diesen Kriterien zu sortieren. Hier sind die verschiedenen klinischen Interpretationen für Allele:
        1. "Wahrscheinlich pathogen:" Allele, von denen angenommen wird, dass sie wahrscheinlich Krankheiten verursachen, aber nicht bewiesen sind.
        2. „Pathogen“: Allele, die nachweislich Krankheiten verursachen.
        3. Allele, für die die Spalte "Klinische Interpretation" leer ist. Für diese Allele gibt es "keine Daten". Diese noch könnte sein pathogen.

        Screenshot eines Alleldiagramms auf der Website ncbi.nlm.nih.gov. Das Variationsanzeigefenster zeigt oben auf der Seite ein Alleldiagramm für ein bestimmtes Gen an. Unten links auf der Seite können Filter auf das Diagramm angewendet werden, um bestimmte Allele zu finden, die beispielsweise potenziell pathogen sein könnten. Direkt unter dem Diagramm befindet sich eine Liste von Varianten von Allelen, die den Variationstyp und die Position anzeigen.


        Abbildung 5. Wenn Sie auf "Variation Viewer" klicken (in Abbildung 4 rot eingekreist), gelangen Sie zu einer Tabelle mit verschiedenen Allelen oder alternativen Formen, die durch Mutation der DNA für Ihr Gen auftreten. Jede Reihe ist ein anderes Allel des Gens. Sie können diese Allele nach ihrer "schwersten klinischen Bedeutung" filtern (blau eingekreist), nach "Variantentyp" (grün eingekreist) sortieren oder weitere Informationen über sie erhalten, indem Sie auf ihre "Varianten-ID" (rot eingekreist) klicken. .

        1. Nachdem Sie alle Ihre Filterkriterien (Variantentyp, klinische Bedeutung usw.) angewendet haben, klicken Sie auf den Pfeil links neben der Varianten-ID (in Abbildung 5 und Abbildung 6 gelb eingekreist), um ein Dropdown-Fenster mit weiteren Informationen zu öffnen Informationen zu dieser speziellen Genvariante. Hier finden Sie weitere Allel-Informationen, wie zum Beispiel die "Transcript change", die auflistet, was die DNA-Mutation ist (grün eingekreist in Abbildung 6) oder die "Protein-Änderung", die aus der Mutation resultiert (rot eingekreist in Abbildung 6) .

        Screenshot einer Liste von Variationen in der Variationsanzeige auf der Website ncbi.nlm.nih.gov. Variationen in der Variationsanzeige haben jeweils einen kleinen Pfeil links neben jedem Eintrag in der Liste. Durch Klicken auf den Pfeil einer bestimmten Allelvariation werden zusätzliche Informationen wie die Transkriptänderungen und Proteinänderungen in der Variation angezeigt.


        Abbildung 6. Ein Klick auf den kleinen Pfeil (gelb eingekreist) links neben der Varianten-ID (blau eingekreist) ruft weitere Allelinformationen wie den „Transcript change“ (grün eingekreist) oder „Protein change“ (rot eingekreist) auf ).

        1. Klicken Sie für jedes ausgewählte Allel auf den Link „Varianten-ID“ (in Abbildung 6 blau eingekreist), um zu einer neuen Seite mit Informationen zu diesem spezifischen Allel zu gelangen. Diese Informationen sind Teil der SNP-Datenbank (http://www.ncbi.nlm.nih.gov/projects/SNP/).
          1. Scrollen Sie für jede Allelseite nach unten zum Abschnitt mit dem Titel "Gene View", der in Abbildung 7 gezeigt wird.
          2. Schauen Sie, wo "Reständerung" aufgeführt ist (in Abbildung 7 gelb eingekreist), und es sollte eine Aminosäuremutation vorhanden sein, die mit der "Proteinänderung"-Information übereinstimmt, die mit diesem Allel auf der vorherigen Seite aufgeführt wurde, die in rot eingekreist ist Abbildung 6.
            1. Das in Abbildung 6 aufgeführte CFTR-Allel hatte beispielsweise eine Proteinmutation von "Met1Val". Dies bedeutet, dass die erste Aminosäure im Protein von Methionin (abgekürzt Met oder M) zu Valin (abgekürzt Val oder V) geändert wurde. Dies entspricht der "Reständerung", die als "M [Met] ' V [Val]" an Position "1" aufgeführt ist.

            Screenshot der Allel-Informationsseite der Website ncbi.nlm.nih.gov. Die Informationsseite für eine Variation in einem Allel stammt aus einer SNP-Datenbank, die auf der Website ncbi.nlm.nih.gov gehostet wird. Allgemeine Informationen zum Allel finden Sie oben auf der Seite und Informationen wie z. B. Veränderungen der Proteinrückstände finden Sie unten auf der Seite.


            Abbildung 7. Die SNP-Datenbank gibt unter "Rückstandsveränderung", gelb eingekreist, Informationen zu den verschiedenen Allelen für ein bestimmtes Gen, einschließlich der Aminosäureunterschiede zwischen den Allelen.


            DATENVERARBEITUNG UND INTEGRATION

            Bei der Erstellung der BioSystems-Datenbank wurden zwei Hauptprobleme angesprochen: das Laden von Daten aus unterschiedlichen Datenquellen und die Integration der Daten in die aktuelle NCBI Entrez-Datenbankinfrastruktur.

            Öffentlich verfügbare Biosystemdatenbanken organisieren ihre Daten auf sehr unterschiedliche Weise, einschließlich der Verwendung einer Vielzahl von molekularen Identifikatoren und der Formatierung ihrer Daten in datenbankspezifischen Schemata. Selbst wenn Datenbanken etablierte Datenstandards wie BioPAX (10) oder SBML (11) unterstützen, gibt es Situationen, in denen die Standards die Kodierung einiger Daten, wie z schwierig, z. B. nicht explizit die Namen der Sequenzquellendatenbank in Sequenzbezeichnern aufzuzählen. Um diese Probleme beim Ablegen von Daten in die NCBI BioSystems-Datenbank zu vermeiden, haben wir die XML-Datenspezifikation Really Simple System Markup erstellt. Die Spezifikation ist absichtlich trivial in der Struktur und fördert die eindeutige Spezifikation molekularer Identifikatoren.

            Die Integration der resultierenden Deposition in das NCBI Entrez-System erfordert mehrere Datenverarbeitungsschritte. Zum Beispiel kann ein Einleger es vorziehen, Gen-IDs zu geben, während ein anderer es vorziehen kann, Uniprot-Akzessionen zu vergeben. In beiden Fällen kann der Hinterleger wünschen, dass wir mit allen anwendbaren Gen-IDs und allen identischen Sequenzzugängen verlinken, um die Menge an BioSystem-Anmerkungen, die den NCBI-Benutzern zur Verfügung gestellt werden, zu maximieren. Im Folgenden finden Sie eine Liste der NCBI-Ressourcen, die zusammen mit den derzeit verwendeten Methoden verlinkt sind. Alle Links werden mindestens wöchentlich mit der aktuellen Version der verlinkten Datenbank aktualisiert.

            Proteine

            Protein-GI-Nummern, die im Quelldatensatz vorhanden sind, werden analysiert, und dann werden direkt Links zu den entsprechenden Sequenzdatensätzen in der Entrez Protein-Datenbank hergestellt. If the source record contains protein accessions, the current GI number for each accession is determined and a link to the corresponding protein sequence record is made using the derived GI number. In addition, the set of links to protein sequences is expanded in the following ways: (i) if any GI numbers are for RefSeq records, links to corresponding UniProt/Swiss-Prot ( 12) records are also made (ii) if any other record(s) in the Entrez Protein database contains an identical sequence to the one present in the cited GI and also share the same NCBI Taxonomy ID (TaxID), links to those identical sequence records are established as well and (iii) if the record is linked to GeneIDs, then all proteins linked to those GeneIDs are linked to.

            Gene

            GeneIDs present in the source record are parsed out and links are then established to the corresponding records in the Entrez Gene database. Links are also established to Gene IDs that correspond to the protein sequence GI numbers mentioned above for example, if one of those protein GIs is cited directly in a Gene record, a link to that Gene record is made.

            Small molecules

            Records from source databases are parsed for small molecule identification numbers, including PubChem ( 13), Compound IDs (CIDs), PubChem Substance IDs (SIDs) and external registry names. The types of links that are made depend upon the type of identifiers that were found: If SIDs are present in the source record, links are established to the corresponding PubChem Substance records and to associated CIDs in PubChem Compound. If CIDs are present in the source record, links to the corresponding PubChem Compound records are made (however, the links are not extended to associated PubChem Substances). If external registry names are present, those identifiers are mapped to the corresponding SIDs and links are made to those records in PubChem Substance as well as to associated CIDs in PubChem Compound.

            Literatur

            If the source record includes PubMed identifiers (PMIDs) for journal articles about the biosystem, the PMIDs are parsed and links are established to the corresponding records in the PubMed database.

            Taxonomie

            Depositors provide the Taxonomy ID (TaxID) of the source organism for organism-specific biosystems. These TaxIDs are parsed and links to the corresponding information in the NCBI Taxonomy database are then established. Taxonomic information is not extracted from conserved biosystems.

            BioSysteme

            A depositor can explicitly link together BioSystems, such as from one whose product is the substrate of another.

            Bioassays: bioactivity screens of small molecules where the target of the screen is a protein whose sequences are also found in BioSystems records.

            3D protein structures: 3D protein structures whose corresponding sequences are also found in BioSystems records.

            Functionally related sequences: calculated by links to protein sequences that have specific hits to Conserved Domains and also to sequences contained in HomoloGene and Protein Cluster groups.

            Genetic phenotypes: Mendelian disorders and genes listed in the Online Mendelian Inheritance in Man database, calculated by using links to Entrez Gene.

            Related BioSystems: two or more biosystem records are linked together as related if the biosystems share at least one identical protein sequence from the same source organism. The identical sequence and same organism requirements tend to relate records from the same data source, as different data sources can use different strains and slightly different sequences for the same enzyme. This issue can be addressed in future by using gene records for the link calculation and also matching organisms at the species level.


            <p>Dieser Abschnitt bietet nützliche Informationen über das Protein, hauptsächlich biologisches Wissen.<p><a href='/help/function_section' target='_top'>Mehr. </a></p> Funktion i

            DNA-dependent ATPase that plays important roles in cellular responses to stalled DNA replication processes.

            <p>Manuell kuratierte Informationen, für die experimentelle Beweise veröffentlicht wurden.</p> <p><a href="/manual/evidences#ECO:0000269">Mehr. </a></p> Manuelle Behauptung basierend auf dem Experiment in i