Information

Gibt es einen PSI-BLAST für Nukleotidsequenzen?

Gibt es einen PSI-BLAST für Nukleotidsequenzen?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich verstehe, dass man eine Nukleotidsequenz übersetzen und PSI-BLAST auf dem Protein ausführen kann (Proteine, wenn Sie die 6 Leserahmen nehmen), aber ich suche nach entfernter Homologie für bakterielle kleine RNAs (typischerweise 50-200 Nukleotide lang und nicht kodierend). .

Wenn es keine solche Ressource gibt, was sind die Haupthindernisse für diese Implementierung?


Überprüfen Sie zunächst, ob Ihre RNA-Sequenzen durch vorhandene Kovarianzmodelle (CMs) beschrieben werden, die in Rfam verfügbar sind. Sie können dies tun, indem Sie das Infernal-Paket verwenden, um die Rfam-Datenbank von CMs zu durchsuchen. Für diejenigen RNA-Sequenzen, die mit einer Rfam-CM übereinstimmen, können Sie diese CM dann verwenden, um die Sequenzdatenbanken nach weiteren Übereinstimmungen zu durchsuchen.

Für diejenigen, die nicht zu einem Rfam-CM passen, möchten Sie Ihre eigenen Modelle bauen. Dazu müssen Sie für jede Sequenz Homologe identifizieren, die Sie verwenden können, um ein Alignment zu erstellen, aus dem ein Modell gebaut werden kann. Um dies zu tun, sollten Sie eine Methode verwenden, die RNA-bewusst ist und eine strenge Suchmethode verwendet. Zum Beispiel aus der FASTA-Suite, die über einen RNA-Modus verfügt, der das Scoring entsprechend anpasst:

  • Smith und Waterman für lokale/lokale Ausrichtung (z. B. SSEARCH)
  • Needleman-Wunsch für globales/globales Alignment (z.B. GGSEARCH)
  • Hybrid-Alignment für globales/lokales Alignment (z. B. GLSEARCH)

Ihre Abdeckungsanforderungen und die Art der zu durchsuchenden Datenbank bestimmen die am besten geeignete Methode für die Suche nach Sequenzähnlichkeiten. Kombiniert man die beste Suchmethode mit einer geeigneten Auswahl der zu durchsuchenden Datenbank, so stellt beispielsweise das European Nucleotide Archive (ENA) eine Reihe von Nicht-Protein-kodierenden Sequenzen bereit (ftp://ftp.ebi.ac.uk/pub/databases/ena /non-coding/) abgeleitet aus den Anmerkungen in der EMBL-Bank, die ein guter Ausgangspunkt für Ihre Suche sein könnten. Verbessert die Sensibilität Ihrer Suche.

Angesichts der Menge an homologen Sequenzen müssen Sie ein multiples Sequenz-Alignment (MSA) erstellen, um daraus ein Modell zu generieren. Dazu sollten Sie ein RNA-bewusstes MSA-Tool verwenden, zum Beispiel R-COFFEE oder Clustal Omega, um ein Alignment zu erstellen, das versucht, die Faltung der RNA-Moleküle zu berücksichtigen.

Aufgrund des Alignments können Sie ein CM mit Infernal oder ein HMM mit HMMER erstellen und damit die Sequenzdatenbank durchsuchen (cmsearch oder hmmsearch), um weitere Homologe in der Datenbank zu finden.


Wenn Sie eine nicht kodierende Gensequenz (z. B. regulatorische Sequenz) haben, sollte diese Antwort Ihre Lösung enthalten:

Hintergrundtheorie

  • Zunächst müssen Sie sich bewusst sein, dass PSI-BLAST für die Erkennung von "Romot-Homologen" (d. h. solchen, die eine sehr "entfernte evolutionäre Beziehung" zu Ihrer Abfrage haben) entwickelt wurde - von Datenbank von Sequenzen. Es ist daher bekannt, dass es sich um eine "sensible" Analyse handelt, die entfernt verwandte Übereinstimmungen rekrutieren kann, aber eine geringe Chance hat, einige falsche Übereinstimmungen zu rekrutieren - "schurkische Homologe".

  • Zweitens ist PSI-BLAST als "Profilmethode" bekannt, das heißt, es verwendet mehrere Sequenzen, die kumulativ mit jeder "psi-blast-Iteration" rekrutiert werden, um ein empirisches Profil von Aminosäureresten entlang der Positionen Ihrer Abfrage zu erstellen. Dies ist in der gleichen Familie von Analysen wie "Hidden-Markov-Modelle" (HMMs), da HMMs mehrere Sequenzen verwenden, um ein empirisches Profil aufzubauen, das in der Lage ist, entfernte Homologe zu rekrutieren, außer dass das "Profil" probabilistische Pfade zu allen rekrutierten Sequenzen enthält.

Meine Antwort

Ich schlage vor, Sie verwenden ein Softwarepaket namens HMMER. Tatsächlich teilt diese Methode eine kritische theoretische Ähnlichkeit mit PSI-BLAST sowie die Funktionalität in Ihrem Fall (Suche nach entfernten Nukleotidsequenz-Übereinstimmungen in einer Datenbank im Vergleich zu einer Nukleotidabfrage), sie geht auch nicht davon aus, dass Ihre Sequenz proteinkodierend ist - hier ist die Wiki-Beschreibung:

HMMER ist ein kostenloses und häufig verwendetes Softwarepaket für die Sequenzanalyse, das von Sean Eddy geschrieben wurde.1 Seine allgemeine Verwendung besteht darin, homologe Protein- oder Nukleotidsequenzen zu identifizieren. Es tut dies, indem es ein Profil-HMM entweder mit einer einzelnen Sequenz oder einer Datenbank von Sequenzen vergleicht.

Andere mögliche Antworten

Wenn Sie Angst vor der Verwendung von HMMER haben, finden Sie hier eine Liste aller Alignment-Softwaretools, die in einer Tabelle dargestellt sind, die es Ihnen ermöglicht, sich nur auf diejenigen zu konzentrieren, die Nukleotidsequenzen als Eingabe verwenden:

http://en.wikipedia.org/wiki/List_of_sequence_alignment_software


Angenommen, Sie verwenden PSI-BLAST, um kodierende homologe Nukleotidsequenzen für Ihre Abfrage-Nukleotidsequenz zu rekrutieren.

Hier ist ein Workaround mit PSI-BLAST selbst:

  1. Übersetzen Sie Ihre Nukleotidsequenz in eine Aminosäuresequenz
  2. Führen Sie psi-blast durch, um passende homologe Proteinsequenzen zu rekrutieren
  3. Speichern Sie die Namen oder Datenbank-IDs (z. B. Genbank-Zugangsnummern) der am besten passenden Proteine
  4. Erwerben Sie Nukleotidsequenzen Ihrer Übereinstimmungen, indem Sie die IDs in einer Nukleotiddatenbank durchsuchen

Zusätzliche Details:

  • Diese Art des Alignments wird als "Codon-Alignment" bezeichnet (im Gegensatz zum DNA-Alignment oder Protein-Alignment).
  • Dies setzt voraus, dass Ihr DNA-Protein für ein Protein kodiert, dessen Funktionalität durch die Evolution eingeschränkt ist
  • Sie müssen vor der Ausrichtung alle Introns aus Ihrer Sequenz entfernen
  • Ihr erstes Codon muss ein Startcodon (ATG) sein.
  • Ihr letztes Codon muss ein Stoppcodon sein.

Wie BLAST funktioniert – Konzepte, Typen, & Methoden erklärt

BLAST steht für Basic Local Alignment Search Tool. Es ist ein auf einem lokalen Alignment-Algorithmus basierendes Werkzeug, das verwendet wird, um mehrere Sequenzen auszurichten und Ähnlichkeiten oder Unähnlichkeiten zwischen verschiedenen Arten zu finden. In diesem Artikel erklären wir verschiedene Arten von BLAST-Tools und wie der BLAST-Algorithmus funktioniert.

BLAST ist eine heuristische Methode, was bedeutet, dass es sich um einen dynamischen Programmieralgorithmus handelt, der schneller, effizienter, aber relativ weniger empfindlich ist.

Für BLAST(ing) gibt es eine beliebige Sequenz, eine Abfragesequenz und eine Zielsequenz/Datenbank. Die Abfragesequenz ist die Sequenz, für die wir die Ähnlichkeit herausfinden möchten, und die Zielsequenz ist eine Sequenz/Datenbank, an der die Abfragesequenz ausgerichtet ist. Blast gibt die Ausgabe in Form von Treffertabellen zurück, die in absteigender Reihenfolge der übereinstimmenden Zugangsnummer zusammen mit ihren Titeln, Abfrageabdeckung, Sequenzidentität, Punktzahl und einem E-Wert in separaten Spalten angeordnet sind. Die Zuverlässigkeit der übereinstimmenden Sequenzen wird durch den e-Wert bewertet.

BLAST verfügt über verschiedene Programme, um Sequenzen von Nukleotiden, Proteinen usw. auszurichten. Es besteht aus mehreren anderen BLAST-Programmen, aber die grundlegenden Arten von BLAST sind wie folgt:

Blastn

Es ist eine Art von Blast, bei der die Abfragesequenz ein Nukleotid ist und die Zielsequenz ebenfalls ein Nukleotid ist, d. h. es ist ein Nukleotid gegen ein Nukleotid.

Blastp

Blastp ist ein Protein-zu-Protein-Blast, wobei die Abfragesequenz ein Protein ist und die Zielsequenz ebenfalls ein Protein ist.

Blastx

Bei diesem Blastentyp ist die Abfragesequenz eine Nukleotidsequenz und das Ziel ist eine Proteinsequenz/Datenbank. Zuerst wird die Nukleotidsequenz in drei Leserastern in ihre Proteinsequenz umgewandelt, dann wird gegen das Protein gesucht.

Tblastn

In tblastn ist die Abfrage ein Protein und das Ziel ist eine Nukleotidsequenz/Datenbank. Hier wird die Proteinsequenz gegen eine Nukleotiddatenbank durchsucht, die in ihre entsprechenden Proteine ​​übersetzt wird. Die Translation erfolgt in allen Leserastern, aber der Leseraster ist nur für die konventionelle 5’-3’-Stelle in den Datenbanken, daher werden nur 3 Leseraster verglichen.

Tblastx

Es ist eine Art von Explosion, bei der die Nukleotidsequenz gegen die Nukleotiddatenbank, jedoch auf Proteinebene, steht. Mit anderen Worten, die Nukleotid-Abfragesequenz und die Zielsequenzen werden beide in ihre entsprechenden Proteinsequenzen übersetzt und dann aneinander ausgerichtet. Sowohl die Abfrage als auch das Ziel werden in alle 6 Leserahmen übersetzt.

Besondere Arten von BLASTs:

Megablast

Es ist blastn sehr ähnlich, aber sein Vorteil gegenüber blastn besteht darin, dass in Megablast lange Sequenzen ausgerichtet werden können. Eine große Anzahl von Sequenzen mit großen Größen kann leicht unter Verwendung von Megablast ausgerichtet werden, und alle Abfragesequenzen werden zu einer großen Abfragesequenz verkettet. Es handelt sich um einen gierigen Algorithmus, der beim Alignment Lücken induziert und somit ähnliche Sequenzen nicht vermieden werden. Megablast ist aufgrund dieser Funktionen schneller als blastn, aber weniger empfindlich, da es sich um einen gierigen Algorithmus handelt. Er ist jedoch sehr nützlich, wenn eine große Anzahl ähnlicher Sequenzen auf einmal ausgerichtet werden soll.

Nicht zusammenhängend Megablast

Es ist genau das Gegenteil des Megablasts, der als „Highly Dissimilar Megablast“ bezeichnet wird. Es wird verwendet, um die unähnlichen Sequenzen der Abfragesequenz, d. h. Paraloge, zu finden. Hier möchte der Benutzer die Paraloge eines Gens finden, das in entfernten Arten vorhanden ist. Die Ausgabe ist hier also die Sequenzen, die die geringste Ähnlichkeit mit der Abfragesequenz aufweisen.

Position-Specific Iterated (PSI) Blast ist sehr empfindlich und wird normalerweise für die Suche nach Proteinähnlichkeiten verwendet. Die Abfragesequenz wird entnommen und blastp unterzogen, was zur Bildung eines multiplen Sequenz-Alignments (MSA) der meisten ähnlichen Sequenzen führt. Von diesem MSA werden das Muster, das die Abfrage identifiziert, und ihre Homologen entnommen, dann wird dieses konservierte Muster erneut einem Blastp unterzogen, um die Datenbank zu filtern. Dieser Prozess, Muster aus MSA zu identifizieren, das Muster gegen die Datenbank zu senden, um erneut MSA zu erzeugen, und dann wieder ein neu definiertes Muster zu identifizieren, ist PSI Blast.

PHI Sprengen

Pattern Hit Initiated (PHI) Blast ist PSI Blast sehr ähnlich, aber es gibt keine Iteration. Es kann sowohl für DNA- als auch für Proteinabfragen verwendet werden.

RPS Sprengen

Reverse Position Specific (RPS) Blast ähnelt auch PSI Blast, das die Abfrage mit einem Satz von konservierten Domänen, HMM-Profilen oder vorab ausgerichteten Profilen abgleicht. Bei dieser Art von Blast wird die Abfragesequenz (DNA / Protein) gegen eine vorhandene Sammlung von konservierten Domänen, einem vorkonfigurierten MSA verschiedener Gene, durchsucht.

Wie funktioniert Sprengen?

Blast ist ein gieriger Algorithmus, der von Altschul et al. [1]. Es ist ähnlich wie FASTA, aber effizienter. Da FASTA einen ktup-Parameter verwendet, verwendet BLAST in ähnlicher Weise auch eine Fenstergröße für Proteine ​​und Nukleotide. Beide gehen davon aus, dass gute Alignments kurze Abschnitte exakter Übereinstimmungen enthalten. BLAST ist eine Improvisation über FASTA in dem Sinne, dass es schneller, sensibler, statistisch signifikanter und einfach zu bedienen ist. Es gibt einen Schwellenwert bei der Explosion, der als "Minimaler Score" bezeichnet wird.S’. Dies bedeutet, dass unabhängig von der Übereinstimmung zwischen der Abfrage und der Datenbank ein Wert größer oder gleich sein muss S.


Gibt es einen PSI-BLAST für Nukleotidsequenzen? - Biologie

Gehen Sie zurück zum ursprünglichen SWISS-PROT-Eintrag beim NCBI. Verwenden Sie nun den BLink-Link, um verwandte Proteine ​​abzurufen. Klicken Sie auf die Schaltfläche Best Hits und suchen Sie das verwandte Protein des Fisches Fundulus heteroclitus. Folgen Sie dem PubMed-Link aus diesem Datensatz, um mehr über die Biologie dieses Proteins zu erfahren. Welche physiologische Rolle hat dieses CFTR-Homolog bei diesem Tier?

CFTR enthält konservierte Domänen, die zu bakteriellen Transportern homolog sind. Diese bakteriellen Homologe erscheinen nicht in der BLink-Ausgabe, da nur die Top 200 Proteine ​​gezeigt werden. Diese finden Sie über den Link "Zugehörige Sequenzen" im CFTR_HUMAN-Datensatz. Gehen Sie zurück zum CFTR_HUMAN-Datensatz und folgen Sie dem Link "Verwandte Sequenzen". Wie viele verwandte Proteine ​​gibt es? Um diejenigen von Bakterien zu identifizieren, klicken Sie auf die Registerkarte Verlauf. Befolgen Sie die Anweisungen auf dieser Seite, um eine Abfrage zu erstellen, die die Proteinnachbarn mit einem Organismus-Feldsuchbakterium kombiniert. Ihre Anfrage ähnelt der folgenden

Finden Sie das genomische Gerüst AE003584 von Drosophila melanogaster unter Verwendung von Entrez-Nukleotid. Zeigen Sie Protein-Links an, um die vorhergesagten Proteine ​​für dieses Gerüst anzuzeigen. (Sie müssen die Anzahl der angezeigten Datensätze erhöhen, um alle Proteine ​​auf einer Seite zu sehen. Verwenden Sie dann die Funktion "In Seite suchen" des Browsers, um das gewünschte Protein zu finden.) Identifizieren Sie konservierte Domänen, die im vorhergesagten Protein CG10879 (AAF51293 .) vorhanden sind ) indem Sie auf den Link BLink und dann auf die Schaltfläche CDD klicken. Diese konservierten Domänen legen eine potentielle Funktion für dieses hypothetische Protein nahe. Führen Sie nun mit dem ScanProsite-Tool von ExPASy eine Suche nach den Prosite-Mustern durch. Haben Sie die gleiche Proteinfamiliensignatur gefunden? Um die Pfam-Ergebnisse zu überprüfen, versuchen Sie die Suche anhand der ProSite-Profile. Stimmen Ihre Ergebnisse jetzt überein? Dies weist auf die Probleme bei der Darstellung eines Profils als Muster hin.

Das Feld Entrez-Nukleotide [Eigenschaften] speichert Informationen über die Art der Sequenz und ihre Quelle. Sie können die Indexfunktion auf der Registerkarte Vorschau/Index verwenden, um die für dieses Feld indizierten Begriffe anzuzeigen. Die Begriffe im Feld "Eigenschaften" sind etwas kryptisch, aber für die Suche sehr nützlich. Drei nützliche Typen sind die Sets biomol, gbdiv und srcdb. Die Biomol-Begriffe klassifizieren Datensätze nach Art und Herkunft des Moleküls, beispielsweise biomol mrna oder biomol genomic. Die gbdiv-Begriffsindexsätze nach dem GenBank-Divisionscode, gbdiv est, gbdiv pri, gbdiv htg usw. Die srcdb-Begriffe klassifizieren Datensätze basierend auf ihrem Datenbankursprung. Für Nukleotidaufzeichnungen könnten dies GenBank, EMBL, DDBJ, RefSeq oder PDB (gbdiv genbank, gbdiv embl, gbdiv ddbj, gbdiv refseq) sein. Führen Sie eine Organismussuche nach der Maus durch, und verwenden Sie dann die Registerkarte Vorschau/Index und die Feldbegriffe Eigenschaften, um die Anzahl der genomischen Datensätze der Maus zu zählen. Wie viele davon sind Entwurfssequenzen (gbdiv htg)? Wie viele sind fertige Platten (gbdiv rod)? Wie viele Sequenzen der Genomerhebung gibt es? Wie viele dieser genomischen Datensätze sind RefSeqs? Was sind das für RefSeqs? Rufen Sie nun alle Maus-mRNA-Datensätze ab. Wie viele davon gehören zur Nagetierabteilung? Wie viele sind in der EST-Division? Entwerfen Sie unter Verwendung dieser Eigenschaftenfeldbegriffe eine Abfrage und rufen Sie alle bekannten mRNA-RefSeqs (NM_) der Maus ab.

Verwenden Sie Entrez Nucleotid, um die cDNA (mRNA)-Sequenz in voller Länge für . zu finden Plasmodium falciparum Glyceraldehyd-3-Phosphat-Dehydrogenase (GAPD). Beginnen Sie dieses Mal damit, Plasmodium in das Suchfeld einzugeben, ohne sich auf ein Feld zu beschränken. Wie viele Datensätze rufen Sie ab? Durchsuchen Sie Ihre Ergebnisse, um einige Datensätze zu finden, die nicht von . sind Plasmodium. Zeigen Sie einige davon an, um zu sehen, warum Sie sie gefunden haben. Sie sollten irgendwo in der Aufzeichnung "Plasmodium" finden. Verwenden Sie nun die Registerkarte Grenzwerte, um im Feld Organismus [Organismus] auf Plasmodium zu beschränken. Aus wie vielen Nukleotideinträgen in Entrez stammen Plasmodium? Suchen Sie jetzt nach GAPD-Datensätzen, indem Sie die Registerkarte Vorschau/Index verwenden, um Glyceraldehyd-3-Phosphat-Dehydrogenase als [Titel]-Wort hinzuzufügen. Wie viele Datensätze haben Sie abgerufen?

Suche nach Populations- und phylogenetischen Studien an Bären in Entrez PopSet. Suchen Sie die Studie über Braunbären und Eisbären und zeigen Sie die Ausrichtung an. Welche Gen- oder Molekülregionen wurden in dieser Studie verwendet? Verwenden Sie den Link in der Symbolleiste, um Variationen in der Ausrichtung anzuzeigen. Gibt es feste Unterschiede in den Sequenzen vom Braunbären, Ursus arctos, und die Eisbärensequenzen im Alignment? Was ist, wenn die Ursus arctos Sequenz von den "ABC"-Inseln (Sequenz 7) entfernt? Link zum Artikel, um mehr über diese bemerkenswerten Ergebnisse zu erfahren.

Für zwei Arten von Fadennematoden, die menschliche Parasiten sind, liegen umfangreiche Daten vor. Verwenden Sie den Taxonomie-Browser, um die Anzahl der Nukleotidsequenzen für die Superfamilie Filaroidea zu untersuchen und zu bestimmen, um welche zwei Arten es sich handelt. Wie viele Nukleotid- und Proteinsequenzen gibt es für jede dieser beiden Arten? Zeigen Sie für jede dieser Nukleotiddatensätze an. Welche Arten von Sequenzen sind die meisten davon?

Es gibt eine Reihe von Sequenzen für ausgestorbene Organismen in den NCBI-Datenbanken. Besuchen Sie die Liste der ausgestorbenen Taxa auf den Taxonomie-Seiten.

Inositolpolyphosphatphosphatasen enthalten konservierte Säurereste, die an der Bindung von Metallionen beteiligt sind. Rufen Sie das menschliche INPP1-Protein (INPP_HUMAN) aus Entrez-Proteinen ab. Folgen Sie dem Link "Domains", um die vorberechneten Suchergebnisse der Conserved Domain Database (CDD) anzuzeigen. Klicken Sie auf die Schaltfläche "Details", um die vollständigen Ergebnisse anzuzeigen. Folgen Sie dem Link zur Domäne pfam inositol_P und zeigen Sie die Domäne in Cn3D an, indem Sie auf die Schaltfläche "3D-Struktur anzeigen" klicken. Identifizieren Sie die konservierten Reste, die die Magnesiumionen umgeben, indem Sie darauf in der Struktur doppelklicken. Die entsprechenden Reste werden im Sequenz-Alignment hervorgehoben. Sie können die Seitenketten auf diesen mit Anmerkungen versehen, wenn Sie möchten. Ändern Sie zuerst die Einstellung auf der CDD-Seite von "Virtual Bonds" auf "All Atoms" und zeigen Sie dann die Struktur an. Sie können dann das Menü Stil->Globalen Stil bearbeiten verwenden, um Seitenketten auszuschalten, und das Menü Stil->Anmerken, um die Seitenketten für Aminosäuren, die die Magnesiumionen koordinieren, selektiv einzuschalten.

Michael Crichtons Fantasie über das Klonen von Dinosauriern, Jurassic Park, enthält eine mutmaßliche Dinosaurier-DNA-Sequenz. Verwenden Sie Nukleotid-Nukleotid-BLAST gegen die Standard-Nukleotiddatenbank nr, um die wahre Quelle der folgenden Sequenz zu identifizieren. Wählen Sie es aus, kopieren Sie es und fügen Sie es in das BLAST-Formularfenster ein.

Dies ist wahrscheinlich die häufigste Verwendung von Nukleotid-Nukleotid-BLAST: Sequenzidentifikation, um festzustellen, ob eine genaue Übereinstimmung für eine Sequenz bereits in der Datenbank vorhanden ist.

Der NCBI-Wissenschaftler Mark Boguski bemerkte diese offensichtliche "Verunreinigung" und lieferte Crichton eine bessere Sequenz, die unten gezeigt wird, für die Fortsetzung. Die verlorene Welt. Identifizieren Sie die wahrscheinlichste Quelle dieser Sequenz unter Verwendung von Nukleotid-Nukleotid-BLAST. Mark bettete seinen Namen in die von ihm angegebene Reihenfolge ein. Um Marks Namen zu sehen, verwenden Sie die übersetzende BLAST (blastx)-Seite mit der folgenden Reihenfolge. (Suchen Sie nach MARK WAR HERE NIH).

Die richtige Verwendung der übersetzenden BLAST-Dienste besteht darin, nach ähnlichen Proteinen in anderen Arten zu suchen (mögliche Homologe zu identifizieren).

Höhere eukaryotische Genome enthalten große Mengen an repetitiver DNA. Das am häufigsten eingestreute Repeat im menschlichen Genom ist das Alu-Element. Alus treten in der Regel in der Nähe von Genen, innerhalb der Introns von Genen oder in den Regionen zwischen den Genen auf. In einigen Fällen kann ihre Anwesenheit und Abwesenheit ziemlich genau die Intron-Exon-Struktur eines Gens zeigen. Demonstrieren Sie dies, indem Sie eine Nukleotid-Nukleotid-BLAST-Suche gegen die Alu-Datenbank mit der genomischen Sequenz des menschlichen Von-Hippel-Lindau-Syndrom-Gens (Zugangsnummer AF010238) durchführen. Beachten Sie, dass die Exons in der BLAST-Grafik als Orte erscheinen, an denen die Alu-Elemente nicht ausgerichtet sind.

Die Caenorhabditis elegans Gen SMA-4 ist ein Mitglied der Zwergen-Genfamilie, auch MAD-Familie genannt, die eine Rolle bei der Transformation der Wachstumsfaktor-beta-vermittelten Signaltransduktion spielt. In diesem Beispiel werden wir versuchen, Homologe für das SMA-4-Protein (SMA4_CAEEL, Zugangsnummer P45897) in Wirbeltierarten zu finden. unter Verwendung von Protein-Protein BLAST.

Natürlich ist dieses Protein bereits in den Datenbanken Entrez Protein und BLAST enthalten. Denken Sie daran, dass, wenn das Ziel darin besteht, ein Homolog in einer anderen Spezies für ein bereits im Entrez-System vorhandenes Protein zu finden, keine BLAST-Suche erforderlich ist, da die vorberechneten Ähnlichkeiten bereits über BLink verfügbar sind. Überprüfen Sie dies, indem Sie dem BLink-Link von P45897 in Entrez Protein folgen. Klicken Sie auf die Schaltfläche "Best Hits" und finden Sie den besten Protein-Hit für Hühnchen (Gallus gallus). Die Ausrichtung zwischen SMA-4 und dem besten Hühnchen-Match ist durch Klicken auf den verknüpften BLAST-Score verfügbar.

Um die Durchführung einer BLAST-Suche mit einem neuartigen Protein zu simulieren, verwenden wir eine Entrez-Abfrage, um alle zu entfernen Caenorhabditis Proteine ​​aus der BLAST-Datenbank.

Link zur Protein-Protein-Blast-Seite und geben Sie die SMA-4-Zugangsnummer (P45897) in den Suchtextbereich ein. Wir werden gegen die Standarddatenbank nr suchen. Um zu entfernen, die Caenorhabditis Proteine ​​aus der nr-Datenbank geben Sie folgende Entrez-Suche in das Feld "Limit by Entrez query" im Abschnitt "Options" des Formulars ein: Da es in der BLAST-Datenbank eine große Anzahl verwandter Proteine ​​gibt, müssen wir auch die Anzahl der Beschreibungen oder BLAST-Treffer, die angezeigt werden. Erhöhen Sie dazu die Anzahl der Beschreibungen im Abschnitt "Format" des BLAST-Formulars auf 500. Führen Sie die Suche aus, indem Sie auf die Schaltfläche BLAST klicken.

Auf der Formatierungsseite können Sie sehen, dass die CD-Suche konservierte Domänen in diesem Protein identifiziert hat. Sie können auf die Grafik klicken, um zu sehen, was diese Domänen sind und welche Funktion sie haben.

Klicken Sie auf die Schaltfläche Formatieren, um Ihre BLAST-Ergebnisse abzurufen. Sehen Sie sich Ihre BLAST-Grafikausgabe an und vergewissern Sie sich, dass die Entrez-Abfrage das Protein aus der Datenbank entfernt hat. Sie sollten keine Übereinstimmungen in voller Länge sehen. Sehen Sie sich nun Ihre Beschreibungen und ihre E-Werte an. In den nicht signifikanten e-Werten (> 1) finden sich zwei Proteine ​​vom Schaf (Ovis Widder) markiert als MAD-Proteine ​​(Smad4 und Smad7). Diese Proteinfragmente sind Homologe von SMA-4, aber wir haben dies mit dieser speziellen Suche nicht gezeigt. In der folgenden Übung werden wir mit PSI-BLAST zeigen, dass diese Schafproteine ​​signifikant mit SMA-4 übereinstimmen. Bewahren Sie Ihre Formatierungsseite für diese Ergebnisse auf oder kopieren Sie Ihre Anfrage-ID, damit Sie sie für die nächste Übung für PSI-BLAST formatieren können.

Sehen Sie sich die BLAST-Ausgabe an und finden Sie alle Hühner (Gallus gallus) Proteine, die SMA-4 ähnlich sind. (Verwenden Sie den Tax Blast-Link oben links in der Grafik, um die Hühnerproteine ​​zu finden.) Dies sollten die gleichen Proteine ​​​​sein, die zuvor von BLink gefunden wurden.

Öffnen Sie ein neues Browserfenster, damit Sie Ihre Ergebnisse mit der Nummer nicht verlieren, und führen Sie dieselbe Suche erneut aus. Beschränken Sie die Suche wie zuvor mit der Entrez-Abfrageoption auf Hühnerproteine. Verwenden Sie diesmal die Abfrage Werden dieselben Proteine ​​gefunden? Vergleichen Sie die Erwartungswerte dieser Treffer mit den gleichen Treffern, die gegen . gefunden wurden Nr ohne Einschränkung des Organismus. Warum unterscheiden sich die e-Werte für dieselben Scores und Ausrichtungen?

Das zuvor von uns verwendete Sma-4-Protein gehört zu einer großen Familie von Proteinen. (Springen Sie zurück zur Protein-Protein-Suche). Einige Mitglieder dieser Familie werden in einer gewöhnlichen Blastp-Suche nicht leicht identifiziert, jedoch können zusätzliche Sma-4-Homologe unter Verwendung des empfindlicheren positionsspezifischen iterierten BLAST (PSI-BLAST) gefunden werden. Jede Protein-Protein-BLAST-Suche auf den NCBI-Webseiten kann durch einfaches Umformatieren der Ergebnisse zu einer PSI-BLAST-Suche erweitert werden. Aktivieren Sie auf der Formatierungsseite für die erste Suche, die Sie aus der obigen Übung gespeichert haben, das Kontrollkästchen "Format für PSI-BLAST" und klicken Sie auf Formatieren.

Die Ergebnisse sind die gleichen, außer dass sie unterschiedlich formatiert sind. Es gibt eine Linie im Beschreibungsabschnitt der Ergebnisse, die dem PSI-BLAST-Einschlussschwellenwert von 0,005 entspricht. Positionsspezifische Informationen aus einem multiplen Sequenz-Alignment der Sequenzen oberhalb dieser Zeile werden verwendet, um in der nächsten Iteration eine positionsspezifische Score-Matrix (PSSM) zu erzeugen. Beachten Sie, dass eines der ersten Proteine ​​unterhalb dieser Linie das Smad4 vom Schaf ist (Ovis Widder). Wie hoch ist der E-Wert dieses Treffers?

Klicken Sie nun auf die Schaltfläche "Run PSI-BLAST Iteration 2". Beachten Sie, dass die Formatierungsseite in einem separaten Fenster aktualisiert wird, wodurch eine neue Anforderungs-ID-Nummer generiert wird. Klicken Sie auf die Schaltfläche "Formatieren" und die Ergebnisse von Iteration 2 werden geladen. Klicken Sie auf der Ergebnisseite von Iteration 2 auf den Link "Zur ersten neuen Sequenz springen". Was ist diese Sequenz? Wie hoch ist der neue Erwartungswert? Beachten Sie, dass es jetzt mehrere neue Sequenzen oberhalb des Schwellenwerts gibt. Einige von ihnen werden nicht als Sma/Mad-Homologe bezeichnet, sind aber eindeutig signifikante Treffer. Diese neuen Sequenzen werden verwendet, um eine neue PSSM für Iteration 3 usw. zu konstruieren. Nach einigen weiteren Iterationen werden an dieser Stelle keine Sequenzen mehr gefunden, die Suche gilt als konvergiert.

Das Prion-Protein kommt in hohen Konzentrationen im Gehirn von Menschen und anderen Säugetieren vor. Bei bestimmten degenerativen neurologischen Erkrankungen aggregieren Prionenproteine ​​zu Polymeren. Mehrere dieser Prionenkrankheiten scheinen übertragbar zu sein. Der vielleicht bemerkenswerteste Aspekt dabei ist, dass das infektiöse Agens eine abweichende Form des Prionproteins selbst zu sein scheint. Die Bovine spongiforme Enzephalopathie (BSE) ist eine der übertragbaren Prionenkrankheiten, die in letzter Zeit viel Bekanntheit erlangt hat. Es gibt eine Reihe von Polymorphismen, die in den Prionproteinen für mehrere Säugetiere, insbesondere Mensch, Maus und Schaf, identifiziert wurden. Einige davon sind mit erblichen Prionenkrankheiten und andere mit der Anfälligkeit für übertragbare Formen verbunden. Rufen Sie den SWISS-PROT-Datensatz für das menschliche Prionprotein (PRIO_HUMAN) ab und sehen Sie sich die FEATURE-Tabelle an, um die verschiedenen Polymorphismen zu sehen. Verwenden Sie dieses Protein, um eine translatierte Blast-Suche (PROTEIN-Abfrage - TRANSLATED-Datenbank) gegen menschliche Ests durchzuführen, und sehen Sie sich Ihre Ergebnisse an, um zu sehen, ob einer dieser Polymorphismen in den Est-Daten vorhanden ist. Dies ist leichter zu erkennen, wenn Sie die Formatierungsoptionen im BLAST-Formular ändern, um eine der abfrageverankerten Ausrichtungsoptionen anzuzeigen. Versuchen Sie die "flache Abfrage-verankert mit Identitäten". (Siehe das Problem bei Prionen-SNPs im Abschnitt Genome.)

Das humane fragile Histidin-Triadenprotein (FHIT, Accession P49789) ist strukturell mit Galactose-1-Phosphat-Uridylyltransferasen verwandt. Diese Beziehung ist jedoch bei einer gewöhnlichen BLAST-Suche nicht offensichtlich. Führen Sie eine Protein-Protein-BLAST-Suche gegen die SWISS-PROT-Datenbank mit P49789 durch und durchsuchen Sie Ihre Ergebnisse nach Galaktose-1-Phosphat-Uridylyltransferasen. Verwenden Sie nun PSI-BLAST, um die Beziehung zwischen diesen beiden Proteinfamilien zu überprüfen.

Eine häufige Verwendung von Nukleotid-Nukleotid-BLAST besteht darin, Oligonukleotide auf Hybridisierung oder PCR zu überprüfen. Das Ziel der meisten Leute dabei ist sicherzustellen, dass der Primer ein einzigartiges Produkt aus dem Zielgenom oder der cDNA-Population liefert. Da BLAST lokal ist und beide Stränge durchsucht, kann man einfach ein Paar von +/- Strang-Primern verketten und sie in einer einzigen Suche verwenden. Kombinieren Sie das folgende Paar von Kandidaten-PCR-Primern in einer Nukleotid-Nukleotid-Suche gegen die Standard-Nukleotid-Datenbank und identifizieren Sie das amplifizierte Gen.

Probieren Sie jetzt diese modifizierten Primer aus. Es gibt jeweils eine Fehlanpassung in der Nähe der Mitte.

Beachten Sie, dass die vorherigen Treffer vollständig fehlen. Passen Sie nun die Wortgröße von 11 bis 7 unter den erweiterten BLAST-Optionen an und versuchen Sie die Suche erneut. Finden Sie die Originalhits wieder? Gehören sie immer noch zu den besten Hits? Können Sie sich eine Modifikation der Suchstrategie ausdenken, die sie wieder zu den besten Treffern macht?

Wenn die Datenbank wächst, wächst auch die Zahl des zufälligen Vorkommens von Aminosäuremotiven, die Wörter oder Namen von Personen in aus einem Buchstaben bestehenden Aminosäurecodes buchstabieren. Ein solches Namensmotiv ist ELVIS. Finden Sie die Häufigkeit des Vorkommens von ELVIS im Protein Nr. Um überhaupt Treffer zu erzielen, müssen Sie einige der erweiterten BLAST-Parameter anpassen, einschließlich des Expect-Werts, der Wortgröße und der Score-Matrix. Passen Sie einige davon im Feld "Weitere erweiterte Optionen" an. Optionen werden im Befehlszeilenstil eingegeben. Zum Beispiel tippen

setzt den Cut-off für den Expect-Wert auf 10000. Besuchen Sie die BLAST "Häufig gestellte Fragen", indem Sie dem Link in der linken Seitenleiste der BLAST-Seite folgen, um weitere Informationen zu erhalten. Siehe insbesondere den Beitrag "Wie führe ich eine Ähnlichkeitssuche mit einer kurzen Peptid-/Nukleotidsequenz durch?". Wir haben jetzt eine Seite mit Voreinstellungen, die optimiert sind, um kurze, fast exakte Übereinstimmungen zu finden. Sie können die Suche auf dieser Seite ausführen, um die richtigen zu verwendenden Parameter anzuzeigen.

UniGene ist die beste NCBI-Ressource, um herauszufinden, zu welchem ​​Gen (oder verdächtigen Gen) eine bestimmte Datenbanksequenz gehört. Dies gilt insbesondere für ESTs, bei denen die Sequenz möglicherweise keine Anmerkungen enthält, kann aber auch für andere Sequenzen wichtig sein, bei denen die Anmerkung unvollständig oder veraltet sein kann. Datenbankkennungen für UniGene-Suchen können aus BLAST-Ausgaben oder aus Microarray-(Hybridisierungs-)Daten stammen. Zum Beispiel wurde mRNA, die mit der EST-Sequenz mit der Zugangsnummer BG618105 hybridisierte, in einer menschlichen Lebertumorprobe stark exprimiert.

Rufen Sie den Datensatz aus der Nukleotiddatenbank ab, indem Sie die Zugangsnummer im Suchfeld auf der NCBI-Homepage verwenden. Zeigen Sie den Datensatz an. Gibt es eine Anmerkung, die angibt, um welches Gen es sich handelt?

Verlinken Sie nun über das Menü "Links" oben rechts auf UniGene. Wie heißt dieses Gen? Link zu LocusLink aus dem UniGene-Cluster. Welche Funktion hat dieses Protein?

Gehen Sie zurück zu UniGene. Sehen Sie sich die ESTs in diesem Cluster an. Wie viele sind es? Identifizieren Sie ein Paar von ESTs (ein 5'- und 3'-Read), die von derselben Klon-ID stammen. Sie müssen alle ESTs anzeigen und nach unten scrollen, um diese zu sehen. Verwenden Sie BLAST 2-Sequenzen, um diese an der RefSeq-mRNA voller Länge aus dem LocusLink-Eintrag auszurichten. Beachten Sie die Abweichungen, die höchstwahrscheinlich auf Sequenzierungsfehler in den ESTs zurückzuführen sind.

Expressionsinformationen werden durch die Quellen der cDNA-Bibliotheken in einem bestimmten Cluster impliziert. NCBI hat auch Tag-Zählungen aus quantitativen SAGE-Bibliotheken mit den UniGene-Clustern verknüpft. Folgen Sie dem Mapping-Link "Gene to Tag", um eine "virtuelle Northern"-Anzeige der Anzahl zuverlässiger Tags aus diesem Cluster in SAGE-Bibliotheken anzuzeigen. Welche Bibliothek zeigt die höchste relative Expression dieses Gens?

Verwenden Sie auf der LocusLink-Seite den Haupt-Map-Viewer-Link (mv) im Abschnitt "Karteninformationen", um dieses Gen im MapViewer anzuzeigen. Welche Chromosomenregion ist das? Welche Karten werden angezeigt? Sie können oben auf den Kartennamen klicken, um mehr über die für jede Karte angezeigten Informationen zu erfahren. Deaktivieren Sie die Option "Maps komprimieren" auf der linken Seite, um die vollständigen Markierungsbezeichnungen anzuzeigen. Die UniGene-Karte zeigt die Dichte der EST-Treffer auf dem Genom. Im Allgemeinen heben die Peaks in diesem Histogramm die Exons der exprimierten Gene hervor. Beachten Sie, dass es einige Treffer gibt, die nicht den Exons entsprechen, die im Genmodell auf der Gene-Karte angezeigt werden. Was könnten diese darstellen? Um eine andere Ansicht des Alignment-basierten Genmodells zu sehen, folgen Sie dem "ev"-Link, um dies im Evidence Viewer anzuzeigen.

Verwenden Sie die Zoomgrafik auf der linken Seite des Kartenviewers, um herauszuzoomen und zwei weitere Mitglieder dieser kleinen Genfamilie, AFP und AFM, anzuzeigen. Sind diese in der gleichen Ausrichtung? Es gibt auch ein viertes Mitglied dieser kleinen Familie, das ebenfalls auf Chromosom 4, GC, etwas entfernt ist. Zeigen Sie die gesamte Region zwischen GC und AFM an, indem Sie diese Symbole in die Felder "Region Shown" auf der linken Seite eingeben und die Schaltfläche "Go" drücken.

Klicken Sie im LocusLink-Eintrag auf den Mausgen-Symboleintrag unter den Zuordnungsinformationen, um den entsprechenden Maus-LocusLink-Datensatz anzuzeigen. Folgen Sie dem Link zur Mauskartenanzeige, um die entsprechende Region in der Kartenanzeige der Maus anzuzeigen. Welches Chromosom ist das? Passen Sie die Ansicht an, um zu sehen, ob dieselbe Genfamilie mit derselben Struktur im Mausgenom vorhanden ist. Link zum Contig-Datensatz für diese Region des Mausgenoms aus dem Map Viewer. Wie groß ist dieses Contig? Untersuchen Sie den unteren Teil des Datensatzes und stellen Sie fest, dass er sowohl aus dem BAC-Klon (Entwurf und fertig) als auch aus der gesamten Genom-Schrotflintensequenz zusammengesetzt ist. Holen Sie eines der Schrotflintenstücke des gesamten Genoms (z. B. CAAA01153721). Link von diesem Datensatz zum Master-Datensatz für das gesamte Maus-Genom-Schrotflintenprojekt (CAAA01000000). Wie viele Datensätze enthält dieser Satz?

Das Gen, das die juvenile Form der Nephronophthise verursacht, wurde kürzlich auf dem menschlichen Chromosom 1 identifiziert. Wir werden verwandte Protein- und Nukleotiddatensätze verwenden, um dieses Gen in anderen Spezies zu identifizieren. Rufen Sie den menschlichen NPHP4-Eintrag von LocusLink ab. Dieses Protein hat anscheinend ein Homolog in C. elegans. Demonstrieren Sie dies, indem Sie dem BLink-Link (BL) neben dem vorläufigen RefSeq-Protein in diesem Eintrag folgen. Ein Klick auf die Schaltfläche "Beste Treffer" erleichtert die Identifizierung. Notice that there is also a homolog in mouse. Retrieve the mouse protein by linking through the Accession number. Display the linked nucleotide sequence. Use this Accession number (AY118229) in rat genome BLAST to find the gene in the rat genome. Search against the genome assembly. What supercontig did you hit? On what rat chromosome is this gene? Display your results in the Map Viewer by clicking on the Genome View button that appears on the BLAST results page and link to the contig map element. Use the "Maps and Options" link and add the "Genes" map to the display. Is this gene annotated on the rat Map Viewer?

Your BLAST hits imply an exon-intron structure for this gene. How many exons do your BLAST hits imply? How large is this gene? You can make a more precise alignment-based model for this gene using the Spidey tool. To do this you will need to adjust the base pair range displayed on the Map Viewer to the smallest interval that contains all of the BLAST hits. Then get this sequence using the "Download/View Sequence/Evidence" link. Display the genomic region in the browser and save it to disk. Use this genomic sequence on the Spidey page. Use the mouse cDNA (AY118229) you used before for the mRNA sequence.

The following amplified DNA sequence is associated with a human disease gene polymorphism: Use this sequence in the human genome BLAST service to identify this gene. Follow the linked identifier on the BLAST results to display you results in the Map Viewer. On what chromosome is this gene? What gene is it? Examine the BLAST alignment to identify the postion and nature of the polymorphism. In what exon is this?

We can now see if this polymorphism has been mapped to the genome from the SNP database. Use the "Maps and Options" link to add the Variation map to the display. To zoom in to the region by placethe mouse pointer over the map and click to display the pop-up zoom menu. Choose an appropriate level to see the polymorphisms in the region of interest. Find the coding region SNP that maps to the same place as your polymorphism identified by BLAST. Link from the Map Viewer to the RefSNP record. Does this SNP imply a change in the amino acid sequence? Was ist es? (You will notice that there are multiple splice variants for this gene, but the amino acid change is consistent in all of those that contain this coding exon.)

This is a well known polymorphism in the HFE gene that causes hemochromatosis when homozygous. From the RefSNP record you can link to OMIM to learn more about this. You can also follow the links to 3D structure mappings to display the position of this polymorphism in the structure (1A6Z) of the HFE protein. Based on this, why does this amino acid change have a detrimental effect on the function of this protein?

Use LocusLink to find the the entry for the human glyceraldehyde 3-phosphate dehydrogenase gene. Click on the Map Viewer link ( mv ) to find the map location and the contig containing the the GAPD gene. Zoom in to see the exon-intron structure of the gene. How many exons are there? Now use human genome BLAST to verify the location and structure of this gene. Use the GAPD RefSeq (NM_002046) to perform this search. Set both the alignments and descriptions to 250. How many contigs do you hit in the human genome? Click on the Genome View button to see the distribution of these hits on the genome. Look at some of the high scoring single hits and to see what's unusual about them. How can you account for these results?


TOOL SECTIONS

The search section contains popular search tools, such as NucleotideBLAST, ProteinBLAST ( 11 ), PSI-BLAST ( 12 ), and HMMER ( 13 ), as well as our in-house developments such as HHpred, HHsenser and PatternSearch. In comparison with the NCBI server, our BLAST tools offer greater flexibility and functionality: searches can be run against uploaded personal databases or selectable sets of genomes (updated weekly from NCBI and ENSEMBL), databases can be switched between PSI-BLAST runs, alignments can be extracted, viewed online or forwarded to other tools, and two graphs show matched regions and E -value distributions. The fastHMMER tool performs HMMER searches of all standard sequence databases in ∼10% of the time by reducing the database with one iteration of PSI-BLAST at a cut-off E -value of 10 000. PatternSearch identifies sequences containing a user-defined Prosite pattern or regular expression. HHpred is a new server for protein structure and function prediction ( 5 ). It takes a query sequence as input and searches user-selected databases for homologs with a new and very sensitive method based on pairwise comparison of hidden Markov models (HMMs). Available databases, among others, are InterPro, CDD and an aligment database we build from Protein Data Bank (PDB) sequences and which can be used for 3D structure prediction. HHsenser is a transitive search method based on HMM-HMM comparison ( 7 ). This method utilizes a sequence as input and builds an alignment with as many near or remote homologs as possible, often covering the whole protein superfamily.

The alignment section includes the well-known, popular multiple alignment program ClustalW ( 14 ), together with the more recently developed multiple alignment methods ProbCons ( 15 ), MUSCLE ( 16 ) and MAFFT ( 17 ). Also in this section is Blammer ( 10 ), which converts BLAST or PSI-BLAST output to a multiple alignment by realigning gapped regions using ClustalW and removing local inconsistencies through comparison with an HMM. HHalign aligns two alignments with each other by pairwise comparison of HMMs and displays similarities in a profile–profile dotplot.

In the sequence analysis section, we have grouped tools for repeat identification and analysis of periodic regions in proteins. HHrep is a server for de novo repeat detection that is very sensitive in finding proteins with strongly diverged repeats, such as TIM barrels and β-propellers ( 6 ). REPPER ( 8 ) analyzes regions with short gapless repeats in protein sequences. It finds periodicities by Fourier transform and internal sequence similarity. The output is complemented by coiled-coil prediction and secondary structure prediction using PSIPRED ( 18 ). Aln2Plot shows a graphical overview of average hydrophobicity and side chain volume in a multiple alignment.

In the secondary structure section, Quick2D integrates the results of various secondary structure prediction programs, such as PSIPRED ( 18 ), JNET ( 19 ) and PROFKing ( 20 ), the transmembrane prediction of MEMSAT2 ( 21 ) and HMMTOP ( 22 ) and the disorder prediction of DISOPRED ( 23 ) into a single colored view. The AlignmentViewer clusters sequences by a sequence idenity criterion, annotates groups of sequences using PSIPRED and MEMSAT2 predictions of a multiple alignment and graphically displays the results in an interactive Java applet.

The tertiary structure section contains Modeller ( 24 ) and HHpred ( 5 ). Modeller is a very popular program for comparative modeling. It generates a 3D structural model from a sequence alignment of a protein sequence with one or more structural templates. In contrast to the standalone version of Modeller, the input format does not need to be PIR but can also be FASTA or most other standard multiple alignment formats. Modeller is tightly integrated with HHpred, allowing selected hits of HHpred results to be used as templates for subsequent comparative modeling. On the results page, models can be evaluated by using a browser-embedded 3D-viewer and charts with output from several model quality assessment programs are provided. This allows fast interactive refinement cycles of the underlying multiple sequence alignment. The page also provides a link to the ich MolTalk server, which offers several additional tools for the detailed analysis of structures and models ( 25 , 26 ).

In the classification section, we offer modules of the widely used phylogenetic analysis suite PHYLIP ( 27 ), the ANCESCON package ( 28 ) for distance bases phylogenetic analysis and CLANS ( 9 ). CLANS clusters user-provided sequences based on BLAST pairwise similarities ( 29 ). The results can be analysed with a CLANS Java applet or can br exported to CLANS format.

Finally, in the utilities section there is a collection of tools which help to perform simple tasks that the user will often be confronted with. It includes a sequence reformatting utility, a six-frame translation tool for nucleotide sequences, Extract_gis for the extraction of gi-numbers from BLAST files, the RetrieveSeq tool for identifier-based sequence retrieval from the non-redundant protein or nucleotide databases at NCBI, gi2Promotor for the extraction of nucleotide sequences upstream of genes identified by the gi-numbers of their encoded proteins and a backtranslation tool.


SPRENGEN

NCBI BLAST is the most commonly used sequence similarity search tool. It uses heuristics to perform fast lokal alignment searches.

PSI-BLAST allows users to construct and perform a BLAST search with a custom, position-specific, scoring matrix which can help find distant evolutionary relationships. PHI-BLAST functionality is also available to restrict results using patterns.

Please read the provided Help & Documentation and FAQs before seeking help from our support staff. If you have any feedback or encountered any issues please let us know via EMBL-EBI Support. If you plan to use these services during a course please contact us. Read our Privacy Notice if you are concerned with your privacy and how we handle personal information.

EMBL-EBI, Wellcome Trust Genome Campus, Hinxton, Cambridgeshire, CB10 1SD, UK +44 (0)1223 49 44 44


How to Interpret BLAST Results

So you have acquired raw sequence data that you want to connect to a larger body of research. Likely, the first database you will reference is the National Center for Biotechnology Information (NCBI) BLAST (basic local alignment search tool). You might also reference other meaningful databases like Swiss-Prot, das Human Genome Browser und Pfam, depending on the questions that you’re trying to answer and the nature of your samples. The results come with quality measures that call for a bit of interpretation.

There are multiple versions of SPRENGEN but for this summary we will stick to nucleotide-nucleotide alignments for simplicity. When you query a database your sequences get compared to every other sequence until top hits are found and reported in the results with quality metrics.

Some hits may report the same scores and so differentiating the varying levels of confidence that each parameter describes is necessary to choose sequences for the next phase of your analysis. The results are defined as:

  • Maximum Score is the highest alignment score (bit-score) between the query sequence and the database segments. It is sort-of inversely proportional to the e-value. A larger bit score is less likely to be obtained by chance than is a smaller bit score.
  • Total Score is the sum of the alignment scores of all sequences from the same db
  • Percent Query Coverage is the percent of the query length that is included in the aligned segments
  • E-Wert is the measure of likeliness that sequence similarity is not by random chance
  • Percent Identity describes how similar the query is to the aligned sequences

It is not really possible to make an informed decision about the scores, or the validity of the alignments, without delving into a detailed explanation of the scoring system that is used. For both nucleotide and protein, sequences are placed into a matrix then a heuristic algorithm is applied to get a raw score.

Here is an example of a scoring matrix used for local alignments, where the red numbers represent the path that was taken. This matrix is from an amino acid alignment, but the basic model remains the same for nucleotides as well. Each base in the matrix gets scored in relation to its pair on the other axis. Im Falle des BLASTn, a match gets +1 points, mismatch -3 and skipping to the next letter (a gap) is set to default to Linear mode but you can change that. Increasing gap costs will cause alignments with less gap to show up. The model chooses the path that will elicit the highest score, where the sum of this path is the raw score. This score is normalized to get Maximum and Total scores.

The e-value, or expect value, is the number of similar sequences you expect to see by chance in a database of a specified size. Typically, a low e-value indicates similarity between sequences, and you can infer that sequences are homologous. Although, SPRENGEN does not measure homology directly. It is calculated using the bit score, length of the query, and size of the database. Since a particular bit score is more easily obtained by chance with a longer query than with a shorter query, longer queries correspond to larger E-values. Larger dbs make a particular bit score more easily obtained by chance, a larger db results in a larger bit score.

In this blast output, you can expect to see the first four hits on this search 0 x 10⁰ times by random chance, meaning these hits are not random. They also have the same percent similarity. With this, the question of how to interpret e-values arises. What is a good e-value to support a claim that two sequences are biologically related? And which hits can we ignore… There is no universal answer but we can narrow the options with a few guidelines.

  • Checking the length of the sequence as a percentage of the query can give some reference to the length of each hit in relation to your query
  • The type of query determines the best e-value to use
  • The conclusions you draw from the data will be influenced by the e-value

To find extremely similar sequences, a high-scoring sequence with an e-value in the range of much-smaller-than-zero is likely a good choice.


BLAST (Basic Local Alignment Search Tool)

BLAST was developed by Altschul. et al, and it was published on Journal of Molecular Biology(J. Mol. Biol. 215:403-410(1990)).

BLAST(Basic Local Alignment Search Tool) is analysis tools/suits of similarity between sequences with nucleotide or protein databases.

BLAST programs makes sequences compare with open-access databases for similarities.

The results from BLAST operations is relatively statistical data.

BLAST proceeds local algorithms to demonstrate the similarities of two sequences, for example, two sequences alignment.

Capabilities and Usage

BLAST makes several sequences input compare with each data stored in many nucleotide or protein databases.

BLAST proceeds compares of homologous similarities between sequences input and data stored in databases.

While operating BLAST, the searching database must be a single type, for instance, proteins.

There are flexible operations, nucleotide sequence input compares with protein databases or protein sequence input compares with protein databases.

The suits prepared by GCG and EMBOSS include five kinds of BLAST operations as following:

Based on the sequence input, choose the better one kind of all BLAST operations. For example, while a compare with both nucleotide-type sequences there are BLASTN or TBLASTX operations you could choose. Usually the default setting is BLASTN, it is for sure to operate two sequences under TBLASTN(gap not considered).

BLAST is also operated on the local/terminal. It is necessary to download public databases and to maintain/update databases.

There are websites providing BLAST operations for free, but if the sequence is quite important, it would be better operating one on the local/terminal.


If you read wiki carefully, you can see that PSSM is calculated in 3 steps. First frequency is calculated (how much times was the amino acid or nucleotide on that location in the motif), from that you can calculate probability (in the wiki example there were 10 sequences, so each freq. is divided by 10).

Then the log likelihood is calculated, which are the PSSM values. These are in your first matrix (rounded down). The second matrix shows how much the values are relative from your pseudocounts (I assume it was set to default = 0).

Lambda and kappa are estimated to calculate the normalized score (S') for HSP, if you never heard of this before I suggest you read the original psi-blast paper first which you can find here.


Basic local alignment search tool (BLAST) is a sequence similarity search program. The National Center for Biotechnology Information (NCBI) maintains a BLAST server with a home page at http://www.ncbi.nlm.nih.gov/BLAST/ . We report here on recent enhancements to the results produced by the BLAST server at the NCBI. These include features to highlight mismatches between similar sequences, show where the query was masked for low-complexity sequence, and integrate information about the database sequences from the NCBI Entrez system into the BLAST display. Changes to how the database sequences are fetched have also improved the speed of the report generator.

Basic local alignment search tool (BLAST) is a sequence similarity search program that can be used via a web interface or as a stand-alone tool to compare a user's query to a database of sequences ( 1 , 2 ). Several variants of BLAST compare all combinations of nucleotide or protein queries with nucleotide or protein databases. BLAST is a heuristic that finds short matches between two sequences and attempts to start alignments from these ‘hot spots’. In addition to performing alignments, BLAST provides statistical information about an alignment this is the ‘expect’ value, or false-positive rate.

The National Center for Biotechnology Information (NCBI) maintains a BLAST server with a homepage at http://www.ncbi.nlm.nih.gov/BLAST/ . On the homepage the different BLAST searches are listed by type: nucleotide, protein, translated and genomes. The ‘Program Selection Guide’ ( http://www.ncbi.nlm.nih.gov/blast/producttable.shtml ) provides an introduction to the various programs and database options ( 3 ). When a query is submitted to the NCBI server, either as a sequence in FASTA format or as a sequence identifier, e.g. GenBank accession number, the search is sent to the BLAST server and a ‘Request Identifier’ (RID) is returned. The query and results are stored in a structured format for up to 24 h after an RID is issued. The RID identifies the search and allows the results to be viewed in several formats, which include the familiar BLAST report, a simplified ‘hit table’, XML and ASN.1 [( 4 ) and http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook.chapter.610 ]. The number of outstanding jobs from one IP address is taken into account when queuing requests, as described at http://www.ncbi.nlm.nih.gov/BLAST/blast_FAQs.shtml#Queuetime , so that one user does not monopolize the entire service. Searches sent to the server are handled by a sophisticated queuing system that may spread the search over 10 to 20 machines, making the search much faster than if it were run on one machine. Queries and results are stored in an SQL database. More details are available at ftp://ftp.ncbi.nlm.nih.gov/blast/documents/blast-sc2004.pdf

We report here on new display features that we have implemented. These include highlighting mismatches between similar sequences, showing where the query was masked for low-complexity sequence and integrating information from the NCBI Entrez system ( 5 ) into the BLAST display. Additionally the new report generator has been optimized for databases with large sequences.

Custom definition lines

During the past five years many genomes have become searchable and the sequences in those databases are typically long contigs or chromosomes. Additionally many long nucleotide sequences have been added to the BLAST databases as a result of high-throughput genomic projects. Traditionally sequences in the BLAST database have been associated with only one descriptive phrase that is normally the same as the ‘definition’ in the GenBank flat file. This means that only very generic information is provided for matches to long database sequences, even though such a sequence might have annotations for many genes, coding regions (CDS) and other features. The top line of Figure 1 shows a database sequence definition and merely states that the sequence is part of human chromosome 6 and is about 48 million bases long. This reveals little about the region of the database sequence containing the match. To address this issue, we now provide feature information for BLAST alignments involving long database sequences (currently defined as larger than 200 kb).

Two types of sequence features (CDS and rRNA) are currently supported but this could be expanded to other features. An example is shown in Figure 1 where a custom definition line is displayed for each of the two alignments. According to the custom definition lines the query matches a region inside the human major histocompatability complex (MHC) A gene, as well as a region that is about 54 kb upstream of the MHC A gene and about 58 kb downstream of the MHC G gene, allowing one to quickly draw the conclusion that the query sequence is highly related to the human MHC. This feature is always enabled for reports at the NCBI BLAST web site.

New format options for easier sequence analysis

Frequently alignments are between very similar sequences and it's difficult to identify a few mismatches in the pairwise alignment. To address this issue we recently introduced a new format called ‘Pairwise with identities’, shown in Figure 2 on an alignment with 98% identity between the query and database sequence. A dot indicates identity between the database sequence and query at that position mismatches are shown as the database sequence letter in place of the dot and colored red. In addition the word ‘Sbjct’ (on the left of the figure) is also colored red if there is a mismatch on the line. Enable this option with the ‘Alignment View’ pull-down menu shown in Figure 3 .

The majority of BLAST searches at the NCBI web site are nucleotide queries against nucleotide databases (e.g. BLASTN). Many of these queries are mRNAs or match to sequences with annotated coding regions. The standard BLAST report does not show the amino acid sequence translated from the query or annotated on the database sequence, even though that may be of great interest to the user furthermore figuring out the positions of the encoded amino acids on the corresponding nucleotide sequence can be challenging, especially if the coding region is long or involves multiple exons. We have introduced a new ‘CDS Feature’ to display such coding regions. With this option any pre-annotated CDS protein products on the query (if the query is an accession) or the database sequence are fetched from Entrez and shown with the residues aligned to the second base of a codon ( Figure 2 ). For a user-submitted query in FASTA format a putative protein product is calculated using the coding frame of the database sequence as a guide. Mismatched amino acids for the database sequence can also be shown in color. Combined with the ‘Pairwise with identities’ option discussed above this format makes certain tasks easier, such as analysis for silent and replacement mutations. Owing to the overhead of fetching the CDS feature from Entrez this option is currently not the default. Enable this option by checking the ‘CDS feature’ box on the BLAST format page as shown in Figure 3 .

Low complexity sequences are compositionally biased regions of amino acid or nucleotide sequence, which often result in artificially high scores in sequence similarity searches. Low-complexity filters, such as SEG ( 6 ) or DUST,mask these regions and prevent them from overly biasing the results. Traditionally BLAST has replaced the masked regions by Xs or Ns in the BLAST report. The BLAST formatter now can represent these regions by lower-case letters, making them distinct from the (upper-case) non-filtered regions ( Figure 2 ). In addition the user may select from three colors (black, gray, red) to vary the emphasis on these regions ( Figure 3 ). This new display option is now the default, showing the masked regions in gray lower-case.

General improvements to the BLAST web site

The BLAST graphical overview is a schematic representation of alignments matching the query sequence. It is useful for quickly localizing regions of interest in the query based on it's similarity to other sequences in the database. To reduce the complexity in generating this graphic overview we have now implemented it as HTML tables that use a few small static images (gifs). This design is more robust and also lends itself to future development of a graphical viewer for stand-alone and command-line client BLAST.

The new report generator has improved functionality to fetch part of a database sequence. This can be essential if the database sequence is long, such as a chromosome, and the alignment to be presented only involves a small fraction of the sequence. Previously the entire database sequence was fetched and much of that sequence was not used. This improved functionality has led to a dramatic decrease in formatting time for searches against genomes.

BLAST provides several different modes for viewing BLAST results. The Query-anchored view gives a stacked view of database sequences aligned to the query with indication of insertions and mismatches ( 3 ). This provides an easy method to scan alignments and locate things like SNP's and amino acid substitutions among a group of related sequences. Previously the query-anchored views were not fully supported for BLASTX and TBLASTX searches that involved translated sequences. The formatter now supports this format for all these programs. Use the ‘Alignment View’ pull-down to enable this option ( Figure 3 ).

From the BLAST results it is now possible to select some or all of the database sequences and perform an Entrez query to fetch them. Checking the boxes in the alignment section selects the sequences to download and clicking the ‘Get Selected sequences’ button takes the user to Entrez, where the sequences can be displayed in various formats, (such as GenBank or FASTA) and saved to a file. The saved file can then be used as input to another program.

Future directions

We are currently redesigning the BLAST web pages to make them more effective tools. Some of the changes will be better organized HTML that makes options apparent to the user, such as making it easier to limit a search or results to a particular organism or subset of the data available. Results will also be made more user-friendly by better organizing the output. Nearing completion is a utility to calculate distances between sequences in the BLAST results and present those as a tree. Finally we are also working on making it possible to save search or formatting strategies for future use.

Excerpt from a BLAST result showing custom-definition lines. The query was bases 241 through 480 of a human MHC A gene nucleotide sequence (NM_002116) in a search against the human genome. The top line of the figure is the traditional sequence definition. Custom definition lines are provided for both of the alignments shown and are relevant to the region matched (first alignment) or nearby regions (second alignment).

Excerpt from a BLAST result showing custom-definition lines. The query was bases 241 through 480 of a human MHC A gene nucleotide sequence (NM_002116) in a search against the human genome. The top line of the figure is the traditional sequence definition. Custom definition lines are provided for both of the alignments shown and are relevant to the region matched (first alignment) or nearby regions (second alignment).

Demonstration of new format options. FASTA sequence for the human cystic fibrosis trans-membrane conductance regulator sequence (NM_000492) was used as query for a BLASTN search against the nr database using default parameters. Three new display options are shown in this figure. The first is the ‘Pairwise with identities’ option. Nucleotide matches in the database sequence are shown as dots (‘.’), nucleotide mismatches in the database sequence (as well as the database sequence identification) are colored red. The second new option is the presentation of the CDS features, which is shown for both the query and database sequences above and below the BLAST alignment, respectively. The CDS feature annotated on the database sequence was retrieved from Entrez the putative CDS feature on the query was produced automatically using the CDS of the database sequence as a guide. Mismatches for the amino acid sequence derived from the database sequence are colored pink. Finally the new masking option is shown (see text). Bases 175–181 of the query were masked for low-complexity during the search and are shown in lower-case gray letters.

Demonstration of new format options. FASTA sequence for the human cystic fibrosis trans-membrane conductance regulator sequence (NM_000492) was used as query for a BLASTN search against the nr database using default parameters. Three new display options are shown in this figure. The first is the ‘Pairwise with identities’ option. Nucleotide matches in the database sequence are shown as dots (‘.’), nucleotide mismatches in the database sequence (as well as the database sequence identification) are colored red. The second new option is the presentation of the CDS features, which is shown for both the query and database sequences above and below the BLAST alignment, respectively. The CDS feature annotated on the database sequence was retrieved from Entrez the putative CDS feature on the query was produced automatically using the CDS of the database sequence as a guide. Mismatches for the amino acid sequence derived from the database sequence are colored pink. Finally the new masking option is shown (see text). Bases 175–181 of the query were masked for low-complexity during the search and are shown in lower-case gray letters.

Enabling new features on the BLAST format page. The red arrows point to new report features that may be enabled or modified from this page. The check-box highlighted by arrow 1 enables the CDS feature on a BLASTN or megaBLAST search. The two menus highlighted by arrow 2 change the default behavior for display of masked regions. The menu highlighted by arrow 3 changes how the alignments are displayed in the BLAST report.

Enabling new features on the BLAST format page. The red arrows point to new report features that may be enabled or modified from this page. The check-box highlighted by arrow 1 enables the CDS feature on a BLASTN or megaBLAST search. The two menus highlighted by arrow 2 change the default behavior for display of masked regions. The menu highlighted by arrow 3 changes how the alignments are displayed in the BLAST report.

The authors would like to acknowledge Richa Agarwala, Stephen Altschul, Kevin Bealer, Christiam Camacho, Peter Cooper, George Coulouris, Susan Dombrowski, Mike Gertz, David Lipman, Wayne Matten, Yuri Merezhuk, Alexander Morgulis, Jim Ostell, Jason Papadopoulos, Yan Raytselis, Eric Sayers, Alejandro Schaffer, Tao Tao, David Wheeler and Irena Zaretskaya, as well as members of the C++ toolkit group at the NCBI, for their work that has made this Web site possible. This research was supported by the Intramural Research Program of the NIH, National Library of Medicine. Funding to pay the Open Access publication charges for this article was provided by the National Institutes of Health.


Inhalt

Nucleic acids consist of a chain of linked units called nucleotides. Each nucleotide consists of three subunits: a phosphate group and a sugar (ribose in the case of RNA, deoxyribose in DNA) make up the backbone of the nucleic acid strand, and attached to the sugar is one of a set of nucleobases. The nucleobases are important in base pairing of strands to form higher-level secondary and tertiary structure such as the famed double helix.

The possible letters are EIN, C, g, und T, representing the four nucleotide bases of a DNA strand – adenine, cytosine, guanine, thymine – covalently linked to a phosphodiester backbone. In the typical case, the sequences are printed abutting one another without gaps, as in the sequence AAAGTCTGAC, read left to right in the 5' to 3' direction. With regards to transcription, a sequence is on the coding strand if it has the same order as the transcribed RNA.

One sequence can be complementary to another sequence, meaning that they have the base on each position in the complementary (i.e. A to T, C to G) and in the reverse order. For example, the complementary sequence to TTAC is GTAA. If one strand of the double-stranded DNA is considered the sense strand, then the other strand, considered the antisense strand, will have the complementary sequence to the sense strand.

Notation Edit

Comparing and determining % difference between two nucleotide sequences.

  • AATCCGCSCHILD
  • AAEINCCCTSCHILD
  • Given the two 10-nucleotide sequences, line them up and compare the differences between them. Calculate the percent similarity by taking the number of different DNA bases divided by the total number of nucleotides. In the above case, there are three differences in the 10 nucleotide sequence. Therefore, divide 7/10 to get the 70% similarity and subtract that from 100% to get a 30% difference.

While A, T, C, and G represent a particular nucleotide at a position, there are also letters that represent ambiguity which are used when more than one kind of nucleotide could occur at that position. The rules of the International Union of Pure and Applied Chemistry (IUPAC) are as follows: [1]

Symbol [2] Beschreibung Bases represented Complement
EIN EINdenine EIN 1 T
C Cytosine C g
g guanine g C
T Thymine T EIN
U Uracil U EIN
W Weak EIN T 2 W
S Strong C g S
m einmino EIN C K
K Keto g T m
R puRine EIN g Ja
Ja PJarimidine C T R
B not A (B comes after A) C g T 3 V
D not C (D comes after C) EIN g T h
h not G (h comes after G) EIN C T D
V not T (V comes after T and U) EIN C g B
n irgendein nucleotide (not a gap) EIN C g T 4 n
Z Zero 0 Z

These symbols are also valid for RNA, except with U (uracil) replacing T (thymine). [1]

Apart from adenine (A), cytosine (C), guanine (G), thymine (T) and uracil (U), DNA and RNA also contain bases that have been modified after the nucleic acid chain has been formed. In DNA, the most common modified base is 5-methylcytidine (m5C). In RNA, there are many modified bases, including pseudouridine (Ψ), dihydrouridine (D), inosine (I), ribothymidine (rT) and 7-methylguanosine (m7G). [3] [4] Hypoxanthine and xanthine are two of the many bases created through mutagen presence, both of them through deamination (replacement of the amine-group with a carbonyl-group). Hypoxanthine is produced from adenine, and xanthine is produced from guanine. [5] Similarly, deamination of cytosine results in uracil.

In biological systems, nucleic acids contain information which is used by a living cell to construct specific proteins. The sequence of nucleobases on a nucleic acid strand is translated by cell machinery into a sequence of amino acids making up a protein strand. Each group of three bases, called a codon, corresponds to a single amino acid, and there is a specific genetic code by which each possible combination of three bases corresponds to a specific amino acid.

The central dogma of molecular biology outlines the mechanism by which proteins are constructed using information contained in nucleic acids. DNA is transcribed into mRNA molecules, which travels to the ribosome where the mRNA is used as a template for the construction of the protein strand. Since nucleic acids can bind to molecules with complementary sequences, there is a distinction between "sense" sequences which code for proteins, and the complementary "antisense" sequence which is by itself nonfunctional, but can bind to the sense strand.

DNA sequencing is the process of determining the nucleotide sequence of a given DNA fragment. The sequence of the DNA of a living thing encodes the necessary information for that living thing to survive and reproduce. Therefore, determining the sequence is useful in fundamental research into why and how organisms live, as well as in applied subjects. Because of the importance of DNA to living things, knowledge of a DNA sequence may be useful in practically any biological research. For example, in medicine it can be used to identify, diagnose and potentially develop treatments for genetic diseases. Ebenso kann die Erforschung von Krankheitserregern zu Behandlungen für ansteckende Krankheiten führen. Die Biotechnologie ist eine aufstrebende Disziplin mit dem Potenzial für viele nützliche Produkte und Dienstleistungen.

RNA is not sequenced directly. Instead, it is copied to a DNA by reverse transcriptase, and this DNA is then sequenced.

Current sequencing methods rely on the discriminatory ability of DNA polymerases, and therefore can only distinguish four bases. An inosine (created from adenosine during RNA editing) is read as a G, and 5-methyl-cytosine (created from cytosine by DNA methylation) is read as a C. With current technology, it is difficult to sequence small amounts of DNA, as the signal is too weak to measure. This is overcome by polymerase chain reaction (PCR) amplification.

Digital representation Edit

Once a nucleic acid sequence has been obtained from an organism, it is stored in silico in digital format. Digital genetic sequences may be stored in sequence databases, be analyzed (see Sequenzanalyse below), be digitally altered and be used as templates for creating new actual DNA using artificial gene synthesis.

Digital genetic sequences may be analyzed using the tools of bioinformatics to attempt to determine its function.

Genetic testing Edit

The DNA in an organism's genome can be analyzed to diagnose vulnerabilities to inherited diseases, and can also be used to determine a child's paternity (genetic father) or a person's ancestry. Normally, every person carries two variations of every gene, one inherited from their mother, the other inherited from their father. The human genome is believed to contain around 20,000–25,000 genes. In addition to studying chromosomes to the level of individual genes, genetic testing in a broader sense includes biochemical tests for the possible presence of genetic diseases, or mutant forms of genes associated with increased risk of developing genetic disorders.

Genetic testing identifies changes in chromosomes, genes, or proteins. [6] Usually, testing is used to find changes that are associated with inherited disorders. The results of a genetic test can confirm or rule out a suspected genetic condition or help determine a person's chance of developing or passing on a genetic disorder. Several hundred genetic tests are currently in use, and more are being developed. [7] [8]

Sequence alignment Edit

In bioinformatics, a sequence alignment is a way of arranging the sequences of DNA, RNA, or protein to identify regions of similarity that may be due to functional, structural, or evolutionary relationships between the sequences. [9] If two sequences in an alignment share a common ancestor, mismatches can be interpreted as point mutations and gaps as insertion or deletion mutations (indels) introduced in one or both lineages in the time since they diverged from one another. In sequence alignments of proteins, the degree of similarity between amino acids occupying a particular position in the sequence can be interpreted as a rough measure of how conserved a particular region or sequence motif is among lineages. The absence of substitutions, or the presence of only very conservative substitutions (that is, the substitution of amino acids whose side chains have similar biochemical properties) in a particular region of the sequence, suggest [10] that this region has structural or functional importance. Although DNA and RNA nucleotide bases are more similar to each other than are amino acids, the conservation of base pairs can indicate a similar functional or structural role. [11]

Computational phylogenetics makes extensive use of sequence alignments in the construction and interpretation of phylogenetic trees, which are used to classify the evolutionary relationships between homologous genes represented in the genomes of divergent species. The degree to which sequences in a query set differ is qualitatively related to the sequences' evolutionary distance from one another. Roughly speaking, high sequence identity suggests that the sequences in question have a comparatively young most recent common ancestor, while low identity suggests that the divergence is more ancient. This approximation, which reflects the "molecular clock" hypothesis that a roughly constant rate of evolutionary change can be used to extrapolate the elapsed time since two genes first diverged (that is, the coalescence time), assumes that the effects of mutation and selection are constant across sequence lineages. Therefore, it does not account for possible difference among organisms or species in the rates of DNA repair or the possible functional conservation of specific regions in a sequence. (In the case of nucleotide sequences, the molecular clock hypothesis in its most basic form also discounts the difference in acceptance rates between silent mutations that do not alter the meaning of a given codon and other mutations that result in a different amino acid being incorporated into the protein.) More statistically accurate methods allow the evolutionary rate on each branch of the phylogenetic tree to vary, thus producing better estimates of coalescence times for genes.

Sequence motifs Edit

Frequently the primary structure encodes motifs that are of functional importance. Some examples of sequence motifs are: the C/D [12] and H/ACA boxes [13] of snoRNAs, Sm binding site found in spliceosomal RNAs such as U1, U2, U4, U5, U6, U12 and U3, the Shine-Dalgarno sequence, [14] the Kozak consensus sequence [15] and the RNA polymerase III terminator. [16]

Langstreckenkorrelationen Bearbeiten

Peng et al. [17] [18] found the existence of long-range correlations in the non-coding base pair sequences of DNA. In contrast, such correlations seem not to appear in coding DNA sequences. This finding has been explained by Grosberg et al. [19] by the global spatial structure of the DNA.

Sequence entropy Edit

In Bioinformatics, a sequence entropy, also known as sequence complexity or information profile, [20] is a numerical sequence providing a quantitative measure of the local complexity of a DNA sequence, independently of the direction of processing. The manipulations of the information profiles enable the analysis of the sequences using alignment-free techniques, such as for example in motif and rearrangements detection. [20] [21] [22]


Schau das Video: NCBI PSI-BLAST Tutorial (Juni 2022).


Bemerkungen:

  1. Voshicage

    Gut gemacht, was für eine ausgezeichnete Nachricht

  2. Tutaur

    Gar nichts.

  3. Delano

    Die Stille hat begonnen :)



Eine Nachricht schreiben