Information

Ist es PSI-BLAST oder BLASTP, wenn ich PSI-BLAST nur für eine Iteration verwende?

Ist es PSI-BLAST oder BLASTP, wenn ich PSI-BLAST nur für eine Iteration verwende?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

In meinem Fall habe ich PSI-BLAST im lokalen BLAST+ verwendet, um Abfragen gegen die selbst erstellte Datenbank zu suchen. Nach der ersten Suche habe ich das Suchergebnis in die Datenbank aufgenommen und dann mit MUSCLE das multiple Sequenz-Alignment selbst durchgeführt, um die konservierten Teile zu erhalten. Dann durchsuchte ich die Abfragen gegen die Konsensussequenz, die aus dem multiplen Sequenz-Alignment (ohne Lücke) erhalten wurde. In diesem Prozess habe ich kein PSSM berechnet, während die erste Iteration von PSI-BLAST eine konstante Matrix verwendet, die BLASTP sehr ähnlich ist. Was habe ich dabei eigentlich verwendet – PSI-BLAST oder BLASTP?


Sie haben BLASTP einfach gegen eine Konsensussequenz verwendet. Die erste Iteration von PSI-BLAST ist identisch mit BLASTP.


Die erste Psiblast-Runde ist die gleiche wie blastp und ein Wert von 0,001 ist niedrig und liegt unter dem empfohlenen Schwellenwert von (e)-Wert = 0,005.

Sie benötigen umfangreiche Kenntnisse über Kompositionsfehler und globuläre Domänen, um in die 2. und 3. Iteration zu gelangen. Ich würde empfehlen, hier das Handbuch von NCBI zu lesen.

Nach Ihrer Antwort verwenden Sie Psiblast als Werkzeug, um die Kreuzreaktivität von Antikörpern zu untersuchen, von der ich annehme, dass es sich um Pan-Clostridium handelt.

Ich empfehle, psi-blast nur als Untersuchungsanalyse zu verwenden und hier zur Immune Epitope Database zu wechseln. Alles wird auf dem IEDB-Server erklärt. Auf diesem Server schlage ich vor, zwei separate Analysen durchzuführen und zu sehen, ob die Ergebnisse korrelieren,

  • B-Zell-Epitop-Vorhersage auf Ihrem stärksten Wert
  • B-Zell-Epitop-Vorhersage für Ihre Abfragesequenz
  • Stimmen die Epitoppositionen überein?

Wenn die Epitoppositionen nicht übereinstimmen, kann die Hypothese eines pan-Clostridium-kreuzreaktiven Antikörpers sofort verworfen werden. Wenn eine Übereinstimmung besteht, ist dies die Grundlage für weitere Untersuchungen.

Bitte beachten Sie, dass Clostridium Glykosylierung verwendet, um die Antikörperbindung zu modulieren.


Ist es PSI-BLAST oder BLASTP, wenn ich PSI-BLAST nur für eine Iteration verwende - Biologie

[1] Holm, L. & Sander, C. (1997) "Neue Struktur - neuartige Faltung?" Struktur 5:165-171. (PubMed)

[2] Brenner, S.E., Chothia, C. & Hubbard, T.J.P. (1998) "Beurteilung von Sequenzvergleichsmethoden mit zuverlässigen strukturell identifizierten entfernten evolutionären Beziehungen." Proz. Natl. Akad. Wissenschaft USA 95: 6073-6078. (PubMed)

[3] Schneider, T. D., Stormo, G. D., Gold, L. & Ehrenfeucht, A. (1986) "Informationsinhalt von Bindungsstellen an Nukleotidsequenzen." J.Mol. Biol. 188:415-431. (PubMed)

[4] Gribskov, M., McLachlan, A. D. und Eisenberg, D. (1987) "Profilanalyse: Nachweis entfernt verwandter Proteine." Proz. Natl. Akad. Wissenschaft USAR 84:4355-4358. (PubMed)

[5] Staden, R. (1988) "Methoden zum Definieren und Lokalisieren von Mustern von Motiven in Sequenzen." Berechnen. Appl. Bioszi. 4:53-60. (PubMed)

[6] Gribskov, M. (1992) "Translational Initiation Factor-IF-1 und Factor-EIF-2-alpha teilen ein RNA-bindendes Motiv mit prokaryotischen ribosomalen Protein-S1 und Polynukleotid-Phosphorylase." Gen 119:107-111. (PubMed)

[7] Tatusov, R.L., Altschul, S.F. & Koonin, E. V. (1994) "Nachweis konservierter Segmente in Proteinen: Iteratives Scannen von Sequenzdatenbanken mit Ausrichtungsblöcken." Proz. Natl. Akad. Wissenschaft USA 91:12091-12095. (PubMed)

[8] Yi, T-M. und Lander, E. S. (1994) "Erkennung verwandter Proteine ​​durch iterative Vorlagenverfeinerung (ITR)." Schutz Wissenschaft 3:1315-1328. (PubMed)

[9] Bucher, P., Karplus, K., Moeri, N. & Hofmann, K. (1996) "Eine flexible Motivsuchtechnik basierend auf generalisierten Profilen." Berechnen. Chem.-Nr. 20:3-23. (PubMed)

[10] Altschul, S. F., Madden, T. L., Schäumlffer, A. A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) "Gapped BLAST und PSI-BLAST: eine neue Generation von Suchprogrammen für Proteindatenbanken." Nukleinsäuren Res. 25:3389-3402. (PubMed)

[11] Durbin, R., Eddy, S., Krogh, A. und Mitchison, G. (1998) "Biological Sequence Analysis. Probabilistic Models of Proteins and Nucleic Acids." Cambridge University Press, Cambridge, Großbritannien.

[12] Altschul, S. F., Gish, W., Miller, W., Myers, E. W. & Lipman, D.J. (1990) "Grundlegendes Suchwerkzeug für lokale Ausrichtungen." J.Mol. Biol. 215:403-410. (PubMed)

[13] Karlin, S. & Altschul, S.F. (1990) "Methoden zur Bewertung der statistischen Signifikanz von molekularen Sequenzmerkmalen unter Verwendung allgemeiner Bewertungsschemata." Proz. Natl. Akad. Wissenschaft USA 87: 2264-2268. (PubMed)

[14] Altschul, S. F. & Gish, W. (1996) "Statistik der lokalen Ausrichtung". Meth. Enzymol. 266:460-480. (PubMed)

[15] Mushegian, A. R., Bassett, D. E. Jr., Boguski, M. S., Bork, P. & Koonin, E. V. (1997) "Positional geklonte menschliche Krankheitsgene: Muster der evolutionären Konservierung und funktionelle Motive." Proz. Natl. Akad. Wissenschaft USA 94:5831-5836. (PubMed)

[16] Huynen, M., Doerks, T., Eisenhaber, F., Orengo, C., Sunyaev, S., Yuan, Y. & Bork, P. (1998) „Homology-based fold Vorhersages for Mycoplasma genitalium proteines ." J.Mol. Biol. 280:323-326. (PubMed)

[17] Aravind, L., Tatusov, R.L., Wolf, Y.I., Walker, D.R. und Koonin, E. V. (1998) "Beweise für einen massiven Genaustausch zwischen archaealen und bakteriellen Hyperthermophilen." Trends Genet., 14:442-444 (PubMed)

[18] Bult, CJ, White, O., Olsen, GJ, Zhou, L., Fleischmann, RD, Sutton, GG, Blake, JA, FitzGerald, LM, Clayton, RA, Gocayne, JD, Kerlavage, AR, Dougherty , BA, Tomb, JF, Adams, MD, Reich, CI, Overbeek, R., Kirkness, EF, Weinstock, KG, Merrick, JM, Glodek, A., Scott, JL, Geoghagen, NSM & Venter, J. C. (1996) "Complete Genome Sequence of the methanogenic archaeon, Methanococcus jannaschii." Wissenschaft 273: 1058-1073. (PubMed)

[19] Sterky, F., Holmberg, A., Pettersson, B. & Uhlen, M. (1996) „Die Sequenz eines 30 kb-Fragments auf dem linken Arm von Chromosom XV von Saccharomyces cerevisiae zeigt 15 offene Leseraster, fünf davon entsprechen zuvor identifizierten Genen." Hefe 12: 1091-1095. (PubMed)

[20] Shuman, S. & Schwer, B. (1995) "RNA-Capping-Enzym und DNA-Ligase: eine Superfamilie kovalenter Nukleotidyltransferasen." Mol.-Nr. Mikrobiol. 17:405-410. (PubMed)

[21] Wootton, J. C. & Federhen, S. (1996) "Analyse von kompositorisch voreingenommenen Regionen in Sequenzdatenbanken." Methoden Enzymol. 266:554-571. (PubMed)

[22] Lupas, A. (1996) "Vorhersage und Analyse von Coiled-Coil-Strukturen." Methoden Enzymol. 266:513-525. (PubMed)


PSI-BLAST

BLAST steht für Basic Local Alignment Search Tool. Der Schwerpunkt dieses Tools liegt darin, Regionen mit Sequenzähnlichkeit zu finden, die funktionelle und evolutionäre Hinweise auf die Struktur und Funktion Ihrer neuen Sequenz liefern. Positionsspezifisches iteratives BLAST (PSI-BLAST) bezieht sich auf ein Merkmal von BLAST 2.0, bei dem ein Profil automatisch aus dem ersten Satz von BLAST-Ausrichtungen erstellt wird. PSI-BLAST ist ähnlich zu NCBI BLAST2, außer dass es positionsspezifische Bewertungsmatrizen verwendet, die während der Suche abgeleitet werden. Dieses Tool wird verwendet, um entfernte evolutionäre Beziehungen zu erkennen. Die PHI-BLAST-Funktionalität ist verfügbar, um mithilfe von Mustern Suchergebnisse einzuschränken.

So verwenden Sie dieses Tool

Das Ausführen eines Tools über das Webformular ist ein einfacher Prozess mit mehreren Schritten, der oben auf der Seite beginnt und den Schritten nach unten folgt.

Jedes Tool hat mindestens 2 Schritte, aber die meisten haben mehr:

  • Die ersten Schritte sind in der Regel dort, wo der Benutzer die Werkzeugeingabe (z. B. Sequenzen, Datenbanken. ) festlegt (Siehe Beispieleingabeformate)
  • In den folgenden Schritten hat der Benutzer die Möglichkeit, die Standardwerkzeugparameter zu ändern (Siehe Beispielausgabeformate)
  • Und schließlich ist der letzte Schritt immer der Schritt der Tool-Übermittlung, bei dem der Benutzer einen Titel angeben kann, der mit den Ergebnissen verknüpft werden soll, und eine E-Mail-Adresse für die E-Mail-Benachrichtigung. Durch die Verwendung der Schaltfläche "Senden" werden die zuvor im Formular angegebenen Informationen effektiv gesendet, um das Tool auf dem Server zu starten

Beachten Sie, dass die Parameter vor dem Starten des Tools auf dem Server validiert werden und bei fehlender oder falscher Parameterkombination der Benutzer direkt im Formular benachrichtigt wird.

Schritt 1 - Datenbank

Datenbanken

Die Datenbanken, für die die Sequenzähnlichkeitssuche ausgeführt werden soll. Mehrere Datenbanken können gleichzeitig verwendet werden

Die UniProt Knowledgebase (UniProtKB) ist der zentrale Zugangspunkt für umfangreiche kuratierte Proteininformationen, einschließlich Funktion, Klassifikation und Querverweisen. Durchsuchen Sie UniProtKB, um "alles, was bekannt ist" über eine bestimmte Sequenz abzurufen.

Die UniProt Knowledgebase umfasst UniProtKB/Swiss-Prot und UniProtKB/TrEMBL.

Die MEROPS-Datenbank ist eine Informationsquelle für Peptidasen (auch Proteasen, Proteinasen und proteolytische Enzyme genannt) und die Proteine, die sie hemmen.

MEROPS-MPRO ist der MEROPS-Scandatensatz, er enthält alle unsere Typbeispiele auf Peptidase-Ebene (c5000-Sequenzen).

Die MEROPS-Datenbank ist eine Informationsquelle für Peptidasen (auch Proteasen, Proteinasen und proteolytische Enzyme genannt) und die Proteine, die sie hemmen.

MEROPS-MPEP enthält nur die Peptidase- oder Inhibitordomänensequenz von allen Proteinen der MEROPS-Sammlung.

Die MEROPS-Datenbank ist eine Informationsquelle für Peptidasen (auch Proteasen, Proteinasen und proteolytische Enzyme genannt) und die Proteine, die sie hemmen.

MEROPS-MP enthält vollständige Sequenzen aller Proteine ​​der MEROPS-Kollektion.

Schritt 2 - Sequenz

Sequenzeingabefenster

Die Abfragereihenfolge kann direkt in dieses Formular eingegeben werden. Die Sequenz kann im GCG-, FASTA-, PIR-, NBRF-, PHYLIP- oder UniProtKB/Swiss-Prot-Format vorliegen. Eine teilweise formatierte Sequenz wird nicht akzeptiert. Das Hinzufügen eines Returns am Ende der Sequenz kann bestimmten Anwendungen helfen, die Eingabe zu verstehen. Beachten Sie, dass die direkte Verwendung von Daten aus Textverarbeitungssystemen zu unvorhersehbaren Ergebnissen führen kann, da versteckte Zeichen/Steuerzeichen vorhanden sein können.

Sequenzdatei hochladen

Als Eingabe für die Sequenzähnlichkeitssuche kann eine Datei verwendet werden, die eine gültige Sequenz in einem beliebigen Format (GCG, FASTA, PIR, NBRF, PHYLIP oder UniProtKB/Swiss-Prot) enthält. Textverarbeitungsdateien können unvorhersehbare Ergebnisse liefern, da in den Dateien versteckte/Steuerzeichen enthalten sein können. Speichern Sie Dateien am besten mit der Unix-Formatoption, um versteckte Windows-Zeichen zu vermeiden.

Schritt 3 - Parameter

Matrix

Die Vergleichsmatrix, die verwendet werden soll, um Ausrichtungen beim Durchsuchen der Datenbank zu bewerten

Standardwert ist: BLOSUM62

Zusätzliche InformationenLesen Sie mehr über Matrizen

Gap Open Strafe

Strafe wird vom Spielstand abgezogen, wenn eine Lücke in der Folge entsteht. Eine Erhöhung der Lückenöffnungsstrafe verringert die Anzahl der Lücken in der endgültigen Ausrichtung.

Zusätzliche InformationenLesen Sie mehr über Gap-Strafen

Strafe für Lückenverlängerung

Strafe von der Punktzahl für jede Base oder jeden Rückstand in der Lücke abgezogen. Ein Erhöhen der Lückenerweiterungsstrafe begünstigt kurze Lücken in der endgültigen Ausrichtung, umgekehrt begünstigt eine Verringerung der Lückenerweiterungsstrafe lange Lücken in der endgültigen Ausrichtung.

Zusätzliche InformationenLesen Sie mehr über Gap-Strafen

Ergebnisse E() Grenze

Begrenzt die Anzahl der Scores und Alignments, die basierend auf dem Erwartungswert gemeldet werden. Dies ist die maximale Häufigkeit, mit der das Spiel voraussichtlich zufällig stattfindet.

PSSM E-Wert-Grenzwert

Schwellenwert für den Erwartungswert für die automatische Auswahl übereinstimmender Sequenzen zur Aufnahme in PSSM bei jeder Iteration.

Filter

Filterbereiche mit geringer Sequenzkomplexität. Dadurch können Probleme mit Sequenzen geringer Komplexität vermieden werden, bei denen Übereinstimmungen aufgrund der Zusammensetzung und nicht aufgrund einer bedeutungsvollen Sequenzähnlichkeit gefunden werden. In einigen Fällen maskiert die Filterung jedoch auch relevante Bereiche und sollte daher mit Vorsicht verwendet werden.

Spielstände

Maximale Anzahl von Match-Score-Zusammenfassungen, die in der Ergebnisausgabe gemeldet werden.

Ausrichtungen

Maximale Anzahl von Übereinstimmungsabgleichen, die in der Ergebnisausgabe gemeldet werden.

Sequenzbereich

Geben Sie einen Bereich oder Abschnitt der Eingabesequenz an, der in der Suche verwendet werden soll. Beispiel: Die Angabe von '34-89' in einer Eingabesequenz der Gesamtlänge 100 weist BLAST an, nur die Reste 34 bis einschließlich 89 zu verwenden.

Standardwert ist: START-END

Abgabe

Der Betrag, um den eine Punktzahl sinken kann, bevor die Verlängerung von Worttreffern gestoppt wird

Standardwert ist: 15 (Standard) [15]

Endgültige Abgabe

Dropoff-Wert für die endgültige Ausrichtung mit Lücken

Standardwert ist: 25 (Standard) [25]

Ausrichtungsansichten

Formatierung für die Ausrichtungen

NameBeschreibungWert
paarweiseAbfrage und Übereinstimmung werden als paarweise Ausrichtung mit einer Konsensuslinie zwischen den beiden Sequenzen ausgegeben. Im Konsens werden die Übereinstimmungszustände dargestellt als: identische Übereinstimmung als Basis/Rest, Ähnlichkeit als '+' und Fehlübereinstimmung als Leerzeichen.0
MS-IdentitätenDie gefundenen Übereinstimmungen werden relativ zur nicht zugeordneten Abfragesequenz als Unterschiede zur Abfrage angezeigt. Identitäten erscheinen als Punkte (.), Ähnlichkeiten in Großbuchstaben, Nichtübereinstimmungen in Kleinbuchstaben und Lücken als Bindestrich (-). Insertionen werden durch eine Linie angezeigt, die auf die Insertionsstelle mit der eingefügten Sequenz auf einer anderen Linie zeigt.1
MS-Nicht-IdentitätenDie gefundenen Übereinstimmungen werden relativ zur nicht zugeordneten Abfragesequenz als Unterschiede zur Abfrage angezeigt. Identitäten und Ähnlichkeiten erscheinen in Großbuchstaben, Missmatches in Kleinbuchstaben und Lücken als Bindestrich (-). Insertionen werden durch eine Linie angezeigt, die auf die Insertionsstelle mit der eingefügten Sequenz auf einer anderen Linie zeigt.2
Flache IdentitätenDie gefundenen Übereinstimmungen werden relativ zur lückenhaften Abfragesequenz als Unterschiede zur Abfrage angezeigt. Identitäten erscheinen als Punkte (.), Ähnlichkeiten in Großbuchstaben, Nichtübereinstimmungen in Kleinbuchstaben und Lücken als Bindestrich (-).3
Flache Nicht-IdentitätenDie gefundenen Übereinstimmungen werden relativ zur lückenhaften Abfragesequenz als Unterschiede zur Abfrage angezeigt. Identitäten und Ähnlichkeiten erscheinen in Großbuchstaben, Missmatches in Kleinbuchstaben und Lücken als Bindestrich (-).4

Standardwert ist: paarweise [0]

Checkpoint-Datei hochladen

Prüfpunktdatei aus der vorherigen Iteration. Muss im ASN.1-Binärformat vorliegen.

Nutzungsmodus für PHI-BLAST

Nutzungsmodus für PHI-BLAST-Funktionalität

Name des NutzungsmodusBeschreibungWert
blastpgpDies ist der standardmäßige PHIBLAST/BLASTPGP-Programmmodus ohne patseedp- oder Seedp-Optionen.blastpgp
patseedpDiese Funktion benötigt drei Eingaben, ein Eingabemuster, eine Abfrage der Proteinsequenz mit dem Muster und eine Proteinsequenzdatenbank. Es identifiziert das Muster in der Abfrage und gleicht die Abfrage mit den Datenbankeinträgen ab, die das gleiche Muster enthalten. Es meldet die Musterposition in der Abfrage, die Gesamtzahl der Mustervorkommen in der Datenbank und die tatsächlichen Datenbankeinträge mit Muster und Ausrichtung auf die Eingabeabfrage. Insbesondere meldet es die seqid des Datenbankeintrags, seine Ausrichtung (mit der Abfrage), den E-Wert, die Punktzahlen und die Musterposition.patseedp
SamenpBeschränken Sie die Suche nach lokalen Ausrichtungen auf eine Teilmenge der Mustervorkommen in der Abfrage. Diese Programmoption erfordert, dass der Benutzer die Position(en) des/der interessanten Mustervorkommen(s) in der Musterdatei angibt (für die Syntax siehe unten). Wenn die Abfrage mehrere Mustervorkommen enthält, kann es wichtig sein, zu entscheiden, wie viele von Interesse sind, da der E-Wert für Übereinstimmungen effektiv mit der Anzahl interessanter Mustervorkommen multipliziert wird.Samenp

Standardwert ist: blastpgp

Musterdatei hochladen

Musterdatei für die PHI-BLAST-Funktionalität. Diese Datei muss im Stil einer Prosite-Eintragsdatei sein, mit mindestens einer ID-Zeile, einer PA-Zeile und einer optionalen HI-Zeile.

Schritt 4 - Einreichung

Berufsbezeichnung

Es ist möglich, das Werkzeugergebnis zu identifizieren, indem Sie ihm einen Namen geben. Dieser Name wird den Ergebnissen zugeordnet und kann in einigen grafischen Darstellungen der Ergebnisse erscheinen.

Email Benachrichtigung

Das Ausführen eines Tools ist normalerweise ein interaktiver Prozess, die Ergebnisse werden direkt an den Browser geliefert, wenn sie verfügbar sind. Dies kann je nach Tool und seinen Eingabeparametern recht lange dauern. Es ist möglich, per E-Mail benachrichtigt zu werden, wenn der Auftrag abgeschlossen ist, indem Sie einfach das Kästchen "Per E-Mail benachrichtigt werden" ankreuzen. Eine E-Mail mit einem Link zu den Ergebnissen wird an die im entsprechenden Textfeld angegebene E-Mail-Adresse gesendet. E-Mail-Benachrichtigungen erfordern gültige E-Mail-Adressen.

E-Mail-Addresse

Wenn eine E-Mail-Benachrichtigung angefordert wird, muss eine gültige Internet-E-Mail-Adresse in der Form [email protected] angegeben werden. Dies ist nicht erforderlich, wenn das Tool interaktiv ausgeführt wird (die Ergebnisse werden an das Browserfenster geliefert, wenn sie bereit sind).

Verweise

Gapped BLAST und PSI-BLAST: eine neue Generation von Suchprogrammen für Proteindatenbanken.
(1997 September 01) Nukleinsäureforschung 25 (17):3389-3402
PMID: 9254694 Einfaches Suchwerkzeug für die lokale Ausrichtung.
(1990, 01. Oktober) Journal of Molecular Biology 215 (3): 403-410
PMID: 2231712 Das EMBL-EBI-Bioinformatik-Web- und programmatische Tools-Framework.
(2015 April 06) Nukleinsäureforschung 43 (W1) :W580-4
PMID: 25845596 Analysetool-Webdienste des EMBL-EBI.
(13. Mai 2013) Nukleinsäureforschung 41 (Webserver-Ausgabe) :W597-600
PMID: 23671338


Wenn Sie Wiki sorgfältig lesen, können Sie sehen, dass PSSM in 3 Schritten berechnet wird. Zuerst wird die Häufigkeit berechnet (wie oft war die Aminosäure oder das Nukleotid an dieser Stelle im Motiv), daraus können Sie die Wahrscheinlichkeit berechnen (im Wiki-Beispiel gab es 10 Sequenzen, also wird jede Häufigkeit durch 10 geteilt).

Dann wird die logarithmische Wahrscheinlichkeit berechnet, die die PSSM-Werte sind. Diese sind in Ihrer ersten Matrix (abgerundet). Die zweite Matrix zeigt, wie sehr die Werte von Ihren Pseudozahlen relativ sind (ich gehe davon aus, dass sie auf Standard = 0 gesetzt wurde).

Lambda und Kappa werden geschätzt, um den normalisierten Score (S') für HSP zu berechnen. Wenn Sie noch nie davon gehört haben, empfehle ich Ihnen, zuerst das Original-Psi-Blast-Papier zu lesen, das Sie hier finden können.


2 Antworten 2

Es hängt davon ab, wonach Sie suchen. Wenn Sie nur nach Sequenzhomologie suchen, können Sie einfach die besten Treffer aus einer Explosionssuche auswählen. Wenn Sie sich jedoch auf beziehen funktional Homologie, wenn Sie nach dem Protein suchen, das die gleichen Funktionen wie Ihre Abfrage hat, ist es komplizierter.

Sequenzhomologie reicht nicht aus, um funktionelle Homologie abzuleiten. Sie können beispielsweise Fälle von Genduplikation und anschließender funktioneller Divergenz haben. Eine solche Paraloge sind immer noch Homologe (Paraloge sind eine Untermenge von Homologen), aber sie haben nicht unbedingt dieselbe Funktion. Auch kommt es häufig vor, dass das Homolog (ob ortholog oder paralog) eines Proteins in Spezies B trotz hoher Sequenzähnlichkeit eine ganz andere Funktion hat als sein Homolog in Spezies A. Das ist normalerweise sehr schwer zu bestimmen in silico.

Um das/die funktionell homologe(n) Protein(e) zu finden, müssten Sie idealerweise die essentiellen Reste identifizieren, die es Ihrem Protein ermöglichen, seine Funktion zu erfüllen. Dies könnte unter Verwendung von etwas wie PFam erfolgen, das Proteindomänen identifiziert. Sie können dann prüfen, ob die gefundenen Homologen auch diese Domain haben.

Dies ist im Wesentlichen das, was PSI-blast tut. Obwohl Domänen nicht berücksichtigt werden, wird jede nachfolgende Iteration verwendet, um ein Modell Ihres Propteins zu erstellen. Das Modell wird unter der vernünftigen Annahme erstellt, dass hochkonservierte Rückstände wichtig sind. Daher wird es divergentere Sequenzen als homolog betrachten, wenn diese Reste konserviert sind.

Wenn Sie wissen, wie Ihr Protein funktioniert und welche Rückstände wichtig sind, können Sie dieses Wissen nutzen, um die Ergebnisse Ihrer PSI-Blast zu verfeinern. Wenn Sie dies nicht tun, müssen Sie nur "gute" Treffer verwenden, um das Modell zu erstellen. Eine Möglichkeit, dies für gut untersuchte Proteine ​​zu tun, besteht darin, nur Proteine ​​hinzuzufügen, die bereits als Homologe zu dem, wonach Sie suchen, annotiert sind, um Ihr Modell zu erstellen, und dann dieses Modell zu verwenden, um in nicht annotierten Arten zu suchen.

Wenn Sie es nicht wissen, können Sie versuchen, in Ihrem Abfrageprotein nach erkennbaren Proteindomänen zu suchen (verwenden Sie PFam) und dann das HMM (Hidden-Markov-Modell) der Domäne verwenden, um wichtige Reste zu identifizieren. Dies ist beispielsweise das HMM-Logo für die Zinkfingerdomäne zf-A20:

Die riesigen Cystein (C)-Reste haben diese Größe, weil sie über Proteine, die diese Domäne tragen, sehr konserviert sind und vermutlich für die Domäne funktionell wichtig sind. Wenn Sie also Ihr Protein durch PFam leiten und Domänen identifizieren, finden Sie die wichtigen Reste und stellen Sie sicher, dass alle Ihre Homologen diese konserviert haben. Wenn Sie PSI-blast verwenden, schließen Sie in die Ergebnisse, die Sie behalten, nur Sequenzen ein, bei denen diese Rückstände konserviert sind.

Schließlich ist HMMER ein weiteres nützliches Werkzeug, das auf die gleiche Weise funktioniert. Dies nimmt ein Protein-Alignment als Eingabe, wie PSI-blast daraus ein HMM-Modell erstellt und dieses Modell dann verwenden kann, um eine Proteindatenbank nach weiteren Treffern abzufragen. Methoden wie HMMER und PSI-blast sind bei der Suche nach Homologen weit besser als einfache Sequenzähnlichkeitsansätze.


Methoden

DELTA-BLAST konstruiert eine PSSM durch Kombinieren von Profilinformationen aus konservierten Domänen, die sich auf eine Abfragesequenz beziehen, und durchsucht dann eine Sequenzdatenbank mit dieser PSSM. In den folgenden Unterabschnitten werden der Algorithmus sowie die zu seiner Bewertung verwendeten Datenbanken und Experimente genauer beschrieben.

Abfrage- und Datenbanksequenzen

Wir haben die Leistung von DELTA-BLAST unter Verwendung der ASTRAL 40-Untergruppe [30] der Version 1.75 der Strukturelle Klassifikation von Proteinen (SCOP) [31]-Datenbank bewertet. Um ein Abfrageset zu erstellen, haben wir die SCOP-Domänen in lexikographischer Reihenfolge sortiert und in Trainings- (ungerade nummerierte Sequenzen) und Test- (gerade nummerierte Sequenzen) Abfragesets unterteilt. Wir haben aus diesen Sätzen alle Sequenzen entfernt, die das einzige Mitglied ihrer Superfamilie in ASTRAL 40 waren. Wir verwendeten den Trainingssatz, um Parameter zu optimieren, und den Testsatz, um die DELTA-BLAST-Leistung zu bewerten. Die Datenbank „Benchmark“, gegen die die Abfragen durchsucht wurden, umfasste alle ASTRAL 40-Sequenzen.

Für eine gegebene Abfragesequenz haben wir ihren Selbsttreffer ignoriert, aber als Homolog (richtig positiv), jede Benchmark-Sequenz, die zu derselben SCOP-Superfamilie gehört, und als Nicht-Homolog (falsch positiv) jede Benchmark-Sequenz gezählt, die zu einer anderen SCOP-Faltung gehört . Wir haben keine Sequenz, die zu derselben Faltung, sondern zu einer anderen Superfamilie gehört, weder als richtig noch als falsch positiv klassifiziert, da es schwierig ist festzustellen, ob eine solche Sequenz homolog ist oder nicht.

Es gab 4853 bzw. 4852 Abfragen in den Trainings- und Test-Sets, und die Benchmark-Datenbank enthielt 10.569 Sequenzen. Der Trainingssatz ergab 195.944 homologe Paare und der Testsatz 196.490.

Konservierte Domains

In dieser Arbeit ist CDD sowohl eine Ressource für Domänenannotationen als auch eine Sammlung von Proteinfamilienprofilen, die zum Erstellen von Sequenzsuchmodellen verwendet werden. Jede konservierte Domäne (CD) innerhalb von CDD besteht aus einem multiplen Sequenz-Alignment (MSA). Jede Spalte dieser MSAs ist durch gewichtete beobachtete Häufigkeiten für die verschiedenen Aminosäuren sowie durch eine effektive Anzahl unabhängiger Beobachtungen gekennzeichnet [23, 34, 39].

Um nicht eng fokussierte PSSMs zu konstruieren, betrachten wir nur CDs mit ausreichender Diversität. Insbesondere schließen wir alle CDs aus, für die die maximale Anzahl unabhängiger Beobachtungen, gemessen über alle Spalten, weniger als 6 beträgt. Wir haben festgestellt, dass dieser Schwellenwert für DELTA-BLAST die beste Homologie-Erkennungsleistung in unserem Benchmark-Set ergab.

Nach der Verwendung von RPS-BLAST zum Vergleich einer Abfragesequenz mit CDD verwendet DELTA-BLAST nur dann eine übereinstimmende CD für die PSSM-Konstruktion, wenn diese gemeldet wurde E-Wert unter einen angegebenen Schwellenwert fällt. Empirisch ergab der Schwellenwert 0,05 die beste Balance zwischen Suchempfindlichkeit und dem Potenzial für die resultierenden PSSMs, beschädigt zu werden [34], wenn er mit unserem Trainingsset getestet wurde.

Mehrfaches Alignment von konservierten Domänen

Um ein MSA aus CDs zu konstruieren, sammeln wir zunächst alle CD-Segmente, die auf die Abfrage ausgerichtet wurden mit E-Wert unter einem benutzerdefinierten Schwellenwert. Analog zu PSI-BLAST verwenden wir die Abfrage als Vorlage, um mehrere paarweise Alignments zu einem einzigen MSA zusammenzufassen und dann ein entsprechendes PSSM zu konstruieren. CD-Spalten, die an in die Abfrage eingefügten Lücken ausgerichtet sind, werden ignoriert. Wenn dieselbe CD mehr als einmal an einer bestimmten Spalte der Abfragesequenz ausgerichtet ist, wird nur die Ausrichtung mit der niedrigsten E-value wird für diese Spalte beibehalten.

Nach dem Alignment zu irgendwelchen CDs bildet die Abfragesequenz einen Teil eines multiplen Alignments, das durch eine einzelne Restzahl in jeder Spalte repräsentiert wird. Um eine Überrepräsentation der Abfragesequenz im konstruierten PSSM zu vermeiden, verzichten wir auf eine Zählung dieser Anzahl, wenn der Rest der Abfrage bereits in einer ausgerichteten CD repräsentiert ist. Dies bewahrt die Effektivität von CDs, die große Proteinfamilien modellieren, stellt jedoch sicher, dass alle Reste in der Abfragesequenz in die Konstruktion des resultierenden PSSM eingehen. Die Schätzung der Resthäufigkeit in einer Spalte ist in Abbildung 11 dargestellt.

Übersicht über die Berechnung der Zielfrequenzen für eine PSSM-Position. Aminosäure-Häufigkeitsprofile von konservierten Domänen, die auf die Abfrage ausgerichtet sind, werden nach Gewichtung mit der Anzahl unabhängiger Beobachtungen in Domänenmodellen (als Zahlen neben den Pfeilen angezeigt) hinzugefügt. Die Abfragesequenz ist mit einer Beobachtung an allen Positionen enthalten, an denen der Abfragerest in keiner ausgerichteten Domäne beobachtet wurde.

Die Ableitung von Zielfrequenzen und Scores für PSSMs

Die PSSM-Ergebnisse für jede Spalte haben alle die Form (ln R ich)/λ, wo R ich ist das Verhältnis von Ziel- zu Hintergrundfrequenz für Rest ich, und λ ist ein Skalierungsfaktor [23].

Wir folgen dem Verfahren von PSI-BLAST zur Schätzung von Häufigkeitsverhältnissen [34, 39], das auf der Methode des „datenabhängigen Pseudozählens“ [40] basiert, um die Probleme der kleinen Stichprobengröße und des Vorwissens über Aminosäurebeziehungen zu adressieren.

Fong und Marchler-Bauer [41] stellen fest, dass die Ausrichtung E-Wert stellt kein gutes Kriterium für die Auswahl oder Gewichtung passender homologe Domänen bereit. Aus diesem Grund gewichten wir ausgerichtete CD-Spalten nicht als Funktion ihres Match-Scores, sondern proportional zu ihrer effektiven Anzahl unabhängiger Beobachtungen. Um statistische Parameter [42] für das resultierende PSSM mit Gapped Scores zu erhalten, verwenden wir das in [23] vorgestellte Skalierungsverfahren.

Bewertung

Wir beschreiben hier unser Protokoll zum Vergleich der Leistung von DELTA-BLAST nach verschiedenen Kriterien mit denen von BLASTP, PSI-BLAST Version 2.2.25 und kontextspezifischer BLAST (CS-BLAST) Version 2.1.2. Die von DELTA-BLAST verwendete CDD-Datenbank ist eine Teilmenge der CDD-Version 2.27.

Abrufgenauigkeit

Nach dem Vergleich eines Abfragesatzes mit der Benchmark-Datenbank haben wir alle Suchergebnisse gepoolt und sie nach Nominalwerten sortiert E-Wert. Wir haben die Abrufgenauigkeit in der resultierenden Liste mit dem ROC . gemessen n Score, die normalisierte Fläche unter der ROC-Kurve bis zu n falsch positive Ergebnisse [33]. Die ROC n Punktzahl einen Wert zwischen null und eins hat, wobei größere Punktzahlen eine bessere Leistung bedeuten, berechnen wir Standardfehler wie in [34] beschrieben. Dann haben wir die gepoolten Ergebnisse gemäß der SCOP-Proteinklasse der Abfrage in Teilmengen unterteilt und ROC . berechnet n Punktzahl für jede Teilmenge, mit n gleich der Anzahl der Teilmengenabfragen.

Wir haben auch ROC . berechnet5 Scores aus den Suchergebnissen für jede Abfrage und der Prozentsatz aller Testabfragen, die Ergebnisse mit ROC . ergeben, aufgetragen5 Punktzahl größer als ein gegebener Wert im Vergleich zum Wert. Um sicherzustellen, dass wir ROC-Werte für bis zu fünf falsch positive Ergebnisse berechnen können, haben wir am Ende jeder Ergebnisliste fünf gefälschte falsch positive Ergebnisse hinzugefügt.

Um effektive PSSMs zu konstruieren, muss PSI-BLAST eine umfassende Sequenzdatenbank durchsuchen. Um PSI-BLAST zu evaluieren, haben wir es daher bei allen anfänglichen Iterationen verwendet, um eine Version der nicht redundanten (NR)-Datenbank des NCBI zu durchsuchen, die am 16. August 2011 eingefroren wurde, und um die Benchmark-Datenbank nur in der letzten Iteration zu durchsuchen.

Wir haben auch die Leistung von PSI-BLAST untersucht, wenn es mit einem CS-BLAST oder einem DELTA-BLAST-generierten PSSM initialisiert wurde. Wir bezeichnen diese Methoden als Context-Specific Iterated BLAST (CSI-BLAST) [24] und iterated DELTA-BLAST. ich Iterationen von CSI-BLAST oder iteriertem DELTA-BLAST bezieht sich auf ich – 1 Iterationen von PSI-BLAST ausgehend von einem CS-BLAST- oder DELTA-BLAST-berechneten PSSM.

Für PSI-BLAST, CSI-BLAST und iteriertes DELTA-BLAST setzen wir die maximale Anzahl von PSI-BLAST-Suchergebnissen aus der vorherigen Iteration, die für die PSSM-Konstruktion verwendet wurde, auf 5000. Wir haben diese Zahl aus Gründen der Konsistenz gewählt, da sie im CSI-BLAST-Programm fest codiert ist [24].

Ausrichtungsqualität

Wir bewerteten die Alignment-Qualität unter Verwendung der Superfamilien-Untermenge des SABmark-Sets [32]. SABmark stellt die Referenz-Alignments für Sequenzen bereit, die SCOP-Domänen entsprechen. In diesem Experiment verwendeten wir nur Alignments mit Sequenzidentität im Referenz-Alignment unter 30%. Außerdem haben wir Alignments entfernt, die mindestens eine Sequenz enthielten, die in dem Trainingssatz vorhanden war, der verwendet wurde, um DELTA-BLAST-Parameter abzustimmen, und Alignments mit weniger als fünf ausgerichteten Restenpaaren. Der resultierende Satz enthielt 10.0006 Alignments zwischen 2.379 Sequenzen.

Wir erzeugten Sequenz-Alignments für jedes Sequenzpaar mit DELTA-BLAST, BLASTP und CS-BLAST. Für jedes Paar wurde die am besten bewertete Ausrichtung bewertet. Die Qualität der Sequenz-Alignments wurde durch die Alignment-Sensitivität, definiert als | ., gemessen N ∩ S | / | S | und Genauigkeit definiert als | N ∩ S | / | N | , wo n die Menge der Restpaare im Sequenz-Alignment ist und S ist der Satz von Restpaaren im Referenz-Alignment. Diese Alignment-Qualitätsmaße sind identisch mit den F D und F m Maßnahmen in [43].

Wir haben die Alignments in Bins nach Sequenzidentität im Referenz-Alignment gruppiert und die durchschnittliche Sensitivität und Präzision für jeden Bin berechnet.

Genauigkeit des Nennwerts E-Werte

Für jede Suchmethode haben wir gegen x die durchschnittliche Anzahl falsch positiver Treffer mit nominal E-Wert ≤ x. Weil das E-Werte, die von verschiedenen Methoden gemeldet wurden, sind nicht gleich genau, wir haben Nominalwerte identifiziert E-Wert-Schwellenwerte, bei denen die verschiedenen Methoden eine ähnliche Anzahl von falsch positiven Ergebnissen zurückgeben. Diese Cutoffs werden in den unten beschriebenen Experimenten verwendet.

Vergleich der Suchempfindlichkeit

Wir verglichen die Sensitivität von DELTA-BLAST, PSI-BLAST und CS-BLAST anhand der Anzahl der gefundenen echten positiven Treffer mit E-Wert unterhalb der jeweiligen methodenspezifischen Schwellenwerte (siehe oben). Wir haben auch die Anzahl solcher Treffer mit Abfragen und Subjekten verglichen, die zu verschiedenen SCOP-Familien gehören, und die Anzahl der Superfamilien, die mindestens einen echten positiven Treffer ergaben. Wir haben PSI-BLAST auf die gleiche Weise ausgeführt, wie im Abrufgenauigkeit Unterabschnitt, aber melden Sie Ergebnisse nur für fünf Iterationen.

CDD-Anmerkung von echten positiven Ergebnissen

Wir haben die Testreihe und die Datenbanksequenzen mit RPS-BLAST annotiert, um sie mit der CDD-Version 2.30 zu vergleichen. Ein E-Wert ≤ 0,01 ergab eine Assoziation mit einer CD. Für DELTA-BLAST, PSI-BLAST, CS-BLAST und BLASTP haben wir die CDD-Assoziationen echter positiver Treffer mit untersucht E-Werte unterhalb der jeweiligen methodenspezifischen Schwellenwerte. Für jede Methode haben wir den Anteil der wahrhaft positiven Ergebnisse aufgezeichnet, die mit der Abfrage und dem Thema zurückgegeben wurden, das mit derselben CD, derselben CDD-Superfamilie, verschiedenen CDD-Superfamilien und mit einer Frage oder einem Subjekt, das zu keiner CD passte, annotiert wurde. Wir haben die gleichen Prozentsätze für alle homologen Paare im Benchmark-Set berechnet. Eine Zuordnung von Abfrage- und Benchmark-Sequenz zu mindestens einer gemeinsamen CD ergab eine Zuordnung zur ersten dieser Gruppen, während eine Zuordnung von beiden zu mindestens einer gemeinsamen CDD-Überfamilie eine Zuordnung zur zweiten ergab. Da nicht alle CDs zu CDD-Superfamilien gehören, summieren sich die Häufigkeiten für dieselbe und verschiedene Superfamilien möglicherweise nicht zu einer.


Ist es PSI-BLAST oder BLASTP, wenn ich PSI-BLAST nur für eine Iteration verwende - Biologie

Dieses Hilfedokument beschreibt die Ressource Related Structures (auch bekannt als CBLAST ), die eine Proteinsequenz als Eingabe akzeptiert und dann experimentell aufgelöste 3D-Strukturen findet, die basierend auf Sequenzähnlichkeit mit dem Abfrageprotein verwandt sind. (Hinweis: Eine separate Ressource, das Vector Alignment Search Tool ( VAST ), identifiziert ähnliche dreidimensionale Proteinstrukturen anhand rein geometrischer Kriterien und kann verwendet werden, wenn Ihre Abfrage eine Proteinstruktur und keine Proteinsequenz ist.)

  • Was ist der Dienst "Verbundene Strukturen"?
  • Wie kann der Dienst Related Structures genutzt werden, um mehr über Proteine ​​zu erfahren?
  • Wie greife ich auf den Dienst "Verbundene Strukturen" zu und welche Eingabeformen werden akzeptiert?
    • Direct search in the Related Structures service, using a protein GI number as the query
    • Link from an Entrez Protein sequence record to Related Structures
      • illustrated example of link from protein sequence record to related structures
      • illustrated example of related structures search results
      • illustrated example of detailed view for related structure
      • Subset
      • SortBy
      • Anzeige
        • Graph
        • Tisch
        • PSI-BLAST
        • CD-Search

        To do this, the Related Structures service uses BLAST to compare the protein query sequence against the protein sequences from all structures in the Molecular Modeling Database (MMDB) in pairwise comparisons. It then lists statistically significant matches, sorted by similarity scores.

        This approach is used because the 3D structure (tertiary structure) of a protein is considered to be largely determined by the its amino acid sequence (primary structure). Therefore, if the amino acid sequence of a protein is similar to that of a protein whose 3D structure is known, we can then assume that the query sequence is likely to have a similar 3D structure.

        The Related Structures service is also referred to as " CBLAST ," where "BLAST" represents the sequence similarity search tool that is used to find proteins (from experimenally resolved structures) that are related to the query protein, and the "C" represents the Cn3D structure viewer that can be used to interactively view the 3D protein structures that are found along with the sequence alignment suggested by BLAST, and to map aligned regions to the 3D structure space.

        (NOTE: A separate service, the Vector Alignment Search Tool ( VAST ), identifies protein 3-dimensional structures that are similar to each other by purely geometric criteria. These are referred to as similar structures , and the VAST help document provides additional details about that tool.)

             

         
        How can the Related Structures service be used to learn more about proteins?
         
          A 3D structure can often provide detailed information on a protein's biological function and mechanism of action, but experimentally solving a 3D structure is no easy task and is not always possible. Therefore, only a small fraction of known proteins have their 3D structure information available.

        For other proteins, however, some structural information may be inferred by comparison to 3D structures of proteins that are in the same sequence family (based on sequence similarity ) -- that is, by examination of related structures .

        The Related Structures service finds 3D protein structures that are similar in sequence to your query protein. It presents a 3D view of each related structure together with a pairwise alignment of the query protein sequence and the 3D structure's protein sequence.

        The Related Structures service also searches our Conserved Domain Database (CDD) to identify conserved domains in the query protein sequence, and to map functional sites from the conserved domains onto the query sequence.

        Each related structure and pairwise sequence alignment can be downloaded and viewed in Cn3D , or saved on a local computer for later use.

         
           
         
        How to access the Related Structures service, and what forms of input does it accept?
         
          Related Structures can be accessed in a variety of ways, such as:

        Direct search in the Related Structures service, using a protein GI number as the query:

        • Open the Related Structures home page.
        • In the text box, enter 463989 , which is the GI number for protein accession AAC50285: DNA mismatch repair protein homolog [Homo sapiens].)
        • Press the " Find related structures " button to retrieve proteins that are similar in sequence to your query, and that have experimentally resolved structures. (View the related structures for this sample query.)

        Link from an Entrez Protein sequence record to Related Structures:

          Open the protein sequence record AAC50285 (GI 463989), for the human DNA mismatch repair protein homolog, in the Entrez Protein sequence database and scroll down the page. In the right-hand margin, you will see a "Related Information" section, which includes links for "Related Structures (list)" and "Related Structures (summary)." The latter link opens a page with a graphical display that summarizes conserved domains and conserved features/sites found on the protein query sequence, the alignment footprints of related structures, and links that allow you to display the 3D structure and sequence alignment in Cn3D.
          (These steps are illustrated below , where the protein sequence record is shown in FASTA format. The "Related Information" links also appear in the right hand margin when the sequence record is displayed in other formats, including the default GenPept format.)

        Protein BLAST search against the PDB data set, using a protein GI number as the query

        • Open the Protein BLAST query page, and enter 463989 as the protein query sequence (463989 is the GI number for the human MLH1 protein homolog). In the " Choose Search Set " section of the query page, select " Protein Data Bank proteins (pdb) ," and press the "BLAST" button near the bottom of the page to start the search. On the BLAST results page for GI 463989, click on the description of any hit to view a pairwise alignment between the protein query sequence and the BLAST hit. Each pairwise alignment will show a "Related Information: Structure" link in the right margin of the display, because all of the BLAST hits are from the Protein Data Bank, which we chose as the search set, and therefore have a 3D structure.
        • Note: If you choose the default "nr" (non-redundant) database (instead of the "Protein Data Bank proteins (pdb)") in the " Choose Search Set " menu, then only the hits that have 3D structures will show the "Related Information: Structure" link in the right margin of their pairwise alignment. If you do not see a "Related Information: Structure" link in the right margin of a pairwise alignment, that means the BLAST hit is not from a 3D structure record.

        Protein BLAST against the PDB data set, using protein sequence data (in FASTA format ) as the query:

        • Open the protein BLAST search page
        • In the " Enter Query Sequence " section of the page, type/paste your query protein sequence data (preferrably in FASTA format ) into the text field box.
        • In the " Choose Search Set " section of the page, select " Protein Data Bank proteins(pdb) " as the database to search against.
        • Click on the "BLAST" button near the bottom of the page to start the search.
        • After the BLAST search is completed, click on a hit of interest to view its pairwise sequence alignment with the query sequence. Look for the " Structure " link in the right margin of the pairwise sequence alignment display. Click on the "Structure" link and the Related Structures service will open in a new window/tab.

         
           
         
        How to read the results from the Related Structures service?
         
          Below is an example of a Related Structures search results page , for the query protein sequence GI 257051069, transitional endoplasmic reticulum ATPase from Xenopus laevis . The query sequence, which does not have an experimentally resolved structure, is aligned to similar protein sequences that do have experimenally resolved 3D structures. (Click on the image to open the live Related Structures search results page for GI 257051069.)


        The top of the display summarizes information about your query sequence , including its GI number, Accession, and definition line (description). The sequence identifiers are shown in FASTA defline format (e.g., [gi|nnnnnn|db|XXXXXX], where nnnnnn is the GI number, db is an abbreviation for the source database (such as "sp" for Swiss Prot), and XXXXXX is the accession number). The sequence identifiers link to the corresponding sequence record in the Entrez Protein protein database, enabling you to open the sequence record, if desired. (Note: If you entered a protein query sequence that is not yet available in the Entrez Protein database, then the top of the display will show the sequence identification information that you provided in your FASTA-formatted query sequence.)

        In the graphic display , the ruler labed " Query Seq " represents the query sequence with amino acid positions labeled, providing a defined scale for the alignments. Below the ruler are small triangles that indicate conserved features/sites, and cartoons with distinct colors/shapes that indicate conserved domains. These were found in the query sequence by the CD-Search service, which uses RPS-BLAST to compare a query protein sequence against the Conserved Domains Database (CDD) . A conserved domain that appears on the line labeled "Specific hits" indicates a high confidence that the query sequence belongs to the same protein family as the sequences used to create the domain model. (Please refer to the Conserved Domain Database Help document, and the CD-Search Help document, for more information about those resources, including types of hits such as specific, non-specific, superfamily, and multidomain).

        • A thumbnail of the structure, with an option to interactively view the structure and sequence alignment in Cn3D
        • A PDB-style sequence ID of the related structure
        • An alignment footprint (pink line) that shows the region of sequence similarity between the query protein and the related structure
        • The BLAST score ( E-value (default), bit score, alignment length, sequence identity) that is used to sort the related structures.
        • A larger model picture of the structure
        • A link to the corresponding structure record in the Molecular Modeling Database (MMDB), where all structures are stored, and where more details about each structure are available
        • A link to search references (publications) of the structure in PubMed database
        • The description title of the structure
        • All four BLAST scores ( E-value, bit score, alignment length, and sequence identity) for the alignment between the query protein sequence and the 3D structure's protein sequence. (Details about those scores, and other terms related to sequence similarity searching, are provided in the BLAST Glossary and NCBI Handbook Glossary.) A pairwise sequence alignment , illustrated below , provides a detailed, residue-by-residue comparison of the query protein and the 3D structure's protein :
          • identical residues are in shown red
          • similar residues in blue
          • non-matched residues in grey


            Clicking on to download the data and display them in Cn3D . (Cn3D must be installed on your computer in order for the button to work. A tutorial shows how the progam can be used.) Clicking on will download the data in a human-readable format ( ASN-text ) and present them in the browser window. Clicking on will download the data in binary ( ASN-binary , not human-readable) and prompt you to save the file on local computer.

          If there are too many structures found, the results may be paginated . There are two navigation bars (one bar above the graphic display and an identical bar beneath the graphic display, just for convenience) that allow you to page through the results using the left and right arrows, or to jump to a specific page by selecting it from the drop-down menu that appears between the arrows.

         
         

        • The " Subset " menu allows you to select the level of redundancy that you would like to see in the display of search results. (The default setting is "Low redundancy.") A separate section of this document provides additional information about redundancy levels, and the method used for clustering structures in order to provide various levels of redundancy in search results.
        • A separate section of this document provides additional information about redundancy levels, and the method used for clustering structures in order to provide various levels of redundancy in search results.
        • Graphic summary (" Graph ," the default setting), which shows the alignment footprints (pink bars) of the related structures relative to the query protein ( illustrated example ) . It also provides a detailed view that shows the pairwise sequence alignment of the query protein and the related structure's protein ( illustrated example ) , along with options to view the 3D structure and sequence alignment in Cn3D . (The detailed view is accessible by clicking on the "+" beside the thumbnail graphic of the related structure, or by clicking on the pink alignment footprint.)
        • " Table ," which shows the thumbnail molecular graphic, structure identifiers (PDB ID and MMDB ID), description, and BLAST scores ( E-value, bit score, alignment length, sequence identity) for each related structure. (The Table display also enables you to save the results for future reference simply select/copy/paste the desired subset of results into your preferred file type (e.g., *.txt, *.doc, spreadsheet.)

         
           
         
        What is redundancy level and how does the Related Structures service handle it?
         
          The "Subset" menu on a Related Structures search results page allows you to select the level of redundancy you want to view in the display.

        Many proteins may have identical or very similar amino-acid sequences (for example, several proteins sequenced from different organisms by different labs may turn out to have identical amino-acid sequences). Search results that display every one of those sequences can be redundant.

        To address this, the structures in MMDB are clustered into groups based on protein sequence similarity . Structures in each group are ranked according to apparent quality and completeness of the structure data, and only the highest ranked structure will be listed as a representative of the group, thus reducing redundancy in the display of related structures.

          All similar MMDB -- No clustering . All related structures are listed. This is the highest redundancy level.
          Non-identical -- Only identical sequences are grouped into a cluster, and one representative from each cluster is shown in the results. Very high redundancy.
          High redundancy -- Proteins are clustered based on sequence similarity using an E-value threshold of 10 -80 , and one representative from each cluster is shown in the results.
          Medium redundancy -- Proteins are clustered based on sequence similarity using an E-value threshold of 10 -40 , and one representative from each cluster is shown in the results.
          Low redundancy -- Proteins are clustered based on sequence similarity using an E-value threshold of 10 -7 (default), and one representative from each cluster is shown in the results.

        Note that the redundancy levels are provided as a convenience, in order to make browsing Related Structures search results faster and easier. Nevertheless, even when a cluster contains identical protein sequences, there might be interesting variations among members of the cluster. For example, some might be free proteins while others might be bound to another molecule. If such variations are of interest, select "All similar MMDB" from the "Subset" menu to view the complete set of search results.

         
         

        Position-Specific Iterated BLAST (PSI-BLAST) can find more distantly related proteins than the regular protein BLAST program, and some of the more distantly related proteins might be associated with structures. The first iteration of PSI-BLAST search results might not contain any protein sequences derived from 3D structure records, but subsequent iterations will find more distantly related proteins, some of which might have experimentally resolved 3D structures. If a PSI-BLAST hit is associated with a 3D structure, it will have a "Structure" link in the right hand margin of the pairwise alignment of the query sequence and the PSI-BLAST hit.

        • Open the protein BLAST ( blastp ) page.
        • Select the search parameters:
          In the " Search Set " section of the page, select " non-redundant protein sequences (nr) ."
          In the " Program Selection " section, and select " PSI-BLAST (Position-Specific Iterated BLAST) ." (Or simply click on the link at the beginning of this paragraph, which will open the protein BLAST page with those search parameters already selected.)
        • Enter the protein query sequence as a GI number or as FASTA-formatted sequence data.
        • Press the "BLAST" button at the bottom of the page.
        • Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. Gapped BLAST und PSI-BLAST: eine neue Generation von Suchprogrammen für Proteindatenbanken. Nukleinsäuren Res. 1997 Sep 125(17):3389-402. Review. PubMed PMID: 9254694 PubMed Central PMCID: PMC146917. [Free full text in PubMed Central] [Free Full Text in Nucleic Acids Research (PDF)]
          McGinnis S, Madden TL. BLAST: at the core of a powerful and diverse set of sequence analysis tools. Nukleinsäuren Res. 2004 Jul 132(Web Server issue):W20-5. PubMed PMID: 15215342 PubMed Central PMCID: PMC441573. [Free full text in PubMed Central] [Free Full Text in Nucleic Acids Research (PDF)]
          Madden T. The BLAST Sequence Analysis Tool. IN The NCBI Handbook [Internet] 2nd edition, National Library of Medicine (US), National Center for Biotechnology Information, Bethesda, MD, 2013 March 15. [cited 2014 May 14]. Available from https://www.ncbi.nlm.nih.gov/books/NBK153387/ in Entrez Bookshelf (https://www.ncbi.nlm.nih.gov/books).

        The CD-Search service is a web-based tool for the detection of conserved domains in protein sequences. It can therefore help to elucidate the protein's function. Many conserved domains, particularly NCBI-curated domain models , are based on multiple sequence alignments that include proteins from experimentally resolved 3D structures. Therefore, if the CD-Search service finds conserved domains in your query sequence, and if some of the hits are NCBI-curated domain models (or members of conserved domain superfamilies associated with 3D structures), it is likely that you can see 3D structures that are related to the functional parts of your query sequence , even if the Related Structures (CBLAST) service did not find hits for your overall query protein. To use CD-Search:


        2 Antworten 2

        QUERY 365176198 is a protein

        DATABASE are nucleotics

        What is the Transcriptome Shotgun Assembly (TSA) Database?

        TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies. The overlapping sequence reads from a complete transcriptome are assembled into transcripts by computational methods instead of by traditional cloning and sequencing of cloned cDNAs.

        Are TSA sequences available by a BLAST search?

        A Transcriptome Shotgun Assembly (TSA) BLAST database is now available. The sequences were initially included in nt but now have been segregated into a separate database. The TSA database is available from the BLAST home page under Basic BLAST at the nucleotide, tblastn, and tblastx links. These sequences are not available in nt.

        BLAST FLAVORS

        MANUALLY ANSWER

        BIOPYTHON ANSWER

        you must use "tsa_nt" instead of "tsa", and "tblastn" instead of "blastp"


        A Brief Bioinformatics Tutorial

        This can seem to be trivial. In fact it may not be that simple given the abundance of data. Mainly two databases can be used: (i) NCBI, which we will use here, and (ii) SRS at EBI. The latter can be very convenient as the query form allows making complicated requests. However, it is not as intuitive as NCBI. so:

        1/ Go to the NCBI web site . Note that you can also download the NCBI search toolbar for Internet Explorer or Firefox.

        2/ Enter your query using the NCBI search field. We will be working with the Yeast gene VPS36. To look for it, you may simply type VPS36 in the search field. Note however that your search won't be very specific. There will be 113 entries that have "vps36" somewhere in their text, but this includes the annotation, e.g., it may include proteins known to associate with Vps36. If you click on the "Preview/Index" tab below the search field, you can use the associated menus to narrow your search.

        From the preview/index page, you can add qualifying terms to narrow the search. For example, to restrict the search to entries having the gene name "Vps36", pull down the "Field name" tab, select "Gene name", type Vps36 in the search box then click on "AND".

        This generates a new search command as shown below


        Clicking on the Go button generates 16 hits. If pull-down menus annoy you, you could have simply typed "vps36[gene name]" in the search field and gotten the same result.

        For more details on how to make specific searches please refer to this link, but for this workshop, [gene name] will suffice.

        3/ In the list of Vps36 genes, you will see the protein NP_013521 among the results. Klick es an.

        4/ You can simply get the sequence (or part of it) in a FASTA format using the Display and Range options on the top of the screen. Save the sequence from position 1 to 289. done


        You might as well copy this sequence to the clipboard, as you'll need it in the next section.

        Do a Blast Search With Your Sequence


        1/ Go back to the NCBI protein page.
        2/ On the left , below "related resouces" click on Sprengen.
        3/ In the "Protein" subdivision, click on "Protein-protein BLAST (blastp)"
        4/ Paste your sequence (just the sequence, not the header). Then, there are a number of options. In general, I would:

        • Look in the "nr" database. The default database for a BLAST is the "nr" database. The "nr" database is the largest database available through NCBI BLAST. Choosing the largest database is not always best. You may want to find a match from a specific organism. The name "nr" is derived from "non-redundant", but this is historical only, because this database is no longer non-redundant.
        • Try with "NO CD-search" selected at least you know that the predicted domains are accurate.
        • Composition adjustments: select composition-based statistics
        • Word size, select 2

        You will get a list of pairwise alignments with your query sequence in order from most similar to least similar. The column labeled "E-value" represents approximately how many sequences you would expect to match by chance in a database of the size searched (i.e., the nr database).

        The "bit scores" (S values) have been normalized with respect to the scoring system, so that they can be used to compare alignment scores from different searches.

        Do iterative Blast Searches: PSI-BLAST

        The evolutionary pressure is not equivalent on all residues of a protein. For example, buried residues, residues in a secondary structure, at an active site or at a binding site are generally more conserved than residues in loops. When you compare two sequences, you do not take into account these differences in conservation that can be very informative. However, when you have a set of similar sequences you can compare them to each other and identify which regions are variable and which regions are not. This is what PSI-BLAST does. It identifies regions of importance (not variable) and it gives them more weight in subsequent comparisons.

        So, PSI-BLAST is a kind of hybrid program in between BLAST and HMMs (explained in the next section): it starts by looking for sequences similar to yours. Once it finds some, it asks which sequences you want to keep for the next search iteration. You have to very carefully select those sequences that you think are relevant. Then you start a new iteration. The sequences you selected are used to define a sort of motif (with some statistics), which will help to detect previously not detected sequences and also discard previously ambiguous sequence. In brief, it will increase the specificity and sensitivity of the search.

        So . let's try!
        1/ Go to the NCBI Blast web page,
        2/ In the "Protein" sub-division, click on "Position-specific iterated and pattern-hit initiated BLAST" (jetzt you understand what it means)
        3/ Paste in the Vps36 1-289 region in the sequence box and select the same parameters as for the previous SPRENGEN
        4/ Click on BLAST! Taste.
        5/ You will have to press the Format button to see the results. When they are ready, they will appear in another browser window. Keep pressing on Format periodically until the first iteration appears.
        6/ At the first iteration, there are a lot of sequences. The top sets matches the query sequence (the one you submitted) closely throughout the entire range of the sequence (the rot und Violett hits). However, these are all closely related. They are all Vps36 genes from other fungi



        Select the red, purple and green hits for the next iteration. Click on the Run Psi-Blast Iteration 2 Taste.


        Again, you will have to click on the Format button in the original window periodically to get the results.


        The list from the second iteration shows the same top entries as in the first iteration, but some new sequences have appeared in Blau that show similarity to the query sequence at both ends, but not in a region in the middle. There are many "hypothetical" and "unnamed" sequences among them. There are also some proteins that contain protease related (calpain link) domains. These might be important, but be conservative at first. For the next iteration choose only those proteins with an annotated function of "vacuolar protein sorting". This annotation could be wrong, but it is useful for a start. Uncheck all other sequences.


        At the third iteration, a clear pattern has begun to emerge




        There is now a large group of sequences related to Vps36 that show no similarity in the region from about 100-200. These seem to be the metazoan Vps36 genes. Don't bother doing it now, but by choosing only the top sequences and these metazoan sequences with a split region of similarity and iterating further, at iteration 5, this pattern is very distinct. Below you can see the results from iteratin 8.


        Note, the genes can have lots of synonyms in various organisms. For example, for Vs36, you will see EAP45, and the locus CGI-145.



        The psi-blast exercise has helped get a clearer picture of the organization of this N-terminal region of Vps36. There seems to a yeast-specific insertion consisting of about 150 residues. When you will look at the multiple alignment (section below), you will actually get a hint about what this insert consists of.

        There is another type of tool capable of detecting even more distant relationships. These are the so-called "meta" servers. Blind tests have established that several of these perform quite well for predicting the folds of domains.


        Meta servers take your sequence and send it out to various other servers and score the output from the various servers to give you a ranked list of likely possible structural templates. One successful meta server is 3D-Jury. We won't cover this server here, but keep it in mind. It can take up to a few hours to get results back from 3D-Jury, but it can be worth the wait.

        One of the servers employed by 3D-Jury is the FFAS03 (Fold and Function Assignment System). This server extends the basic idea of profile searchers. It starts by making an iterative Psi-Blast search with your sequence. This develops a "profile" (position specific scoring matrix) of your sequence that is based on alignments of many homologues. However, instead of using this profile to search a database of sequences (i.e., a profile-sequence search as you would do for another iteration of Psi-Blast), it makes a profile-profile search through pre-computed profiles for families of proteins from various databases such as the PDB database of protein structures. This method is able to detect very distant relationships to arrive at plausible structural templates.

        Our Psi-Blast analysis suggested that there is a yeast-specific insertion in the N-terminal region. The FFAS03 server was quite helpful to understand the Vps36 N-terminal region. Don't try to run FFAS03 right now, because it can take some time, but the following results illustrate what the server was able to do for our example.

        Below is the result of running FFAS03 on a sequence that was formed by removing the yeast-specific insert from the Vps36 N-terminal region. The sequence was simply copied and pasted in the sequence window. FFAS03 can take up to a few hours (don't try it now) then it displays the results in a publicly accessible queue.


        By clicking on the PDB1105 link, the results of the profile-profile search are shown:


        Hits 2-8 of the top 10 are all PH domains or folds indistinguishable from PH domains. The top hit is not real and is due to an anomaly of the PDB that I can explain if you are interested.

        Ling Teo crystallized the spliced Vps36 construct and found that the domain is indeed a PH domain that is very closely related to the top hits found by FFAS03. This is an impressive achievement for FFAS03. If you have a difficult case, give it a try. You will use Ling's model for the strukturell part of this workshop.

        Get Homologous Sequences Using Homologene

        Homologene is a service from the NCBI web site that allows to retrieve homologous genes:
        1/ Select homologene in the NCBI menu list as shown below or simply click on this homologene link ,




        2/ Enter vps36[gene name] in the search field,
        3/ Genes conserved in Eukaryotes appear
        4/ Click on download on the right
        5/ In the new window you can select the sequences you want, we keep them all. So you can click on the download button.
        This downloads a fasta file with all the selected sequences.

        Get Orthologous Sequences Using InParanoid

        Homologene is not very stringent in its definition of homology. InParanoid is more stringent and uses the most commonly accepted definition for orthology. d.h., it considers two genes EIN und B from two organisms Org1 und Org2 to be orthologous only if of all genes from Org1, EIN is the closest sequence to B und vice verca (if of all genes from Org2, B is the closest sequence to EIN).

        To get orthologous genes,
        1/ go to the database
        2/ InParanoid works with EnSembl/Uniprot identifiers, which are those used at EBI. Since we work with NCBI here we don't have those identifiers. So we will use the "Blast search" option on which you can then click!
        3/ Paste you sequence, (the full one), let all the default options and Blast!
        4/ It found our sequence! --> click on it

        Make a Multiple Alignment Of Your Sequences Using JALVIEW

        JALVIEW is a software that allows you to perform and edit multiple alignments.
        1/ If it is not installed, go to the JALVIEW web-site and download it,
        2/ Launch it,
        3/ Get a FASTA list for the N-terminal regions of Vps36 by clicking here. This contains the PSI-Blast result. Use the " save page as " option under " File" in Firefox to save save the FASTA file in your dowload folder.
        4/ In Jalview, click on " File " (top left) --> then "I nput Alignment " --> then " from File "
        5/ This loads your sequences, but they are not aligned.
        6/ Select all of the sequences (Apple+a), under the " Web Service " menu, choose--> "Alignment" --> "Muscle Multiple Protein Seq.
        Alignment". Note that in general, Muscle gives better results than Clustal.
        7/ Now you can do plenty of things:


        Schau das Video: BSE633A. PSI-BLAST Position Specific Iterated BLAST (August 2022).