Information

Proteinstrukturen in PDB und SNPs

Proteinstrukturen in PDB und SNPs


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Es gibt Millionen von Proteinen in PDB, deren Sequenz wir im FASTA-Format herunterladen können. Es gibt auch Hunderte von SNPs in NCBI dbSNP. Meine Frage ist, ob die Proteine ​​in PDB die SNPs in ihre Struktur einbauen? Wenn nicht, gibt es eine Möglichkeit, die Proteinstruktur mit einem Werkzeug nach einem SNP auf dem Protein zu visualisieren? Ich weiß, dass es Tools wie SIFT gibt, aber sie sagen nur, ob ein SNP schädlich ist oder nicht. Sie kommentieren die Struktur des Proteins sowieso nicht.


Mit Swiss PDB Viewer können Sie Reste in einer bestehenden Struktur mutieren und die Auswirkungen untersuchen.

Ich bin mir ziemlich sicher, dass UCSF Chimera das auch tut.


Die 3D-Struktur eines Proteins zu lösen ist hart und viel Arbeit, dies für jeden gewöhnlichen SNP eines Proteins wäre in den meisten Fällen übertrieben. Daher werden Sie solche Strukturen im Allgemeinen nicht finden, es sei denn, die Struktur der spezifischen mutierten Version ist besonders interessant.

In vielen Fällen ist es auch strukturell nicht interessant, was passiert, es macht keinen Sinn, die 3D-Struktur zu erhalten, wenn ein SNP zu einem Frameshift oder einem frühen Stoppcodon führt.

Was Sie tun können, ist einfach die PDB-Struktur des Wildtyp-Proteins in einen Viewer wie PyMol zu laden und sich die Aminosäure anzusehen, die durch den SNP verändert wird. Lesen Sie das zugehörige Papier, um herauszufinden, ob diese Rückstände in irgendeiner Weise wichtig sind. Dies wird nicht immer möglich sein, aber wenn z.B. Befindet sich die Aminosäure im katalytischen Zentrum eines Enzyms, würde dies erklären, wie das SNP die Funktion des Proteins beeinflusst.


Schauen Sie sich die Sequenzseite bei RCSB PDB an. Sie kann SNPs anzeigen, die für einige der Proteine ​​auf 3D abgebildet sind (Sie müssen die SNP-Annotationen in der Dropdown-Liste aktivieren).

http://www.rcsb.org/pdb/explore/remediatedSequence.do?params.showJmol=true&structureId=4HHB


Richtlinien

DOIs für PDB-Strukturen folgen dem Format: 10.2210/pdbXXXX/pdb, wobei XXXX durch die PDB-ID ersetzt wird (z. B. 10.2210/pdb4hhb/pdb). DOI-Zitate sollten die Autoren des Eintrags, das Hinterlegungsjahr, den Strukturtitel und den DOI enthalten.

Eine PDB-Struktur mit einer entsprechenden Veröffentlichung sollte durch die PDB-ID referenziert und sowohl mit dem entsprechenden DOI als auch mit der Veröffentlichung zitiert werden.

DOI-Zitat:
Ormo, M., Remington, S.J. (1996)Grün fluoreszierendes Protein aus Aequorea victoria doi: 10.2210/pdb1ema/pdb

Literaturzitat:
Ormo, M., Cubitt, A. B., Kallio, K., Gross, L. A., Tsien, R. Y., Remington, S.J. (1996) Kristallstruktur des Aequorea victoria grün fluoreszierendes Protein Science 273: 1392-1395 doi: 10.1126/science.273.5280.1392

Eine PDB-Struktur ohne entsprechende Publikation sollte mit der PDB-ID referenziert und mit der DOI-Zitat (Eintragsautoren, Hinterlegungsjahr, Strukturtitel und DOI) zitiert werden:

PDB-ID: 1ci0
DOI-Zitat:
Shi, W., Ostrov, DA, Gerchman, SE, Graziano, V., Kycia, H., Studier, B., Almo, SC, Burley, SK, New York SGX Research Center for Structural Genomics (NYSGXRC) (1999) PNP-Oxidase aus Saccharomyces cerevisiae doi: 10.2210/pdb1ci0/pdb

RCSB PDB sollte mit der URL rcsb.org und folgendem Zitat referenziert werden:

HM. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P. E. Bourne.
(2000) Die Proteindatenbank Nukleinsäureforschung, 28: 235-242.

Neue Funktionen und Ressourcen der Website werden auch in den auf unserer Publikationsseite aufgeführten Artikeln und in regelmäßigen Beiträgen zum Nukleinsäureforschung Datenbankproblem, einschließlich des neuesten Artikels:

RCSB Protein Data Bank: leistungsstarke neue Werkzeuge zur Erforschung von 3D-Strukturen biologischer Makromoleküle für die Grundlagenforschung und angewandte Forschung und Ausbildung in Grundlagenbiologie, Biomedizin, Biotechnologie, Bioingenieurwesen und Energiewissenschaften
(2021) Nukleinsäureforschung 49: D437–D451 doi: 10.1093/nar/gkaa1038

Der RCSB PDB ist Mitglied der weltweite PDB (wwPDB). Die wwPDB sollte mit der URL zitiert werden www.wwpdb.org und folgendes Zitat:
HM. Berman, K. Henrick, H. Nakamura (2003) Ankündigung der weltweiten Proteindatenbank Natur Strukturbiologie 10 (12): 980.

Molekülbilder von Seiten mit Strukturzusammenfassung und Screenshots sollte den RCSB PDB- und PDB-Eintrag zitieren:
Bild aus der RCSB PDB (rcsb.org) von PDB ID 1BNA (HR Drew, RM Wing, T. Takano, C. Broka, S. Tanaka, K. Itakura, REDickerson) (1981) Structure of a B-DNA Dodecamer : Konformation und Dynamik Proc.Natl.Acad.Sci.USA 78: 2179-2183).

Mit PDB-Daten und anderer Software erstellte Bilder sollte die PDB-ID, die entsprechende Strukturpublikation und das molekulare Grafikprogramm angeben.

Bild von 1AOI (K. Luger, A.W. Mader, R.K. Richmond, D.F. Sargent, T.J. Richmond (1997) Kristallstruktur des Kernteilchens bei 2,8Å Auflösung Natur 389: 251-260) erstellt mit NGL (A.S. Rose, A.R. Bradley, Y. Valasatava, J.D. Duarte, A. Prlić, P.W. Rose (2018) NGL viewer: web-based Molecular Graphics for Large Complexes. Bioinformatik 34: 3755–3758).

Bilder erstellt mit Mol* sollte die PDB-ID zitieren, die entsprechende Strukturpublikation, Mol* (D. Sehnal, S. Bittrich, M. Deshpande, R. Svobodová, K. Berka, V. Bazgier, S. Velankar, SK Burley, J. Ko&ccarona, AS Rose (2021) Mol* Viewer: moderne Web-App zur 3D-Visualisierung und Analyse großer biomolekularer Strukturen. Nucleic Acids Research. doi: 10.1093/nar/gkab314) und RCSB PDB.

Die Illustrationen des Moleküls des Monats sind unter einer CC-BY-4.0-Lizenz erhältlich. Die Namensnennung sollte an David S. Goodsell und RCSB PDB erfolgen. Molecule of the Month-Artikel unterliegen dem Copyright von RCSB PDB und den Artikelautoren. Der Text kann mit Genehmigung, mit Namensnennung und ohne das Recht zur Manipulation oder Änderung des Inhalts nachgedruckt werden. Kontaktieren Sie [email protected] für die Erlaubnis.

Auf einzelne Molecule of the Month-Artikel kann mit einem Digital Object Identifier (DOI) im Format 10.2210/rcsb_pdb/mom_YYYY_MM verwiesen werden, wobei YYYY das Jahr und MM die Zahl des Monats (ein- oder zweistellig) ist.

Die Referenz für die Molecule of the Month-Serie lautet:
Die RCSB PDB "Molecule of the Month": Erkenntnisse aus 20 Jahren Molekül des Monats (2020) BAMBed 48: 350-355 doi: 10.1002/bmb.21360

Brookhaven National Laboratory (BNL) PDB stellte den Betrieb am 30. Juni 1999 ein. Die ursprüngliche Journalreferenz für die BNL PDB lautet: F.C. Bernstein, T. F. Koetzle, G.J.B. Williams, E. F. Meyer Jr., M. D. Brice, J. R. Rodgers, O. Kennard, T. Shimanouchi, M. Tasumi (1977) The Protein Data Bank: eine computerbasierte Archivdatei für makromolekulare Strukturen. J.Mol. Biol. 112: 535-542.

Das PDB-Archiv wurde erstmals 1971 angekündigt: Protein Data Bank Natur Neue Biologie 233:223.

Nutzungsrichtlinien

Die im PDB-Archiv (https://ftp.wwpdb.org) enthaltenen Datendateien sind frei von allen Urheberrechtsbeschränkungen und werden sowohl für den nicht-kommerziellen als auch für den kommerziellen Gebrauch vollständig und frei zur Verfügung gestellt. Benutzer der Daten sollten die ursprünglichen Autoren dieser Strukturdaten angeben. Durch die Verwendung der im PDB-Archiv verfügbaren Materialien erklärt sich der Benutzer damit einverstanden, die in der wwPDB-Datenschutz- und Nutzungsrichtlinie beschriebenen Bedingungen einzuhalten.

Datenschutz-Bestimmungen

RCSB Protein Data Bank kümmert sich um den Datenschutz.

Die Datenschutzerklärung von RCSB PDB beschreibt, wie wir Ihre Daten verwenden und wie wir Ihre Privatsphäre schützen.


Methoden zur Bestimmung atomarer Strukturen

Derzeit werden verschiedene Methoden verwendet, um die Struktur eines Proteins zu bestimmen, einschließlich Röntgenkristallographie, NMR-Spektroskopie und Elektronenmikroskopie. Jede Methode hat Vor- und Nachteile. Bei jeder dieser Methoden verwendet der Wissenschaftler viele Informationen, um das endgültige Atommodell zu erstellen. In erster Linie verfügt der Wissenschaftler über experimentelle Daten über die Struktur des Moleküls. Für die Röntgenkristallographie ist dies das Röntgenbeugungsmuster. Für die NMR-Spektroskopie sind es Informationen über die lokale Konformation und den Abstand zwischen nahe beieinander liegenden Atomen. In der Elektronenmikroskopie ist es ein Bild der Gesamtform des Moleküls.

In den meisten Fällen reichen diese experimentellen Informationen nicht aus, um ein Atommodell von Grund auf neu zu erstellen. Zusätzliche Kenntnisse über die molekulare Struktur müssen hinzugefügt werden. So kennen wir zum Beispiel oft schon die Reihenfolge der Aminosäuren in einem Protein, und wir kennen die bevorzugte Geometrie der Atome in einem typischen Protein (zum Beispiel die Bindungslängen und Bindungswinkel). Diese Informationen ermöglichen es dem Wissenschaftler, ein Modell zu erstellen, das sowohl mit den experimentellen Daten als auch mit der erwarteten Zusammensetzung und Geometrie des Moleküls übereinstimmt.

Bei der Betrachtung von PDB-Einträgen ist es immer gut, etwas kritisch zu sein. Beachten Sie, dass die Strukturen im PDB-Archiv durch eine ausgewogene Mischung aus experimenteller Beobachtung und wissensbasierter Modellierung bestimmt werden. Es lohnt sich oft, sich etwas mehr Zeit zu nehmen, um sich selbst zu vergewissern, dass die experimentellen Beweise für eine bestimmte Struktur das dargestellte Modell und die wissenschaftlichen Schlussfolgerungen auf der Grundlage des Modells unterstützen.

Röntgenkristallographie

Die meisten der im PDB-Archiv enthaltenen Strukturen wurden mittels Röntgenkristallographie bestimmt. Bei dieser Methode wird das Protein gereinigt und kristallisiert und dann einem intensiven Röntgenstrahl ausgesetzt. Die Proteine ​​im Kristall beugen den Röntgenstrahl in das eine oder andere charakteristische Muster von Flecken, die dann analysiert werden (mit einigen kniffligen Methoden, um die Phase der Röntgenwelle in jedem Fleck zu bestimmen), um die Verteilung der Elektronen in zu bestimmen das Eiweiß. Die resultierende Karte der Elektronendichte wird dann interpretiert, um die Position jedes Atoms zu bestimmen. Das PDB-Archiv enthält zwei Arten von Daten für Kristallstrukturen. Die Koordinatendateien enthalten Atompositionen für das endgültige Modell der Struktur, und die Datendateien enthalten die Strukturfaktoren (die Intensität und Phase der Röntgenstrahlflecken im Beugungsmuster) aus der Strukturbestimmung. Sie können ein Bild der Elektronendichtekarte mit Werkzeugen wie dem Astex-Viewer erstellen, der über einen Link auf der Seite Strukturübersicht verfügbar ist.

Die Röntgenkristallographie kann sehr detaillierte atomare Informationen liefern, die jedes Atom in einem Protein oder einer Nukleinsäure zusammen mit atomaren Details von Liganden, Inhibitoren, Ionen und anderen Molekülen zeigen, die in den Kristall eingebaut sind. Der Kristallisationsprozess ist jedoch schwierig und kann den Proteintypen, die mit diesem Verfahren untersucht werden können, Beschränkungen auferlegen. Zum Beispiel ist die Röntgenkristallographie eine ausgezeichnete Methode, um die Strukturen von starren Proteinen zu bestimmen, die schöne, geordnete Kristalle bilden. Flexible Proteine ​​hingegen sind mit dieser Methode weitaus schwieriger zu untersuchen, da die Kristallographie darauf beruht, dass viele, viele Moleküle in genau der gleichen Ausrichtung ausgerichtet sind, wie ein sich wiederholendes Muster in einer Tapete. Flexible Proteinanteile sind in kristallographischen Elektronendichtekarten oft unsichtbar, da ihre Elektronendichte über einen großen Raum verschmiert wird. Dies wird auf der Seite über fehlende Koordinaten genauer beschrieben.

Biologische Molekülkristalle sind wählerisch: Einige bilden perfekte, wohlgeordnete Kristalle und andere nur schlechte Kristalle. Die Genauigkeit der ermittelten Atomstruktur hängt von der Qualität dieser Kristalle ab. Bei perfekten Kristallen haben wir viel mehr Vertrauen, dass die Atomstruktur die Struktur des Proteins korrekt widerspiegelt. Zwei wichtige Maßzahlen für die Genauigkeit einer kristallographischen Struktur sind ihre Auflösung, die die Menge an Details misst, die in den experimentellen Daten zu sehen ist, und der R-Wert, der misst, wie gut das Atommodell durch die experimentellen Daten in unterstützt wird die Strukturfaktordatei.

Hier ist die experimentelle Elektronendichte einer DNA-Struktur gezeigt (PDB-Eintrag 196d), zusammen mit dem Atommodell, das basierend auf den Daten generiert wurde. Die Konturen umgeben Bereiche mit hoher Elektronendichte, die den Atomen im Molekül entsprechen.

Im Rahmen des Biokurationsprozesses erstellt die wwPDB Validierungsberichte, die eine Bewertung der Strukturqualität anhand allgemein anerkannter Standards und Kriterien ermöglichen. Diese Berichte enthalten eine "ausführende" Zusammenfassung der wichtigsten Qualitätsindikatoren, um Nicht-Experten bei der Interpretation dieser Berichte zu helfen. Weitere Informationen finden Sie unter wwpdb.org.

Erforschung biologischer Struktur und Funktion mit Freie-Elektronen-Röntgenlasern (XFEL)

Eine neue Technologie, die als serielle Femtosekunden-Kristallographie bezeichnet wird, revolutioniert die Methoden der Röntgenkristallographie. Ein Freie-Elektronen-Röntgenlaser (XFEL) wird verwendet, um extrem kurze (nur Femtosekunden dauernde) und extrem helle Strahlungspulse zu erzeugen. Ein Strom winziger Kristalle (Nanometer bis Mikrometer groß) wird durch den Strahl geleitet, und jeder Röntgenpuls erzeugt ein Beugungsmuster aus einem Kristall, der dabei oft verbrennt. Aus bis zu Zehntausenden dieser einzelnen Beugungsmuster wird ein vollständiger Datensatz zusammengestellt. Die Methode ist sehr leistungsfähig, weil sie es Wissenschaftlern ermöglicht, molekulare Prozesse zu untersuchen, die über sehr kurze Zeiträume ablaufen, wie beispielsweise die Absorption von Licht durch biologische Chromophore.

Die Strukturen des photoaktiven gelben Proteins wurden durch serielle Femtosekunden-Kristallographie nach der Belichtung bestimmt, wobei die Isomerisierung des Chromophors nach der Absorption von Licht erfasst wurde. Zu den in diesem Film enthaltenen Strukturen gehören: 5hd3 (Grundzustand), 5hdc (100-400 Femtosekunden nach Beleuchtung), 5hdd (800-1200 Femtosekunden), 5hds (3 Pikosekunden), 4b9o (100 Pikosekunden), 5hd5 (200 Nanosekunden) und 1ts0 (1 Millisekunde). Weitere Informationen finden Sie unter Molekül des Monats über photoaktives gelbes Protein.

NMR-Spektroskopie

NMR-Spektroskopie kann verwendet werden, um die Struktur von Proteinen zu bestimmen. Das Protein wird gereinigt, in ein starkes Magnetfeld gelegt und dann mit Radiowellen untersucht. Ein charakteristischer Satz beobachteter Resonanzen kann analysiert werden, um eine Liste von Atomkernen zu erhalten, die nahe beieinander liegen, und um die lokale Konformation von Atomen zu charakterisieren, die aneinander gebunden sind. Diese Liste von Beschränkungen wird dann verwendet, um ein Modell des Proteins zu erstellen, das die Position jedes Atoms zeigt. Die Technik ist derzeit auf kleine oder mittlere Proteine ​​beschränkt, da große Proteine ​​Probleme mit überlappenden Peaks in den NMR-Spektren bereiten.

Ein großer Vorteil der NMR-Spektroskopie besteht darin, dass sie Informationen über Proteine ​​in Lösung liefert, im Gegensatz zu denen, die in einem Kristall eingeschlossen oder an ein Mikroskopgitter gebunden sind. Daher ist die NMR-Spektroskopie die führende Methode zur Untersuchung der atomaren Strukturen flexibler Proteine. Eine typische NMR-Struktur umfasst ein Ensemble von Proteinstrukturen, die alle mit der beobachteten Liste experimenteller Beschränkungen übereinstimmen. Die Strukturen in diesem Ensemble werden sich in Regionen mit starken Einschränkungen sehr ähneln und in weniger eingeschränkten Teilen der Kette sehr unterschiedlich sein. Vermutlich sind diese Bereiche mit weniger Einschränkungen die flexiblen Teile des Moleküls und geben daher im Experiment kein starkes Signal.

Im PDB-Archiv finden Sie typischerweise zwei Arten von Koordinateneinträgen für NMR-Strukturen. Die erste umfasst das gesamte Ensemble aus der Strukturbestimmung, wobei jede Struktur als separates Modell bezeichnet wird. Der zweite Eintragstyp ist eine minimierte Durchschnittsstruktur. Diese Dateien versuchen, die durchschnittlichen Eigenschaften des Moleküls basierend auf den verschiedenen Beobachtungen im Ensemble zu erfassen. Sie finden auch eine Liste der Beschränkungen, die durch das NMR-Experiment ermittelt wurden. Dazu gehören Dinge wie Wasserstoffbrückenbindungen und Disulfidbrücken, Abstände zwischen Wasserstoffatomen, die nahe beieinander liegen, und Beschränkungen der lokalen Konformation und Stereochemie der Kette.

Einige der Beschränkungen, die verwendet werden, um die Struktur eines kleinen monomeren Hämoglobins zu lösen, werden hier mit Software der BioMagResBank 1 gezeigt. Das Protein (1vre und 1vrf) wird in Grün angezeigt, und Restraints werden in Gelb angezeigt.

3D-Elektronenmikroskopie

Elektronenmikroskopie, häufig auch als 3DEM bezeichnet, wird auch verwendet, um 3D-Strukturen großer makromolekularer Anordnungen zu bestimmen. Ein Elektronenstrahl und ein System von Elektronenlinsen werden verwendet, um das Biomolekül direkt abzubilden. Um aus 2D-Projektionsbildern von Transmissionselektronenmikroskopen eine 3D-Struktur zu erhalten, sind mehrere Tricks erforderlich. Die heute am häufigsten verwendete Technik beinhaltet die Abbildung von vielen Tausend verschiedenen Einzelpartikeln, die in einer dünnen Schicht aus nichtkristallinem Eis konserviert sind (Kryo-EM). Vorausgesetzt, diese Ansichten zeigen das Molekül in unzähligen verschiedenen Orientierungen, wird ein rechnerischer Ansatz ähnlich dem für die computerisierte axiale Tomographie oder CAT-Scans in der Medizin eine 3D-Massendichtekarte liefern. Bei einer ausreichenden Anzahl einzelner Partikel können die 3DEM-Karten dann interpretiert werden, indem ein atomares Modell des Makromoleküls in die Karte eingefügt wird, genauso wie Makromolekulare Kristallographen ihre Elektronendichtekarten interpretieren. In einer begrenzten Anzahl von Fällen kann die Elektronenbeugung an 2D- oder 3D-Kristallen oder helikalen Anordnungen von Biomolekülen verwendet werden, um 3D-Strukturen mit einem Elektronenmikroskop mit einem der Röntgenkristallographie sehr ähnlichen Ansatz zu bestimmen. Schließlich gewinnen 3DEM-Techniken an Bedeutung bei der Untersuchung biologischer Anordnungen in kryokonservierten Zellen und Geweben mittels Elektronentomographie. Dieses Verfahren beinhaltet die Aufnahme von Bildern bei verschiedenen Neigungswinkeln und die Mittelung der Bilder über mehrere Kopien des biologischen Aufbaus in situ.

In Bezug auf molekulare und atomare Details liefern sowohl Einzelpartikel-3DEM- als auch Elektronenbeugungsmethoden jetzt Strukturen mit Auflösungsgrenzen, die mit der makromolekularen Kristallographie vergleichbar sind (d. h. die Visualisierung von Aminosäureseitenketten, Oberflächenwassermolekülen und nicht-kovalent gebundenen Liganden ermöglichen). Die Kryo-Elektronentomographie liefert Strukturinformationen mit etwas geringerer Auflösung (d. h. Proteindomänen und sekundäre Strukturelemente). Im Kalender 2016 übertrafen die PDB-Abscheidungen von 3DEM-Strukturen erstmals die aus der NMR-Spektroskopie.

Die jüngsten dramatischen Fortschritte bei der Leistungsfähigkeit von 3DEM spiegeln die Konvergenz einer Reihe von Technologien wider, darunter Probenvorbereitung/Konservierung in Glaseis, verbesserte Elektronenoptik, Phasenplatten zur Verbesserung des Elektronenbildkontrasts, direkte Elektronendetektoren, verbesserte Datenverarbeitungssoftware und schnellere Computer . Diese zufällige Konvergenz entspricht der Beschleunigung der makromolekularen Kristallographie, die in den 1990er Jahren stattfand, als Kristallfrost, Synchrotronstrahlungsstrahllinien, Bildplatten- und CCD-Detektoren, verbesserte Datenverarbeitungssoftware und schnellere Computer in einem früheren perfekten Sturm für die Strukturbiologie zusammenkamen.

Bei Arbeiten, die sich auf sehr große makromolekulare Anordnungen konzentrieren, bei denen eine niedrigere Auflösung die Norm ist, werden 3DEM-Daten zunehmend mit Informationen aus Röntgenkristallographie, NMR-Spektroskopie, Massenspektrometrie, chemischer Vernetzung, Fluoreszenz-Resonanz-Energietransfer und verschiedenen Rechentechniken kombiniert um die atomaren Details zu klären. Diese Praxis der Verschmelzung mehrerer experimenteller Ansätze wird oft als integrative oder hybride Methoden (I/HM) bezeichnet. Sie haben sich für multimolekulare Strukturen wie Komplexe aus Ribosomen, tRNA und Proteinfaktoren sowie Muskel-Aktomyosin-Strukturen als sehr nützlich erwiesen. Für die Archivierung von I/HM-Strukturen und -Daten steht nun ein parallel zur PDB arbeitender Prototyp-Datenspeicher PDB-Dev zur Verfügung.

Diese Kryo-EM-Karte von Beta-Galactosidase wurde aus über 90.000 Bildern des in Eis eingefrorenen Moleküls erstellt, die detailliert genug waren, um ein atomares Modell bereitzustellen. Die KryoEM-Karte befindet sich unter EMDataBank-Eintrag EMD-2984, und die Atomkoordinaten befinden sich in PDB-Eintrag 5a1a.
Bild mit freundlicher Genehmigung von Veronica Falconieri und Siriam Subramaniam, National Cancer Institute.

Integrative Modellierung

Forscher sind daran interessiert, größere und komplexere Systeme zu untersuchen und nutzen dafür alle verfügbaren Techniken. Die Strukturbiologie-Community hat in den letzten Jahren besondere Erfolge mit einem Ansatz erzielt, der als &ldquointegrative Modelling&rdquo bezeichnet wird die Versammlung.

So hat sich beispielsweise die Kombination von spektroskopischen oder chemischen Vernetzungsdaten, die Abstände zwischen Komponenten in einer Baugruppe identifizieren, mit niedrig aufgelösten Elektronenmikroskopiedaten, die Informationen über die Gesamtform eines Komplexes liefern, zu einer effektiven Strategie in der integrativen Modellierung entwickelt. Neben traditionellen strukturbiologischen Methoden wie Röntgenkristallographie, NMR-Spektroskopie und Elektronenmikroskopie haben experimentelle Methoden wie Kleinwinkellösungsstreuung, Forster-Resonanz-Energietransfer, chemische Vernetzung, Massenspektrometrie, Elektronen-Paramagnetische Resonanz-Spektroskopie und andere biophysikalische Techniken in integrativen Modellierungsstudien verwendet. Ein Schlüsselaspekt der integrativen Modellierung besteht darin, dass die resultierenden Strukturmodelle nicht immer aus Atomkoordinaten bestehen und Regionen grobkörniger Kügelchen enthalten können, die mehrere Atome darstellen. Dies liegt daran, dass verschiedene Arten von Experimenten Informationen in unterschiedlichen Auflösungsstufen liefern.

Ein Beispiel für integrative Modellierung ist die Struktur des Kernporenkomplexes (NPC) aus knospenden Hefen, die unter Verwendung von Daten aus chemischer Vernetzung, Kleinwinkellösungsstreuung und elektronenmikroskopischen Experimenten bestimmt wurde. Der NPC ist eine achtfach symmetrische Anordnung, die aus 552 Kopien von 32 verschiedenen Proteinen der Nukleoporinfamilie besteht. Die Gesamtform des NPC wird aus einer elektronenmikroskopischen Karte mit niedriger Auflösung erhalten. Umfangreiche Daten aus chemischen Vernetzungsexperimenten liefern Informationen über die Nähe und Orientierung der Nucleoporine innerhalb der Anordnung. Für einige der Nukleoporine sind Kleinwinkelstreuungsprofile verfügbar, und die Strukturen mehrerer Nukleoporine-Komponenten und ihrer Unterkomplexe wurden mit experimentellen Methoden und/oder Computermodellen erhalten. Alle verfügbaren Informationen werden gesammelt und mithilfe von Rechenalgorithmen kombiniert, um das integrative Modell des gesamten Komplexes zu erstellen. Dieses Modell des NPC ist in einem prototypischen Repository für integrative Strukturmodelle namens PDB-Dev archiviert (Zugangscode: PDBDEV_00000012). PDB-Dev wurde geschaffen, um mit integrativen Modellierungsansätzen ermittelte Strukturmodelle einheitlich zu sammeln, zu archivieren und der Öffentlichkeit zur Verfügung zu stellen.


Einführung in Biologische Baugruppen und das PDB-Archiv

Beim Durchsuchen der Strukturzusammenfassungsseiten auf der RCSB PDB-Website werden Sie Bilder und Koordinatendateien für die "Biological Assembly" und die "Asymmetric Unit" bemerken. In vielen PDB-Einträgen sind diese gleich. Bei einigen Einträgen (meist durch Röntgenkristallographie gelöste) können Sie jedoch einen Unterschied zwischen der asymmetrischen Einheit und der biologischen Anordnung feststellen. Wenn Sie sich gefragt haben, ob die Koordinaten für die gegebene Struktur die biologisch relevante Baugruppe darstellen, lesen Sie weiter, um mehr über die Bedeutung dieser Begriffe zu erfahren und wie die entsprechenden Daten in den Dateien archiviert werden.

Die primäre Koordinatendatei einer Kristallstruktur enthält typischerweise nur eine asymmetrische Kristalleinheit und kann mit der biologischen Anordnung identisch sein oder nicht. Diese Einführung beschreibt die Begriffe asymmetrische Einheit und biologische Baugruppe, listet auf, wo Informationen dazu in verschiedenen Dateiformaten (PDB und mmCIF) zu finden sind, und erklärt, wie biologische Baugruppendateien im PDB-Archiv abgeleitet werden. Da das PDBML-Format von der mmCIF-Formatdatei abgeleitet ist, wird dieses Format hier nicht gesondert behandelt.

Inhaltsverzeichnis

Asymmetrische Einheit

Die asymmetrische Einheit ist der kleinste Teil einer Kristallstruktur, auf den Symmetrieoperationen angewendet werden können, um die vollständige Elementarzelle (die sich wiederholende Kristalleinheit) zu erzeugen. Symmetrieoperationen, die bei Kristallen biologischer Makromoleküle am häufigsten vorkommen, sind Rotationen, Translationen und Schraubenachsen (Kombinationen von Rotation und Translation).

Die Anwendung kristallographischer Symmetrieoperationen auf eine asymmetrische Einheit ergibt eine Elementarzelle, die, wenn sie in drei Dimensionen übersetzt wird, den gesamten Kristall ausmacht.

Unten ist ein einfaches Beispiel. Die asymmetrische Einheit (grüner Aufwärtspfeil) wird um 180 Grad um eine zweizählige kristallographische Symmetrieachse (schwarzes Oval) gedreht, um eine zweite Kopie zu erzeugen (violetter Abwärtspfeil). Zusammen bilden die beiden Pfeile die Elementarzelle. Die Elementarzelle wird dann translatorisch in drei Richtungen wiederholt, um einen dreidimensionalen Kristall herzustellen.

Die asymmetrische Einheit enthält den einzigartigen Teil einer Kristallstruktur. Es wird vom Kristallographen verwendet, um die Koordinaten der Struktur anhand der experimentellen Daten zu verfeinern und muss nicht unbedingt eine ganze biologisch funktionelle Anordnung darstellen.

Eine asymmetrische Kristalleinheit kann enthalten:

  • eine biologische Baugruppe
  • ein Teil einer biologischen Anordnung
  • mehrere biologische Aggregate

Der Gehalt der asymmetrischen Einheit hängt von der/den Position(en) des kristallisierten Moleküls und seinen Konformationen innerhalb der Elementarzelle ab. Abhängig von den Kristallisationsbedingungen und der lokalen Packung können zwei verschiedene Szenarien auftreten:

  • Kopien des Makromoleküls oder Komplexes innerhalb einer Kristallelementarzelle haben identische Konformationen und besetzen symmetriebezogene Positionen. Als Ergebnis kann die biologische Anordnung entweder aus einer Kopie des Makromoleküls/Komplexes bestehen oder sie kann aus zwei oder mehr symmetrieverwandten Molekülen/Komplexen zusammengesetzt sein, die zusammenkommen, um eine größere Anordnung zu bilden.
  • Kopien des Makromoleküls oder Komplexes nehmen leicht unterschiedliche Konformationen an und besetzen einzigartige Positionen in der asymmetrischen Kristalleinheit. Als Ergebnis kann jede der unterschiedlichen Positionen des Makromoleküls/Komplexes strukturell ähnlichen, aber nicht identischen biologischen Anordnungen entsprechen.

Hämoglobin, ein Molekül mit vier Proteinketten (zwei Alpha-Beta-Dimere), liefert für jeden dieser Fälle gute Beispiele aus PDB-Einträgen:

Asymmetrische Einheit mit einer biologischen Baugruppe Asymmetrische Einheit mit einem Teil einer biologischen Anordnung Asymmetrische Einheit mit mehreren biologischen Aggregaten
Eintrag 2hhb enthält einer Hämoglobinmolekül (4 Ketten) in der asymmetrischen Einheit. Eintrag 1out enthält halb ein Hämoglobinmolekül (2 Ketten) in der asymmetrischen Einheit. Eine kristallographische zweizählige Achse erzeugt die anderen 2 Ketten des Hämoglobinmoleküls. Eintrag 1hv4 enthält zwei Hämoglobinmoleküle (8 Ketten) in der asymmetrischen Einheit.

Biologische Versammlung

Die biologische Anordnung (manchmal auch als biologische Einheit bezeichnet) ist die makromolekulare Anordnung, von der entweder gezeigt wurde oder von der angenommen wird, dass sie die funktionelle Form des Moleküls ist. Zum Beispiel hat die funktionelle Form von Hämoglobin vier Ketten.

Abhängig von der jeweiligen Kristallstruktur müssen möglicherweise Symmetrieoperationen durchgeführt werden, die aus Rotationen, Translationen oder deren Kombinationen bestehen, um den vollständigen biologischen Aufbau zu erhalten. Alternativ muss möglicherweise eine Teilmenge der hinterlegten Koordinaten ausgewählt werden, um die biologische Anordnung darzustellen. So kann eine biologische Baugruppe aufgebaut werden aus:

  • eine Kopie der asymmetrischen Einheit
  • mehrere Kopien der asymmetrischen Einheit
  • ein Teil der asymmetrischen Einheit

Hämoglobin wird erneut verwendet, um jeden dieser Fälle zu demonstrieren:

Biologische Anordnung bestehend aus einer Kopie der asymmetrischen Einheit Biologische Anordnung, bestehend aus mehreren Kopien der asymmetrischen Einheit Mehrere biologische Aggregate in der asymmetrischen Einheit
Im Eintrag 2hhb, die biologische Anordnung ist Äquivalent zur asymmetrischen Einheit. Im Eintrag 1aus Die biologische Baugruppe umfasst zwei asymmetrische Einheiten. Im Eintrag 1hv4 der biologische Aufbau ist eine Hälfte der asymmetrischen Einheit.
Es sind keine Operationen erforderlich. Die Anwendung einer kristallographischen Symmetrieoperation (eine Drehung um 180 um eine kristallographische zweizählige Achse) erzeugt die vollständige biologische Anordnung. Der Eintrag enthält zwei strukturell ähnliche, aber nicht ganz identische Kopien der biologischen Anordnung innerhalb der asymmetrischen Kristalleinheit.

Eine biologische Anordnung ist nicht immer eine mehrkettige Gruppierung.

Zum Beispiel die funktionelle Einheit der Dihydrofolat-Reduktase (hier aus Eintrag 7dfr) ist ein Monomer und das biologische Aggregat enthält ebenfalls nur eine Kette.

Ein Molekül kann in einem Kristall aufgrund der Kristallpackung gelegentlich als multimer erscheinen. Es gibt jedoch möglicherweise keine Beweise oder biologische Relevanz für einen multimeren Zustand in Lösung. Wenn der Eintrag verarbeitet wird, werden alle wahrscheinlichen Baugruppen basierend auf der vergrabenen Oberfläche und den Wechselwirkungsenergien berechnet. Diese vorhergesagten Aggregate können mit dem übereinstimmen, was der Autor für das biologisch relevante Aggregat für das Molekül hält, oder auch nicht. Die im Eintrag gemeldeten biologischen Baugruppen enthalten einen Hinweis, um zu erklären, ob es sich um „vom Autor bereitgestellt“, „durch Software bestimmt“ oder beides handelt.

Zum Beispiel hat die in Eintrag 3fad vorgestellte T4-Lysozymstruktur eine einzelne Kette in der asymmetrischen Einheit. Normalerweise fungiert Lysozym als Monomer. Der "vom Autor bereitgestellte" und auch der "Software-bestimmte" biologische Aufbau für diesen Eintrag ist ein Monomer. Basierend auf der Kristallpackung, der vergrabenen Oberfläche und den Wechselwirkungsenergien sagt die Software (PISA 1 ) voraus, dass diese spezifische Mutanten-/Kristallform von T4-Lysozym ein Dimer bilden könnte. Die für den PDB-Eintrag 3fad definierten Assemblys sind unten dargestellt:

Asymmetrische Einheit (Monomer) Autor & Software Bestimmte Biologische Assemblierung (Monomer) Softwarebestimmter biologischer Aufbau (Dimer)
Die asymmetrische Einheit ist ein Monomer. Dies sind die hinterlegten Koordinaten. Die "vom Autor bereitgestellten" und "softwarebestimmten" biologischen Anordnungen sind beide Monomere. Die Software PISA sagt voraus, dass dieses Molekül auch ein Dimer bilden könnte. Daher ist die zweite biologische Baugruppe nur "softwarebestimmt".

In den Webdatei-Download-Optionen sind verschiedene Versionen der biologischen Assembly-Dateien als (A) für vom Autor bereitgestellt und (S) für die Software bestimmt gekennzeichnet.

Virale Kapsidkristallstrukturen enthalten oft nur einen Teil der asymmetrischen Kristalleinheit. Diese Einträge erfordern die Anwendung nichtkristallographischer Symmetrieoperatoren auf die hinterlegten Koordinaten, um die asymmetrische Kristalleinheit zu erzeugen.

Ikosaedrische Viruskapside haben eine komplexe Symmetrie mit 60 äquivalenten Positionen, die durch 5-fache, 3-fache und 2-fache Rotationsoperationen erzeugt werden, die sich an einem einzigen zentralen Punkt schneiden. Die hinterlegten Koordinaten für eine ikosaedrische Viruskristallstruktur bestehen meistens aus der oder den einzigartigen Kette(n) für die ikosaedrische asymmetrische Einheit und einem Satz nichtkristallographischer Symmetrieoperatoren, um die asymmetrische Kristalleinheit zu erzeugen. Es können zusätzliche kristallographische Symmetrieoperatoren erforderlich sein, um die biologische Anordnung und/oder die kristallographische Elementarzelle zu erzeugen. Die verschiedenen Anordnungen für eine ikosaedrische Viruskristallstruktur werden für den Fall des PDB-Eintrags veranschaulicht 1qqp unter:

Ikosaedrische asymmetrische Einheit Kristall asymmetrische Einheit Biologische Versammlung Kristallographische Elementarzelle
Die hinterlegten Koordinaten repräsentieren 1 ikosaedrische asymmetrische Einheit. Diese Einheit wird in allen Ansichten durch Bänder dargestellt. Die asymmetrische Kristalleinheit ist pentamer. Die biologische Anordnung ist ein Ikosaeder (wie oben gezeigt). Die komplette Kristallelementarzelle enthält 2 ikosaedrische Viruspartikel.

Neben Kristallstrukturen von Viruskapsiden enthält das PDB-Archiv Virusstrukturen, die durch Elektronenmikroskopie, Faserbeugung und Festkörper-NMR bestimmt wurden. In all cases of assemblies with regular point or helical symmetry, the PDB entry includes the coordinates of the repeating unit and the appropriate crystallographic and/or non-crystallographic symmetry operators required to generate the biological assembly.

For example, in the fiber diffraction structure of filamentous bacteriophage PF1, in entry 1ql2, the asymmetric unit contains 3 helices while the biological assembly is a helical virus, generated by applying matrices that represent the helical rotation and translation.

Biological Assembly Description in mmCIF and PDB Format Files

Instructions for Generating Biological Assemblies in mmCIF Format Files

In mmCIF format files, details about the structural elements that form each biological assembly are found in the pdbx_struct_assembly, pdbx_struct_assembly_gen and pdbx_struct_oper_list categories. The first two categories describe the generation of each biological assembly for the structure and present details about it, while the third one lists the transformations required for generating the biological assembly. The category pdbx_struct_assembly_gen links the transformations in pdbx_struct_oper_list with the chains to which they apply (note that the chain identifiers are the asym_ids used throughout the mmCIF file). Any specific biological assembly related remarks from the authors are stored in the struct_biol category.

A Simple Example - Entry 3c70

In the pdbx_struct_oper_list category, the 1_555 notation is crystallographic shorthand to describe a particular symmetry operator (the number before the underscore) and any required translation (the three numbers following the underscore). Symmetry operators are defined by the space group and the translations are given for the three-unit cell axis (a, b, and c) where 5 indicates no translation and numbers higher or lower signify the number of unit cell translations in the positive or negative direction. For example, 4_565 indicates the use of symmetry operator 4 followed by a one-unit cell translation in the positive b direction.

Example of a Viral Capsid -- Entry 2bfu

In the case of viruses and other complex assemblies with non-crystallographic symmetry, the biological assembly is more complex and may also be composed of many sub-assemblies. The data items in pdbx_struct_assembly list all the possible sub-assemblies, while those in _pdbx_struct_assembly_gen list the process of generating these assemblies. The struct_oper_list category gives a list of matrices (both crystallographic and non-crystallographic operators) required to create the various biological assemblies from the given coordinate file. This list also includes the matrices: "P" to transform the deposited coordinates to a standard point frame, and "X0" which is the transformation required to move the deposited coordinates into the crystal frame 2 . Thus, the deposited coordinates may be transferred to either the standard or crystal frames using these matrices.

The data category _pdbx_struct_oper_list is used for all viruses and holds the matrices for BIOMT records that appear in REMARK 350 of the PDB format file. In cases where the assembly definition listed in struct_oper_list requires sequential multiplication of matrices (example entry 1m4x), the pdbx_struct_oper provides the final list of matrices which are applied to the deposited coordinates. In all data blocks shown below, the matrices 5-58 were edited out for brevity. In addition to these categories, non-crystallographic symmetry (NCS) symmetry operators are listed in the _struct_ncs_oper category.

Please see the mmCIF dictionary for additional details and further information on the mmCIF format.

Instructions for Generating Biological Assemblies in PDB Format Files

In PDB format files, information about the biological assembly is given in REMARKs 300 and 350. REMARK 300 provides a free text remark regarding the biological assembly and may include specific comments provided by the author. REMARK 350, on the other hand presents all transformations (rotational and translational), both crystallographic and non-crystallographic, that are needed to generate the biological assembly. In addition to transformation information provided by the author, descriptions of potential assemblies that can be computationally determined are also provided when available. Author-provided and software-determined biological assemblies are marked appropriately.

A Simple Example - Entry 3c70

In the entry 3c70, REMARK 300 is a free text remark followed by REMARK 350 which includes the transformations required to generate the biological dimer from the deposited coordinates.

In this example, the asymmetric unit is composed of a single chain (chain A). The biological dimer is generated from two copies of the asymmetric unit. The first copy is identical to the deposited asymmetric unit (note the identity operation in green). The second copy is generated by applying a crystallographic symmetry operation consisting of a rotation matrix (red) and a translation vector (blue). Note that this biological assembly is both author provided and software (PISA) predicted.

An Example from a Viral Capsid -- Entry 2bfu

In this example the deposited coordinates include two chains (L and S) that comprise the icosahedral asymmetric unit (1/60th of the complete virus capsid). REMARK 300 is a free text remark while REMARK 350 provides the transformations required for generating the icosahedral virus. Note: matrices 5 through 58 in REMARK 350 have been omitted here for brevity.

The crystallographic asymmetric unit of entry 2bfu is composed of 10 chains (chains L, S and four other copies of each chain generated by the following matrices):

The first matrix is a unit matrix and corresponds to the deposited coordinates. Since these are already given in the PDB format file, they are flagged with "1" on the right hand side of the matrix. The other four matrices generate a five-fold symmetric sub-assembly of the virus.

Notiz: Not all PDB or mmCIF coordinate files contain information regarding generation of the assumed biological assembly.

Displaying and Downloading Biological Assembly Coordinate Files

wwPDB-created coordinate files for the biological assemblies (or biological units) are archived in the directory ftp://ftp.wwpdb.org/pub/pdb/ data/biounit/coordinates.

These files can also be accessed from the RCSB PDB website. For any given entry, the default view on the Structure Summary page shows the biological assembly. The forward and backward arrows at the top of the visualization box allow toggling between the asymmetric unit and biological assembly images. In the case that there are multiple biological assemblies for the entry, the forward arrow can be used to browse through all of them. The biological assembly files can be downloaded from the "Download Files" menu options on the top right corner. For an example see entry 2bfu.

Specific databases, such as PISA 1 may also be used to study the biological assemblies of PDB entries.

Autoren

Shuchismita Dutta, Rachel Kramer Green, and Catherine L. Lawson

Verweise

1 E. Krissinel and K. Henrick (2007) Inference of macromolecular assemblies from crystalline state. J.Mol. Biol. 372: 774-797.

2 C.L. Lawson, S. Dutta, J.D. Westbrook, K. Henrick, H.M. Berman (2008) Representation of viruses in the remediated PDB archive. Acta Cryst. D64: 874-882

Über PDB-101

PDB-101 hilft Lehrern, Schülern und der breiten Öffentlichkeit, die 3D-Welt der Proteine ​​und Nukleinsäuren zu erkunden. Das Kennenlernen ihrer vielfältigen Formen und Funktionen hilft, alle Aspekte der Biomedizin und Landwirtschaft zu verstehen, von der Proteinsynthese über Gesundheit und Krankheit bis hin zu biologischer Energie.

Warum PDB-101? Forscher rund um den Globus stellen diese 3D-Strukturen im Archiv der Protein Data Bank (PDB) frei zur Verfügung. PDB-101 erstellt einführende Materialien, um Anfängern den Einstieg in das Thema zu erleichtern ("101", wie in einem Einsteigerkurs) sowie Ressourcen für erweitertes Lernen.


VarSite: Disease variants and protein structure

VarSite is a web server mapping known disease-associated variants from UniProt and ClinVar, together with natural variants from gnomAD, onto protein 3D structures in the Protein Data Bank. The analyses are primarily image-based and provide both an overview for each human protein, as well as a report for any specific variant of interest. The information can be useful in assessing whether a given variant might be pathogenic or benign. The structural annotations for each position in the protein include protein secondary structure, interactions with ligand, metal, DNA/RNA, or other protein, and various measures of a given variant's possible impact on the protein's function. The 3D locations of the disease-associated variants can be viewed interactively via the 3dmol.js JavaScript viewer, as well as in RasMol and PyMOL. Users can search for specific variants, or sets of variants, by providing the DNA coordinates of the base change(s) of interest. Additionally, various agglomerative analyses are given, such as the mapping of disease and natural variants onto specific Pfam or CATH domains. The server is freely accessible to all at: https://www.ebi.ac.uk/thornton-srv/databases/VarSite.

Schlüsselwörter: 3D protein structure CATH ClinVar PDB Pfam UniProt VarMap VarSite disease variants gnomAD molecular interactions natural variants schematic diagrams.

© 2019 The Authors. Protein Science published by Wiley Periodicals, Inc. on behalf of The Protein Society.


Designer proteins helping biomedicine

Reblogging this blog post

Professor Meiering and her colleagues were able to incorporate both structure and function into the design process by using bioinformatics to leverage information from nature. They then analyzed what they made and measured how long it took for the folded, functional protein to unfold and breakdown.

Using a combination of biophysical and computational analyses, the team discovered this kinetic stability can be successfully modeled based on the extent to which the protein chain loops back on itself in the folded structure. Because their approach to stability is also quantitative, the protein’s stability can be adjusted to naturally break down when it is no longer needed.

Broom A, Ma SM, Xia K, Rafalia H, Trainor K, Colón W, Gosavi S, & Meiering EM (2015). Designed protein reveals structural determinants of extreme kinetic stability. Proceedings of the National Academy of Sciences of the United States of America, 112 (47), 14605-10 PMID: 26554002


WS-SNPs&GO: a web server for predicting the deleterious effect of human protein variants using functional annotation

Hintergrund: SNPs&GO is a method for the prediction of deleterious Single Amino acid Polymorphisms (SAPs) using protein functional annotation. In this work, we present the web server implementation of SNPs&GO (WS-SNPs&GO). The server is based on Support Vector Machines (SVM) and for a given protein, its input comprises: the sequence and/or its three-dimensional structure (when available), a set of target variations and its functional Gene Ontology (GO) terms. The output of the server provides, for each protein variation, the probabilities to be associated to human diseases.

Ergebnisse: The server consists of two main components, including updated versions of the sequence-based SNPs&GO (recently scored as one of the best algorithms for predicting deleterious SAPs) and of the structure-based SNPs&GO(3d) programs. Sequence and structure based algorithms are extensively tested on a large set of annotated variations extracted from the SwissVar database. Selecting a balanced dataset with more than 38,000 SAPs, the sequence-based approach achieves 81% overall accuracy, 0.61 correlation coefficient and an Area Under the Curve (AUC) of the Receiver Operating Characteristic (ROC) curve of 0.88. For the subset of

6,600 variations mapped on protein structures available at the Protein Data Bank (PDB), the structure-based method scores with 84% overall accuracy, 0.68 correlation coefficient, and 0.91 AUC. When tested on a new blind set of variations, the results of the server are 79% and 83% overall accuracy for the sequence-based and structure-based inputs, respectively.


Hintergrund

Protein structure data in Protein Data Bank (PDB) [1] are widely used in studies of protein function and evolution, and they serve as a basis for protein structure prediction. The number of entries in PDB has been increasing rapidly. However, there are two barriers in large-scale usage of PDB data, especially in an automatic fashion. The first barrier is that a large number of protein chains in PDB are highly similar in terms of sequence or structure. For example, many PDB files contain identical chains. Hence, a light version of PDB may be useful. In addition, PDB users often need to obtain a set of PDB chains satisfying some criteria such as structure resolution and sequence length, or they may need to select a representative from a group of similar sequences/structures. The second barrier in large-scale usage of PDB data is that many PDB files have issues due to inconsistency of data and standards as well as missing residues, so that automated retrieval and analysis are often difficult. For example, the sequence in a PDB header is sometimes inconsistent with that in the 3D coordinate part. Another example is that some residues in PDB are modified, and the residue types cannot be easily mapped to the original amino acids. One more issue is that many PDB files have incomplete coordinates containing some residues or atoms without 3D coordinates. This may be due to un-resolved electron density maps. However, it creates problems for a systematic data analysis of large-scale PDB files. Furthermore, if someone likes to perform molecular dynamics simulation or other computational analysis of a given PDB file, it may require preprocessing the file to add coordinates of missing atoms. If the pre-processed PDB files are readily available for download, it may help many simulation users.

Currently, several websites are available to address the first barrier. The PDB website itself can remove similar sequences with specific levels of mutual sequence identity. Other websites such as PDB-Select [2], ASTRAL [3], PDB-REPRDB [4] and PISCES [5] have similar functions, all of which allow users to download a pre-defined chain list or generate a customized list with some sequence or structure criteria. However, the derived chain lists from these websites are typically not updated weekly following the release of hundreds of PDB files each week. Release of non-redundant structure datasets is even slower. For example, the widely used protein structure classification database SCOP [6], which involves extensive manual annotations, was updated years ago (1.75 release in June 2009). It would be useful to incorporate automatic SCOP classification for newly released PDB files, even if the classification quality is suboptimal. In addition, the second barrier in large-scale usage of PDB data, as illustrated above, has not been addressed systematically.

In this paper, we introduce MUFOLD-DB which comprehensively integrates processed PDB data, predicted SCOP classification and additional computational data, e.g. DSSP [7] secondary structure and PSI-BLAST [8] sequence profile. MUFOLD-DB provides a friendly web interface for users to browse, search and download these data. Compared to other databases, MUFOLD-DB has the following unique features:

(1) Users can search a PDB sequence against several derived sequence databases by using BLAST with specified parameters and browse all the hit sequences.

(2) Users can generate a customized list from the entire PDB sequences by setting the filtering parameters, which include full or partial SCOP address, experimental method (e.g., X-Ray or NMR), sequence length, structure resolution (only applied to X-Ray structures), deposit date, and mutual sequence identity level from 90, 80 to 30 percent. This can be used for a non-redundant template database in developing protein energy function and template-based protein structure prediction.

(3) Users can input a list of chain names to browse the corresponding information and quickly get the representatives of the involved clusters after clustering with seven levels of mutual sequence identity, from 90 to 30 percent. This utility can be used to cluster a set of sequences to reduce redundancy.

(4) MUFOLD-DB carefully processes the PDB sequence and structure to provide users clean data which is much easier to manipulate than the original PDB files. Structures of missing regions with less than 7 residues in PDB chains are predicted by high-quality loop modelling using MODELLER [9], to help structure prediction and function analysis.

(5) Multiple data are provided for users to download including sequence, predicted SCOP classification, cleaned PDB format file, and PDB files with loop modelling. Pre-computed sequence and SCOP representative datasets are also provided. These files can be retrieved through a command line without going through a web browser.

(6) Users can view each chain in details. Besides the basic information from PDB files, evolutional information represented as sequence logo, secondary structure, disorder region, and three-dimensional structure visualization with JMol http://www.jmol.org are provided.

(7) The database is automatically updated every week following the weekly release of PDB.


Protein structures given in PDB and SNP's - Biology

Momentaufnahme experimenteller Daten

  • Methode: RÖNTGENBEUGUNG
  • Auflösung: 2.59 Å
  • R-Wert frei: 0.298 
  • R-Wert Arbeit: 0.244 
  • R-Wert beobachtet: 0.246 

wwPDB-Validierung   3D-Bericht Vollständiger Bericht

Crystal structure of SARS-CoV-2 papain-like protease.

(2021) Acta Pharm Sin B 11: 237-245

  • PubMed: 32895623  Search on PubMedSearch on PubMed Central
  • DOI: 10.1016/j.apsb.2020.08.014
  • Primärzitate verwandter Strukturen:  
    7CJD, 7CMD
  • PubMed-Abstract: 

The pandemic of coronavirus disease 2019 (COVID-19) is changing the world like never before. This crisis is unlikely contained in the absence of effective therapeutics or vaccine. The papain-like protease (PLpro) of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) plays essential roles in virus replication and immune evasion, presenting a charming drug target .

The pandemic of coronavirus disease 2019 (COVID-19) is changing the world like never before. This crisis is unlikely contained in the absence of effective therapeutics or vaccine. The papain-like protease (PLpro) of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) plays essential roles in virus replication and immune evasion, presenting a charming drug target. Given the PLpro proteases of SARS-CoV-2 and SARS-CoV share significant homology, inhibitor developed for SARS-CoV PLpro is a promising starting point of therapeutic development. In this study, we sought to provide structural frameworks for PLpro inhibitor design. We determined the unliganded structure of SARS-CoV-2 PLpro mutant C111S, which shares many structural features of SARS-CoV PLpro. This crystal form has unique packing, high solvent content and reasonable resolution 2.5 Å, hence provides a good possibility for fragment-based screening using crystallographic approach. We characterized the protease activity of PLpro in cleaving synthetic peptide harboring nsp2/nsp3 juncture. We demonstrate that a potent SARS-CoV PLpro inhibitor GRL0617 is highly effective in inhibiting protease activity of SARS-CoV-2 with the IC 50 of 2.2±0.3 μmol/L. We then determined the structure of SARS-CoV-2 PLpro complex by GRL0617 to 2.6 Å, showing the inhibitor accommodates the S3-S4 pockets of the substrate binding cleft. The binding of GRL0617 induces closure of the BL2 loop and narrows the substrate binding cleft, whereas the binding of a tetrapeptide substrate enlarges the cleft. Hence, our results suggest a mechanism of GRL0617 inhibition, that GRL0617 not only occupies the substrate pockets, but also seals the entrance to the substrate binding cleft hence prevents the binding of the LXGG motif of the substrate.

Organisationszugehörigkeit

NHC Key Laboratory of Systems Biology of Pathogens, Institute of Pathogen Biology, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100730, China.


Protein structures given in PDB and SNP's - Biology

Database that groups biomedical literature, small molecules, and sequence data in terms of biological relationships.

A centralized page providing access and links to resources developed by the Structure Group of the NCBI Computational Biology Branch (CBB). These resources cover databases and tools to help in the study of macromolecular structures, conserved domains and protein classification, small molecules and their biological activity, and biological pathways and systems.

A collection of sequence alignments and profiles representing protein domains conserved in molecular evolution. It also includes alignments of the domains to known 3-dimensional protein structures in the MMDB database.

Contains macromolecular 3D structures derived from the Protein Data Bank, as well as tools for their visualization and comparative analysis.

Downloads

This site provides full data records for CDD, along with individual Position Specific Scoring Matrices (PSSMs), mFASTA sequences and annotation data for each conserved domain. See the README file for full details.

This site contains ASN.1 data for all records in MMDB along with VAST alignment data and the non-redundant PDB (nr-PDB) data sets. See the README file for more information.

Werkzeuge

A stand-alone application for classifying protein sequences and investigating their evolutionary relationships. CDTree can import, analyze and update existing Conserved Domain (CDD) records and hierarchies, and also allows users to create their own. CDTree is tightly integrated with Entrez CDD and Cn3D, and allows users to create and update protein domain alignments.

A stand-alone application for viewing 3-dimensional structures from NCBI's Entrez retrieval service. Cn3D runs on Windows, Macintosh, and UNIX and can be configured to receive data from most popular web browsers. Cn3D simultaneously displays structure, sequence, and alignment, and has powerful annotation and alignment editing features.

Displays the functional domains that make up a given protein sequence. It lists proteins with similar domain architectures and can retrieve proteins that contain particular combinations of domains.

Identifies the conserved domains present in a protein sequence. CD-Search uses RPS-BLAST (Reverse Position-Specific BLAST) to compare a query sequence against position-specific score matrices that have been prepared from conserved domain alignments present in the Conserved Domain Database (CDD).

The Related Structures tool allows users to find 3D structures from the Molecular Modeling Database (MMDB) that are similar in sequence to a query protein. Although the query protein may not yet have a resolved structure, the 3D shape of a similar protein sequence can shed light on the putative shape and biological function of the query protein.

A computer algorithm that identifies similar protein 3-dimensional structures. Structure neighbors for every structure in MMDB are pre-computed and accessible via links on the MMDB Structure Summary pages. These neighbors can be used to identify distant homologs that cannot be recognized by sequence comparison alone.


Schau das Video: Protein struktur og aminosyrers opbygning. Primær, sekundær og tertiær struktur. (Kann 2022).