Information

Was ist der Unterschied zwischen einem Signalpeptid und einem Transitpeptid?

Was ist der Unterschied zwischen einem Signalpeptid und einem Transitpeptid?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Soweit ich weiß, werden die beiden Namen synonym verwendet und ich habe auch keine Quelle gefunden, die etwas anderes sagt. Gibt es überhaupt einen Unterschied, gibt es ein Transitpeptid, das kein Signalpeptid ist oder umgekehrt?


Signalpeptide befinden sich typischerweise am N-Terminus eines Proteins. Die Signalpeptide werden von der Translokon-Maschinerie verarbeitet und nach dem Sortieren durch die Membranen von Organellen im sekretorischen System abgespalten:

  • endoplasmatisches Retikulum
  • Golgi-Apparat
  • ER-Golgi-Übergangsvesikel
  • Plasma Membran
  • Lysosomen

Transitpeptide zielen das Protein auf andere subzelluläre Organellen wie (von UniProt):

  • Mitochondrium
  • Apicoplast
  • Chromoplast
  • Chloroplast
  • Cyanelle
  • Thylakoid
  • Amyloplast
  • Peroxisom
  • Glyoxysom
  • Hydrogenosom

N-terminale Transitpeptide sind ziemlich selten. C-terminale Transitpeptidmotive sind viel häufiger. UniProt enthält Transitpeptide als diskretes kontrolliertes Vokabular, getrennt von Signalpeptiden.


Signalpeptid

Der Bereich eines Boten-RNA-Moleküls (mRNA), der der kodierenden Sequenz eines Gens vorausgeht, wird als „Leader-Sequenz“ bezeichnet. Diese Region ist auch als „untranslated region mit fünf Primzahlen“ bekannt (Abbildung 1) der mRNA. Leadersequenzen haben die Neigung, Sekundärstrukturen (Stem-Loops) durch Basenpaarung komplementärer Sequenzen zu bilden. Sie sind an der Regulation der Genexpression in Eukaryonten und Prokaryonten beteiligt. Bei Eukaryoten kann die Leadersequenz von wenigen Nukleotiden bis zu mehr als 1000 Nukleotiden variieren. In Prokaryoten sind die Leadersequenzen gewöhnlich kurz und enthalten manchmal ein Attenuatorsegment, das in ein Short-Leader-Peptid übersetzt wird. Das Leader-Peptid dient dazu, Transkripte zu beenden, bevor die RNA-Polymerase das erste Strukturgen des Operons erreicht. Es wurde gezeigt, dass die Leadersequenzen in Viren eine wichtige Rolle bei der Regulation der Genexpression, Replikation und Pathogenität spielen. Mutationen in den Leadersequenzen von zellulären mRNAs können Auswirkungen auf die Krankheit und die Tumorentstehung haben.


Hintergrund

Primäre Plastiden sind Organellen endosymbiontischen Ursprungs [z.B. 1, 2]. Im Zuge des Übergangs von einem (Endo-)Symbionten zu einer Organelle gingen die meisten seiner Gene entweder verloren oder wurden in höherem Maße in den Zellkern transferiert [z.B. 3, 4, 5]. Daher wird der größte Teil des Plastidenproteoms im Kern der Wirtszelle kodiert, was bedeutet, dass die kodierten Proteine ​​posttranslational über die beiden Hüllmembranen in das Plastidenlumen transportiert werden müssen. Für ein genaues Trafficking sind fast alle nuklearkodierten Plastidenproteine ​​mit einer charakteristischen N-terminalen topogenen Signalsequenz, dem Transitpeptid, ausgestattet [6]. Diese Targeting-Information ist für den Plastidenimport notwendig und ausreichend und interagiert mit Translokonen der äußeren/inneren Hüllmembran von Chloroplasten [TOC und TIC kürzlich in 7] besprochen. Interessanterweise zeigen Untersuchungen von Transitpeptiden keine strikte Konsensussequenz [8], aber einige gemeinsame Merkmale wie eine positive Nettoladung, erhöhte Mengen an hydroxylierten Aminosäuren und Bindungsmotive für molekulare Chaperone [9 und darin enthaltene Referenzen].

Sekundär entwickelte Organismen wie Diatomeen, Apicomplexa oder Kryptophyten beherbergen Plastiden, die von zwei zusätzlichen Membranen umgeben sind [10, 11]. Genomanalysen zeigten einen gemeinsamen Satz von nuklearkodierten Proteinen mit einem Plastidenziel wie in primären Plastiden [4]. Im Gegensatz zu den primären Plastiden sind Proteine ​​hier mit einer bipartiten topogenen Signalsequenz (BTS) ausgestattet, bestehend aus einem klassischen ER-ähnlichen Signalpeptid (SP) gefolgt von einer Transitpeptid-ähnlichen Sequenz (TP) [2, 12, 13 ]. Diese Transitpeptid-ähnliche Sequenz ist - wie bei Archaeplastida - für den Plastidenimport unabdingbar, wie durch in vivo Experimente an Apicomplexa und Diatomeen [5, 14, 15]. Kürzlich haben Tonkin et al. [16] zeigten, dass sogar zufällig ausgewählte Sequenzen, die den Grundregeln für Transitpeptide (siehe oben) folgen, als Targeting-Sequenzen in Apicomplexa fungieren können, was auf eine geringe Komplexität von Transitpeptiden hinweist. Bei Kieselalgen und Kryptophyten besteht jedoch mindestens ein wesentlicher Unterschied zur Zusammensetzung des apikomplexen Transitpeptids, nämlich das Vorhandensein einer hochkonservierten aromatischen Aminosäure an Position +1 der TP, die für den Import von Plastidenproteinen entscheidend ist [5, 15, 17] . Die TPs von Apicomplexa sind nicht so stark vom Phenylalanin abhängig wie Kieselalgen und Kryptophyten [18].

Um weitere Merkmale in sekundären Transitpeptid-ähnlichen Regionen zu untersuchen, untersuchten wir umfassend die Diatomeen Phaeodactylum tricornutum das Targeting-Verhalten von GFP, fusioniert an das BTS des Fucoxanthin-Chlorophyll-a/c-bindenden Proteins D (FcpD) mit Modifikationen in der Transitpeptid-ähnlichen Region. P. tricornutum ist das geeignetste System für solche Studien, da - im Gegensatz zu apikomplexen Parasiten wie Plasmodium falciparum - Zwischenprodukte, die entweder über eine der vier umgebenden Membranen nur in das Chloroplasten-ER (cER) oder über zwei in das Periplastid-Kompartiment (PPC) transportiert werden (Abbildung 1) [1], können leicht überwacht und vom abgeschlossenen Import unterschieden werden (über alle vier Hüllmembranen). Unsere Studien haben bestätigt, dass (ich) ist eine positive Nettoladung entscheidend für den Proteintransport durch die innersten zwei Plastidenmembranen (im Fall einer aromatischen Aminosäure an der +1-Position des TP), während der Transport durch die zweitäußerste Membran offensichtlich nicht auf diese Weise geregelt wird. Hier behindern negative Ladungen einen Membrandurchgang. Außerdem zeigen wir, dass (ii) kann der N-Terminus des reifen Proteins zu den funktionellen Notwendigkeiten der Transitpeptid-ähnlichen Sequenz beitragen. Somit können unsere Ergebnisse zusätzlich darauf hinweisen, wie sich Transitpeptid-ähnliche Regionen im Laufe der Evolution entwickelt haben.

Schematische Darstellung der Plastidenarchitektur von P. tricornutum. Das komplexe Plastid ist von vier Membranen (von außen nach innen gezählt) umgeben, wobei die äußerste mit dem endoplasmatischen Retikulum verbunden ist. Der cER ist mit Ribosomen besetzt, die den kotranslationalen Import von Plastidenvorläufern durch die 1. Membran in das ER-Lumen erleichtern. Die Kandidaten für Translokone der nachfolgenden Membranen (nicht gezeigt) von sekundären Plastiden mit Rotalgen-Vorfahren wurden kürzlich aufgeklärt [siehe 30, 31, 32, 33, 38, 40, 41, 42]. cER, Chloroplasten-Endoplasmatisches Retikulum PPC, Periplastid-Kompartiment IMS, Intermembranraum.


MATERIALEN UND METHODEN

Trainings- und Testsets

Olof Emanuelsson (Stockholm Bioinformatics Center) lieferte den ChloroP-Datensatz mit 150 Sequenzen (3), den wir zufällig in 20 Paare von Trainings- und Validierungssätzen aufgeteilt haben, um die Parameter unserer Methode einzustellen. Trainingssätze bestanden aus 124 Sequenzen und Validierungssätze bestanden aus den verbleibenden 26 Sequenzen, wobei jeder Satz die gleiche Anzahl von klasseninternen (z. B. cTP) und klassenfremden Beispielen enthielt. Beachten Sie, dass wir uns bei der Verwendung des Ausdrucks „Testen von Validierungssätzen“ auf Tests beziehen, die auf einer Partition des Trainingssatzes durchgeführt werden. Für abschließende Tests haben wir das TargetP-Trainingsset heruntergeladen ( 5) und die bereits im ChloroP-Trainingsset enthaltenen Sequenzen mit den SWISS-PROT-Zugangsnummern entfernt. Das TargetP-Trainingsset bestand aus 371 mitochondrialen Transitpeptiden (mTP), 269 sekretorischen Signalpeptiden (SP), 48 „nuklearen“ (Nuc) und 87 „zystolischen“ (Cyt) Sequenzen, aus denen wir 17, 14, 9 . entfernten bzw. 10 Sequenzen. Die SP-, Nuc- und Cyt-Sequenzen stammten alle aus dem TargetP-„Pflanzenset“. Aus den 141 cTP-Sequenzen haben wir 28 redundante Sequenzen entfernt. Dies waren die einzigen Sequenzen, die entfernt wurden, und das verbleibende Testset enthält 113 In-Class- und 725 Out-of-Class-Sequenzen.

Kodierung eines Proteins

Für unsere PCLR-, logistischen Regressions- und neuronalen Netzmodelle beträgt die Eingabegröße 21. Die ersten 20 Eingaben bestehen aus Prozentsätzen der Aminosäurezusammensetzung in den ersten 55 Positionen der Proteinsequenz. Die 21. Eingabe ist ein Maß für die Varianz der Aminosäureverteilung des jeweiligen Proteins in den ersten 55 Positionen. Unsere Methoden schnitten bei den Validierungssets mit Sequenzlängen zwischen 45 und 60 ähnlich ab, aber letztendlich wurde für unsere Studie eine Länge von 55 gewählt, basierend auf Messungen der Summe der quadratischen Fehler (SSE).

Logistische Hauptkomponentenregression

Die Hauptkomponentenanalyse ist eine Methode zur Faktorisierung der Kolinearität aus Daten und zur Reduzierung der Dimensionalität für einen maschinellen Lernalgorithmus (6). Wir führten eine Hauptkomponentenanalyse und anschließende schrittweise logistische Regression für die ersten 12 Komponenten (geordnet nach abnehmender Eigenwertgröße) der Hauptkomponentenmatrix unter Verwendung des R-Statistikpakets (7) durch. Wir transformierten Testdaten in den Hauptkomponentenraum der Trainingsdaten, bevor wir Vorhersageergebnisse generierten.

Die logistische Regression macht immer Vorhersagen zwischen (0,1), aber wir benötigen einen Schwellenwert für die Klassifizierung. Basierend auf der Gesamtzahl korrekter Zählungen während des Tests des Validierungssatzes haben wir eine Entscheidungsschwelle von 0,42 für die Klassifizierung gewählt (z. Nachdem wir uns für eine Reihe von zu berücksichtigenden Hauptkomponenten und die Klassifizierungsschwelle entschieden hatten, trainierten wir PCLR mit dem gesamten ChloroP-Trainingsset. Der resultierende Prädiktor, Hauptkomponenten und Regressionskoeffizienten sind online unter http://apicoplast.cis.upenn.edu/pclr/ verfügbar.

Logistische Regression

Wir haben eine standardmäßige schrittweise logistische Regression zusätzlich zur schrittweisen logistischen Regression der Hauptkomponente versucht, um zu sehen, ob ein einfacheres Modell die gleiche Leistung erbringen würde. Im R-Paket haben wir den gleichen Input für die logistische Regression verwendet wie im PCLR-Fall. Beim Testen des Validierungssatzes wurde ein Entscheidungsschwellenwert von 0,40 ausgewählt und dann auf dem TargetP-Testsatz verwendet.

Neurales Netzwerk

Wir verwendeten NevProp4r1, ein standardmäßiges neuronales Feed-Forward-Netzwerk mit sigmoidalen versteckten Einheiten und einer sigmoidalen Ausgabeeinheit (http://www.scs.unr.edu/nevprop). Wir haben die gleichen Eingänge wie im oben beschriebenen PCLR-Fall verwendet. Die Anzahl der versteckten Einheiten wurde von 1 bis 12 variiert, wobei die Spitzenleistung bei 4 versteckten Einheiten auftrat und die Leistung kurz darauf abnahm. Ein Gewichtsabfall von 0,005 wurde basierend auf der Leistung des Validierungssatzes gewählt. Für das Training haben wir eine maximale Iteration von 700 ausgewählt und den Auto-Train-Schalter von NevProp verwendet, um einen guten Haltepunkt auszuwählen. Basierend auf der Leistung des Validierungssatzes (Gesamtzahl korrekt) haben wir eine Klassifizierungsschwelle von 0,59 gewählt.

Die neuronale Netzwerkarchitektur von ChloroP

Die ChloroP-Architektur wird in Emanuelsson . beschrieben et al. (3) zur Verdeutlichung und zu Vergleichszwecken ist jedoch eine kurze Beschreibung enthalten. ChloroP besteht aus zwei neuronalen Netzwerken, wobei die Ausgabe des ersten Netzwerks gegen eine Reihe verschiedener Eingaben in das zweite neuronale Netzwerk für eine endgültige Vorhersage eingespeist wird. Die Eingabe in das erste Netzwerk besteht aus einem gleitenden Fenster von 51 Aminosäuren aus den ersten 100 Positionen eines Proteins. Es gibt 100 geordnete Fenster pro Protein, und sie beginnen so, dass das erste Fenster aus den ersten 51 Aminosäuren der Proteinsequenz besteht. Das Verschieben des vorherigen Fensters um eine Stelle nach rechts bildet jedes nachfolgende Fenster. Da Fenster einen Bereich über Position 100 hinaus überlappen, werden „leere“ Aminosäuren in den Prädiktor eingespeist. 100 dieser Fenster speisen in die erste Schicht ein, und so werden 100 Vorhersagen gemacht.

Das erste Netzwerk besteht aus 1020 Eingabeeinheiten, 2 versteckten Einheiten und 1 Ausgabeeinheit. Die recht große Anzahl von Eingabeeinheiten ist das Ergebnis der Verwendung kategorialer Daten in einem neuronalen Netz. Es gibt 20 mögliche Attribute (Aminosäuren) in einer Position, also hat jede Position 20 Eingabeeinheiten. Nur eine dieser Einheiten ist eingeschaltet (gekennzeichnet mit „1.0“): die anderen 19 bleiben auf „0.0“. Somit erfordert ein Fenster von 51 Positionen 51 × 20 = 1020 Eingabeeinheiten. Verstärkt wird diese Explosion der Inputgröße durch die 100 Fenster pro Proteinsequenz, die in das Netzwerk der ersten Schicht einspeisen. Insgesamt sind 102 000 Eingaben in das First-Layer-Netzwerk erforderlich, um eine Vorhersage über ein einzelnes Protein zu treffen. Das Netzwerk der zweiten Schicht hat 100 Eingabeeinheiten, 10 versteckte Einheiten und 1 Ausgabeeinheit. Für beide Netzwerke werden sigmoidale Einheiten in versteckten und Ausgabeschichten verwendet.

Wir haben das ChloroP-Modell mit der über das Internet zugänglichen ChloroPv1.1-Version unter http://www.cbs.dtu.dk/services/ChloroP/ verglichen. Wir haben die Klassifizierungsschwelle 0,50 verwendet, wie von Emanuelsson vorgeschlagen et al. ( 3).


Materialen und Methoden

Die Identifizierung der homologen Phytoplasma-Sequenzen wurde mit der BLASTP-Software (Camacho et al., 2009) anhand der ‘non-redundant’-Datenbank (NCBI Resource Coordinators, 2018) mit Standardparametern auf der NCBI-Website durchgeführt. Für den SAP54-Datensatz wurden die Sequenzen aus der phyl-B-Gruppe von Iwabuchi et al. (2020) wurden ausgeschlossen, da sie nicht den phyllody-induzierenden Phänotyp zeigten, der bei anderen Mitgliedern beobachtet wurde, obwohl sie möglicherweise noch ein funktionelles Signalpeptid und noch zu entdeckende Funktionen aufweisen. Für Amp und Imp, die sehr variabel sein können, extrahierten wir zunächst aus Entwurfs- oder vollständigen Phytoplasma-Genomen die kodierenden Sequenzen zwischen groEL und nadE, und DNAD und PyrG bzw. Wir haben dann die übersetzten Sequenzen als BLASTP-Abfragen verwendet, um den vollständigen Datensatz von Amp- und Imp-homologen Sequenzen abzurufen. Um sicherzustellen, dass unser Datensatz so vollständig wie möglich war, wurde bei Genbank auch eine Stichwortsuche (𠇊ntigenic Membranprotein Phytoplasma” bzw. “imp”) durchgeführt und validierte Treffer aus beiden Strategien wurden zusammengeführt.


Schritte im sekretorischen Proteinproduktionsprozess, die durch Signalpeptide beeinflusst werden

Wie oben erwähnt, unterscheiden Signalpeptide exportierte Proteine ​​von Proteinen, die im Cytosol verbleiben. Signalpeptide vermitteln das Targeting und die Bindung von exportierten Vorläuferproteinen an die entsprechenden Proteintranslokasen in der zytoplasmatischen Membran [49]. Eine weitere wichtige Rolle von Sec-Signalpeptiden, die einen posttranslationalen Exportmodus vermitteln, besteht darin, die Faltung des angehängten reifen Proteinteils zu verlangsamen, um seine effiziente Interaktion mit posttranslational interagierenden Proteinen (wie SecB) zu ermöglichen und auf diese Weise zu helfen, die die jeweiligen Exportproteine ​​in ihrem exportkompetenten Staat [50, 51]. Darüber hinaus weisen die Genregionen für Sec-Signalpeptide einen starken Bias für nicht optimale Codons auf, ein Merkmal, das durch die Verlangsamung der Translationskinetik einen tiefgreifenden positiven Einfluss auf die Exporteffizienz und die Gesamtproduktivität des sekretorischen Produktionsprozesses hat [52] . Ersetzen der nicht optimalen Codons durch optimale Codons in den Genregionen für die Signalpeptide der Escherichia coli Maltose-bindendes Protein [53] oder β-Lactamase [54] führten zu einer geringeren Proteinproduktion, die in Stämmen, die in mehreren Proteasen defekt sind, oder bei niedrigeren Temperaturen teilweise erhöht werden konnte. Dies deutet darauf hin, dass die Verlangsamung der Translationsrate durch die seltenen Codons, die in Sec-Signalpeptiden vorhanden sind, von großer Bedeutung ist, um eine effiziente Interaktion der Exportproteine ​​mit den Komponenten der Exportmaschinerie zu gewährleisten und deren Abbau zu verhindern. Darüber hinaus wurde festgestellt, dass Sec-Signalpeptide auch als allosterische Aktivatoren der Sec-Translocase fungieren [55].

Neben diesen Schritten im sekretorischen Proteinproduktionsweg, die direkt die Effizienz und Kinetik bestimmen, mit der ein Protein an die zytoplasmatische Membran gerichtet und durch diese transloziert wird, haben Signalpeptide auch indirekt einen Einfluss auf den gesamten Produktionsprozess. Beispielsweise führt die Fusion verschiedener Signalpeptide an ein bestimmtes Zielprotein zu unterschiedlichen mRNA-Transkripten, die in ihrer Sekundärstruktur und/oder in ihrer Stabilität variieren können und dadurch die Menge der jeweiligen Vorläuferproteine, die synthetisiert [56, 57].


Ergebnisse

Wir haben die Leistung von Philius im Entwicklungsdatensatz mithilfe einer zehnfachen Kreuzvalidierung bewertet. Wir haben die Leistung des Modells sowie die Genauigkeit aller drei Arten von Konfidenzwerten gemessen. Bei Proteinen, die ein Signalpeptid enthalten, haben wir auch die Genauigkeit berücksichtigt, mit der die Spaltungsstelle lokalisiert wird.

Wir haben uns entschieden, unsere Methode mit Phobius zu vergleichen, weil es die einzige uns bekannte Methode ist, die gleichzeitig Signalpeptide und vollständige Transmembrantopologien vorhersagt. Mehrere Methoden wie MemBrain [29] und Proteus [30] sagen Transmembranhelices und Signalpeptide vorher, jedoch ohne topologische (innen/außen) Informationen. Der Webserver PONGO [31] liefert Vorhersagen von einzelnen Transmembrantopologie- und Signalpeptidprädiktoren, ohne die einzelnen Prädiktoren zu kombinieren.

Klassifizierung der Proteintypen

Zunächst bewerten wir, wie genau Philius die Klasse eines bestimmten Proteins als G, SP+G, TM oder SP+TM identifiziert. Tabelle 1 zeigt die Leistung von Phobius und Philius bei dieser Aufgabe unter Verwendung von Genauigkeit, Präzision, Sensitivität, Spezifität und dem Matthews-Korrelationskoeffizienten als Metriken. Beachten Sie, dass wir sie manchmal mit den anderen TM-Proteinen gruppieren, um aussagekräftigere Statistiken zu erhalten, da die SP+TM-Untergruppe nur aus 45 Beispielen besteht, also weniger als 2% der 2654 Proteine ​​in der Entwicklungsgruppe. Der größte Unterschied zwischen Philius und Phobius auf dieser Ebene liegt in der Präzision für die TM- und SP+TM-Kategorie, für die Philius 29 % weniger Fehlalarme als Phobius nennt. (Phobius findet 265 der 292 wahr-positiven Ergebnisse und ruft 82 der 2362 wahr-negativen Werte auf den gleichen Daten falsch auf, Philius findet 268 TPs und nennt 58 TNs falsch.) Insgesamt ist die Leistung der G- und SP+G-Teilmengen im Austausch leicht zurückgegangen für eine Verbesserung der TM-Untermenge, die von größtem Interesse ist. Beachten Sie, dass die Klassengrößen in diesem Datensatz verzerrt sind (48% SP+G, 41% G und 11% TM und SP+TM) und dass die Transmembranproteine ​​im Vergleich zu einem vollständigen Proteom in diesem Datensatz um einen Faktor . unterrepräsentiert sind von 2 bis 3.


Originaler Forschungsartikel

Obwohl Phytoplasmastudien immer noch durch das Fehlen axenischer Kultivierungsmethoden behindert werden, ermöglichte die Verfügbarkeit von Genomsequenzen dramatische Fortschritte bei der Charakterisierung der Virulenzmechanismen, die von Phytoplasmen eingesetzt werden, und hob den Nachweis von Signalpeptiden als entscheidenden Schritt zur Identifizierung von Effektoren hervor, die von Phytoplasmen sezerniert werden . Es wurden jedoch verschiedene Signalpeptidvorhersageverfahren verwendet, um Phytoplasma-Genome zu minen, und eine allgemeine Bewertung dieser Verfahren ist bisher für Phytoplasma-Sequenzen nicht verfügbar. In dieser Arbeit haben wir die Vorhersageleistung der SignalP-Versionen 3.0, 4.0, 4.1, 5.0 und Phobius an mehreren Sequenzdatensätzen verglichen, die aus allen hinterlegten Phytoplasma-Sequenzen stammen. SignalP 4.1 mit spezifischen Parametern zeigte die umfassendste und konsistenteste Vorhersagefähigkeit. Die Konfiguration von SignalP 4.1 für eine erhöhte Sensitivität induzierte jedoch eine viel höhere Rate an falsch positiven Ergebnissen auf Transmembrandomänen, die sich am N-Terminus befinden. Darüber hinaus könnten aufgrund der Verwandtschaft zwischen Signalpeptiden und Transmembranregionen empfindliche Signalpeptidvorhersagen ähnlich durch die Transmembrandomänenvorhersagefähigkeit von TMHMM und Phobius erreicht werden. Über die hier vorgestellten Ergebnisse hinaus bilden die in dieser Studie zusammengestellten Datensätze einen wertvollen Maßstab, um Signalpeptidprädiktoren in einem Gebiet zu vergleichen und zu bewerten, in dem experimentelle Nachweise für eine Sekretion selten sind. Darüber hinaus veranschaulicht diese Studie den Nutzen vergleichender Genomik, um das Vertrauen in bioinformatische Vorhersagen zu stärken.


Materialen und Methoden

Zellkultur, mRNA-Verarbeitung und Bibliotheksaufbau

Die Zellen wurden bei 25 °C mit einem 16-stündigen Licht- und 8-stündigen Dunkelzyklus in Tropic Marin PRO-REEF (Tropic Marin, Deutschland), ergänzt mit f/2 AlgaBoost (AusAqua, Australien), gezüchtet. Zellen von 800 ml Kultur (ca. 5 × 10 5 Zellen/ml) von drei verschiedenen Zeitpunkten (alle 8 h beginnend 1 h vor dem Einschalten des Lichts) wurden durch Zentrifugation bei 3000 × g für 20 min geerntet. Die RNA dieser drei Proben wurde separat mit TRIzol (Invitrogen, Deutschland) nach dem Herstellerprotokoll mit der folgenden Modifikation isoliert: Das Zellpellet wurde in Gegenwart von flüssigem Stickstoff 5–10 min lang gemahlen, bevor TRIzol zugegeben wurde. Nach der RNA-Quantifizierung wurden die Proben gepoolt, so dass jeweils eine gleiche Menge vorhanden war, und auf Trockeneis zur weiteren Verarbeitung an GATC-Biotech (Deutschland) geschickt. Bei GATC wurde die RNA mit ihrem Standardprotokoll für „True-Full-Length cDNA“ amplifiziert und anschließend zusätzlich normalisiert, bevor 2 Millionen Reads auf einem Titanium GS FLX (Roche) sequenziert wurden. Das Trimmen der Adaptersequenzen, das primäre Clustering und die Assemblierung der Reads wurde von GATC-Biotech durchgeführt. Die Sequenzierung führte zu 2502269 Reads mit einer durchschnittlichen Länge von 239 Basen, die zu 29.856 Contigs zusammengesetzt wurden. Zusätzlich haben wir 2.854 . aufgenommen C. velia exprimierte Sequenz-Tags (ESTs) von GenBank (Benson et al. 2009). Mehrfachkopie-Proteine ​​wurden vereinigt und EST-Contigs, die kürzer als 100 nt waren, entfernt. Darüber hinaus treffen solche EST-Contigs mit BlastN auf das plastidale Genom von C. velia (e Wert Cutoff 10 − 10 , heruntergeladen von RefSeq, Pruitt et al. 2007) oder der Rfam-Datenbank (Gardner et al. 2009) wurden gelöscht, um Reste von Chloroplasten-kodierten Transkripten und nichtkodierenden RNA-Familien zu entfernen. Alle Sequenzen wurden unter JO786643–JO814452 hinterlegt.

Vorbereitung der Datenbank

Die Proteindatenbanksequenzen wurden entweder von EuPathDB (Aurrecoechea et al. 2007) RefSeq oder im Fall von Cyanidioschyzon merolae (Matsuzakiet al. 2004), Ectocarpus siliculosus (Cock et al. 2010) und Emiliania Huxleyi (http://genome.jgi-psf.org/Emihu1/Emihu1.download.ftp.html) von den entsprechenden Genomprojekt-Homepages. Aus den heruntergeladenen Dateien haben wir C-terminale Stoppcodons entfernt und Selenocysteine ​​durch Xs ersetzt. In Fällen, in denen keine ausreichende Anzahl von Proteinsequenzen verfügbar war, wurden stattdessen oder zusätzlich EST-Contigs verwendet. Zu diesem Zweck haben wir eine EST-contig-Datenbank erstellt, indem wir ESTs für alle Linien mit >1.000 Einträgen von der GenBank heruntergeladen haben, mit Ausnahme der Galdieria ESTs, die von der . heruntergeladen wurden Galdieria sulphuraria Genomprojekt-Homepage (Weber et al. 2004). Weitere Informationen und eine Liste der Organismen finden Sie in den Zusatzinformationen ( Supplementary Material online). Die EST-Contigs wurden nach dem unten beschriebenen Verfahren in Proteine ​​übersetzt und mit der Proteindatenbank zusammengeführt.

Chromera EST-Contigs wurden ähnlich dem in Min et al. (2005). Die EST-Sequenzen wurden gesprengt (BlastX Altschul et al. 1997), wobei e Wertschwelle ≤ 1 × 10 − 5 an die Proteindatenbank und SwissProt Datenbank ( Boeckmann et al. 2003). Für Sequenzen mit Blast-Hits übersetzten wir die EST-Contigs mit dem Leserahmen des besten Blast-Hits (BBH). Sequenzen, denen ein Blast-Hit fehlte, wurden de novo vorhergesagt, indem nach dem offenen Leserahmen (ORF) gesucht wurde, der das längste Polypeptid ergab (sowohl unter Verwendung von Sense als auch Antisense). In ORFs, denen ein N-terminales Methionin fehlt, wurde das erste Codon im EST-Contig in die erste Aminosäure übersetzt. Wenn ein C-terminales STOP-Codon fehlte, wurde das letzte Codon im EST-Contig in die letzte Aminosäure übersetzt. Übersetzte EST-Contigs von C. velia wurden durch CDHIT (Weizhong und Godzik 2006) mit einer 95-%-Aminosäuresequenzidentität als Schwellenwert zu verwandten nahezu identischen EST-Contigs geclustert, wobei der langsame Modus verwendet wurde (–g 1). Für die verbleibenden EST-Contigs wurde eine Suche nach reziproken BBH (rBBH Tatusov et al. 1997) mit einem e ein Wert-Cutoff von <1 × 10 – 10 wurde gegen den Protein/EST-Datensatz jeder Art/Gattung durchgeführt. Bei mehreren BBH mit identischen e Werte wurden alle Treffer beibehalten. In diesem Fall wurde der rBBH-Ansatz verwendet, um redundante Treffer innerhalb der ESTs desselben Gens zu reduzieren. Paarweise Ausrichtungen von Chromera EST-Contigs und ihr rBBH wurden mit dem Needleman- und Wunsch-Alignment-Algorithmus ( Needleman und Wunsch 1970) unter Verwendung von Needle (EMBOSS Rice et al. 2000) rekonstruiert. Paare mit einer globalen Aminosäureidentität von 25% (ohne externe Lückenpositionen) wurden für die weitere Analyse zurückbehalten. Bei mehreren gleichartigen Treffern pro Treffer Chromera EST-contig oder pro ein Protein innerhalb der Chromera EST-Contigs, das rBBH mit der höchsten globalen Ähnlichkeit, wurde verwendet. Cluster von homologen Proteinen wurden konstruiert für Chromera EST-Contigs und ihre Homologen in allen Artendatensätzen. Ein Ausschluss von 359 Clustern, die nur EST-Contigs enthielten, ergab insgesamt 3.151 Cluster.

Phylogenetische Bäume und Splits-Netzwerke

Um phylogenetische Bäume zu rekonstruieren, müssen alle „nicht chromalveolaten“ Sequenzen mit Ausnahme einer Fremdgruppe (diejenige, die die höhere Sequenzähnlichkeit zu den Chromera EST-Contigs) wurden aus den Clustern ausgeschlossen. Cluster mit <4 verbleibenden Mitgliedern wurden weggelassen. Insgesamt wurden 3.151 Cluster homologer Proteine ​​durch MAFFT (Katoh und Toh 2008) unter Verwendung der Standardparameter abgeglichen. Die Qualität der Mehrfachausrichtung wurde mit Hilfe von Guidance bewertet (Penn et al. 2010). Lückenhafte Ausrichtungspositionen wurden entfernt und 86 kurze Ausrichtungen (<10 Positionen) wurden von der weiteren Analyse ausgeschlossen. Phylogenetische Bäume wurden aus 2.258 multiplen Sequenz-Alignments mit PhyML (Guindon und Gascuel 2003) unter Verwendung des Best-Fit-Modells, wie von ProtTest 3 ( Darriba et al. 2011) abgeleitet, unter Verwendung des Akaike-Informationskriteriums ( Akaike 1974) rekonstruiert. Für die Rekonstruktion eines Splits-Netzwerks wurden alle Splits innerhalb der phylogenetischen Bäume mit einem Perl-Skript extrahiert und in ein binäres Muster mit 37 Ziffern umgewandelt. Wenn die Aufteilung ein Taxon enthielt ich dann Ziffer xich im entsprechenden Muster auf „1“ gesetzt, ansonsten auf „0“. Taxa, die in einem Baum fehlten, wurden mit einem „?“ gekennzeichnet. Die resultierenden Muster wurden mit SplitsTree in einem Splits-Netzwerk zusammengefasst (Huson und Bryant 2006).

Finden Chromera Sequenzen grünen oder roten Ursprungs wurden nur 1.174 Cluster mit Proteinen aus Rhodophyta und Chloroplastida verwendet. Alle Nonrhodophyta- und Nonchloroplastida-Sequenzen wurden aus den Clustern entfernt, außer denen von Chromera. Als Fremdgruppe für jeden Baum ist die BBH to C. velia verwendet wurde, die nicht zu Rhodophyta, Chloroplastida, einem translatierten EST-Contig oder anderen Organismen mit einer Rotalge als sekundärem Endosymbiont gehörten. Phylogenetische Bäume wurden aus den resultierenden Alignments (mit ≥ 50 Positionen) unter Verwendung der gleichen oben beschriebenen Methodik rekonstruiert, was insgesamt 813 Bäume mit einer Fremdgruppe ergab. Der nächste Nachbar zu Chromera innerhalb jedes Baumes wurde durch die Suche nach der kleinsten Klade bestimmt, die enthielt C. velia und entweder nur Rhodophyta (rotes Signal) oder Chloroplastida (grünes Signal) und schloss die Fremdgruppe nicht ein. Zur Bestimmung der Position von C. velia in den Bäumen als Schwestergruppe oder innerhalb der roten oder grünen Kladen, haben wir die Bäume durch die Außengruppen verwurzelt und mit dem Newick Utilities-Paket nach den zweitnächsten Nachbarn gesucht ( Junier und Zdobnov 2010). Die Extraktion der längsten Zweige, um die Anziehungskraft der langen Zweige zu beurteilen, wurde mit dem gleichen Paket durchgeführt. Weitere zwei geteilte Netzwerke wurden aus Bäumen rekonstruiert, die in Rot oder Grün als nächster Nachbar sortiert waren, wobei eine zusammengesetzte Fremdgruppe verwendet wurde, unabhängig von der Fremdgruppenidentität in jedem einzelnen Baum.

Fehlen/Gegenwart von Homologen in anderen Arten

Neben dem rBBH-Ansatz sind Homologe zu Chromera EST-Contigs innerhalb jeder Art wurden durch Sprengen der Cluster identifiziert Chromera EST-Contigs gegen den Artendatensatz. BBHs mit an e Wert ≤ 1 × 10 −10 wurden mit ihrem Chromera Homolog unter Verwendung von Needle (EMBOSS Rice et al. 2000). Globale paarweise Alignments, die nach Entfernung von externen Lückenpositionen zu ~25% Aminosäureidentität führten, wurden als gegenwärtiges Homolog klassifiziert. Die in 2 dargestellten globalen Aminosäureidentitäten wurden aus den paarweisen Alignments extrahiert. Die Cluster, die entlang der angezeigt werden ja Achsen werden wie folgt sortiert: 1) alle Cluster, die für den Stamm der Apikomplexe spezifisch sind, 2) Cluster aller Mitglieder, 3) Cluster, die außer C. velia, haben Mitglieder außerhalb von apicomplexa. Innerhalb der drei Kategorien wurden die Cluster nach aufsteigender Zahl vorhandener Homologe innerhalb der Apicomplexa und absteigender Zahl vorhandener Homologer innerhalb der Nicht-Apicomplexa sortiert.

Sequenzlogo der BTS von nuklearkodierten Plastidenproteinen. Das Logo wurde basierend auf 255 Sequenzen kuratiert, die ein N-terminales Signalpeptid gefolgt von einem Transitpeptid kodieren. Die –20/+20-Positionen relativ zur Spaltstelle (roter Pfeil) zwischen den beiden Teilen des BTS sind gezeigt. Sekretorische und plastidäre Proteine ​​kodieren beide für ein fast identisches Signalpeptid, aber nur im letzteren Fall folgt ein Transitpeptid. Der N-terminale Teil des Transitpeptids ist mit Serinresten und das C-terminale Ende mit positiv geladenen Argininresten angereichert.

Sequenzlogo der BTS von nuklearkodierten Plastidenproteinen. Das Logo wurde basierend auf 255 Sequenzen kuratiert, die ein N-terminales Signalpeptid gefolgt von einem Transitpeptid kodieren. Die –20/+20-Positionen relativ zur Spaltstelle (roter Pfeil) zwischen den beiden Teilen des BTS sind gezeigt. Sekretorische und plastidäre Proteine ​​kodieren beide für ein fast identisches Signalpeptid, aber nur im letzteren Fall folgt ein Transitpeptid. Der N-terminale Teil des Transitpeptids ist mit Serinresten und das C-terminale Ende mit positiv geladenen Argininresten angereichert.

Anwesenheits-/Abwesenheitsmuster und Identität des nuklear-kodierten Chromera velia ESTs im Vergleich zu 34 Organismen. (EIN) Die 3.151 Sequenzen sind nach ihrer Spezifität und Häufigkeit zu anderen Apicomplexa-Sequenzen sortiert. Einhunderteinundfünfzig Sequenzen haben Homologe nur in Apicomplexa, während 1316 Sequenzen Homologe nur in anderen Organismen als Apicomplexa aufwiesen. Beachten Sie, dass außerhalb der Apicomplexa, C. velia teilt die höchste Gesamtidentität mit Perkinsus marinus. In (B), die potenzielle Menge an Proteinen, die in den für die Analyse verwendeten Genomen kodiert sind.

Anwesenheits-/Abwesenheitsmuster und Identität des nuklear-kodierten Chromera velia ESTs im Vergleich zu 34 Organismen. (EIN) Die 3.151 Sequenzen sind nach ihrer Spezifität und Häufigkeit zu anderen Apicomplexa-Sequenzen sortiert. Einhunderteinundfünfzig Sequenzen haben Homologe nur in Apicomplexa, während 1316 Sequenzen Homologe nur in anderen Organismen als Apicomplexa aufwiesen. Beachten Sie, dass außerhalb der Apicomplexa, C. velia teilt die höchste Gesamtidentität mit Perkinsus marinus. In (B), die potenzielle Menge an Proteinen, die in den für die Analyse verwendeten Genomen kodiert sind.

Vorhersage von plastidalen und sekretorischen Proteinen

Für die Vorhersage eines Signalpeptids wurden nur EST-Contigs verwendet, die in ein Protein übersetzt wurden, das mit einem Methionin begann. SignalP V3.0 (Emanuelsson et al. 2007) wurde verwendet, um Sequenzen mit potentiellen plastidalen Signalpeptiden zu finden. Chromera Sequenzen mit Homologen (siehe „Datenbankvorbereitung“), die als Plastiden-Targeting annotiert wurden, wurden ebenfalls als Plastidenproteine ​​klassifiziert. All 657 detected sequences were then manually inspected, and an analysis including BlastP, SignalP, and TargetP ( Emanuelsson et al. 2007) was used to determine the cleavage sites and distinguish plastidal from other secretory proteins. A sequence logo of the targeting signal was created using Weblogo ( Crooks et al. 2004) from positions −20 to +20 in respect to the predicted cleavage site.

Annotation of Sequences

KEGG annotations were determined by using KAAS ( Moriya et al. 2007) using translated Chromera sequences as query against the KEGG maps of 27 eukaryotes including (for the complete species name, see http://www.genome.ad.jp/tools/kaas/): hsa, dme, cel, ath, osa, olu, cme, sce, ddi, ehi, pfa, pyo, pkn, tan, tpv, bbo, cpv, cho, tgo, tet, ptm, tbr, tcr, lma, tva, pti, and tps. Protein functional categories were summarized as follows: KOs were mapped to the corresponding annotations obtained from KEGG FTP Server (http://www.genome.jp/kegg/download/). The main categories “Cellular Processes” and “Environmental Information Processing” were merged into “Cellular Processing and Signaling.” Proteins in the “Unclassified, poorly characterized” category were classified as “Unclassified.” All other “Unclassified” categories were added to subcategory “Other” of the corresponding main classification. Genes potentially associated with photosynthetic were identified by searching for the KEGG categories “Photosynthesis” and “Photosynthetic.”


Prediction of signal peptides and signal anchors by a hidden Markov model.

  • APA
  • Autor
  • BIBTEX
  • Harvard
  • Standard
  • RIS
  • Vancouver

ISMB-98 Proceedings. vol. 6 AAAI Press, 1998. p. 122-130 (International Conference on Intelligent Systems for Molecular Biology. Proceedings).

Research output : Chapter in Book/Report/Conference proceeding › Article in proceedings › Research › peer-review

T1 - Prediction of signal peptides and signal anchors by a hidden Markov model.

AU - Krogh, Anders Stærmose

N2 - A hidden Markov model of signal peptides has been developed. It contains submodels for the N-terminal part, the hydrophobic region, and the region around the cleavage site. For known signal peptides, the model can be used to assign objective boundaries between these three regions. Applied to our data, the length distributions for the three regions are significantly different from expectations. For instance, the assigned hydrophobic region is between 8 and 12 residues long in almost all eukaryotic signal peptides. This analysis also makes obvious the difference between eukaryotes, Gram-positive bacteria, and Gram-negative bacteria. The model can be used to predict the location of the cleavage site, which it finds correctly in nearly 70% of signal peptides in a cross-validated test--almost the same accuracy as the best previous method. One of the problems for existing prediction methods is the poor discrimination between signal peptides and uncleaved signal anchors, but this is substantially improved by the hidden Markov model when expanding it with a very simple signal anchor model.

AB - A hidden Markov model of signal peptides has been developed. It contains submodels for the N-terminal part, the hydrophobic region, and the region around the cleavage site. For known signal peptides, the model can be used to assign objective boundaries between these three regions. Applied to our data, the length distributions for the three regions are significantly different from expectations. For instance, the assigned hydrophobic region is between 8 and 12 residues long in almost all eukaryotic signal peptides. This analysis also makes obvious the difference between eukaryotes, Gram-positive bacteria, and Gram-negative bacteria. The model can be used to predict the location of the cleavage site, which it finds correctly in nearly 70% of signal peptides in a cross-validated test--almost the same accuracy as the best previous method. One of the problems for existing prediction methods is the poor discrimination between signal peptides and uncleaved signal anchors, but this is substantially improved by the hidden Markov model when expanding it with a very simple signal anchor model.

KW - artificial intelligence

KW - artificial neural network

KW - Artificial Intelligence

KW - Neural Networks (Computer)

KW - Protein Sorting Signals

M3 - Article in proceedings

T3 - International Conference on Intelligent Systems for Molecular Biology. Verfahren


Schau das Video: Signalsequenzen einfach erklärtBiologie Lernvideo Learning Level Up (Juli 2022).


Bemerkungen:

  1. Ashlin

    Du hast geraten...

  2. Burney

    die Ausnahme))))

  3. Jeanina

    Was sind die richtigen Worte ... Super, brillanter Satz

  4. Stoc

    Ich empfehle Ihnen, eine Website zu besuchen, auf der es viele Informationen zu einem Thema gibt, das Sie interessiert.



Eine Nachricht schreiben