Information

Hauptmethoden zur Vorhersage funktionaler Annotationen in GO

Hauptmethoden zur Vorhersage funktionaler Annotationen in GO


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Kann mir jemand Informationen über die Hauptmethode geben, die verwendet wird, um die abgeleitete elektronische Anmerkungen in der Genontologie?


Ich glaube, die häufigste Quelle für elektronische Annotationen ist die Analyse von Peptidsequenzen. Eine Sammlung von InterPro-zu-GO-Zuordnungen wurde manuell erstellt und kann GO-Anmerkungen generieren. DNA-bindende Domänen von Transkriptionsfaktoren würden "DNA-bindende" GO-Anmerkungen erhalten.

Diese Methode hat ihre Fehler - wenn sich die erkannte Domäne von der Funktion entfernt hat, die für die Interpro-to-GO-Auflistung verwendet wird, besteht bei dieser Methode ein Fehlerpotential.


Sie können die vom GO-Konsortium verwaltete IEA-Dokumentation einsehen, um sich ein Bild von den automatisch zugewiesenen Beweiscodes mit IEA zu machen. Bitte beachten Sie auch, dass sich IEA von Evidenzcodes für Computeranalysen unterscheidet

  • ISS: Abgeleitet aus Sequenz oder struktureller Ähnlichkeit
  • ISO: Abgeleitet aus der Sequenzorthologie
  • ISA: Abgeleitet von der Sequenzausrichtung
  • ISM: Abgeleitet aus dem Sequenzmodell
  • IGC: Abgeleitet aus dem genomischen Kontext
  • IBA: Abgeleitet vom biologischen Aspekt des Vorfahren
  • CED: Abgeleitet vom biologischen Aspekt der Nachkommen
  • IKR: Abgeleitet aus Schlüsselrückständen
  • IRD: Abgeleitet von der schnellen Divergenz
  • RCA: abgeleitet aus Reviewed Computational Analysis

Vorhersage der Proteinfunktion und Annotation komplexer Signalwege mit maschinellem Lernen

Proteine ​​sind die wichtigsten Arbeitseinheiten der Biologie. Die Identifizierung und das Verständnis der Funktionsweise von Proteinen ist für Biologen von entscheidender Bedeutung, um die komplexen Wechselwirkungen und Systeme zu lösen, die zelluläre Prozesse antreiben. Obwohl die Proteinfunktion letztendlich von Hand im Nasslabor validiert werden muss, benötigen Forscher zunächst eine Hypothese, um Assays zu entwerfen, die dann die wahrscheinliche Funktion eines Proteins definieren können.

Bioinformatik zur Vorhersage der Proteinfunktion
Biologen können solche Hypothesen zur Genfunktion mit Computern erstellen. Da die Genomsequenzierung in experimentellen Laboratorien zur Routine wird, hat auch die computergestützte Vorhersage der Genfunktion zunehmend an Bedeutung gewonnen. Computergestützte Verfahren sind für die Funktionsvorhersage sehr geeignet, da aus einer Datenbanksuche, die Ähnlichkeiten zwischen dem Gen und bekannten Proteinen oder experimentellen Daten identifiziert, Funktionsinformationen eines Gens abgeleitet werden können. Sequenzähnlichkeitstools wie das Basic Local Alignment Search Tool (BLAST) sind eine solche Methode, die alle zuvor aufgezeichneten Sequenzen durchsucht und eine bewertete Liste möglicher Rollen dafür vorschlägt.

Probleme mit bisherigen Berechnungsmethoden
Allerdings können bestehende bioinformatische Werkzeuge die Proteinfunktion nicht immer genau vorhersagen und führen oft dazu, dass Proteine ​​innerhalb eines biologischen Systems falsch annotiert werden. Herkömmliche Werkzeuge zur Vorhersage der Proteinfunktion wie BLAST sind normalerweise zuverlässig, wenn eine hohe Sequenzähnlichkeit festgestellt wird, aber ihre Genauigkeit nimmt bei Sequenzen mit geringeren Ähnlichkeiten schnell ab. Beispielsweise unterscheiden sich Enzymfunktionen immens, wenn Ähnlichkeitsbewertungen unter ein bestimmtes Niveau fallen. Darüber hinaus kommen in vielen Fällen traditionelle Methoden keine Funktion an, wenn keine sehr ähnlichen Sequenzen gefunden werden, so dass viele Gene nicht annotiert werden. Darüber hinaus könnten andere Metriken wie Ähnlichkeit in der dreidimensionalen Struktur, Genexpression oder Interaktionsdaten verwendet werden. Jede dieser Metriken fehlt jedoch häufig für viele untersuchte Proteine ​​und ist daher in zuverlässiger Forschung nur begrenzt anwendbar.

Neue Werkzeuge für bessere Genauigkeit
Kürzlich wurden mehrere neue Proteinannotationsmethoden entwickelt, um die Vorhersagegenauigkeit insgesamt zu verbessern. Einer dieser Entwickler ist Dr. Daisuke Kihara von der Purdue University, der Methoden zur Funktionsvorhersage mit neuen logischen Frameworks entwickelt. Im Jahr 2009 entwickelte sein Team einen automatisierten Vorhersagealgorithmus, die sogenannte Extended Similarity Group (ESG)-Methode, die ein kontinuierliches Vergleichssystem anstelle einer einzelnen Suche durchführt. Von jeder Sequenz, die bei der ersten Anfrage gefunden wurde, führt der ESG-Algorithmus eine zweite Suche durch die Datenbank durch. Durch die Kombination der Ergebnisse dieser mehrstufigen Taktik verbessert die ESG-Methode die funktionale Bewertung für Abfrageproteine ​​erheblich und übertrifft frühere Funktionsvorhersagealgorithmen.

Doch das Team hörte hier nicht auf. In einem Papier aus dem Jahr 2019 kombinierten sie phylogenetische Baumkonstruktionswerkzeuge mit traditioneller sequenzbasierter Vorhersage, der sogenannten Phylo-PFP-Methode. Sie bestätigten zunächst, dass enge Ähnlichkeiten von Proteinsequenzen nicht mit den Abständen der Proteine ​​in einem phylogenetischen Baum übereinstimmen. Durch Hinzufügen dieser Distanzen zum Sequenzhomologie-Score wurden die Proteinabfrageränge zuverlässiger und sie konnten genauer mit ihrer Genquelle verknüpft werden. Es überrascht nicht, dass die in der Studie etablierte Phylo-PFP die Genauigkeit der Funktionsvorhersage gegenüber bestehenden Methoden signifikant verbesserte.

Annotation der Proteingruppenfunktion
Die Annotation von Proteinfunktionen wird normalerweise nach einem Ein-Protein-Ein-Funktion-Ansatz durchgeführt, doch kann diese Denkweise das Universum der Proteinfunktionen stark vereinfachen. Tatsächlich finden die meisten Experimente Dutzende von interagierenden Proteinen, die mit einem einzigen biologischen Ereignis zusammenhängen. Um die Rolle eines ganzen Proteinsets zu verstehen, sollte seine Funktion aus der Gruppe als Ganzes bestimmt werden, auch wenn die Funktion jedes einzelnen Proteins unbekannt ist. Dies ist keine einfache Aufgabe.

Dr. Daisuke Kihara von der Purdue University entwickelt Methoden zur Funktionsvorhersage mit neuen logischen Frameworks.

Daher konzentrierte sich das Team von Dr. Kihara auf einen neuen rechnerischen Ansatz zur Annotation der Funktionen von Proteingruppen. Im Jahr 2019 schlugen sie eine iterative Group Function Prediction (iGFP)-Methode vor, die im Kern ein völlig neues logisches Framework enthält. Der iGFP-Algorithmus betrachtet eine Reihe von Proteinen als Input und sagt die Rolle der Funktion der gesamten Gruppe sowie ihrer einzelnen Mitglieder voraus. Der iGFP-Algorithmus mischt Sequenzdaten aus mehreren Quellen und baut ein komplementäres Netzwerk auf. Das Verfahren trennt die Proteine ​​dann in Cluster mit funktioneller Relevanz und vergleicht sie anhand von Funktions- und Interaktionsbeziehungen.

Der iGFP-Algorithmus weist Proteingruppen und einzelnen Proteinen in den Gruppen iterativ Funktionen zu.

Darüber hinaus geht das System automatisch davon aus, dass einige Proteine ​​unbekannt sind und verwendet eine Reihe anderer Vergleichsmerkmale, um eine genaue Vorhersage zu treffen. Während dieses Scans berücksichtigt der Algorithmus Protein-Protein-Interaktionen, phylogenetische Profilähnlichkeit, Gen-Koexpression, großräumige Signalweg-Ähnlichkeit und Genontologie-Ähnlichkeit. Diese Art der umfassenden Gruppenfunktionsvorhersage könnte eine insgesamt verbesserte Reflexion der realen Mechanismen sein, die beispielsweise in Entwicklungs- oder Krankheitspfaden am Werk sind.

Proteine ​​mit mehreren Funktionen identifizieren
Neben der Analyse von Proteingruppen hat das Kihara-Team mit der Untersuchung multifunktionaler Proteine ​​einen weiteren Schritt vom Ein-Protein-Ein-Funktion-Schema entfernt. Die meisten bioinformatischen Werkzeuge berücksichtigen nicht, dass Proteine, insbesondere Enzyme, multifunktional sein können. Das Kihara-Labor hat sich daher zum Ziel gesetzt, vorherzusagen, ob ein Abfrageprotein ein Moonlighting-Protein ist – eines, das mehrere autonome und oft nicht miteinander verbundene Funktionen hat. Diese Proteine ​​sind schwer zu annotieren, da ihre Funktionen weder genom- oder proteinfamilienspezifisch sind noch mit anderen Indikatoren wie einem gemeinsamen Schaltmechanismus verbunden sind. Dennoch spielen diese Proteine ​​eine Schlüsselrolle bei zellulären Krankheitszuständen wie Krebs, und daher ist es wichtig, sie zu identifizieren.

Aashish Jain und Dr. Kihara diskutieren Funktionen, die einem Stoffwechselweg zugeordnet sind.

Um das Problem zu lösen, hat das Team von Dr. Kihara einen neuen systematischen Ansatz zur Untersuchung von Mondscheinproteinen entwickelt. Im Jahr 2016 schlug das Team ein automatisiertes Vorhersage-Framework vor, das mehrere nicht sequenzbasierte Daten verwendet, um Moonlighting-Proteine ​​zu identifizieren. Sie verwendeten Klassifikatoren für maschinelles Lernen, um multifunktionale Proteine ​​vorherzusagen, und validierten die Ergebnisse anschließend mit vorhandenen Datenbanken. Das Team von Dr. Kihara konnte Mondscheinproteine ​​vorhersagen, die frühere Gensequenzdaten mit einer Genauigkeit von 98% hatten. Auch wenn keine Sequenzdaten verfügbar waren, zeigte das System eine beeindruckende Genauigkeit von 75 %.

Der iGFP-Algorithmus betrachtet eine Reihe von Proteinen als Input und sagt die Funktion der gesamten Gruppe sowie ihrer einzelnen Proteine ​​voraus.

Darüber hinaus nutzte das Team in einer Arbeit aus dem Jahr 2018 Deep Learning, um Moonlight-Proteine ​​aus zuvor veröffentlichter Literatur zu erschnüffeln. Ihr Text-Mining-Tool DextMP konnte anhand von Informationen aus Zeitschriftenpublikationen und Funktionsbeschreibungen aus Proteindatenbanken herausfinden, ob ein Protein mehrere Funktionen hat oder nicht. Mit systematischen Werkzeugen zur Literaturverarbeitung konnten die Forscher die Zeit für die Kommentierung von Mondscheinproteinen erheblich verkürzen und der Klärung des komplexen Zusammenspiels von Proteinen innerhalb der Zelle näher kommen.

Verbesserungen und Zukunftsprognosen
Die Computerbiologie braucht dringend neue Wege, um die wahre Natur biologischer Prozesse genau widerzuspiegeln. Das Team von Dr. Kihara hat innovative Schritte unternommen, um sich von einem traditionellen Ansatz mit einem Protein und einer Funktion zu lösen und Funktionen für ganze Proteingruppen zu identifizieren. Ihre Algorithmen übertreffen bisherige sequenzbasierte Methoden, indem sie mehrere Proteineigenschaften schichten und evolutionäre Beziehungen berücksichtigen, die bessere Indikatoren für gemeinsame Funktionen sein können als das einfache Aminosäurerückgrat. Darüber hinaus können die maschinellen Lernmethoden des Teams vorhersagen, ob ein Protein eine Doppelrolle erfüllt und ob solche Proteine ​​unwissentlich in der früheren Literatur beschrieben wurden.

Trotz dieser vielversprechenden Entwicklungen sind bioinformatische Vorhersagewerkzeuge nur so intelligent wie ihr Design, und es gibt noch einen Weg in Richtung einer vollständig automatisierten, KI-gesteuerten Forschung zur Annotation von Proteinfunktionen. Insgesamt schlägt das Team von Dr. Kihara vor, dass die Kombination früherer Methoden mit neuen Methoden aus Omics-Experimenten und Evolutionsdistanzanalysen die Genauigkeit der funktionalen Vorhersage in Zukunft weiter festigen wird.

Persönliche Antwort

Welche Rolle wird maschinelles Lernen bei der Vorhersage der Proteinfunktion und beim Verständnis biologischer Prozesse spielen?

Maschinelles Lernen spielt bereits eine große Rolle bei der Vorhersage der Proteinfunktion und allgemeiner in der Bioinformatik. Es ist besonders effektiv bei der Identifizierung subtiler Signaturen, die von Menschen in Eingabedaten leicht übersehen werden, einschließlich Proteinsequenzen, die für bestimmte Funktionen relevant sind. Es ist auch sehr gut geeignet, um viele verschiedene Arten von Daten zu integrieren, um Vorhersagen zu treffen.


1. Einleitung

1.1 Hintergrund

Gen-Annotationsdatenbanken erfassen das aktuelle biologische Wissen und ermöglichen es Forschern, die Ergebnisse biowissenschaftlicher Experimente zu interpretieren. Trotz ihrer unbestreitbaren Bedeutung bestehen immer noch erhebliche Probleme bezüglich der Annotationsdatenbanken. Ein Problem besteht darin, dass die Anmerkungsdatenbanken derzeit unvollständig sind. Für praktisch alle sequenzierten Organismen ist nur eine Teilmenge von Genen bekannt, und eine noch kleinere Teilmenge von Genen ist funktionell annotiert [28]. Wenn mehr Wissen angesammelt wird, werden solche Datenbanken nach und nach mit Genen und Anmerkungen versehen. Dies bedeutet, dass es zu jedem Zeitpunkt wahrscheinlich ist, dass eine Anmerkungsdatenbank nur eine Teilmenge aller Gene des gegebenen Organismus enthält, und sogar für die enthaltenen Gene ist möglicherweise nur eine Teilmenge ihrer Funktionen in der Datenbank vorhanden . Darüber hinaus werden die meisten Anmerkungen von Kuratoren eingeführt, die die Literatur manuell untersuchen. Dabei ist es möglich, dass bestimmte bestätigte Tatsachen, die in bestehenden Publikationen berichtet werden, übersehen werden [25]. Ein weiteres Problem entsteht durch die Art und Weise, wie diese Annotationen in der Struktur der Gene Ontology (GO) gespeichert werden. Es gibt zum Beispiel Gene, die für eine bestimmte molekulare Funktion annotiert sind, aber nicht für den entsprechenden biologischen Prozess. Dies ist kein Problem für einen Datenbankkurator oder einen Biowissenschaftler, der nach den Annotationen eines bestimmten Gens sucht, da ein Mensch leicht offensichtliche Extrapolationen vornehmen kann. Allerdings werden solche Datenbanken meistens nicht so verwendet. In einem typischeren Szenario versucht der Forscher, die Ergebnisse eines Hochdurchsatzexperiments mit einer Software zu interpretieren, die eine ontologische Analyse durchführt [11], [12], [24], [27], [26], [2 ], [4], [21], [35], [42], [43]. Eine solche Software fragt eine Anmerkungsdatenbank in jedem der drei Hauptzweige des GO-Graphen ab und berechnet eine statistische Signifikanz streng auf der Grundlage der abgerufenen Daten, ohne Extrapolationen vorzunehmen. Diese Art der Analyse kann die statistische Signifikanz der beteiligten Gene nicht korrekt berechnen, wenn sie nicht korrekt annotiert sind jede einzelne der drei GO-Kategorien. Wir sollten hier anmerken, dass, egal wie gründlich die Annotatoren sind, mit zunehmendem Wissen ständig neue Funktionen hinzugefügt und einige der älteren geändert oder aufgehoben werden. Aufgrund der intrinsischen Entwicklung wissenschaftlicher Erkenntnisse werden Genannotationen wahrscheinlich einen dynamischen Charakter behalten und daher in naher Zukunft wahrscheinlich nicht als vollständig angesehen werden.

Um einige dieser Probleme zu überwinden, haben wir zuvor eine Methode vorgeschlagen, mit der Gen-Funktions-Assoziationen gefunden werden können, die in den Annotationsdatenbanken nicht explizit vertreten sind [25]. Diese Technik verwendet einen Ansatz der latenten semantischen Indexierung (LSI) und wurde anhand der Annotationen des menschlichen Genoms demonstriert. Dieser erste Versuch verwendete eine binäre Darstellung der Beziehungen zwischen Genen und ihren funktionellen Anmerkungen. Die binäre Darstellung kann jedoch die hierarchischen Beziehungen zwischen verschiedenen Begriffen nicht richtig erfassen. Frühere Forschungen im Bereich Information Retrieval (IR) haben gezeigt, dass die Verwendung einer gewichteten Darstellung anstelle einer binären die Qualität von Retrieval-Operationen verbessern kann. Intuitiv versucht die IR-Begriffsgewichtung, zwei einfache Beobachtungen auszunutzen: 1) Begriffe, die in einem Dokument wiederholt vorkommen, sind besser geeignet, das Thema des Dokuments zu beschreiben als Begriffe, die selten verwendet werden, und 2) seltene Begriffe in der gesamten Dokumentensammlung sind bessere Unterscheidungsmerkmale zwischen Dokumenten als Begriffe, die in den meisten oder in allen Dokumenten vorkommen. Ähnliche Beziehungen könnten zwischen Genen und ihren Annotationen bestehen. Funktionen, die nur wenigen Genen zugeordnet sind, tragen mehr Informationen über die Gene und können diese besser unterscheiden. Umgekehrt beschreiben mehrere eng verwandte Funktionen, die mit einem bestimmten Gen verbunden sind, besser, was das Gen tatsächlich tut.

Dieser Artikel untersucht die Verwendung von Gewichtungsschemata des Vektorraummodells (VSM) im Kontext einer semantischen Analyse biologischer Annotationen. Die hier beschriebene Technik ist in der Lage, implizite Gen-Funktions-Beziehungen zu entdecken und sie Forschern und Datenbankkuratoren als neuartige Annotationen anzubieten. Wir präsentieren die Ergebnisse, die mit mehreren Gewichtungsschemata zu den in der Onto-Tools-Datenbank gespeicherten Annotationen des menschlichen Genoms [11], [24] erhalten wurden, die alle bekannten Annotationen des GO-Konsortiums enthalten.

1.2 Verwandte Arbeiten

Ein VSM [5], [6], [16] wurde zuvor verwendet, um Gene zu clustern, indem ein Vektorraum von Genen und MEDLINE-Abstracts von Veröffentlichungen erstellt wurden, in denen diese speziellen Gene diskutiert wurden [17]. Die Ähnlichkeit zwischen den Genen wurde durch Berechnen eines Abstands zwischen den Vektoren, die sie repräsentierten, bewertet. Es zeigte sich, dass gewichtete Vektoren die Ergebnisse gegenüber Booleschen Vektoren signifikant verbesserten [17]. VSM wurde auch verwendet, um die Ähnlichkeit zwischen GO-Termen zu berechnen, und die Ergebnisse wurden mit zwei anderen nichtlexikalischen Methoden zur Analyse des GO-Graphen verglichen [7]. LSI [5], [6], [9] wurde kürzlich zur genomweiten Expressionsdatenanalyse verwendet [3]. LSI wurde auch verwendet, um Beziehungen zwischen Genen zu identifizieren, indem ein Vektorraum von Genen und MEDLINE-Abstracts erstellt wurde [20]. Frühere IR-Forschungen haben gezeigt, dass LSI 30 Prozent effektiver ist als Wortvergleichsmethoden [9]. Ontologien wurden in der jüngeren Vergangenheit verwendet, um die Beschränkungen der schlüsselwortbasierten Suche zu überwinden, insbesondere nach dem Aufkommen des Semantic Web [32] [39]. In [39] beschreiben die Autoren eine IR-Methode, die Dokumentannotation und Abfrageerweiterung mit Ontologiebegriffen und Ergebnisranking mit VSM kombiniert. Ähnliche Techniken werden von MELISA [1] und Textpresso [30] verwendet, zwei Suchwerkzeugen für medizinische Literatur. MELISA verwendet die eigene Ontologie von MEDLINE, MeSH, um die Benutzeranfragen semantisch anzureichern. Textpresso erstellt eine Ontologie, die zu 80 Prozent auf GO-Begriffen basiert, und verwendet sie zur Dokumentannotation und Abfrageerweiterung.

Es gibt auch andere Ansätze zur Vorhersage funktioneller Annotationen für ein gegebenes Gen. Der am häufigsten verwendete Ansatz für die Funktionsvorhersage verwendet Sequenzähnlichkeit. Dieser Ansatz basiert auf der Hypothese, dass eine Funktion zwischen ähnlichen Sequenzen in verschiedenen Organismen übertragen werden kann, da diese Ähnlichkeit über lange Zeiträume der Evolution konserviert wurde [10]. Diese Methode der Annotationsübertragung kann zu falschen Funktionsvorhersagen aus Gründen wie der Divergenz der Funktion innerhalb homologer Proteine ​​führen. Darüber hinaus kann diese Art der Inferenz auch falsch sein, da die Annotationen nur vom nächsten Homolog übertragen werden [23]. Um diese Probleme zu überwinden, wurden Ansätze vorgeschlagen, die Sequenzähnlichkeitsdaten mit Strukturinformationen kombinieren [14], [38]. Der Ansatz der Schuld durch Assoziation (GBA) [33] [40] [44], basierend auf der Beobachtung, dass funktionell verwandte Gene dazu neigen, ähnliche mRNA-Expressionsprofile zu teilen, wurde ebenfalls weit verbreitet, um Genfunktionen vorherzusagen [8], [ 13], [22], [36], [41]. Bei diesem Ansatz werden die Gene basierend auf ihren Expressionsprofilen geclustert, um die Genfunktionen vorherzusagen. Die GBA-Ansätze sind von Themen wie Datentransformation [15], [31] und Filterung zur Verbesserung des Signal-Rausch-Verhältnisses [19] betroffen. Ein alternativer Ansatz verwendet Sequenzähnlichkeits- und Proteindomänendaten, um funktionelle Annotationen vorherzusagen [37]. Raychaudhuriet al. [34] schlugen einen Ansatz zur Verarbeitung natürlicher Sprache vor, um automatisch Gen-Funktions-Assoziationen aus den Literaturzusammenfassungen zu extrahieren.


Methoden

Versuchsübersicht

Die Zeitlinie für das zweite CAFA-Experiment folgte der des ersten Experiments und ist in Abb. 1 dargestellt. CAFA2 wurde im Juli 2013 angekündigt und offiziell im September 2013 gestartet, als 100.816 Zielsequenzen 27 Arten wurden der Gemeinschaft zur Verfügung gestellt. Die Teams mussten für jedes Protein-Term-Paar, für das sie eine Vorhersage wählten, Vorhersageergebnisse innerhalb des (0,1]-Bereichs einreichen. Die Einreichungsfrist für die Hinterlegung dieser Vorhersagen wurde auf Januar 2014 festgelegt (Zeitpunkt T 0). Wir warteten dann bis September 2014 (Zeitpunkt T 1) für die Ansammlung neuer experimenteller Annotationen auf den Zielproteinen und bewertete die Leistung der Vorhersagemethoden. Wir beziehen uns auf die Menge aller experimentell annotierten Proteine, die unter verfügbar sind T 0 als die Trainingsset und zu einer Untergruppe von Zielproteinen, die experimentelle Annotationen während (T 0,T 1] und zur Auswertung als Benchmark-Set. Es ist wichtig zu beachten, dass die Benchmark-Proteine ​​und die resultierende Analyse je nach Auswahl des Zeitpunkts variieren T 1. Eine vorläufige Analyse des CAFA2-Experiments wurde beispielsweise während des Treffens der Automated Function Prediction Special Interest Group (AFP-SIG) auf der Konferenz Intelligent Systems for Molecular Biology (ISMB) im Juli 2014 bereitgestellt.

Zeitleiste für das CAFA2-Experiment

Die teilnehmenden Methoden wurden nach ihrer Fähigkeit zur Vorhersage von Begriffen in GO [3] und Human Phänotype Ontology (HPO) [8] bewertet. Im Gegensatz zu CAFA1, wo die Bewertung nur für die Molekularfunktions-Ontologie (MFO) und die Biologische Prozess-Ontologie (BPO) durchgeführt wurde, haben wir in CAFA2 auch die Leistung für die Vorhersage von Cellular Component Ontology (CCO)-Begriffen in GO bewertet. Der Satz menschlicher Proteine ​​wurde ferner verwendet, um Verfahren nach ihrer Fähigkeit zu bewerten, diese Proteine ​​mit Krankheitsbegriffen von HPO zu assoziieren, die alle Unterklassen des Begriffs HP:0000118, „phänotypische Anomalie“, umfassten.

Insgesamt nahmen 56 Gruppen mit 126 Methoden an CAFA2 teil. Daraus machten 125 Methoden gültige Vorhersagen über eine ausreichende Anzahl von Sequenzen. Darüber hinaus reichten 121 Methoden Vorhersagen für mindestens einen der GO-Benchmarks ein, während 30 Methoden an den Aufgaben zur Vorhersage von Krankheitsgenen mit HPO teilnahmen.

Auswertung

Das CAFA2-Experiment erweiterte die Bewertung der rechnerischen Funktionsvorhersage im Vergleich zu CAFA1. Dazu gehört die erhöhte Anzahl von Zielen, Benchmarks, Ontologien und Methodenvergleichsmetriken.

Wir unterscheiden zwei Haupttypen der Methodenevaluation. Der erste, proteinzentrierte Auswertung, bewertet die Leistungsgenauigkeit von Methoden, die alle mit einer bestimmten Proteinsequenz verbundenen ontologischen Begriffe vorhersagen. Der zweite Typ, begriffszentrierte Auswertung, bewertet die Leistungsgenauigkeit von Methoden, die vorhersagen, ob ein einzelner Ontologiebegriff von Interesse mit einer bestimmten Proteinsequenz assoziiert ist [2]. Die proteinzentrierte Bewertung kann als Lernproblem mit mehreren Labels oder strukturierter Ausgabe betrachtet werden, um einen Satz von Begriffen oder einen gerichteten azyklischen Graphen (einen Untergraphen der Ontologie) für ein gegebenes Protein vorherzusagen. Da die Ontologien viele Terme enthalten, ist der Ausgaberaum in dieser Einstellung extrem groß und die Bewertungsmetriken müssen Ähnlichkeitsfunktionen zwischen Gruppen von voneinander abhängigen Termen (gerichtete azyklische Graphen) beinhalten. Im Gegensatz dazu ist die begriffszentrierte Bewertung ein Beispiel für eine binäre Klassifikation, bei der ein bestimmter Ontologiebegriff einer Eingabeproteinsequenz zugewiesen wird (oder nicht). Diese Methoden sind besonders häufig bei der Priorisierung von Krankheitsgenen [9]. Anders ausgedrückt betrachtet eine proteinzentrierte Bewertung eine Rangfolge von Ontologiebegriffen für ein gegebenes Protein, während die begriffszentrierte Bewertung eine Rangfolge von Proteinsequenzen für einen gegebenen Ontologiebegriff berücksichtigt.

Beide Arten der Bewertung haben Vorteile bei der Leistungsbewertung. Dies ist teilweise auf die statistische Abhängigkeit zwischen Ontologiebegriffen, die statistische Abhängigkeit zwischen Proteinsequenzen und auch auf die unvollständige und voreingenommene Natur der experimentellen Annotation der Proteinfunktion zurückzuführen [6]. In CAFA2 bieten wir beide Arten der Bewertung an, betonen jedoch das proteinzentrierte Szenario für einfachere Vergleiche mit CAFA1. Auch in diesen beiden Szenarien ziehen wir wichtige Schlussfolgerungen zur Methodenbewertung.

No-Knowledge- und Limited-Wissen-Benchmark-Sets

In CAFA1 konnte ein Protein in den Benchmark-Satz aufgenommen werden, wenn es zu diesem Zeitpunkt keine experimentell verifizierten Annotationen in einer der GO-Ontologien hatte T 0 aber akkumuliert mindestens einen funktionalen Begriff mit einem experimentellen Beweiscode zwischen T 0 und T 1 Wir bezeichnen solche Benchmark-Proteine ​​als keine Kenntnis Benchmarks. In CAFA2 haben wir Proteine ​​mit begrenztes Wissen, das sind diejenigen, die in einer oder zwei GO-Ontologien (aber nicht in allen drei) gleichzeitig experimentell annotiert wurden T 0. Für die Leistungsbewertung in MFO beispielsweise durfte ein Protein ohne Annotation in MFO vor Ablauf der Einreichungsfrist experimentelle Annotationen in BPO und CCO aufweisen.

Während der Wachstumsphase wurden die No-Knowledge-Ziele, die experimentelle Annotationen in einer oder mehreren Ontologien erworben haben, zu Benchmarks in diesen Ontologien. Die Targets mit begrenztem Wissen, die zusätzliche Annotationen erhalten haben, wurden nur zu Benchmarks für diejenigen Ontologien, für die es keine vorherigen experimentellen Annotationen gab. Der Grund für die Verwendung von Targets mit begrenztem Wissen bestand darin, festzustellen, ob die Korrelationen zwischen experimentellen Annotationen über Ontologien hinweg genutzt werden können, um die Funktionsvorhersage zu verbessern.

Die Auswahl von Benchmark-Proteinen zur Bewertung von HPO-Term-Prädiktoren wurde von den GO-Analysen getrennt. Wir haben nur einen No-Knowledge-Benchmark-Set in der HPO-Kategorie erstellt.

Teil- und Vollauswertungsmodi

Viele Methoden zur Funktionsvorhersage gelten nur für bestimmte Arten von Proteinen, wie Proteine, für die 3D-Strukturdaten verfügbar sind, Proteine ​​aus bestimmten Taxa oder spezifische subzelluläre Lokalisationen. Um diesen Methoden Rechnung zu tragen, bot CAFA2 den Prädiktoren die Möglichkeit, eine Teilmenge der Ziele für die Vorhersage auszuwählen, solange sie mindestens 5.000 Ziele rechnerisch annotierten, von denen mindestens zehn experimentelle Terme akkumuliert wurden. Wir bezeichnen den Bewertungsmodus, bei dem die Vorhersagen nur an den Benchmarks bewertet wurden, für die ein Modell mindestens eine Vorhersage an einem beliebigen Schwellenwert gemacht hat, als Teilauswertungsmodus. Im Gegensatz dazu ist die vollständiger Bewertungsmodus entspricht der gleichen Art der Bewertung, die in CAFA1 durchgeführt wurde, bei der alle Benchmark-Proteine ​​für die Bewertung verwendet wurden und Methoden bestraft wurden, weil sie keine Vorhersagen treffen.

In den meisten Fällen haben wir für jede Benchmark-Kategorie zwei Arten von Benchmarks, No-Wissen und Limited-Wissen, und zwei Bewertungsmodi, Full-Modus und Partial-Modus. Ausnahmen sind alle HPO-Kategorien, die nur No-Knowledge-Benchmarks haben. Der vollständige Modus eignet sich für Vergleiche von Allzweckmethoden, die darauf ausgelegt sind, Vorhersagen für jedes Protein zu treffen, während der partielle Modus eine Vorstellung davon vermittelt, wie gut jede Methode bei einer selbst ausgewählten Untergruppe von Zielen funktioniert.

Bewertungsmetriken

Precision-Recall-Kurven und verbleibende Unsicherheits-Fehlinformationskurven wurden als die beiden wichtigsten Metriken im proteinzentrierten Modus verwendet [10]. Wir bieten auch ein einzelnes Maß für die Bewertung beider Kurventypen als reellwertigen Skalar zum Vergleich von Methoden an. Wir stellen jedoch fest, dass die Wahl eines einzelnen Punktes auf diesen Kurven möglicherweise nicht den beabsichtigten Anwendungszielen für einen bestimmten Algorithmus entspricht. Daher ist ein sorgfältiges Verständnis der in CAFA verwendeten Bewertungsmetriken erforderlich, um die Ergebnisse richtig zu interpretieren.

Präzision (pr), Recall (rc) und die resultierenden F max sind definiert als

wo P ich(τ) bezeichnet den Satz von Termen mit vorhergesagten Scores größer oder gleich τ für eine Proteinsequenz ich, T ich bezeichnet den entsprechenden Grundwahrheitssatz von Termen für diese Folge, m(τ) ist die Anzahl der Sequenzen mit mindestens einer vorhergesagten Punktzahl größer oder gleich τ, (mathbbm <1>left (cdot ight)) ist eine Indikatorfunktion, und n e ist die Anzahl der Ziele, die in einem bestimmten Bewertungsmodus verwendet werden. Im vollständigen Bewertungsmodus n e=n, die Anzahl der Benchmark-Proteine, während im partiellen Bewertungsmodus n e=m(0), d. h. die Anzahl der Proteine, die ausgewählt wurden, um unter Verwendung des bestimmten Verfahrens vorhergesagt zu werden. Für jede Methode verweisen wir auf m(0)/n als die Abdeckung weil es den Anteil der Benchmark-Proteine ​​liefert, für den die Methode irgendwelche Vorhersagen gemacht hat.

Die verbleibende Unsicherheit (ru), Fehlinformation (mi) und die daraus resultierende minimale semantische Distanz (S Mindest) sind definiert als

wo ic(F) ist der Informationsgehalt des Ontologiebegriffs F [10]. Er wird mit maximaler Wahrscheinlichkeit als negativer binärer Logarithmus der bedingten Wahrscheinlichkeit geschätzt, dass der Term F ist in der Annotation eines Proteins vorhanden, da alle seine übergeordneten Terme ebenfalls vorhanden sind. Beachten Sie, dass hier n e=n im Vollauswertungsmodus und n e=m(0) im partiellen Auswertungsmodus gilt sowohl für ru als auch für mi.

Zusätzlich zu den Hauptmetriken haben wir zwei sekundäre Metriken verwendet. Dies waren die gewichtete Version der Präzisions-Erinnerungs-Kurven und die Version der verbleibenden Unsicherheits-Fehlinformations-Kurven, normalisiert auf das [ 0,1]-Intervall. Diese Metriken und die entsprechenden Bewertungsergebnisse werden in Zusatzdatei 1 angezeigt.

Für die begriffszentrische Auswertung haben wir die Fläche unter der Receiver Operating Characteristic (ROC) Curve (AUC) verwendet. Die AUCs wurden für alle Terme berechnet, die mindestens zehn positiv annotierte Sequenzen erworben haben, während die restlichen Benchmarks als negative verwendet wurden. Die begriffszentrierte Bewertung wurde sowohl für Rankingmodelle als auch zur Unterscheidung von gut und schlecht vorhersagbaren Begriffen verwendet. Die Leistung jedes Modells in jedem Begriff ist in Zusatzdatei 1 angegeben.

Da alle Methoden zwei signifikante Zahlen für die Vorhersagebewertungen benötigen, ist der Schwellenwert τ in allen in dieser Studie verwendeten Metriken wurde von 0,01 bis 1,00 mit einer Schrittweite von 0,01 variiert.

Datensätze

Proteinfunktionsannotationen für die GO-Bewertung wurden als Vereinigung aus drei großen öffentlich zugänglichen Proteindatenbanken extrahiert: Swiss-Prot [11], UniProt-GOA [12] und die Daten von der GO-Konsortium-Website [ 3]. Wir haben die Beweiscodes EXP, IDA, IPI, IMP, IGI, IEP, TAS und IC verwendet, um Benchmark- und Ground-Truth-Sets zu erstellen. Anmerkungen für die HPO-Beurteilung wurden aus der HPO-Datenbank heruntergeladen [8].

Abbildung 2 fasst die Benchmarks zusammen, die wir in dieser Studie verwendet haben. Abbildung 2 a zeigt die Benchmark-Größen für jede der Ontologien und vergleicht diese Zahlen mit CAFA1. Alle Arten, die mindestens 15 Proteine ​​in einer der Benchmark-Kategorien aufweisen, sind in Abb. 2 b aufgeführt.

CAFA2-Benchmark-Aufschlüsselung. ein Die Benchmarkgröße für jede der vier Ontologien. B Aufschlüsselung der Benchmarks für beide Typen über 11 Arten (mit nicht weniger als 15 Proteinen) sortiert nach der Gesamtzahl der Benchmark-Proteine. Für beide Platten dunkle Farben (Blau, rot, und Gelb) entsprechen No-Knowledge-Typen (NK), während ihre helle Farbe Gegenstücke entsprechen den Typen mit begrenztem Wissen (LK). Die den Benchmark-Sets entsprechenden Verteilungen der Informationsinhalte sind in Zusatzdatei 1 dargestellt. Die Größe der CAFA 1-Benchmarks ist in dargestellt grau. BPO Biologische Prozessontologie, CCO Ontologie der zellulären Komponenten, HPO Ontologie des menschlichen Phänotyps, LK begrenztes Wissen, MFO Molekulare Funktionsontologie, NK keine Kenntnis

Vergleich zwischen CAFA1- und CAFA2-Methoden

Wir haben die Ergebnisse von CAFA1 und CAFA2 mit einem Benchmark-Set verglichen, das wir aus CAFA1-Zielen und CAFA2-Zielen erstellt haben. Genauer gesagt haben wir die gespeicherten Vorhersagen der Zielproteine ​​von CAFA1 verwendet und sie mit den neuen Vorhersagen von CAFA2 auf dem überlappenden Satz von CAFA2-Benchmarks und CAFA1-Zielen verglichen (eine Sequenz musste in beiden Experimenten ein Ziel ohne Wissen sein, um in Frage zu kommen für diese Bewertung). Nur für diese Analyse haben wir eine künstliche GO-Version verwendet, indem wir die Schnittmenge der beiden GO-Schnappschüsse (Versionen von Januar 2011 und Juni 2013) genommen haben, um den Einfluss von Ontologieänderungen abzuschwächen. Wir haben daher 357 Benchmark-Proteine ​​für MFO-Vergleiche und 699 für BPO-Vergleiche gesammelt. Die beiden Basismethoden wurden an entsprechenden Swiss-Prot-Annotationen für beide Ontologien trainiert, damit sie als Kontrollen für Datenbankänderungen dienen. Insbesondere enthielt SwissProt2011 (für CAFA1) 29'330 und 31'282 Proteine ​​für MFO und BPO, während SwissProt2014 (für CAFA2) 26'907 und 41'959 Proteine ​​für die beiden Ontologien enthielt.

Um eine Kopf-an-Kopf-Analyse zwischen zwei beliebigen Methoden durchzuführen, generierten wir B= 10.000 Bootstrap-Samples und lassen Sie Methoden auf jedem dieser Benchmark-Sets konkurrieren. Die Leistungssteigerung δ von CAFA1 zu CAFA2 wurde berechnet als

wo m 1 und m 2 stehen für Methoden aus CAFA1 bzw. CAFA2, und (F_^<(b)>(cdot)) steht für die F max einer Methode evaluiert am B-th Bootstrapped-Benchmark-Set.

Basismodelle

Wir erstellten zwei Basismethoden, Naive und BLAST, und verglichen sie mit allen teilnehmenden Methoden. Die naive Methode sagt einfach die Häufigkeit eines Begriffs voraus, der in einer Datenbank annotiert wird [13]. BLAST basierte auf Suchergebnissen mit der Software Basic Local Alignment Search Tool (BLAST) gegen die Trainingsdatenbank [14]. Ein Begriff wird als die höchste lokale Ausrichtungssequenzidentität unter allen mit dem Begriff annotierten BLAST-Treffern vorhergesagt. Beide Methoden wurden an den experimentell annotierten Proteinen trainiert, die damals in Swiss-Prot verfügbar waren T 0, mit Ausnahme von HPO, wo die beiden Basismodelle mit den Anmerkungen aus dem trainiert wurden T 0 Freigabe des HPO.


Schlussfolgerungen

Wir stellen ein neues Konzept zur Vorhersage von GO-Termen vor, nämlich den Annotationstransfer basierend auf der Ähnlichkeit von Einbettungen, die aus Deep-Learning-Sprachmodellen (LMs) gewonnen werden. Dieser Ansatz ersetzt konzeptionell Sequenzinformationen durch komplexe Einbettungen, die einige nicht-lokale Informationen jenseits der Sequenzähnlichkeit erfassen. Die zugrunde liegenden LMs (SeqVec & ProtBert) sind hochgradig involviert und komplex, und ihr Training ist zeit- und datenintensiv. Sobald dies erledigt ist, können diese vortrainierten LMs angewendet werden, ihr abstrahiertes Verständnis der Sprache des Lebens, wie sie durch Proteinsequenzen erfasst wird, kann übertragen werden, um eine extrem einfache, aber effektive neue Methode für den Annotationstransfer zu erhalten. Diese neuartige Vorhersagemethode ergänzt die homologiebasierte Inferenz. Trotz ihrer Einfachheit übertraf diese neue Methode die Leistung um mehrere Spielräume der statistisch signifikanten homologiebasierten Inferenz („BLAST“) mit Fmax Werte von BPO + 11 ± 2% (Fmax(Einbettung)-Fmax(Sequenz)), MFO + 8 ± 3% und CCO + 11 ± 2% (Tabelle 1, Abb. 1) hätte es sogar die Top Ten erreicht, wenn es an der CAFA3 teilgenommen hätte (Abb. 1). Einbettungsbasierter Transfer blieb selbst für Proteinpaare mit PIDE < 20 % über dem Durchschnitt des sequenzbasierten Transfers (Abb. 2), dh die Einbettungsähnlichkeit funktionierte für Proteine, die in paarweisen Alignments über die Erkennung hinaus divergierten (Abb. S2 & S3) . Einbettungsbasierter Transfer ist auch blitzschnell zu berechnen, d. h. etwa 0,05 s pro Protein. Der einzige zeitaufwändige Schritt ist die Berechnung der Einbettungen für alle Proteine ​​in die Lookup-Datenbank, die nur einmal durchgeführt werden muss, wenn das gesamte menschliche Proteom etwa 30 Minuten gedauert hat. GO-Annotationen, die von 2017 bis 2020 hinzugefügt wurden, verbesserten sowohl die sequenz- als auch die einbettungsbasierte Annotationsübertragung signifikant (Tabelle 1). Ein weiterer Aspekt der Einfachheit besteht darin, dass zumindest im Rahmen der CAFA3-Bewertung die Wahl von keinem der beiden freien Parameter wirklich eine Rolle spielte: Einbettungen aus beiden getesteten LMs schnitten im Durchschnitt gleich gut ab und die Anzahl der besten Treffer (k -nächste Nachbarn) spielte keine große Rolle (Tabelle S2). Die Stärke dieses neuen Konzepts beruht auf dem Grad, in dem Einbettungen implizit wichtige Informationen erfassen, die für die Vorhersage von Proteinstruktur und -funktion relevant sind. Ein Grund für den Erfolg unseres neuen Konzepts war die begrenzte Korrelation zwischen Einbettungen und Sequenz (Tabelle 2). Darüber hinaus schien die Abstraktion von Sequenzinformationen in Einbettungen entscheidend aussagekräftige Informationen leicht verfügbar zu machen (Abb. S6). Dies impliziert, dass Einbettungen das Potenzial haben, die Art und Weise, wie Sequenzvergleiche durchgeführt werden, zu revolutionieren.


Diskussion

DeepPheno kann Sätze von Gen-Phänotyp-Assoziationen aus Genfunktionsannotationen vorhersagen. Insbesondere wurde es entwickelt, um Phänotypen vorherzusagen, die aus einem Funktionsverlust resultieren (wo Funktionen mithilfe der Geneontologie dargestellt werden) und wir haben gezeigt, wie DeepPheno den Verlust von Funktionen mit ihren nachgelagerten phänotypischen Effekten in Beziehung setzt. Während DeepPheno mit Phänotypen trainiert wurde, die aus dem Funktionsverlust eines Gens resultieren, kann seine Abhängigkeit von Funktionen (anstelle von strukturellen Merkmalen) es ermöglichen, es auch auf verschiedene Veränderungen der Genfunktion wie einen teilweisen Funktionsverlust anzuwenden. Zusammen mit Funktionsvorhersagemethoden wie DeepGOPlus [31] kann DeepPheno im Prinzip Phänotyp-Assoziationen für proteinkodierende Gene nur anhand der Aminosäuresequenz des Proteins vorhersagen. DeepGOPlus wurde jedoch an experimentell annotierten Sequenzen vieler Organismen trainiert, einschließlich mehrerer Tiermodellorganismen. Es kombiniert außerdem globale Sequenzähnlichkeit und ein Deep-Learning-Modell, das lernt, Sequenzmotive sowie einige Elemente der Proteinstruktur zu erkennen. Die Kombination dieser Informationen wird implizit in DeepGOPlus und seinen Vorhersagen verwendet und ist daher in der Lage, physiologische Funktionen vorherzusagen, die eng mit den von DeepPheno vorhergesagten abnormalen Phänotypen verwandt sind.

Auswertung

Wir haben DeepPheno anhand von zwei Datensätzen ausgewertet und seine Vorhersagen mit den leistungsstärksten Methoden der CAFA2-Herausforderung verglichen. DeepPheno zeigte insgesamt die beste Leistung in der Auswertung mit zeitbasierter Aufteilung. Als wir jedoch die Leistung von DeepPheno bei der 5-fach-Kreuzvalidierung des CAFA2-Challenge-Trainingssets mit anderen hierarchischen Klassifizierungsmethoden wie PhenoStruct [15] und HTD/TPR [34] verglichen, übertraf unsere Methode die kombinierten HTD/TPR-Methoden nicht mit Support-Vektor-Maschinenklassifikatoren und ergab die gleiche Leistung wie PhenoStruct. Wir glauben, dass der Hauptgrund dafür darin besteht, dass wir uns nur auf Funktionsannotationen verlassen und die anderen Methoden zusätzliche Merkmale wie Protein-Protein-Interaktionen, Literatur und krankheitsverursachende Varianten verwenden, die durch Gen-Krankheits-Assoziationen von HPO assoziiert sind [10]. Wir haben keine Genexpressionsdaten verwendet, da sie während der CAFA2-Challenge nicht verfügbar waren. In unserem Experiment mit aktuellen Daten haben wir jedoch gezeigt, dass DeepPheno problemlos Funktionen aus mehreren Quellen kombinieren kann, was zu einer Verbesserung seiner Leistung führte.

Hierarchischer Klassifikator

Wir haben in DeepPheno ein neuartiges neuronales Netzwerk mit hierarchischer Klassifikation implementiert. Es wurde von unserem vorherigen hierarchischen Klassifikator in DeepGO inspiriert [32]. Die in DeepPheno verwendete Version ist jedoch deutlich schneller und skalierbar. Der Hauptunterschied besteht darin, dass DeepPheno nur eine Schicht verwendet, die die Ontologiestruktur speichert, während DeepGO für jede Klasse in der Ontologie eine Schicht hatte, die eine Verbindung zu ihren untergeordneten Klassen erforderte.Außerdem erreicht unser neues Modell hierarchische Konsistenz durch eine einfache Matrixmultiplikationsoperation gefolgt von einer MaxPooling-Schicht und erfordert keine komplexen Operationen. In DeepGO kann das größte Modell etwa 1.000 Klassen vorhersagen, während DeepPheno etwa 4.000 vorhersagt.

Wir vergleichen DeepPheno speziell mit anderen hierarchischen Klassifikationsmethoden wie PhenoStruct [15] und HTD/TPR [34]. Außerdem verwenden wir die True Path Rule [27], um hierarchische Abhängigkeiten von DeepPhenoFlat-Klassifikatoren zu beheben und sie mit unseren hierarchischen Klassifikatoren zu vergleichen. In allen Fällen übertreffen die DeepPheno-Modelle flache Klassifikatoren, die die wahre Pfadregel nach Vorhersagen anwenden.

Hierarchische tiefe neuronale Netze wurden auch verwendet, um Interaktionen zwischen Prozessen innerhalb einer Zelle zu simulieren und (zelluläre) Phänotypen vorherzusagen, insbesondere im DCell-Modell [59]. DCell stellte eine Entsprechung zwischen den Komponenten eines tiefen neuronalen Netzes und Ontologieklassen her, um sowohl die hierarchische Organisation einer Zelle zu modellieren als auch ein Mittel bereitzustellen, um Genotyp-Phänotyp-Vorhersagen zu erklären, indem identifiziert wird, welche Teile des neuronalen Netzes (und damit welche Zellkomponenten) oder Funktionen) sind aktiv, wenn eine Vorhersage getroffen wird. DeepPheno verwendet Ontologien sowohl als Eingabe als auch als Ausgabe und um sicherzustellen, dass Vorhersagen mit dem HPO konsistent sind, ermöglicht jedoch nicht direkt die Interpretierbarkeit von Modellen wie DCell. DeepPheno löst auch ein anderes Problem als DCell, während DCell (Hefe-) Genotypen mit Wachstumsphänotypen in Beziehung setzt, DeepPheno die phänotypischen Folgen eines Funktionsverlustes vorhersagt, während DCell die Prozesse innerhalb einer Zelle simulieren kann, DeepPheno darauf abzielt, einige Aspekte der menschlichen Physiologie zu simulieren und die Phänotypen, die sich aus der Veränderung physiologischer Funktionen ergeben.

Einschränkungen und zukünftige Forschung

Derzeit leidet DeepPheno unter mehreren Einschränkungen. Erstens verwenden wir hauptsächlich Funktionsannotationen und Genexpressionen als Merkmale. Dies gibt unserem Modell die Fähigkeit, Phänotypen für viele Gene vorherzusagen, jedoch hängen Phänotypen nicht nur von Funktionen einzelner Genprodukte ab, sondern entstehen auch aus komplexen genetischen und umweltbedingten Wechselwirkungen. Die Aufnahme solcher Informationen kann unser Modell weiter verbessern. Konkret planen wir, verschiedene Arten von Interaktionen zwischen Genen einzubeziehen, um die Vorhersage komplexer Phänotypen zu verbessern.

Zweitens kann DeepPheno derzeit nur eine begrenzte Anzahl von Phänotypen vorhersagen, für die wir mindestens 10 annotierte Gene finden. Diese Einschränkung wird durch die Notwendigkeit verursacht, unser neuronales Netzwerkmodell zu trainieren, und schränkt die Fähigkeit von DeepPheno ein, spezifische Phänotypen vorherzusagen, die am informativsten sind. Eine Möglichkeit, diese Einschränkung zu überwinden, besteht darin, Phänotyp-Assoziationen mit unterschiedlichen Nachweisen aufzunehmen, wie sie beispielsweise aus der GWAS-Studie stammen, anstatt nur Phänotypen zu verwenden, die aus der Mendel-Krankheit stammen, wie sie in der HPO-Datenbank enthalten sind.

Schließlich verwendet DeepPheno eine einfache, vollständig verbundene Schicht und eine spärliche Darstellung von funktionalen Annotationen und berücksichtigt nicht den vollständigen Satz von Axiomen in GO und HPO. Obwohl dieses Modell uns in unseren Experimenten die beste Leistung lieferte, denken wir, dass in Zukunft „komplexere“ Lernmethoden in Betracht gezogen werden müssen, die alle Semantiken in den Ontologien kodieren.


Vorhersage der Proteinfunktion mit tief eingeschränkten Boltzmann-Maschinen.

Proteine ​​sind die Hauptbestandteile lebender Zellen, sie sind die wichtigste materielle Grundlage, die Lebensaktivitäten bilden und aufrechterhalten. Proteine ​​sind an verschiedenen biologischen Aktivitäten beteiligt, wie der Katalyse biochemischer Reaktionen und dem Transport zur Signaltransduktion [1, 2]. Hochdurchsatz-Biotechniken führen zu einem explosionsartigen Wachstum biologischer Daten. Aufgrund experimenteller Techniken und des Forschungsbias in der Biologie [3, 4] wird die Lücke zwischen neu entdeckten Genomsequenzen und funktionellen Annotationen dieser Sequenzen immer größer. Das Konsortium des Human Proteome Project behauptete kürzlich, dass wir noch sehr wenig Informationen über die zellulären Funktionen von etwa zwei Dritteln der menschlichen Proteine ​​haben [5]. Nasslaborexperimente können die Funktionen von Proteinen genau überprüfen, aber dies ist zeit- und kostenaufwändig. In der Praxis können Wet-Lab-Techniken nur einen Teil der Funktionen von Proteinen verifizieren. Darüber hinaus ist es schwierig, funktionelle Annotationen massiver Proteine ​​durch Nasslabortechniken effizient zu überprüfen. Daher ist es wichtig und notwendig, Computermodelle zu entwickeln, um verfügbare funktionelle Annotationen von Proteinen und eine Vielzahl von Arten genomischer und proteomischer Daten zu nutzen, um automatisch auf Proteinfunktionen zu schließen [2, 6].

Es wurden verschiedene Computermethoden vorgeschlagen, um funktionelle Annotationen von Proteinen vorherzusagen. Diese Methoden werden oft von datenintensiven Rechenmodellen angetrieben. Daten können aus Aminosäuresequenzen [7], Protein-Protein-Interaktionen [8], Signalwegen [9] und mehreren Arten der biologischen Datenfusion [10-12] stammen. Gene Ontology (GO) ist ein wichtiges bioinformatisches Werkzeug, um die Attribute von Genprodukten über alle Arten hinweg zu vereinheitlichen. Jeder GO-Begriff im Diagramm kann als Funktionslabel betrachtet werden und ist mit einem eindeutigen alphanumerischen Bezeichner verbunden, d. h. GO:0008150 (biologischer Prozess). GO ist nicht statisch. Forscher und das GO-Konsortium tragen zur Aktualisierung von GO als dem revolvierten biologischen Wissen bei. Derzeit sind die meisten funktionellen Annotationen von Proteinen flach und bei weitem nicht vollständig [3-5]. Nach der wahren Pfadregel von GO [13] werden, wenn ein Protein mit einem GO-Term annotiert wird, auch alle Vorfahren-Terme dieses Termes an das Protein annotiert, aber es ist ungewiss, ob seine Nachkommen-Terme an das Protein annotiert werden sollen oder nicht. Daher ist es wünschenswerter, die spezifischen Annotationen eines Proteins zu kennen als die allgemeinen, und die entsprechenden spezifischen Begriffe können mehr biologische Informationen liefern als die flachen, die Vorfahren dieser spezifischen Begriffe sind. In dieser Arbeit untersuchen wir die Vorhersage von tiefen (oder spezifischen) Annotationen eines Proteins basierend auf den verfügbaren Annotationen von Proteinen.

Funktionelle Assoziationen zwischen Proteinen und der GO-Struktur wurden direkt verwendet, um Proteinfunktionen vorherzusagen [14-18]. Funktionelle Annotationen von Proteinen können durch eine Proteinfunktions-Assoziationsmatrix kodiert werden, in der jede Zeile einem Protein entspricht und jede Spalte einen Funktionstyp darstellt. König et al. [14] verwendete direkt den Entscheidungsbaum-Klassifikator (oder Bayes-Klassifikator) auf das Muster der Annotationen, um zusätzliche Annotationen von Proteinen abzuleiten. Diese beiden Klassifikatoren benötigen jedoch ausreichende Annotationen und erzielen bei bestimmten GO-Begriffen, die weniger als 10 Proteine ​​annotieren, eine eher schlechte Leistung. Khatriet al. [15] verwendeten die verkürzte Einzelwertzerlegung (tSVD), um die fehlenden Funktionen von Proteinen basierend auf der Proteinfunktionsmatrix aufzufüllen. Dieser Ansatz ist in der Lage, fehlende Anmerkungen in bestehenden Anmerkungsdatenbanken vorherzusagen und die Vorhersagegenauigkeit zu verbessern. Diese Methode nutzt jedoch nicht die hierarchischen und flachen Beziehungen zwischen GO-Begriffen. Frühere Forschungen haben gezeigt, dass die Ontologie-Hierarchie eine wichtige Rolle bei der Vorhersage der Proteinfunktion spielt [2,16,18]. Fertig et al. [16] verwendeten ein Vektorraummodell und eine Reihe von Gewichtungsschemata sowie einen Ansatz zur latenten semantischen Indizierung, um implizite semantische Beziehungen zwischen Proteinen und solchen zwischen Funktionen zu extrahieren, um Proteinfunktionen vorherzusagen. Diese Methode heißt NtN [16]. NtN berücksichtigt die hierarchische GO-Struktur und kann verschiedene GO-Terme gewichten, die sich an unterschiedlichen Orten von GO DAG befinden [19]. Taoet al. [17] schlugen eine Methode namens informationstheoriebasierte semantische Ähnlichkeit (ITSS) vor. ITSS berechnet zuerst die semantische Ähnlichkeit zwischen paarweisen GO-Termen in einer Hierarchie und summiert dann diese paarweise Ähnlichkeit für paarweise GO-Terme, die an zwei Proteine ​​annotiert sind. Als nächstes verwendet es einen kNN-Klassifikator, um neue Annotationen eines Proteins vorherzusagen. Yuet al. [18] schlugen nach unten gerichtete Random Walks (dRW) vor, um fehlende (oder neue) Funktionen von teilweise annotierten Proteinen vorherzusagen. Insbesondere wendet dRW nach unten gerichtete Random Walks mit Neustart [20] auf dem GO DAG an, die mit zu einem Protein annotierten Begriffen gestartet wurden, um zusätzliche Annotationen des Proteins vorherzusagen.

Ein Protein ist oft an mehreren biologischen Aktivitäten beteiligt und wird daher mit mehreren GO-Begriffen annotiert. Jeder Term kann als funktioneller Marker betrachtet werden, und die Vorhersage der Proteinfunktion kann als Multilabel-Lernproblem modelliert werden [21, 22]. Aus dieser Sicht kann die Vorhersage der Proteinfunktion unter Verwendung unvollständiger Annotationen als ein Multilabel-Schwachlernproblem modelliert werden [22]. In jüngerer Zeit haben Yu et al. [23] schlugen eine Methode namens PILL vor, um fehlende Funktionen für teilweise annotierte Proteine ​​durch unvollständige hierarchische Markierungsinformationen zu ergänzen. Fuet al. [24] schlugen eine Methode namens dHG vor, um neue Funktionen von Proteinen mithilfe eines gerichteten Hybridgraphen vorherzusagen, der aus GO DAG, einem Protein-Protein-Interaktionsnetzwerk und verfügbaren funktionellen Assoziationen zwischen GO-Termen und Proteinen besteht. Diese oben genannten Methoden (außer DRBM) können als flache Machine-Learning-Ansätze angesehen werden [25]. Sie erfassen keine tiefen Assoziationen zwischen Proteinen und GO-Begriffen.

In diesem Artikel untersuchen wir die kürzlich weit verbreitete Technik Deep Learning [25], um tiefe Assoziationen zwischen Proteinen und GO-Termen zu erfassen und die fehlenden Annotationen unvollständig annotierter Proteine ​​aufzufüllen. Für diese Untersuchung verwenden wir tief eingeschränkte Boltzmann-Maschinen (DRBM), um funktionelle Annotationen von Proteinen vorherzusagen. DRBM nutzt die archivierten Anmerkungen von vier Modellarten (Homo sapiens, Saccharomyces cerevisiae, Mus musculus und Drosophila), um die verborgenen Assoziationen zwischen Proteinen und GO-Termen und die strukturelle Beziehung zwischen GO-Termen zu untersuchen. Gleichzeitig optimiert es die Parameter von DRBM. Danach validieren wir die Leistung von DRBM, indem wir seine Vorhersagen mit kürzlich archivierten GO-Annotationen dieser vier Arten vergleichen. Die empirische und vergleichende Studie zeigt, dass DRBM bessere Ergebnisse erzielt als andere verwandte Methoden. DRBM läuft auch schneller als einige dieser Vergleichsmethoden.

Der Aufbau dieses Papiers ist wie folgt aufgebaut. Abschnitt 2 gibt einen kurzen Überblick über einige verwandte Deep-Learning-Techniken, die kürzlich zur Vorhersage der Proteinfunktion eingesetzt wurden. Abschnitt 3 stellt die eingeschränkte Boltzmann-Maschine und die tief eingeschränkte Boltzmann-Maschine zur Vorhersage der Proteinfunktion vor. Die experimentellen Datensätze, der Aufbau und die Ergebnisse werden in Abschnitt 4 diskutiert. Schlussfolgerungen werden in Abschnitt 5 gegeben.

Einige Pioniere haben Deep Learning bereits für einige bioinformatische Probleme angewendet [26], aber es wurden nur wenige Arbeiten zur Vorhersage der Proteinfunktion veröffentlicht. Autoencoder Neural Networks (AE) können komplexe Strukturdaten besser verarbeiten als flache maschinelle Lernverfahren [25, 27, 28]. AE wurde in der Computervision [28], der Spracherkennung [25, 27] und der Vorhersage von Proteinrest-Rest-Kontakten [26] angewendet. Chiccoet al. [29] nutzten kürzlich tiefe AE, um Proteinfunktionen vorherzusagen. Experimente zeigen, dass tiefe AE die tiefen Assoziationen zwischen Proteinen und GO-Termen erforschen und eine bessere Leistung erzielen kann als andere auf flachem maschinellem Lernen basierende Funktionsvorhersagemethoden, einschließlich tSVD [29].

Deep AE benötigt viel mehr Zeit bei der Feinabstimmung des Netzwerks, wenn das Netzwerk sehr tief ist, führt dies zu einem verschwindenden Gradientenproblem. In dieser Arbeit schlagen wir vor, anstelle von AE Deep Restricted Boltzmann Machines (DRBM) zu verwenden, um funktionelle Annotationen von Proteinen vorherzusagen. DRBM hat eine schnelle Konvergenzgeschwindigkeit und eine gute Stabilität. DRBM wurde verwendet, um Deep-Belief-Networks [30], für Spracherkennung [31, 32], kollaboratives Filtern [33], Computerbiologie [34] und andere Bereiche zu konstruieren. Kürzlich schlugen Wang und Zeng [34] vor, Wirkstoff-Target-Wechselwirkungen mit eingeschränkten Boltzmann-Maschinen vorherzusagen und erzielten eine gute Vorhersageleistung. In jüngerer Zeit haben Li et al. [35] verwendeten konditional eingeschränkte Boltzmann-Maschinen, um Label-Abhängigkeitsbeziehungen höherer Ordnung zu erfassen und das Lernen mehrerer Labels mit unvollständigen Labels zu erleichtern. Experimente haben die Wirksamkeit eingeschränkter Boltzmann-Maschinen beim Adressieren des Multilabel-Lernens mit unvollständigen Labels gezeigt.

Nach unserem besten Wissen untersuchen nur wenige Teams DRBM auf groß angelegte Vorhersagen fehlender Funktionen. Zu diesem Zweck untersuchen wir es zur Vorhersage von Funktionen von Proteinen von Homo sapiens, Saccharomyces cerevisiae, Mus musculus und Drosophila und vergleichen es mit einer Reihe verwandter Methoden. Die experimentellen Ergebnisse zeigen, dass DRBM bei verschiedenen Bewertungsmetriken bessere Ergebnisse als diese Vergleichsmethoden erzielt.

In diesem Abschnitt werden wir die tief eingeschränkten Boltzmann-Maschinen beschreiben, um fehlende GO-Annotationen von Proteinen vorherzusagen.

3.1. Eingeschränkte Boltzmann-Maschine. Eine eingeschränkte Boltzmann-Maschine (RBM) ist ein Netzwerk ungerichteter grafischer Modelle mit stochastischen binären Einheiten [32]. Wie in Abbildung 1 gezeigt, ist ein RBM ein zweischichtiger bipartiter Graph mit zwei Typen von Einheiten, einer Menge sichtbarer Einheiten v [Mitglied von] <0,1> und einer Menge versteckter Einheiten h [Mitglied von] <0 ,1>. Eingabeeinheiten und versteckte Einheiten sind vollständig verbunden, es gibt keine Verbindung zwischen Knoten in derselben Schicht. In diesem Papier ist die Anzahl der sichtbaren Einheiten gleich der Anzahl der GO-Terme, und diese Einheiten nehmen die Proteinfunktions-Assoziationsmatrix als Eingaben.

RBM ist eine unbeaufsichtigte Methode, die eine Schicht versteckter Merkmale lernt. Wenn die Anzahl der versteckten Einheiten kleiner ist als die der visuellen Einheiten, kann die versteckte Schicht mit nichtlinearen komplexen Abhängigkeiten und Strukturen von Daten umgehen, tiefe Beziehungen von Eingabedaten erfassen [30] und die Eingabedaten kompakter darstellen. Latente Merkmalswerte werden durch die versteckten Einheiten dargestellt und sichtbare Einheiten kodieren verfügbare GO-Annotationen von Proteinen. Angenommen, es gibt c (die Anzahl der GO-Terme) sichtbare Einheiten und m versteckte Einheiten in einem RBM. [v i] (i = 1,c) gibt den Zustand der i-ten sichtbaren Einheit an, wobei [v i] = 1 bedeutet, dass der i-te Term an das Protein annotiert ist und [v i] = 0 bedeutet, dass der i-te Term nicht mit dem Protein assoziiert ist. Die binäre Variable [hj] (j = 1,m) gibt den Zustand der versteckten Einheit an, und [hj] = 1 bezeichnet die j-te versteckte Einheit, die aktiv ist. Sei [Wij] das Gewicht, das der Verbindung zwischen [vi] und [hj] zugeordnet ist. (v, h) ist eine gemeinsame Konfiguration eines RBM.

Die Energiefunktion, die die Interaktionsmuster zwischen visueller Schicht und verborgener Schicht erfasst, kann wie folgt modelliert werden:

[mathematischer Ausdruck nicht reproduzierbar], (1)

wobei [theta] = <[W.sub.ij], [a.sub.i], [b.sub.j]>Parameter von RBM sind, während [ai] und [bj ] sind Verzerrungen für die sichtbaren bzw. versteckten Variablen. W [Mitglied von] [Rcxm] codiert die Gewichte der Verbindung zwischen c visuellen Variablen und m versteckten Variablen. Dann kann eine gemeinsame Wahrscheinlichkeitskonfiguration von v und h definiert werden als

wobei Z eine Normalisierungskonstante oder Partitionsfunktion ist, [mathematischer Ausdruck nicht reproduzierbar]. Die Randverteilung über sichtbare Daten ist

[mathematischer Ausdruck nicht reproduzierbar]. (3)

Es gibt keine Verbindung zwischen sichtbaren Einheiten (oder versteckten Einheiten) in einem RBM die bedingten Verteilungen über die sichtbaren und versteckten Einheiten werden durch logistische Funktionen wie folgt gegeben:

P([v.sub.i] = 1 | h) = [sigma] ([a.sub.] + [j.Summation über ([h.sub.j][W.sub.ij])) ( 4)

P([vi] = 1 | v) = [sigma] ([bj] + [i.Summation über ([vi][Wij])), (5)

wobei [sigma](x) = 1/(1 + exp(-v)) eine logistische Sigmoidfunktion ist.

Es ist schwierig, ein RBM mit einer großen Anzahl von Parametern zu trainieren. Um ein RBM effizient zu trainieren und die Parameter zu optimieren, maximieren wir die Wahrscheinlichkeit sichtbarer Daten in Bezug auf die Parameter. Um dieses Ziel zu erreichen, kann die Ableitung der logarithmischen Wahrscheinlichkeit der aus (4) abgeleiteten Trainingsdaten verwendet werden, um die Gewichtungen wie folgt inkrementell anzupassen:

[mathematischer Ausdruck nicht reproduzierbar], (6)

wobei <*> die Erwartungen unter der Verteilung angibt. Es ist sehr einfach, die Log-Likelihood-Wahrscheinlichkeit von Trainingsdaten zu lernen:

[mathematischer Ausdruck nicht reproduzierbar], (7)

wobei [epsilon] die Lernrate steuert. Da es keine direkten Verbindungen in der versteckten Schicht eines RBM gibt, können wir leicht eine unverzerrte Abtastung von [<[vi][hj]>.data] erhalten. Leider ist es schwierig, einen unverzerrten Abtastwert des [<[vi][hj]>.Modells] zu berechnen, da dies eine exponentielle Zeit erfordert. Um dieses Problem zu vermeiden, wird von Hinton [37] ein schnell lernender Algorithmus namens Contrastive Divergence (CD) [36] vorgeschlagen. CD legt sichtbare Variablen als Trainingsdaten fest. Dann werden die binären Zustände der versteckten Einheiten alle parallel mit (5) berechnet. Nachdem die Zustände für die versteckten Einheiten ausgewählt wurden, wird eine "Rekonstruktion" erzeugt, indem jedes v mit einer durch (4) gegebenen Wahrscheinlichkeit auf 1 gesetzt wird. Außerdem werden die Gewichte in jedem Trainingsdurchgang wie folgt angepasst:

[mathematischer Ausdruck nicht reproduzierbar]. (8)

[<[vi][hj]>.data] ist der Durchschnittswert über alle Eingabedaten für jede Aktualisierung und [<[vi][hj] > recon] ist der Durchschnittswert über die Rekonstruktion, er wird als gute Annäherung an [<[vi][hj]>.model] angesehen.

3.2. Tiefes RBM. In diesem Papier werden wir eine vollständig verbundene eingeschränkte Boltzmann-Maschine verwenden und erwägen, mehrschichtige RBMs zu lernen (wie in Abbildung 2 gezeigt). In der Netzwerkstruktur erfasst jede Schicht komplizierte Korrelationen zwischen versteckter Schicht und ihrer darunter liegenden Schicht.

DRBM wird aus mehreren Gründen eingesetzt [38]. Erstens hat DRBM, wie auch Deep-Belief-Netzwerke, das Potenzial, interne Repräsentationen zu lernen, die immer komplexer werden, und wird als vielversprechender Weg zur Lösung komplexer Probleme angesehen [30]. Zweitens können High-Level-Repräsentationen aus großen Mengen unvollständiger sensorischer Eingaben und knapp beschrifteten Daten erstellt und dann verwendet werden, um das Modell zu entfalten. Schließlich kann DRBM die Unsicherheitsinformationen gut verbreiten und somit robust mit mehrdeutigen Eingaben umgehen. Hintonet al. [30] führte einen gierigen, Schicht für Schicht unüberwachten Lernalgorithmus ein, der aus dem Lernen eines Stapels von RBMs besteht. Nachdem die gestapelten RBMs gelernt wurden, kann der gesamte Stapel als ein einzelnes Wahrscheinlichkeitsmodell betrachtet werden. In diesem Papier verwenden wir diesen Greedy-Algorithmus, um die Parameter von DRBM zu optimieren. DRBM trainiert gierig einen Stapel von mehr als zwei RBMs, und die Modifikation muss nur für den ersten und letzten RBM im Stapel verwendet werden. Die Umschulung besteht darin, einen Stapel von RBMs zu lernen, wobei jeder RBM nur eine Schicht von Merkmalsdetektoren hat. Die gelernte Merkmalsaktivierung eines RBM wird als Eingabedaten verwendet, um den nächsten RBM im Stapel zu trainieren. Danach werden diese RBMs aufgeklappt (oder entfaltet), um ein DRBM zu erstellen.Durch das obige Training können wir die Parameter von DRBM optimieren und dann die Ausgaben des Netzwerks als Ergebnisse der Proteinfunktionsvorhersage verwenden.

4.1. Datensätze und Versuchsaufbau. Es sollte die Leistung von DRBM bei der Vorhersage fehlender GO-Annotationen von unvollständig annotierten Proteinen untersucht werden. Wir haben die GO-Datei heruntergeladen (http://geneontology.org/page/downloadontology) (Archivierungsdatum: 2015-10-22), die hierarchische Beziehungen zwischen GO-Begriffen mithilfe einer DAG beschreibt. Diese GO-Begriffe sind in drei Zweige unterteilt, die molekulare Funktionen (MF), zelluläre Komponenten (CC) und biologische Prozessfunktionen (BP) von Proteinen beschreiben. Wir haben auch die Gene Ontology Annotation (GOA) (Archivierungsdatum: 2014-10-27) Dateien (http://geneontology.org/page/downloadannotations) von Saccharomyces cerevisiae, Homo sapiens, Mus musculus und Drosophila heruntergeladen. Wir haben die GO-Datei vorverarbeitet, um die GO-Begriffe mit dem Tag "obsolet" auszuschließen. Um eine zirkuläre Vorhersage zu vermeiden, haben wir die GOA-Datei verarbeitet, um die Annotationen mit dem Beweiscode "IEA" (abgeleitet von Electronic Annotation) auszuschließen. Die fehlenden Annotationen eines Proteins entsprechen oft den Nachkommen der Begriffe, die aktuell dem Protein annotiert sind. Die Begriffe, die diesen fehlenden Annotationen entsprechen, befinden sich also auf einer tieferen Ebene als ihre Vorfahren-Begriffe, und diese Begriffe charakterisieren spezifischere biologische Funktionen von Proteinen als ihre Vorfahren. Diese spezifischen Begriffe werden normalerweise zu nicht mehr als 30 Proteinen annotiert, sie werden als spärliche Funktionen angesehen. Auf der anderen Seite sind Wurzelterme, GO:0008150 für BP, GO:0003674 für MF und GO:0005575 für CC, für die meisten Proteine ​​annotiert. Die Vorhersage für diese Terme ist nicht interessant, daher haben wir diese drei Wurzelterme entfernt. Wir haben die Begriffe, die mindestens ein Protein in der GOA-Datei annotiert haben, für Experimente beibehalten. Die Statistiken der vorprozessierten GO-Annotationen von Proteinen in diesen vier Modellspezies sind in Tabelle 1 aufgeführt.

Wir haben auch kürzlich archivierte GOA-Dateien (Datum: 2015-10-12) dieser vier Arten heruntergeladen, um die Leistung von DRBM zu validieren, und diese GOA-Dateien auf ähnliche Weise verarbeitet. Wir verwenden die 2014 archivierten Daten, um DRBM zu trainieren und verwenden dann die 2015 archivierten Daten zur Validierung.

Um die Leistung von DRBM vergleichend zu bewerten, vergleichen wir sie mit SvD [15], NtN [16], dRW [18] und AE [29]. SVD, NtN und dRW sind flache Algorithmen für maschinelles Lernen. AE und DRBM sind Methoden des Deep Machine Learning. DRBM wird mit einer Lernrate von 0,01 für 25 Iterationen festgelegt [29]. Die L2-Regularisierung wird für alle Gewichte verwendet, die zufällig aus der Gleichverteilung zwischen 0 und 1 initialisiert werden. Wir setzen die Hidden-Unit-Funktion als Sigmoid und die Anzahl der Hidden-Units als Hälfte der sichtbaren Einheiten und die Zahl der zweiten Hidden-Schicht als Hälfte der ersten versteckten Schicht und so weiter. Die Anzahl der verdeckten Schichten beträgt 5. In den folgenden Experimenten haben wir Gewichtsabnahme und Aussetzer verwendet, um eine Überanpassung zu vermeiden. Weight-Decay fügt dem normalen Gradienten einen zusätzlichen Term hinzu. Dieser zusätzliche Term ist die Ableitung einer Funktion, die große Gewichte bestraft. Wir haben die einfachste L2-Straffunktion verwendet. Darüber hinaus ist Dropout eine Regularisierungstechnik, um Overfitting in neuronalen Netzen zu reduzieren, indem komplexe Koadaptionen an Trainingsdaten verhindert werden [39].

Die Genauigkeit der Vorhersage der Proteinfunktion kann durch verschiedene Bewertungsmetriken bewertet werden, und die Leistung verschiedener Vorhersagemodelle wird durch die verwendeten Bewertungsmetriken beeinflusst. Für einen fairen und umfassenden Vergleich haben wir vier Bewertungsmetriken verwendet, MacroAvgF 1, AvgROC, RankingLoss und Fmax. Diese Bewertungsmetriken messen die Leistung der Proteinfunktionsvorhersage unter verschiedenen Aspekten. Die ersten drei Metriken wurden angewendet, um die Ergebnisse des Multilabel-Lernens zu bewerten [40]. AvgROC und Fmax sind empfohlene Metriken zur Bewertung der Vorhersage der Proteinfunktion [6, 41]. MacroAvgFl erhält den F1-Score jedes Begriffs und nimmt dann den Durchschnitt des F1-Scores über alle Begriffe. AvgAUC berechnet zuerst die Fläche unter der Empfängerbetriebskurve jedes Terms und nimmt dann den Durchschnittswert dieser Flächen als Ganzes, um die Leistung zu messen. Fmax [6] ist das gesamte maximale harmonische Mittel von Recall und Präzision über alle möglichen Schwellenwerte auf der vorhergesagten Proteinfunktions-Assoziationsmatrix. RankingLoss berechnet den durchschnittlichen Anteil falsch vorhergesagter Annotationen, die vor den Ground-Truth-Annotationen von Proteinen rangieren. Um mit anderen Bewertungsmetriken konsistent zu sein, verwenden wir 1 -RankLoss anstelle von RankingLoss. Je höher der Wert dieser Metriken ist, desto besser ist die Leistung. Die formale Definition dieser Metriken findet sich in [6, 22, 40]. Da diese Metriken verschiedene Aspekte einer Funktionsvorhersagemethode erfassen, ist es für einen Ansatz schwierig, die anderen über alle Bewertungsmetriken hinweg konsistent zu übertreffen.

4.2. Experimentelle Ergebnisse. Basierend auf den oben eingeführten experimentellen Protokollen führen wir Experimente durch, um die Leistung von DRBM bei der Vorhersage der Proteinfunktion zu untersuchen.

In Tabelle 2 berichten wir über die experimentellen Ergebnisse von Proteinen von Homo sapiens, die mit BP-, CC- bzw. MF-Termen annotiert sind. Die Ergebnisse für Mus musculus, Saccharomyces cerevisiae und Drosophila sind in den Tabellen 3-5 angegeben. In diesen Tabellen sind die besten Ergebnisse fett gedruckt.

Aus diesen Tabellen können wir ersehen, dass DRBM in den meisten Fällen bessere Ergebnisse erzielt als NtN, dRW, SVD und AE. Wir analysieren die Unterschiede zwischen DRBM und diesen Vergleichsmethoden durch Wilcoxon-Vorzeichen-Rang-Test [42, 43] und stellen fest, dass DRBM bei den ersten drei Metriken (wobei p-Werte alle kleiner als 0,004 . sind) signifikant besser abschneidet als NtN, dRW und SVD ) und erzielt bei diesen vier Metriken auch eine bessere Leistung als Deep AE (p-Wert kleiner als 0,001). dRW erhält oft größere Fmax als DRBM. Der mögliche Grund ist, dass dRW Schwellenwerte verwendet, um einige Vorhersagen herauszufiltern und somit die wahre positive Rate erhöht.

dRW wendet abwärts gerichtete Random Walks mit Neustart auf dem GO-gerichteten azyklischen Graphen an, um die Proteinfunktion vorherzusagen. dRW berücksichtigt die hierarchische Strukturbeziehung zwischen GO-Termen und erzielt bessere Ergebnisse als NtN und SVD. Diese Beobachtung bestätigt, dass die hierarchische Beziehung zwischen den Begriffen eine wichtige Rolle bei der Vorhersage der Proteinfunktion spielt. Obwohl dRW die hierarchische Strukturbeziehung zwischen Begriffen nutzt, ist es immer noch eine flache Methode des maschinellen Lernens und erfasst nicht die tiefen Assoziationen zwischen Proteinen und GO-Begriffen wie DRBM, sodass es von DRBM oft übertroffen wird.

Die Ergebnisse von NtN und SVD sind immer niedriger als die von AE und DRBM. Der mögliche Grund ist, dass die Singulärwertzerlegung auf einer dünnbesetzten Matrix für diese Art von Proteinfunktionsvorhersageproblemen, bei denen es komplexe hierarchische Beziehungen zwischen GO-Termen gibt, nicht geeignet ist. NtN verwendet die Ontologie-Hierarchie, um die Gewichte von Proteinfunktionsassoziationen anzupassen, aber es erzielt keine besseren Ergebnisse als SVD. Der Grund dafür ist, dass NtN spezifischen Anmerkungen große Gewichtungen zuweist, aber flachen Anmerkungen kleine Gewichtungen. Nach der wahren Pfadregel werden Vorfahren-Begriffe im Allgemeinen mehr Proteinen als ihren Nachkommen-Begriffen zugeordnet. Aus diesem Grund wird NtN oft von SVD übertroffen, ganz zu schweigen von AE und DRBM. Sowohl AE als auch DRBM sind Deep Machine Learning-Techniken, aber DRBM schneidet häufig besser ab als AE. Das liegt daran, dass die Verallgemeinerungsfähigkeit von AE nicht so gut ist wie die von DRBM, und AE fällt leicht in das lokale Optimum. Zusammenfassend zeigen diese Ergebnisse und Vergleiche, dass DRBM tiefe Assoziationen zwischen Proteinen und GO-Begriffen erfassen kann und somit eine bessere Leistung als andere verwandte Methoden über verschiedene Bewertungsmaßnahmen hinweg erzielt. DRBM ist ein effektiver alternativer Ansatz zur Vorhersage der Proteinfunktion.

4.3. Laufzeitanalyse. Hier untersuchen wir die Laufzeitkosten (einschließlich Trainingsphase und Testphase) dieser Vergleichsmethoden für Homo sapiens und Mus musculus in der GO BP-Subontologie, da diese Subontologie viel mehr Anmerkungen und GO-Begriffe enthält. Die experimentelle Plattform ist Windows Server 2008, Intel Xeon E7-4820, 64 GB RAM. Die aufgezeichnete Laufzeit für diese Vergleichsmethoden ist in Tabelle 6 angegeben.

Aus dieser Tabelle können wir sehen, dass DRBM schneller ist als diese Vergleichsmethoden, mit Ausnahme von SVD. NtN und dRW verbringen viel Zeit damit, die semantische Ähnlichkeit zwischen GO-Begriffen zu berechnen, daher benötigen sie mehr Zeit als andere. Im Gegensatz dazu wendet SVD die Matrixzerlegung direkt auf die Proteinfunktionsassoziationsmatrix an und die Matrix ist spärlich, sodass SVD weniger Zeit benötigt als DRBM. AE verwendet neuronale Backpropagation-Netze, um Parameter abzustimmen, was viel Zeit kostet. DRBM verwendet Contrastive Divergence, einen schnell lernenden Algorithmus, um die Parameter zu optimieren, sodass seine Laufzeit geringer ist als die von AE. Dieser Vergleich bestätigt weiter, dass DRBM eine effiziente und effektive alternative Lösung für die Vorhersage der Proteinfunktion ist.

In diesem Artikel untersuchen wir, wie zusätzliche funktionelle Annotationen von annotierten Proteinen vorhergesagt werden können. Dazu untersuchen wir Deep Restricted Boltzmann Machines (DRBM). Unsere empirische Studie zu den Proteinen von Saccharomyces cerevisiae, Homo sapiens, Mus musculus und Drosophila zeigt, dass DRBM mehrere wettbewerbsbezogene Methoden übertrifft, insbesondere Modelle des flachen maschinellen Lernens. Dieses Papier wird weitere Forschungen zur Verwendung von Deep Machine Learning-Techniken für die Vorhersage von Proteinfunktionen vorantreiben. Als Teil unserer zukünftigen Arbeit werden wir andere Arten von proteomischen Daten in DRBM integrieren, um die Vorhersageleistung weiter zu steigern.

Die Autoren erklären, dass keine Interessenkonflikte bezüglich der Veröffentlichung dieser Arbeit bestehen.

Diese Arbeit wird teilweise unterstützt von der Natural Science Foundation of China (Nr. 61402378), Natural Science Foundation of CQ CSTC (Nr. cstc2014jcyjA40031 und cstc2016jcyjA0351), Science and Technology Development of Jilin Province of China (20150101051JC und 20160520099JH), Science and Technology Foundation of Guizhou (Grant-Nr. QKHJC20161076), das Science and Technology Top-Notch Talents Support Project of Colleges and Universities in Guizhou (Grant-Nr. QJHKY2016065) und Fundamental Research Funds for the Central Universities of China (Nr. XDJK2016B009 und 2362015XK07).

[1] R. J. Roberts, „Identifizierung von Proteinfunktionen, die gemeinschaftliches Handeln erfordern“, PLoS Biology, vol. 2, nein. 3, s. e42, 2004.

[2] G. Pandey, V. Kumar und M. Steinbach, in Computational Approaches for Protein Function Prediction: a survey, S. 6-28, Department of Computer Science and Engineering, University of Minnesota, A Survey, 2006.

[3] A. M. Schnoes, D. C. Ream, A. W. Thorman, P. C. Babbitt und I. Friedberg, „Biases in den experimentellen Annotationen der Proteinfunktion und ihre Wirkung auf unser Verständnis des Proteinfunktionsraums“, PLoS Computational Biology, vol. 9, nein. 5, Artikel-ID e1003063, 2013.

[4] P D. Thomas, V. Wood, C. J. Mungall, S. E. Lewis und J. A. Blake, „Über die Verwendung von Genontologie-Annotationen zur Bewertung der funktionalen Ähnlichkeit zwischen Orthologen und Paralogen: ein kurzer Bericht“, PLoS Computational Biology, vol. 8, nein. 2, Artikel-ID e1002386, 2012.

[5] P. Legrain, R. Aebersold, A. Archakov et al., "Das menschliche Proteom-Projekt: gegenwärtiger Zustand und zukünftige Richtung", Molecular & CellularProteomics, vol. 10, nein. 7, Artikel 009993, 2011.

[6] P Radivojac, W. Clark, T. Oron et al., „Eine groß angelegte Bewertung der computergestützten Proteinfunktionsvorhersage“, Nature Methods. vol. 10, nein. 3, S. 221-227, 2013.

[7] D. Lee, O. Redfern und C. Orengo, "Vorhersage der Proteinfunktion aus Sequenz und Struktur", Nature Reviews Molecular Cell Biology. vol. 8, nein. 12, S. 995-1005, 2007.

[8] R. Sharan, I. Ulitsky und R. Shamir, "Netzwerkbasierte Vorhersage der Proteinfunktion", Molecular Systems Biology. vol. 3, s. 88, 2007.

[9] M. Cao, C. M. Pietras, X. Feng et al., „Neue Richtungen für die diffusionsbasierte Netzwerkvorhersage der Proteinfunktion: Pfade mit Vertrauen integrieren“, Bioinformatik. vol. 30, nein. 12, S. I219-I227, 2014.

[10] N. Cesa-Bianchi, M. Re und G. Valentini, „Synergy of multilabel hierarchical ensembles, data fusion, and cost-sensitive Methoden for gen Functional Inference“, Machine Learning, vol. 88, Nr. 1-2, S. 209-241, 2012.

[11] G. Yu, C. Domeniconi, H. Rangwala, G. Zhang und Z. Yu, „Transductive multi-label ensemble Klassifizierung für Protein Function Prediction“, in Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD 2012, S. 1077-1085, chn, August 2012.

[12] G. Yu, G. Fu, J. Wang und H. Zhu, „Predicting Protein Function via semantic Integration of Multiple Networks“, IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 13, nein. 2, S. 220-232, 2016.

[13] M. Ashburner, C. A. Ball, J. A. Blake et al., „Genontologie: Werkzeug zur Vereinheitlichung der Biologie“, Nature Genetics, vol. 25, nein. 1, S. 25-29, 2000.

[14] O. D. King, R. E. Foulger, S. S. Dwight, J. V. White und F. P. Roth, „Vorhersage der Genfunktion aus Annotationsmustern“, Genome Research, vol. 13, nein. 5, S. 896-904, 2003.

[15] P. Khatri, B. Done, A. Rao, A. Done und S. Draghici, „Eine semantische Analyse der Annotationen des menschlichen Genoms“, Bioinformatik. vol. 21, nein. 16, S. 3416-3421, 2005.

[16] B. Done, P. Khatri, A. Done und S. Draghici, „Vorhersage neuartiger menschlicher Gen-Ontologie-Annotationen mit semantischer Analyse“, IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 7, nein. 1, S. 91-99, 2010.

[17] Y. Tao, L. Sam, J. Li, C. Friedman und Y. A. Lussier, "Informationstheorie angewendet auf das dünn besetzte Genontologie-Annotationsnetzwerk, um neue Genfunktionen vorherzusagen", Bioinformatik, vol. 23, nein. 13, S. i529-i538, 2007.

[18] G. Yu, H. Zhu, C. Domeniconi und J. Liu, „Vorhersage der Proteinfunktion über nach unten gerichtete Random Walks auf einer Gen-Ontologie“, BMC Bioinformatics. vol. 16, nein. 1, Artikel-Nr. 271, 2015.

[19] G. Salton, A. Wong und C. S. Yang, „Ein Vektorraummodell für die automatische Indizierung“, Communications of the ACM, vol. 18, nein. 11, S. 613-620, 1975.

[20] H. Tong, C. Faloutsos und J.-Y. Pan, "Random Walk mit Neustart: Schnelle Lösungen und Anwendungen", Knowledge and Information Systems, vol. 14, nein. 3, S. 327-346, 2008.

[21] G. Yu, H. Rangwala, C. Domeniconi, G. Zhang und Z. Yu, „Protein Function Prediction with unvollständige annotations“, IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 11, nein. 3, S. 579-591, 2013.

[22] G. Yu, C. Domeniconi, H. Rangwala und G. Zhang, „Protein Function Prediction using dependence maximization“, in Proceedings of the Joint European Conference on Machine Learning and Knowledge Discovery in Databases, vol. 8188 von Lecture Notes in Computer Science, S. 574-589, Springer Berlin Heidelberg.

[23] G. Yu, H. Zhu und C. Domeniconi, „Vorhersage von Proteinfunktionen mithilfe unvollständiger hierarchischer Markierungen“, BMC Bioinformatics, vol. 16, nein. 1, Artikel-Nr. 1, 2015.

[24] G. Fu, G. Yu, J. Wang und Z. Zhang, "Neue Proteinfunktionsvorhersage mit einem direkten Hybridgraphen", Science China-Information Science, vol. 46, Nr. 4, S. 461-475, 2016.

[25] L. Deng und D. Yu, "Deep Learning: Methoden und Anwendungen", Grundlagen und Trends in der Signalverarbeitung, vol. 7, nein. 3-4, S. 197-387, 2013.

[26] J. Eickholt und J. Cheng, "Vorhersage von Proteinrest-Rest-Kontakten mit Hilfe von tiefen Netzwerken und Boosting", Bioinformatics. vol. 28, Nr. 23, S. 3066-3072, 2012.

[27] Y. LeCun, Y. Bengio und G. Hinton, "Deep learning", Nature, vol. 521, Nr. 7553, S. 436-444, 2015.

[28] G. E. Hinton und R. R. Salakhutdinov, „Reducing the dimensionsity of data with neuronal networks“, American Association for the Advancement of Science. Wissenschaft, Bd. 313, Nr. 5786, S. 504-507, 2006.

[29] D. Chicco, P. Sadowski und P. Baldi, „Deep autoencoder neural networks for gene ontology annotation Predictions“, in Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics, ACMBCB 2014, S. 533 -540, USA, September 2014.

[30] G. E. Hinton, S. Osindero und Y.-W. Teh, "Ein schnell lernender Algorithmus für tiefe Glaubensnetze", Neural Computation, vol. 18, nein. 7, S. 1527-1554, 2006.

[31] I. Fasel und J. Berry, "Deep Glaube Networks for Real-time Extraction of Zungenkonturen aus Ultraschall während des Sprechens", in Proceedings of the 20th International Conference on Pattern Recognition, ICPR 2010, S. 1493-1496, Tur , August 2010.

[32] A. Fischer und C. Igel, "An Introduction to Restricted Boltzmann Machines", in Progress in Pattern Recognition, Image Analysis, Computer Vision, andApplications, vol. 7441 of Lecture Notes in Computer Science, S. 14-36, Springer Berlin Heidelberg, Berlin, Heidelberg, 2012.

[33] R. Salakhutdinov, A. Mnih und G. Hinton, „Eingeschränkte Boltzmann-Maschinen für kollaboratives Filtern“, in Proceedings of the 24th International Conference on Machine Learning (ICML '07), vol. 227, S. 791-798, Corvallis, Oregon, Juni 2007.

[34] Y. Wang und J. Zeng, "Vorhersage von Wirkstoff-Ziel-Interaktionen mit eingeschränkten Boltzmann-Maschinen", Bioinformatik. vol. 29, nein. 13, S. 1126-1134, 2013.

[35] X. Li, F. Zhao und Y. Guo, „Conditional Restricted Boltzmann Machines for Multi-Label Learning with unvollständige Labels“, in Proceedings of the in Proceedings of 18th International Conference on Artificial Intelligence and Statistics, S. 635 -643, 2015.

[36] G. E. Hinton, "Trainingsprodukte von Experten durch Minimierung der kontrastiven Divergenz", Neural Computation, vol. 14, nein. 8, S. 1771-1800, 2002.

[37] G. Hinton, "Ein praktischer Leitfaden zum Training eingeschränkter Boltzmann-Maschinen", in Neural Networks: Tricks of the Trade, G. Montavon, G. B. Orr und K.-R. Müller, Hrsg., vol. 7700 of Lecture Notes in Computer Science, S. 599-619, Springer, Berlin, Deutschland, 2. Auflage, 2012.

[38] R. Salakhutdinov und G. E. Hinton, "Deep Boltzmann Machines", in Proceedings of the In Proceedings of 12th International Conference on Artificial Intelligence and Statistics, S. 448-455, 2009.

[39] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever und R. Salakhutdinov, „Ausfall: ein einfacher Weg, um eine Überanpassung neuronaler Netze zu verhindern“, The Journal of Machine Learning Research, vol. 15, nein. 1, S. 1929-1958, 2014.

[40] M.-L. Zhang und Z.-H. Zhou, "Eine Überprüfung auf Multi-Label-Lernalgorithmen", IEEE Transactions on Knowledge and Data Engineering, vol. 26, nein. 8, S. 1819-1837, 2014.

[41] Y. Jiang, "Eine erweiterte Bewertung von Methoden zur Vorhersage der Proteinfunktion zeigt eine Verbesserung der Genauigkeit", Genome Biology. vol. 17, nein. 1-19, S. 1819-1837, 2016.

[42] L. Wilcoxon, "Individueller Vergleich durch Ranking-Methoden", Biometrics, vol. 1, nein. 6, S. 80-83, 1945.

[43] J. Demsar, „Statistische Vergleiche von Klassifikatoren über mehrere Datensätze“, The Journal of Machine Learning Research, vol. 7, nein. 1, S. 1-30, 2006.

Xianchun Zou, Guijun Wang und Guoxian Yu

College of Computer and Information Science, Southwest University, Chongqing, China


Hauptmethoden zur Vorhersage funktionaler Annotationen in GO - Biologie

Function SIG: Gen- und Proteinfunktionsannotation

COSI-Track-Präsentationen

Präsentationsübersicht: Zeigen

Die Analyse der korrelierten Evolution zwischen Genen kann verwendet werden, um funktionelle Interaktionen zwischen den Proteinen, die sie kodieren, abzuleiten. Koevolutionäre Analysen werden oft durch ihre Fähigkeit validiert, Proteine ​​zu identifizieren, die an einem physikalischen Komplex beteiligt sind oder an einem gemeinsamen Stoffwechselweg beteiligt sind. Sie können jedoch neben der Vorhersage von Interaktionen auch wertvolle Informationen über die Unabhängigkeit liefern. Unter Verwendung des Folatstoffwechsels als Fallstudie finden wir ein Enzympaar, das sich statistisch und experimentell miteinander, aber unabhängig vom Rest des Stoffwechselwegs entwickelt. Eine Strategie zur Identifizierung von Proteingruppen, die sich anpassen und als eigenständige Einheiten fungieren, würde dazu beitragen, zelluläre Systeme handhabbarer und vorhersehbarer zu machen und praktische Strategien für das Metabolic Engineering vorzuschlagen.

  • Giuseppe Profiti, Universität Bologna und ELIXIR Italien, Italien
  • Castrense Savojardo, Universität Bologna, Italien
  • Pier Luigi Martelli, Universität Bologna, Italien
  • Rita Casadio, Universität Bologna, Italien

Präsentationsübersicht: Zeigen

Critical Assessment of Protein Function Annotation Algorithmen (CAFA) sind eine wissenschaftliche Herausforderung, die alle zwei Jahre durchgeführt wird und darin besteht, Gene Ontology (GO)-Begriffe aus Proteinsequenzen vorherzusagen.
Die Organisatoren veröffentlichen eine Reihe von Proteinsequenzen, die Vorhersagen der Teilnehmer sollten bis zum folgenden Januar hinterlegt werden, und die Bewertung erfolgt anhand der experimentellen Anmerkungen, die in den folgenden Monaten (mindestens 6) gesammelt wurden.
Ein Papier mit den Ergebnissen wird in der Regel vor der folgenden Ausgabe der Challenge veröffentlicht: CAFA1 (2010-2011) Ergebnisse wurden 2013 veröffentlicht, CAFA2 (2013-2014) 2016, CAFA3 2016-2017 Evaluierung ist noch in Arbeit.
Zeitschriften wie NAR Web Server Issue verlangen CAFA-Ergebnisse für Prädiktoren, die zur Veröffentlichung eingereicht werden, jedoch sind solche Ergebnisse Jahre nach dem Testen der Methode in CAFA verfügbar, und in jedem Fall wird die Challenge alle zwei Jahre durchgeführt. Dies führt zu einer Lücke: Entweder verwenden Wissenschaftler alte Scores oder sie sollten „inhouse“ CAFA-ähnliche Auswertungen durchführen.
Angesichts dieses Szenarios schlagen wir ein zentralisiertes kontinuierliches Bewertungssystem für CAFA-ähnliche Bewertungen vor. Dies wird zu konsistenten und zertifizierten Scores, klaren Datensatzreferenzen und Offenheit beitragen. Bestehende Benchmarking-Plattformen wie OpenEBench könnten in diesem Sinne genutzt werden.

  • Peter Freddolino, University of Michigan, USA
  • Mehdi Rahimpour, University of Michigan, USA
  • Chengxin Zhang, University of Michigan, USA
  • Yang Zhang, University of Michigan, USA

Präsentationsübersicht: Zeigen

Die rechnerische funktionale Annotation wird häufig durch das Fehlen von High-Identity-Templates für jedes neue interessierende Ziel behindert. Wir haben kürzlich eine hybride Pipeline entwickelt, die Strukturvorhersage/-Alignment, Sequenz-Alignment und Protein-Protein-Interaktionsinformationen kombiniert, um kombinierte Strukturvorhersagen und funktionelle Annotationen für ganze Proteome zu erhalten. Wir stellen fest, dass unsere Einbeziehung von Strukturinformationen unseren Arbeitsablauf bei schwierigen Zielen mit begrenzter Sequenzidentität zu annotierten Proteinen ungewöhnlich stark macht. Wichtig ist auch, dass wir beobachten, dass die in silico Strukturvorhersage jetzt experimentelle Strukturen für funktionale Annotationspipelines ersetzen kann. Die kombinierten Struktur-/Funktionsvorhersagen unserer Pipeline bieten einen ungewöhnlichen Informationsreichtum, und wir zeigen mehrere Anwendungsfälle, in denen Erkenntnisse aus diesen Vorhersagen Folgeexperimente genau leiteten.

Die Untersuchung unserer Vorhersagen an mehreren Modellproteomen zeigt eine Reihe von häufig überrepräsentierten Funktionalitäten bei schlecht annotierten Proteinen, darunter Transkriptionsfaktoren, Kinasen/Phosphatasen und Pathogenitätsgene. Unsere Ergebnisse liefern grundlegende neue Einblicke in die genetische Kapazität, die in Proteomen in allen Bereichen des Lebens kodiert ist, liefern eine reichhaltige neue Informationsquelle für die detaillierte Untersuchung der Funktionen vieler zuvor mysteriöser proteinkodierender Gene und ebnen den Weg für groß angelegte Struktur-/Funktionsannotation für ein breiteres Spektrum von interessierenden Proteomen.

  • Linhua Wang, Icahn School of Medicine am Mount Sinai, USA
  • Jeffrey Law, Virginia Tech, USA
  • Shiv Kale, Virginia Tech, USA
  • T. M. Murali, Virginia Tech, USA
  • Gaurav Pandey, Icahn School of Medicine at Mount Sinai, USA

Präsentationsübersicht: Zeigen

Ein effektiver Ansatz zur Nutzung der Komplementarität von Methoden zur Vorhersage der Proteinfunktion (PFP) besteht darin, sie in heterogene Ensembles zu integrieren. Wir haben gezeigt, dass solche Ensembles signifikante Leistungssteigerungen gegenüber einzelnen PFP-Prädiktoren bieten können. Unsere bisherige Arbeit war jedoch aufgrund des Rechenaufwands für die Konstruktion dieser Ensembles auf einige wenige GO-Terme beschränkt. Hier berichten wir über die Ergebnisse groß angelegter PFP mit heterogenen Ensembles.

Konkret konstruierten und bewerteten wir Ensembles für 277 GO-Terme unter Verwendung von 12 verschiedenen Basisklassifikatoren und zwei Arten von Methoden, nämlich Stapeln mit 8 verschiedenen Meta-Klassifikatoren und dem Ensemble Selection Algorithmus (CES) von Caruana et al. Das Stapeln mit Logistic Regression (SLR) war der leistungsstärkste Stapler und konnte auch mit CES konkurrieren. SLR übertraf im Allgemeinen den besten Basisklassifizierer, wobei die mediane Fmax-Verbesserung mit der Größe des GO-Terms zunahm, nämlich 0,010 (p=0,21), 0,027 (p=1,1x10-7) und 0,033 (p=1,7x10-10) für kleine (200- 500 Proteine), mittlere (500-1000 Proteine) und große (über 1000 Proteine) Begriffe. Darüber hinaus dauerte die gesamte Berechnung auf einem großen Rechencluster weniger als 48 Stunden. Diese Ergebnisse zeigen, dass groß angelegte PFP mit heterogenen Ensembles, die systematisch durch Stapeln und CES konstruiert wurden, vorhersagbar und rechnerisch durchführbar sein können.

  • Sergey Nepomnyachiy, Universität Tel Aviv, Israel
  • Nir Ben-Tal, Universität Tel Aviv, Israel
  • Rachel Kolodny, Universität Haifa, Israel

Präsentationsübersicht: Zeigen

Die Wiederverwendung – die Kooption von Segmenten aus nicht verwandten Proteinen zur Herstellung neuer Proteine ​​– liegt der Proteinevolution zugrunde. Somit kann die Charakterisierung der Wiederverwendung Einblicke in die Proteinfunktion und -evolution bieten. Um Wiederverwendungsmuster zu untersuchen, haben wir einen Algorithmus entwickelt, der „Themen“ identifiziert – wiederverwendete Segmente ähnlicher Sequenz und Struktur aus Protein-Alignments. Unser Algorithmus findet Themen unterschiedlicher minimaler Länge, die von 35-200 Resten reichen. Damit quantifizieren und untersuchen wir die Wiederverwendung in der ECOD-Datenbank der Domänen und in der PDB. Tatsächlich ist die Wiederverwendung von Themen weit verbreitet, und die Wiederverwendung ist umfassender, wenn kürzere Themen eingeschlossen werden. Strukturdomänen, die autonom gefaltete Proteinteile und die am besten charakterisierte Form der Wiederverwendung in Proteinen sind, sind nur eine von vielen, komplexen und ineinander verschlungenen Spuren der Evolution. Andere umfassen lange Themen, die von einigen wenigen Proteinen geteilt werden, die kürzere Themen umfassen und mit diesen überlappen, die in mehr Proteinen wiederkehren. Die beobachtete Komplexität steht im Einklang mit der Evolution durch Duplikation und Divergenz, was darauf hindeutet, dass einige der Themen Nachkommen von Vorfahrensegmenten beinhalten könnten. Die beobachteten rekursiven Fußabdrücke, bei denen dieselbe Aminosäure gleichzeitig an mehreren miteinander verflochtenen Themen beteiligt sein kann, haben interessante Auswirkungen auf die Charakterisierung der Evolution und die Vorhersage der Proteinfunktion.

  • Magdalena Antczak, University of Kent, Vereinigtes Königreich
  • Mark Wass, University of Kent, Vereinigtes Königreich

Präsentationsübersicht: Zeigen

Fast 20 Jahre nach der Veröffentlichung der ersten menschlichen Genomsequenz bleibt unser Wissen und Verständnis der Gen-/Proteinfunktionen begrenzt. Dies wird durch die kürzlich erfolgte Identifizierung des minimalen Bakteriengenoms veranschaulicht, die zeigte, dass ein Drittel (149 von 438) der Proteine ​​in diesem Genom eine unbekannte Funktion aufwies. Diese Gene erfüllen wesentliche Rollen, aber wir haben keine Ahnung von den Funktionen, die sie erfüllen.
Wir führten eine umfangreiche In-silico-Analyse durch, um unser Verständnis des minimalen Genoms zu erweitern. Insgesamt ergab unsere Analyse für 59 der 149 Proteine ​​unbekannter Funktion informativere Funktionen. Die abgeleiteten Funktionen decken mehrere Bereiche ab, darunter Proteinsynthese, Zellteilung und Transport. Unsere Ergebnisse legen nahe, dass >50% des minimalen Genoms für die grundlegenden Lebensprozesse der Erhaltung und Expression genetischer Informationen benötigt werden. Interessanterweise haben wir viele Transmembranproteine ​​in der Reihe der uncharakterisierten Proteine ​​identifiziert und sagen voraus, dass >70% davon Transporterfunktionen haben. Unsere Analyse liefert Einblicke in die Funktionen von Proteinen im minimalen Bakteriengenom, die nun für die experimentelle Charakterisierung von Interesse sein werden. Darüber hinaus unterstreicht es die Fähigkeit, Computeransätze zu verwenden, um unser Wissen und Verständnis der Proteinfunktion zu erweitern.

  • Nirvana Nursimulu, University of Toronto, Kanada
  • Leon Xu, Universität Toronto, Kanada
  • James Wasmuth, University of Calgary, Kanada
  • Ivan Krukov, Universität Calgary, Kanada
  • John Parkinson, Krankenhaus für kranke Kinder, Kanada

Präsentationsübersicht: Zeigen

Metabolic Modeling ist ein effektiver Weg, um Faktoren zu verstehen, die das Wachstum von Organismen beeinflussen. Letztendlich sind solche Modelle der Schlüssel für Zwecke wie Metabolic Engineering und Arzneimitteldesign. Sequenzähnlichkeitssuchen – die normalerweise verwendet werden, um die enzymatische Funktion für diese Modelle zu kommentieren – führen jedoch zu falsch positiven Enzymvorhersagen und berücksichtigen die Sequenzdiversität innerhalb von Enzymklassen nicht. Daher wurden verschiedene Methoden entwickelt, die über die Sequenzähnlichkeit hinaus nach Elementen wie dem Vorhandensein von Domänen und katalytischen Zentren suchen. Hier stellen wir zunächst DETECT (Density Estimation Tool for Enzyme ClassificaTion) vor. In DETECT wird die Sequenzdiversität innerhalb jeder Enzymklasse durch Dichteprofile erfasst. Dann berechnet es Wahrscheinlichkeitswerte für eine Abfragesequenz, wenn ihre Übereinstimmungen mit Sequenzen verschiedener Enzymklassen gegeben sind. Die Verwendung von enzymspezifischen Score-Cutoffs, die aus der Kreuzvalidierung berechnet wurden, verleiht DETECT eine höhere Präzision und Wiedererkennung im Vergleich zu bestehenden Methoden. Es bleibt festzuhalten, dass verschiedene Methoden besser geeignet sind, bestimmte Enzymklassen vorherzusagen als andere. Daher präsentieren wir in einem zweiten Teil einen integrativen Ansatz für die Enzymannotation, bei dem enzymspezifische Regeln verwendet werden, um die Vorhersagen verschiedener Werkzeuge zu kombinieren. Insgesamt schlagen wir Methoden vor, um metabolische Modelle mit hoher Zuverlässigkeit zu erstellen, um die biologische Entdeckung voranzutreiben.

  • Kokulapalan Wimalanathan, Iowa State University, USA
  • Iddo Friedberg, Iowa State University, USA
  • Carson Andorf, USDA-ARS, USA
  • Carolyn Lawrence-Dill, Iowa State University, USA

Präsentationsübersicht: Zeigen

Mais ist sowohl eine Nutzpflanze als auch ein Modell für die Genetik- und Genomforschung. Maize GO-Anmerkungen von Gramene und Phytozome werden häufig verwendet, um Hypothesen für die Verbesserung der Kulturpflanzen und die Grundlagenforschung abzuleiten. Das Projekt Mais-GAMER ist ein Versuch, vorhandene Mais-GO-Annotationen zu bewerten und die Qualität und Quantität der Annotationen zu verbessern. Wir haben einen pflanzenspezifischen reproduzierbaren Meta-Annotator (GO-MAP) entworfen und implementiert, der verschiedene Komponentenmethoden wie Sequenzähnlichkeit, Domänenpräsenz und drei CAFA-Tools (Argot2, FANN-GO und Pannzer) verwendet, um GO-Begriffe vorherzusagen Maisgene und aggregiert die vorhergesagten Annotationen als einen aggregierten Datensatz. Annotationen von Gramene, Phytozome und Mais-GAMER wurden bewertet und verglichen. Im Vergleich zu Gramene und Phytozome kommentiert der Mais-GAMER-Datensatz mehr Gene und weist mehr GO-Begriffen pro Gen zu. Die Qualität der Annotationen wurde anhand eines unabhängigen Gold-Standard-Datensatzes (2002 GO-Annotationen für 1.619 Gene) von MaizeGDB bewertet. In der CC-Kategorie war Mais-GAMER der Spitzenreiter, rangierte jedoch sowohl in der MF- als auch in der BP-Kategorie leicht hinter Gramene. Die Mais-GAMER GO-Annotationen wurden öffentlich veröffentlicht, und das containerisierte GO-MAP-Tool wird in Kürze veröffentlicht, um die Annotation anderer Pflanzenproteome zu erleichtern.

Präsentationsübersicht: Zeigen

CAZymes (kohlenhydrataktive Enzyme) gehören zu den wichtigsten Enzymen für die Bioenergie- und Agrarindustrie. CAZyme sind auch für die menschliche Gesundheit wichtig, da Mikroben, die im menschlichen Darm leben, den höchsten Prozentsatz an CAZyme codieren, um verschiedene Nahrungs- und Wirtskohlenhydrate abzubauen, und eine Änderung der Nahrungskohlenhydrate wird die Darmmikrobiotastruktur beeinflussen und die menschliche Gesundheit weiter beeinflussen. Wir haben eine Online-Datenbank dbCAN-seq (http://cys.bios.niu.edu/dbCAN_seq) erstellt, um vorberechnete CAZyme-Sequenz- und Annotationsdaten für 5.349 Bakteriengenome bereitzustellen. Im Vergleich zu den anderen CAZyme-Ressourcen bietet dbCAN-seq die folgenden neuen Funktionen: (i) eine praktische Download-Seite für den Batch-Download aller Sequenz- und Anmerkungsdaten (ii) eine Anmerkungsseite für jedes CAZyme, um die umfassendsten Anmerkungsdaten bereitzustellen (iii) eine Metadatenseite zur Organisation der Bakteriengenome nach Spezies-Metadaten wie Krankheit, Lebensraum, Sauerstoffbedarf, Temperatur, Stoffwechsel (iv) ein sehr schnelles Werkzeug zur Identifizierung physikalisch verbundener CAZyme-Gencluster (CGCs) und (v) ein leistungsstarkes Suchfunktion für eine schnelle und effiziente Datenabfrage. Mit diesen einzigartigen Dienstprogrammen wird dbCAN-seq zu einer wertvollen Webressource für die CAZyme-Forschung, wobei der Schwerpunkt komplementär zu dbCAN (automatisierter CAZyme-Annotationsserver) und CAZy (CAZyme-Familienklassifikations- und Referenzdatenbank) liegt.

  • Tunca Dogan , EMBL-EBI, CanSyL, METU, Vereinigtes Königreich
  • Ahmet Süreyya Rifaioğlu, Middle East Technical University, Türkei
  • Rabie Saidi, EMBL-EBI, Vereinigtes Königreich
  • Maria Martin, EMBL-EBI, Vereinigtes Königreich
  • Volkan Atalay, Middle East Technical University, Türkei
  • Rengul Atalay, METU, Türkei

Präsentationsübersicht: Zeigen

Die funktionelle Annotation von Biomolekülen in den Gen- und Proteindatenbanken ist meist unvollständig. Dies gilt insbesondere für Multidomänenproteine. Es gibt eine Grauzone in den Datenressourcen der Proteinfunktion, in der die wirklich negativen Funktionen und diejenigen, die das Protein besitzt, aber noch nicht entdeckt oder dokumentiert wurde (d. h. falsch negative), zusammen liegen. In vielen Fällen kann die Information über die im Zielbiomolekül fehlenden Funktionen genauso wichtig sein wie die zugewiesenen Funktionen. Es ist möglich, einen Teil dieser Grauzone aufzulösen, indem man die Funktionen vorhersagt, die die Zielproteine ​​höchstwahrscheinlich nicht besitzen. In dieser Studie präsentieren wir einen Ansatz, um negative funktionelle Annotationen für Proteinsequenzen zusammen mit regelmäßigen positiven Assoziationen zu erzeugen. Mit diesem Ansatz haben wir ein automatisiertes Funktionsvorhersagetool „UniGOPred“ entwickelt. Die negative Vorhersageleistung (Recall) wurde bei der Kreuzvalidierung mit 0,82 für MF und BP und mit 0,66 für CC GO-Terme (mit Vorhersagewerten ≤ 0,3) gemessen. Nach unserem besten Wissen wird hier erstmals die Fähigkeit einer Proteinfunktionsvorhersagemethode untersucht, negative Funktionen anhand von Sequenzmerkmalen vorherzusagen. UniGOPred ist als Open-Access-Tool unter http://cansyl.metu.edu.tr/UniGOPred.html verfügbar.

  • Morteza Pourreza Shahri, Montana State University, USA
  • Madhusudan Srinivasan, Montana State University, USA
  • Upulee Kanewala, Montana State University, USA
  • Indika Kahanda, Montana State University, USA

Präsentationsübersicht: Zeigen

Die Critical Assessment of Protein Function Annotation Algorithmen (CAFA) ist ein groß angelegtes Experiment zur Bewertung der Computermodelle für die automatisierte Funktionsvorhersage (AFP). Die in CAFA vorgestellten Modelle haben sich in Bezug auf die Vorhersagegenauigkeit als sehr vielversprechend erwiesen, aber der Qualitätssicherung wurde relativ wenig Aufmerksamkeit geschenkt. Die größte Herausforderung bei der Durchführung systematischer Tests mit AFP-Software ist das Fehlen eines Testorakels, das das Bestehen oder Nichtbestehen eines Testfalls bestimmt. Leider sind die genauen erwarteten Ergebnisse für die AFP-Aufgabe nicht genau definiert. Metamorphisches Testen (MT) ist eine Technik zum Testen von Programmen, die dem Orakelproblem gegenüberstehen, indem metamorphe Beziehungen (MRs) definiert werden. Ein MR bestimmt, ob ein Test bestanden oder nicht bestanden wurde, indem er angibt, wie sich die Ausgabe gemäß einer bestimmten Änderung der Eingabe ändern soll. In dieser Arbeit verwenden wir MT, um fünf webbasierte CAFA2-AFP-Tools zu testen, indem wir eine Reihe von MRs definieren, die Eingabetransformationen auf Proteinebene anwenden. Nach dieser ersten Prüfung stellen wir MR-Verletzungen fest. Derzeit arbeiten wir daran, domänenspezifische MRs basierend auf Sequenzmodifikationen zu entwickeln. Für die Zukunft planen wir, ein umfassendes MT-Tool zu entwickeln, das für die AFP-Community leicht verfügbar ist.

  • Naihui Zhou, Iowa State University, USA
  • Yuxiang Jiang, Indiana University Bloomington, USA
  • Michael Gerten, Iowa State University, USA
  • Timothy Bergquist, University of Washington, USA
  • Md Nafiz Hamid, Iowa State University, USA
  • Deborah A. Hogan, Geisel School of Medicine in Dartmouth, USA
  • Kimberley A. Lewis, Geisel School of Medicine in Dartmouth, USA
  • Alex W. Crocker, Dartmouth College, USA
  • George Georghiou, EMBL-EBI, Vereinigtes Königreich
  • Maria Martin, EMBL-EBI, Vereinigtes Königreich
  • Claire O'Donovan, EMBL-EBI, Vereinigtes Königreich
  • Sandra Orchard, EMBL-EBI, Vereinigtes Königreich
  • Sean D. Mooney, University of Washington, USA
  • Casey S. Greene, University of Pennsylvania, USA
  • Predrag Radivojac, Indiana University Bloomington, USA
  • Iddo Friedberg, Iowa State University, USA

Präsentationsübersicht: Zeigen

Die dritte CAFA-Herausforderung (CAFA3) veröffentlichte ihre Vorhersageziele im September 2016, und vorläufige Ergebnisse wurden im Juli 2017 veröffentlicht. CAFA3 zeigte einen begriffszentrierten Track, bei dem Prädiktoren gebeten wurden, eine große Anzahl von Genen (die vollständigen Genome von Candida albicans und Pseudomonas aeruginosa) mit eingeschränkten Funktionen. Durch die Zusammenarbeit mit experimentellen Biologen konnten wir unveröffentlichte Screening-Ergebnisse des gesamten Genoms verwenden, um diese Vorhersagen zu bewerten. Um diese Frage speziell zu beantworten, haben wir eine zusätzliche Herausforderung CAFA 3.14 (CAFA-Pi) veranstaltet, die sich der Bewertung begriffszentrierter Vorhersagen widmet. Die endgültigen CAFA3-Ergebnisse sowie vorläufige CAFA-Pi-Ergebnisse werden veröffentlicht und diskutiert, zusätzlich zu den Highlights der begriffszentrierten Bewertungen und Benchmark-Proteinen.

  • Ying Zhang, University of Rhode Island, USA
  • Jon Steffensen, University of Rhode Island, USA
  • Keith Dufault-Thompson, University of Rhode Island, USA

Präsentationsübersicht: Zeigen

Der Stoffwechsel bildet die Grundlage für das Verständnis zellulärer Prozesse in allen lebenden Organismen und ist für die Vermittlung von mikrobiellen Gemeinschaften und Wirt-Mikroben-Assoziationen unerlässlich.Trotz der breiten Anwendung von Modellen auf Genomskala zur Untersuchung der Funktion und Evolution von Stoffwechselnetzwerken fehlt aufgrund der großen Komplexität und Variabilität der metabolischen Interaktionen zwischen verschiedenen Spezies ein umfassendes Verständnis verschiedener Stoffwechselprozesse. Um die Annotation und Visualisierung komplexer Stoffwechselnetzwerke über den Rahmen bestehender Stoffwechselwegdatenbanken hinaus zu ermöglichen, haben wir einen neuen Algorithmus, FindPrimaryPairs, entwickelt, um die elementübertragenden Reaktanden/Produkt-Paare automatisch vorherzusagen und damit die primären Verbindungen von Metaboliten in Stoffwechselnetzwerken zu verfolgen . Der Algorithmus wurde angewendet, um die Visualisierung von Stoffwechselwegen zu ermöglichen. In der Präsentation werden wir neue Anwendungen unseres Ansatzes zur Annotation von Wirt-Mikroben-Stoffwechselkollaborationen demonstrieren und die weitere Integration von Proteinstruktur- und -funktionsinformationen in die Untersuchung der Evolution metabolischer Interaktionen zwischen verschiedenen Spezies diskutieren.

  • Vladimir Gligorijevic, Flatiron Institute, USA
  • Treffen Sie Barot, Flatiron Institute, USA
  • Da Chen Emily Koo, New York University, USA
  • Richard Bonneau, New York University, USA

Präsentationsübersicht: Zeigen

Die Prävalenz experimenteller Hochdurchsatzmethoden hat zu einer Fülle von großskaligen molekularen und funktionellen Interaktionsnetzwerken geführt. Die Konnektivität dieser Netzwerke bietet eine reichhaltige Informationsquelle, um funktionelle Annotationen für Gene und Proteine ​​abzuleiten. Eine wichtige Herausforderung war die Entwicklung von Methoden zum Kombinieren dieser heterogenen Netzwerke, um nützliche Proteinmerkmalsdarstellungen für die Funktionsvorhersage zu extrahieren. Die meisten existierenden Ansätze zur Netzwerkintegration verwenden flache Modelle, die komplexe und hochgradig nichtlineare Netzwerkstrukturen nicht erfassen können. Daher schlagen wir deepNF vor, eine Netzwerkfusionsmethode basierend auf multimodalen Deep Autoencodern, um High-Level-Merkmale von Proteinen aus mehreren heterogenen Interaktionsnetzwerken zu extrahieren. Wir wenden deepNF auf 6 STRING-Netzwerke an, um eine kompakte niedrigdimensionale Darstellung zu konstruieren, die Proteinmerkmale auf hoher Ebene enthält. Wir präsentieren eine umfangreiche Leistungsanalyse, die unsere Methode mit den modernsten Netzwerkintegrationsmethoden wie GeneMANIA und Mashup vergleicht. Neben der Kreuzvalidierung umfasst die Analyse auch eine zeitliche Holdout-Validierungsbewertung ähnlich den Maßnahmen in CAFA. Unsere Methode übertrifft bisherige Methoden sowohl für menschliche als auch für Hefe-STRING-Netzwerke. Durch unsere Methode gelernte Merkmale führen zu erheblichen Verbesserungen der Genauigkeit der Vorhersage der Proteinfunktion, was neue Entdeckungen der Proteinfunktion ermöglichen könnte.

  • Yannick Mahlich , Technische Universität München, Deutschland
  • Martin Steinegger, Max-Planck-Institut, Republik Korea
  • Burkhard Rost, Technische Universität München, Deutschland
  • Yana Bromberg, Rutgers University, USA

Präsentationsübersicht: Zeigen

Motivation: Der rapide Rückgang der Sequenzierungskosten hat viel mehr (vorhergesagte) Proteinsequenzen hervorgebracht, als mit Wet-Lab-Experimenten funktionell annotiert werden können. Daher wurden viele Berechnungsmethoden für diesen Zweck entwickelt. Die meisten dieser Verfahren verwenden homologiebasierte Inferenz, die über Sequenz-Alignments angenähert wird, um funktionelle Annotationen zwischen Proteinen zu übertragen. Die Zunahme der Anzahl verfügbarer Sequenzen hat jedoch den Suchraum drastisch vergrößert und damit Alignment-Verfahren deutlich verlangsamt.
Ergebnisse: Hier beschreiben wir HFSP, eine neuartige Berechnungsmethode, die Ergebnisse eines Hochgeschwindigkeits-Alignment-Algorithmus, MMseqs2, verwendet, um funktionelle Ähnlichkeit von Proteinen auf der Grundlage ihrer Alignment-Länge und Sequenzidentität abzuleiten. Wir zeigen, dass unsere Methode genau (83% Genauigkeit) und schnell (mehr als 40-fache Geschwindigkeitssteigerung gegenüber dem Stand der Technik) ist. HFSP kann dazu beitragen, einen Fehler von mindestens 20 % in Legacy-Kurationen zu korrigieren, selbst bei einer Ressource von so hoher Qualität wie Swiss-Prot. Diese Ergebnisse legen nahe, dass HFSP eine ideale Ressource für umfangreiche funktionale Annotationsarbeiten ist.

  • Rabie Saidi , EMBL-EBI, Vereinigtes Königreich
  • Maryam Abdollahyan, Queen Mary University of London, Vereinigtes Königreich
  • James Lee, EMBL-EBI, Vereinigtes Königreich
  • Tunca Dogan, EMBL-EBI, CanSyL, METU, Vereinigtes Königreich
  • Ahmet Süreyya Rifaioğlu, Middle East Technical University, Türkei
  • Maria Martin, EMBL-EBI, Vereinigtes Königreich

Präsentationsübersicht: Zeigen

Sowohl automatische als auch manuelle Pipelines von UniProt verwenden Sätze von Familien- und Domänensignaturen, um funktionelle Annotationen von Proteinen abzuleiten. Kürzlich wurde in einer Reihe von Studien vorgeschlagen, dass der gleiche Satz von Signaturen nicht unbedingt die gleichen Annotationen impliziert und dass andere Faktoren, wie die Reihenfolge der Signaturen in der Proteinsequenz, einen Einfluss auf seine Funktion haben können. Dieser Einfluss ist jedoch noch nicht quantifiziert. In dieser Arbeit stellen wir einen informationstheoretischen Ansatz vor, um die Konsistenz zwischen Signatursätzen und Annotationen zu messen. Wir schlagen ein neues Entropiemaß vor, das der dynamischen Natur des Annotationsprozesses Rechnung trägt, indem dem Vorhandensein und Fehlen einer Annotation unterschiedliche Gewichte zugewiesen werden. Die Ergebnisse zeigen eine hohe Konsistenz zwischen Signatursätzen und Anmerkungen in der UniProt Knowledgebase. Abgesehen von der Quantifizierung der Annotationskonsistenz hat unsere Analyse einige zusätzliche Implikationen. Eine ist die Erkennung von Signaturen mit vollständiger Annotationskonsistenz, die dann als Keime zum Erzeugen neuer Annotationsregeln verwendet werden können. Um die Gründe für die Inkonsistenz in einigen Signatursätzen besser zu verstehen, haben wir außerdem formale Konzepte verwendet, um Proteine ​​mit unvollständigen Annotationen zu identifizieren und potenzielle neue Unterfamilien mit denselben Annotationen zu entdecken.

  • Taylor Brooks, Bethune Cookman University, USA
  • Remi Jones, Bethune-Cookman University, USA
  • Antoinesha Hollman, Jackson State University, USA
  • Raphael Isokpehi, Bethune-Cookman University, USA

Präsentationsübersicht: Zeigen

Die Bakteriengattung Actinomyces ist in der Lage, an mehreren Stellen des menschlichen Körpers zu wachsen, sich zu vermehren und Infektionen zu verursachen, einschließlich an Stellen, an denen die Bedingungen für das Bakterienwachstum ungünstig sind. Gene, die die universellen Stressproteine ​​kodieren, ermöglichen es Bakterien, auf Stress zu reagieren und unter ungünstigen Bedingungen wie Nährstoffmangel und sauren Bedingungen zu wachsen. Das Ziel der hier berichteten Forschung war es, die Funktionen der universellen Stressproteine, die in Genomen von Actinomyces-Arten kodiert sind, vorherzusagen. Eine Kombination aus Bioinformatik und visuellen Analysetechniken wurde verwendet, um Datensätze zu erstellen und Funktion, Transkriptionsrichtung und operonische Anordnung von Genen neben den universellen Stressproteinen von Actinomyces zu identifizieren. Eine Gen-Nachbarschaftsanalyse ergab ein 4-Gen-Operon, das ein USP-Gen enthält, das mit dem Genom eines oralen Actinomyces assoziiert ist. Das Operon hatte eine Funktionsanmerkung für einen Saccharose-Transporter und ein Enzym zum Abbau von Saccharose. Das Vorhandensein von Doppeldomänen-USPs könnte auf die Fähigkeit zur Biofilmbildung hinweisen. Der Zuckerstoffwechsel ist von zentraler Bedeutung für das Verhalten von dentalen Actinomyces-Arten, die in der Lage sind, in Biofilmen zu bestehen, Säure zu produzieren und glykogenähnliche Moleküle zu speichern. Weitere Studien könnten die Expressionsniveaus der Mitglieder des Operons unter verschiedenen Umweltbedingungen bewerten.

  • Elad Segev, Holon Institute of Technology, Israel
  • Noam Chapnik, Holon Institute of Technology, Israel
  • Roy Yosef, Holon Institute of Technology, Israel
  • Edouard Jukevitch, Hebräische Universität Jerusalem, Israel
  • Zohar Pasternak, Hebräische Universität Jerusalem, Israel

Präsentationsübersicht: Zeigen

99,6% aller bekannten Proteine ​​wurden nie experimentell getestet oder sogar ihre Expression beobachtet, daher beruht die Vorhersage ihrer Funktion hauptsächlich auf dem Vergleich ihrer Sequenz mit annotierten Homologen. Doch selbst mit neuen automatisierten Werkzeugen für die funktionelle Annotation mit hohem Durchsatz bleibt die Funktion vieler Proteine ​​unbekannt, da sie keine annotierten Homologen haben. Um die Funktion zu identifizieren und Protein-Protein-Interaktionsnetzwerke zu entdecken, zielte unsere Studie darauf ab, Proteine ​​zu identifizieren, die funktionell mit jedem verbunden sind. Wir analysierten die Ko-Auftrittsmuster von 406.000 orthologen und 118.000 homologen Proteinen aus den vollständig sequenzierten Non-Draft-Genomen von 4.350 Bakterien, 166 Eukaryoten und 226 Archaeen. Die Validierung deckte erfolgreich bekannte Netzwerke aus verschiedenen Wegen auf, darunter Stickstofffixierung, Glykolyse und Ribosomenproteine ​​zum Beispiel unter Verwendung des Abfrageproteins AmoA (eine Untereinheit der Ammoniakmonooxygenase). Das resultierende berechnete funktionelle Netzwerk umfasste AmoB und AmoC, die beiden anderen Untereinheiten.
Diese Methode erwies sich als sowohl biologisch als auch rechnerisch praktisch und effizient und verspricht daher, auch bei der Sequenzierung von immer mehr Genomen effizient zu bleiben.

  • Jeffrey Law, Virginia Tech, USA
  • Shiv Kale, Virginia Tech, USA
  • T. M. Murali, Virginia Tech, USA

Präsentationsübersicht: Zeigen

Tausende von Bakteriengenomen wurden sequenziert und annotiert. Ein sehr großer Teil der funktionellen Annotationen von GO für bakterielle Gene basiert auf Sequenzähnlichkeit und wurde von keinem Kurator überprüft. Wir wollten erneut untersuchen, wie gut wir bakterielle Genannotationen mit experimentellen Beweisen mit netzwerkbasierten Methoden vorhersagen können.

Als Machbarkeitsstudie haben wir 19 klinisch relevante pathogene Bakterien ausgewählt und ein speziesübergreifendes Netzwerk basierend auf Proteinsequenzähnlichkeit erstellt. Wir haben dieses Netzwerk mit artspezifischen funktionellen Assoziationsnetzwerken für jeden Erreger von STRING integriert. Wir stellten die Hypothese auf, dass das integrierte Netzwerk trotz der großen Netzwerkgröße und der geringen Anzahl von annotierten Knoten eine höhere Vorhersagekraft haben würde.

Wir haben die Fähigkeit mehrerer netzwerkbasierter Vorhersagealgorithmen untersucht, experimentelle Annotationen und Nicht-IEA-Annotationen mit fünffacher Kreuzvalidierung vorherzusagen. Wir haben festgestellt, dass der SinkSource-Algorithmus durchweg besser abschneidet (höhere F-max-Werte) GeneMANIA, FunctionalFlow und andere BLAST-basierte Methoden. Während die Integration von STRING mit dem Sequenzähnlichkeitsnetzwerk die F-max-Werte für Nicht-IEA-Annotationen nicht verbesserte, ergab das integrierte Netzwerk höhere F-max-Werte für experimentelle Annotationen (median F-max stieg von 0,46 auf 0,51 für SinkSource über alle BP-Terme ). Diese Ergebnisse zeigen, dass die Integration mehrerer Datentypen die Vorhersagekraft für experimentelle Anmerkungen verbessert.

  • Seokjun Seo, Seoul National University, Südkorea
  • Minsik Oh, Seoul National University, Südkorea
  • Youngjune Park, Seoul National University, Südkorea
  • Sun Kim, Seoul National University, Südkorea

Präsentationsübersicht: Zeigen

Durch die Next-Generation-Sequencing-Technologien wird eine Vielzahl neu sequenzierter Proteine ​​erzeugt und die biochemische Funktionszuordnung der Proteine ​​ist eine wichtige Aufgabe. Biologische Experimente sind jedoch zu teuer, um eine so große Anzahl von Proteinsequenzen zu charakterisieren, daher erfolgt die Vorhersage der Proteinfunktion hauptsächlich durch computergestützte Modellierungsmethoden, wie das Profil Hidden Markov Model (pHMM) und k-mer-basierte Methoden. Nichtsdestotrotz weisen bestehende Verfahren einige Einschränkungen auf. k-mer-basierte Verfahren sind nicht genau genug, um Proteinfunktionen zuzuordnen, und pHMM ist nicht schnell genug, um eine große Anzahl von Proteinsequenzen aus zahlreichen Genomprojekten zu handhaben. Daher wird ein genaueres und schnelleres Verfahren zur Vorhersage der Proteinfunktion benötigt.
In diesem Artikel stellen wir DeepFam vor, eine Alignment-freie Methode, die funktionelle Informationen direkt aus Sequenzen extrahieren kann, ohne dass mehrere Sequenz-Alignments erforderlich sind. In umfangreichen Experimenten mit dem Datensatz Cluster of Orthologous Groups (COGs) und G-Protein-gekoppelter Rezeptor (GPCR) erzielte DeepFam eine bessere Leistung in Bezug auf Genauigkeit und Laufzeit bei der Vorhersage von Proteinfunktionen im Vergleich zu den modernsten Methoden. sowohl ausrichtungsfreie als auch ausrichtungsbasierte Verfahren. Darüber hinaus haben wir gezeigt, dass DeepFam die Fähigkeit besitzt, konservierte Regionen zu erfassen, um Proteinfamilien zu modellieren. Tatsächlich konnte DeepFam konservierte Regionen, die in der Prosite-Datenbank dokumentiert sind, erkennen und gleichzeitig Funktionen von Proteinen vorhersagen. Unsere Deep-Learning-Methode wird nützlich sein, um die Funktionen der ständig wachsenden Proteinsequenzen zu charakterisieren.
Codes sind unter https://bhi-kimlab.github.io/DeepFam verfügbar.

  • Amir Karger, Harvard University, USA
  • Victor Luria, Harvard University, USA
  • Anne O'Donnell-Luria, Broad Institute of MIT und Harvard, USA
  • Taran Gujral, Fred Hutchinson Cancer Research Center, USA
  • John Cain, Harvard University, USA
  • Marc Kirschner, Harvard University, USA

Präsentationsübersicht: Zeigen

Wie neue proteinkodierende Gene und neue Proteindomänen in der Evolution erscheinen, sind zentrale Fragen der Biologie. Während neue Gene oft durch Duplizieren vorhandener Gene aufgebaut werden, wurde kürzlich festgestellt, dass neue Gene de novo aus genomischer DNA entstehen. Um zu verstehen, wie neue Gene de novo entstehen können, haben wir ein mathematisches Geburts- und Todesmodell erstellt, das auf Gen- und Genomdimensionen und dynamischen Faktoren wie Mutation, Rekombination und Selektion basiert. Wir fanden heraus, dass die meisten Genome viele neue Gene enthalten sollten, von denen nur wenige beibehalten werden. Zweitens haben wir mithilfe von Phylostratigraphie und Proteomik Tausende von Kandidaten-De-novo-Genen in 20 eukaryotischen Genomen identifiziert und ihre vorhergesagten biophysikalischen Eigenschaften bewertet. Im Vergleich zu alten Proteinen sind neue Proteine ​​kürzer, anfälliger für Proteasen, ungeordnet, binden wahrscheinlich andere Proteine, sind jedoch weniger anfällig für toxische Aggregationen. Um strukturelle Vorhersagen zu testen, führten wir biophysikalische Experimente durch, in denen menschliche neue Proteine ​​mit alten Proteinen verglichen wurden. Wir fanden heraus, dass neue Gene kurze Proteine ​​kodieren, die unterschiedliche strukturelle Merkmale aufweisen und im Gehirn und in der männlichen Keimbahn exprimiert werden, was eine Möglichkeit für evolutionäre Funktionstests bietet. Die kontinuierliche Erzeugung und Zerstörung neuer Gene bietet ein dynamisches Reservoir an molekularer Variation, das es ermöglicht, durch genomisches Erkundungsverhalten neue Strukturen und neue Funktionen zu finden.


Schlussfolgerungen

In dieser Analyse haben wir das genomweite PPI-Netzwerk der Süßorange mit Ortholog-Identifikations- und Domänenkombinationsmethoden vorhergesagt und dann einen hochpräzisen KNN-Algorithmus verwendet, um die vorhergesagten Interaktionen zu filtern. Das resultierende PPI-Netzwerk enthält 8.195 Proteine ​​und 124.491 Interaktionen. Wir haben GO- und Mapman-Annotationen verwendet, um das vorhergesagte Netzwerk zu bewerten. Wir sagten außerdem 159 Proteinkomplexe in Süßorange voraus, indem wir Orthologe der Hefeproteinkomplexe verwendeten und sie zur Bewertung von CitrusNet verwendet. Schließlich haben wir ein PPI-Subnetzwerk aufgebaut, das sich auf Hormon-Signalproteine ​​bezieht, und fanden heraus, dass TOR als zentrale Drehscheibe für Hormon-Crosstalk dient. CitrusNet bietet eine wertvolle Ressource für Protein-Protein-Interaktionen in Süßorange.


Zusätzliche Datei

Zusätzliche Datei 1:

Ergänzendes Material. Abbildung S1. Die Leistung des PFP wurde anhand der genauen GO-Bedingungen der BP- und MF-Kategorien bewertet. Abbildung S2. Die Leistung von PFP und ESG wurde anhand der genauen GO-Bedingungen aus allen drei Kategorien bewertet. Abbildung S3. Leistung von PFP unter Verwendung von IEA- und Nicht-IEA-GO-Begriffen aus den BP- und MF-Kategorien. Abbildung S4. Leistung von PFP unter Verwendung von IEA- und Nicht-IEA-GO-Begriffen aller drei GO-Kategorien. Abbildung S5. Ränge von CONS und FPM unter den Benchmarking-Methoden. (DOCX 202 kb)


Schau das Video: Kurz češtiny: Jak používat zdá se mi? (Juni 2022).