Information

Computergestützte/mathematische Modelle zur Vorhersage des Phänotyps aus dem Genotyp

Computergestützte/mathematische Modelle zur Vorhersage des Phänotyps aus dem Genotyp



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Karr, Sanghvi et al. (2012) schlagen ein Ganzzell-Computermodell zur Vorhersage des Phänotyps aus dem Genotyp in . vor Mycoplasma genitalium. Ihr Modell simuliert unzählige Zellprozesse wie DNA-Replikation, RNA-Transkription und -Regulation, Proteinsynthese, Stoffwechsel und Zellteilung auf molekularer Ebene über den Lebenszyklus des Organismus.

Dies erreichen sie, indem sie viele bestehende mathematische und rechnerische Modelle in einer Software kombinieren. Der Artikel legt nahe, dass dies das erste umfassende Ganzzellmodell auf molekularer Ebene im Detail ist. Sie zitieren frühere Modelle auf molekularer Ebene für ihre Untermodule, diskutieren aber nicht weiter grobkörnigere Genotyp-zu-Phänotyp-Modelle. Ihr Modell ist aufregend, aber die 10-stündige Simulation auf einem Computercluster der Spitzenklasse, um den Lebenszyklus eines einzelnen Organismus zu verfolgen, ist für jemanden, der evolutionäre Prozesse studieren möchte, unvernünftig.

Gibt es vorher einigermaßen genaue rechnerische (oder noch bessere analytische) Genotyp-zu-Phänotyp-Modelle? Wenn ja, welche sind einige der besten grobkörnigen Genotyp-zu-Phänotyp-Modelle für häufig untersuchte Organismen wie E coli?


Die Karr et al. Papier versucht, die meisten Details in ihrem Modell zu erfassen, indem Merkmale aus dem Genom, Transkriptom, Proteom und Metabolom kombiniert werden. Diese Arbeit baut stark auf den grobkörnigen Modellen auf, nach denen Sie fragen, insbesondere auf die Arbeit von Bernhard Palsson, von der Markus Covert seine Ausbildung gemacht hat. Die Antwort auf Ihre Frage hängt ausschließlich von der Art der Frage ab, die Sie suchen, und davon, was das Modell tun soll.

Die meisten Ihrer Fragen können größtenteils mit COBRA, der CONstratins Based Reconstruction and Analysis Toolbox, beantwortet werden. Sie können eine gute Vorstellung davon bekommen, welche Genotypen ausgeschaltet werden können und sehen, wie sich dies auf den Phänotyp auswirkt, solange der Phänotyp ein bekannter Weg ist, der von diesem Gen beeinflusst wird, und Sie sich nicht um zeitliche und dynamische Informationen kümmern.

Es gibt auch das E-Cell-Projekt für E coli. Ich persönlich weiß nicht viel darüber, aber es hat einige grundlegende Modelle dafür geschaffen E coli und das kann gut genug sein.

Wenn Sie eigene Modelle bauen möchten, sollten Sie sich bei BiGG umsehen, wo alle großmaßstäblichen Rekonstruktionen vorhanden sind. Ein großer Teil des Codes ist auf der Website des Palsson-Labors gespeichert, wo Sie versuchen können, COBRA zu verwenden und Ihre eigenen Hypothesen zu erstellen.


Modellierung biologischer Systeme

Modellierung biologischer Systeme ist eine bedeutende Aufgabe der Systembiologie und der mathematischen Biologie. [ein] Computergestützte Systembiologie [b] [1] zielt darauf ab, effiziente Algorithmen, Datenstrukturen, Visualisierungs- und Kommunikationswerkzeuge mit dem Ziel der Computermodellierung biologischer Systeme zu entwickeln und einzusetzen. Es beinhaltet Computersimulationen biologischer Systeme, einschließlich zellulärer Subsysteme (wie die Netzwerke von Metaboliten und Enzymen, die den Stoffwechsel umfassen, Signalübertragungswege und Genregulationsnetzwerke), um die komplexen Zusammenhänge dieser zellulären Prozesse zu analysieren und zu visualisieren. [2]

Eine unerwartete emergente Eigenschaft eines komplexen Systems kann das Ergebnis des Zusammenspiels von Ursache und Wirkung zwischen einfacheren, integrierten Teilen sein (siehe biologische Organisation). Biologische Systeme manifestieren viele wichtige Beispiele für emergente Eigenschaften im komplexen Zusammenspiel von Komponenten. Herkömmliche Studien biologischer Systeme erfordern reduktive Methoden, bei denen Datenmengen nach Kategorien gesammelt werden, wie etwa die Konzentration über die Zeit als Reaktion auf einen bestimmten Reiz. Computer sind entscheidend für die Analyse und Modellierung dieser Daten. Ziel ist es, genaue Echtzeitmodelle der Reaktion eines Systems auf Umwelt- und interne Stimuli zu erstellen, wie zum Beispiel das Modell einer Krebszelle, um Schwächen in ihren Signalwegen zu finden, oder die Modellierung von Ionenkanalmutationen, um Auswirkungen auf Kardiomyozyten zu sehen und wiederum die Funktion eines schlagenden Herzens.


Abstrakt

Genomskalige Modelle des Metabolismus und der makromolekularen Expression (ME-Modelle) berechnen explizit die optimale Proteomzusammensetzung einer wachsenden Zelle. ME-Modelle erweitern die etablierten Genom-Scale-Modelle des Stoffwechsels (M-Modelle) und ermöglichen ein neues grundlegendes Verständnis des Zellwachstums. ME-Modelle haben aufgrund ihrer Einbeziehung der Biosynthesekosten für die Lebensmaschinerie erhöhte Vorhersagefähigkeiten und Genauigkeit, aber sie gehen mit einer erheblichen Zunahme der Modellgröße und Komplexität einher. Diese Herausforderung führt zu Modellen, die sowohl schwer zu berechnen als auch konzeptionell schwer zu verstehen sind. Daher existieren ME-Modelle nur für zwei Organismen (Escherichia coli und Thermotoga Maritima) und werden immer noch von relativ wenigen Forschern verwendet. Um diesen Herausforderungen zu begegnen, haben wir ein neues Software-Framework namens COBRAme zum Erstellen und Simulieren von ME-Modellen entwickelt. Es ist in Python codiert und basiert auf COBRApy, einer beliebten Plattform für die Verwendung von M-Modellen. COBRAme rationalisiert die Berechnung und Analyse von ME-Modellen. Es bietet Werkzeuge zur Vereinfachung der Konstruktion und Bearbeitung von ME-Modellen, um ME-Modellrekonstruktionen für neue Organismen zu ermöglichen. Wir haben COBRAme verwendet, um eine kondensierte E. coli ME-Modell genannt ichJL1678b-ME. Dieses umformulierte Modell bietet funktional identische Lösungen zu früheren E. coli ME-Modelle bei Verwendung von 1/6 der Anzahl freier Variablen und Lösung in weniger als 10 Minuten, eine deutliche Verbesserung gegenüber der 6-stündigen Lösungszeit früherer ME-Modellformulierungen. Fehler in früheren ME-Modellen wurden ebenfalls korrigiert, was zu 52 zusätzlichen Genen führte, die in exprimiert werden müssen ichJL1678b-ME für ein aerobes Wachstum in Glucose minimal in silico Medien. Dieses Manuskript skizziert die Architektur von COBRAme und zeigt, wie ME-Modelle mit dem neuen Software-Framework am effizientesten erstellt, modifiziert und geteilt werden können.

Zitat: Lloyd CJ, Ebrahim A, Yang L, King ZA, Catoiu E, O’Brien EJ, et al. (2018)COBRAme: Ein Rechenrahmen für genomskalierte Modelle des Stoffwechsels und der Genexpression. PLoS Comput Biol 14(7): e1006302. https://doi.org/10.1371/journal.pcbi.1006302

Editor: Aaron E. Darling, University of Technology Sydney, AUSTRALIEN

Empfangen: 4. Dezember 2017 Akzeptiert: 13. Juni 2018 Veröffentlicht: 5. Juli 2018

Urheberrechte ©: © 2018 Lloyd et al. Dies ist ein Open-Access-Artikel, der unter den Bedingungen der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium gestattet, sofern der ursprüngliche Autor und die Quelle angegeben werden.

Datenverfügbarkeit: Alle relevanten Daten befinden sich in der Veröffentlichung und in den Dateien mit den Hintergrundinformationen.

Finanzierung: Diese Forschung nutzte Ressourcen des National Energy Research Scientific Computing Center, das vom Office of Science des US-Energieministeriums unter der Vertragsnummer DE-AC02-05CH11231 unterstützt wird. Die Finanzierung dieser Arbeit wurde von der Novo Nordisk Foundation durch das Center for Biosustainability at the Technical University of Denmark [NNF10CC1016517] und das National Institute of General Medical Science des National Institute of Health (Auszeichnung U01GM102098) bereitgestellt. CJL wurde vom National Science Foundation Graduate Research Fellowship unter der Grant-Nr. DGE-1144086. Die Geldgeber spielten keine Rolle beim Studiendesign, der Datenerhebung und -analyse, der Entscheidung zur Veröffentlichung oder der Erstellung des Manuskripts.

Konkurrierende Interessen: Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.

Das ist ein PLOS Computerbiologie Softwarepapier


Resultate und Diskussionen

Wir verwendeten die oben beschriebene Methode des überwachten Lernens (Abb. 1 und 2, Gleichungen (1), (2), (3) und (4)), um die Dynamik des Stoffwechselwegs (dh die Metabolitenkonzentrationen als Funktion der Zeit) von Proteinen vorherzusagen Konzentrationsdaten für zwei Stoffwechselwege, die für das Metabolic Engineering und die synthetische Biologie relevant sind: einen Limonen-Produktionsweg und einen Isopentenol-Produktionsweg (Abb. 3). Für jeden Pfad verwendeten wir experimentelle Zeitreihendaten, die von den niedrigen und hohen Biokraftstoff produzierenden Stämmen als Trainingsdatensätze erhalten wurden, um die Dynamik für die mittel produzierenden Stämme vorherzusagen. 66 Aufgrund des Mangels an dichten Multiomics-Zeitreihendatensätzen verwendeten wir simulierte Datensätze (Abb. 4), um die Leistung des Algorithmus zu untersuchen, wenn weitere Trainingsdatensätze (Stämme) hinzugefügt wurden.

Kinetisches Michaelis-Menten-Modell des Limonenweges. Dieses kinetische Modell wurde aus Quellen in der BRENDA-Datenbank zusammen mit der Anleitung von Weaver et al. 93 Dieses System besteht aus zehn nichtlinearen gewöhnlichen Differentialgleichungen, die die Konzentration für jeden Metaboliten im Stoffwechselweg beschreiben (siehe ergänzendes Material für Details). Die Dynamik dieses Modells ist reichhaltig und komplex genug, um eine erhebliche Herausforderung für die Vorhersage durch maschinelles Lernen darzustellen. Dieses Modell wird in dieser Arbeit verwendet, um: (1) seine Vorhersagen mit Vorhersagen des maschinellen Lernens zu vergleichen und (2) simulierte Datensätze zu generieren, um Skalierungsabhängigkeiten mit der Menge an Zeitreihen zu überprüfen, die für das Training von maschinellen Lernalgorithmen verwendet werden. Die in diesem Beitrag vorgestellte Methode konzentriert sich darauf, diese Michaelis-Menten-Ausdrücke durch maschinelle Lernalgorithmen zu ersetzen (siehe ergänzende Abb. S1). Beim Anpassen der experimentellen Daten in Abb. 6 wurden kinetische Konstanten als freie Parameter belassen

Qualitative Vorhersagen der Dynamik des Limonen- und Isopentenol-Pfads können mit zwei Zeitreihenbeobachtungen erhalten werden

Überraschenderweise reichten nur zwei Zeitreihen (Stämme) aus, um den Algorithmus so zu trainieren, dass er für die meisten Metaboliten akzeptable Vorhersagen lieferte. Während die Vorhersagen von Derivaten aus der Proteomik und Metabolomik ziemlich genau waren (Aggregat Pearson R Wert von 0.973), wird jeder kleine Fehler in diesen Vorhersagen schnell zusammengesetzt, wenn das Anfangswertproblem von Gl. (3) und (4). Der Grund dafür ist, dass Vorhersagen für einen bestimmten Zeitpunkt von der Genauigkeit aller vorherigen Zeitpunkte abhängen. Trotz dieser Hürden lieferte die Methode respektable qualitative und quantitative Vorhersagen der Metabolitenkonzentrationen für einen noch nie dagewesenen Stamm (Abb. 5 und 6). Für einige Metaboliten (33 %) lagen die Vorhersagen quantitativ nahe am gemessenen Profil: Acetyl-CoA (83,4 % Fehler, Abb. 5a) und Isopentenol (43,7 % Fehler, Abb. 5f) für den Isopentenol-Produktionsweg Acetyl-CoA ( 128,2 % Fehler, Abb. 6a), HMG-CoA (83,9 % Fehler, Abb. 6b) und Limonene (82,9 % Fehler, Abb. 6f) für den Limonen-Produktionsweg. Für die meisten Metaboliten (42 %) lagen die Vorhersagen um einen Skalenfaktor daneben, aber sie konnten das Metabolitenverhalten qualitativ reproduzieren. Beispielsweise reproduzieren die Vorhersagen für Mevalonat im Isopentenol-Produktionsweg (Fig. 5c) und Mevalonat im Limonen-Produktionsweg (Fig. 6c) den anfänglichen Anstieg der Metabolitenkonzentration gefolgt von einer Sättigung. Für IPP/DMAPP (Abb. 5e) oder Mevalonatphosphat (Abb. 5d) im Isopentenol-Weg reproduziert die Vorhersage qualitativ den Konzentrationsanstieg, gefolgt von einem Peak und einem Abfall. Die Vorhersage nur dieser Art von qualitativem Verhalten ist für Stoffwechselingenieure nützlich, um ein intuitives Verständnis der Stoffwechseldynamik zu erhalten und bessere Versionen davon zu entwickeln. Durch die Simulation mehrerer Szenarien kann der Stoffwechselingenieur qualitative Erkenntnisse gewinnen (z. B. scheint Metabolit x toxisch oder Protein y scheint durch Metabolit x reguliert zu sein), die zu überprüfbaren Hypothesen führen können. Schließlich sind in einer Minderheit der Fälle (25%) die Vorhersagen sowohl quantitativ als auch qualitativ falsch: zB HMG-CoA für den Isopentenol-Produktionsweg (Abb. 5b), Mevalonatphosphat (Abb. 6d) und IPP/DMAPP (Abb 6e) für den Limonen-Produktionsweg. Interessanterweise fielen die Vorhersagen für beide Endprodukte (Limonen und Isopentenol) in die Gruppe der quantitativ genauen Vorhersagen. Dies ist wichtig, da für den Zweck des Metabolic Engineering die endgültigen Produktvorhersagen relevant sind.

Die Methode des maschinellen Lernens erzeugt akzeptable Vorhersagen von Metaboliten-Zeitreihen aus Proteomik-Daten für die Isopentenol-Produktion Escherichia coli Belastung. Die gemessenen Metabolomik- und Proteomik-Daten 66 für die höchsten und niedrigsten produzierenden Stämme (Trainingssatzdaten, rote Linie) werden verwendet, um ein Modell zu trainieren und die zugrunde liegende Dynamik zu lernen (Fig. 2). Das Modell wird dann getestet, indem die Metabolitenprofile (blaue Linie) für einen Stamm vorhergesagt werden, den das Modell noch nie gesehen hat (Medium produzierender Stamm, Testdaten in grün). Eine perfekte Vorhersage (blaue Linie) würde den Testdatensatz (grüne Linie) perfekt verfolgen. Interessanterweise wird bereits mit nur zwei Zeitreihen (Strains) als Trainingsdaten eine vernünftige qualitative Übereinstimmung erreicht. Aus rein quantitativer Sicht ist der durchschnittliche Fehler hoch: Der Gesamt-RMSE für die Dehnungsvorhersagen beträgt 40,34, was in einen durchschnittlichen Fehler von 149,2% übersetzt werden kann. Für einige Metaboliten (grüner Farbstreifen) reproduzieren die Vorhersagen jedoch quantitativ die gemessenen Daten: Acetyl-CoA und Isopentenol (das Endprodukt und am relevantesten für die Führung der Biotechnologie). Für einige Metaboliten (Mevalonat, Mevalonatphosphat und IPP/DMAPP, gelbes Band) reproduziert das Modell qualitativ die Metabolitenmuster ohne den Skalierungsfaktor. Nur für HMG-CoA kann das Modell die Metabolitenkonzentration im Zeitverlauf weder quantitativ noch qualitativ vorhersagen (rote Bande).

Die maschinelle Lernmethode übertrifft das handgefertigte kinetische Modell für die Limonenproduktion E coli Belastung. Der einzige Metabolit, für den das kinetische Modell (schwarze Linie) eine bessere Anpassung als die Methode des maschinellen Lernens (blaue Linie) bietet, ist Mevalonatphosphat, obwohl beide Methoden die Produktion von Limonen (Endprodukt) ziemlich gut zu verfolgen scheinen. Der Ansatz des maschinellen Lernens bietet akzeptable quantitative Anpassungen für Acetyl-CoA, HMG-CoA und Limonen (grünes Band), eine qualitative Beschreibung des Metabolitenverhaltens, bei der der Skalierungsfaktor für Mevalonat (gelbes Band) fehlt, und versagt quantitativ und qualitativ für Mevalonatphosphat und IPP/DMAPP (rotes Band). Wie in Abb. 5 entsprechen die experimentell gemessenen Profile hohen, niedrigen und mittleren Limonen-Produzenten. Die Trainingssätze sind die niedrigen und hohen Produzenten (in Rot) und das Modell wird verwendet, um die Konzentrationen für den mittelproduzierenden Stamm (in Grün) vorherzusagen. Kinetische Konstanten für das handgefertigte kinetische Modell in Abb. 4 wurden als freie Parameter bei der Anpassung der experimentellen Daten belassen

Der Ansatz des maschinellen Lernens übertrifft ein handgefertigtes kinetisches Modell des Limonenweges (Abb. 6). Ein realistisches kinetisches Modell dieses Weges wurde erstellt und an die Daten angepasst, wobei alle kinetischen Konstanten als freie Parameter belassen wurden (Abb. 3 und 4). Das kinetische Modell erfasst insbesondere die qualitative Dynamik von Acetyl-CoA, HMG-CoA, Mevalonat und IPP/DMAPP nicht (Abb. 6a–c, e). Quantitativ gesehen erzeugt das Modell des maschinellen Lernens einen durchschnittlichen Fehler von 130 % (RMSE = 8,42) gegenüber einem durchschnittlichen Fehler von 144 % (RMSE = 10,04) für das kinetische Modell. Daher kann selbst ein Modell des maschinellen Lernens, das auf den Zeitreihendaten von nur zwei Stämmen basiert, das handgefertigte kinetische Modell übertreffen, dessen Konstruktion Domänenwissen und einen erheblichen Zeitaufwand erforderte. Der Ansatz des maschinellen Lernens ist jedoch einfacher zu verallgemeinern und kann durch Eingabe der entsprechenden Daten sofort für einen neuen Weg, einen neuen Host oder ein neues Produkt angewendet werden. Sobald die Vorhersagen für den Limonen-Pfad gemacht wurden, können Ergebnisse für den Isopentenol-Pfad einfach durch Ändern der Zeitreihendateneingabe erhalten werden. Im Gegensatz dazu müsste ein neues kinetisches Modell erstellt werden, um Vorhersagen für den Isopentenol-Weg zu treffen. Kinetische Modelle werden mit zunehmender Größe des Reaktionsnetzwerks und mit abnehmender Kenntnis des relevanten Netzwerks schwieriger zu konstruieren. Darüber hinaus müssen alle kinetischen Beziehungen bekannt oder abgeleitet sein, während unbekannte Beziehungen mithilfe eines maschinellen Lernansatzes aus Daten aufgedeckt werden können. Der Ansatz des maschinellen Lernens erfordert nur eine ausreichende Datenmenge, um diese Zusammenhänge zu entwirren. Die Bestimmung, wie viele Daten „ausreichend“ sind, ist das Ziel des nächsten Abschnitts.

Interessanterweise war das Modell in der Lage, eine gute Leistung zu erbringen, obwohl die Trainingssätze Bahnen entsprachen, die sich nicht nur in den Proteinkonzentrationen unterschieden. Dies ist wichtig, da das Modell darauf ausgelegt ist, Proteinkonzentrationen als Input zu verwenden (Abb. 1), um die Dynamik des Stoffwechselwegs vorherzusagen, wobei angenommen wird, dass die restlichen Merkmale des Stoffwechselwegs gleich bleiben. Dieser Anwendungsfall deckt ein breites Spektrum an metabolischen Engineering-Anforderungen ab, bei denen beispielsweise Promotoren und Ribosomen-Bindungsstellen (RBSs) modifiziert werden, um die resultierenden Proteinkonzentrationen zu beeinflussen. Andere typischerweise verwendete metabolische Engineering-Strategien umfassen jedoch die Veränderung eines bestimmten Enzyms, um schnellere oder langsamere katalytische Geschwindigkeiten (d. h. kKatze). Auch wenn dieser Fall nicht explizit in Betracht gezogen wurde, konnte das Modell gute Vorhersagen liefern (d. h. I3 verwendete eine HMGR-Analogform Staphylococcus aureus und I2 verwendet ein Codon-optimiertes HMGR, siehe Stammbeschreibung). Wir vermuten das kKatze Veränderungen können in Veränderungen der Proteinhäufigkeit renormalisiert werden (und diesen entsprechen). Um diese Art von Engineering-Praktiken vollständig zu berücksichtigen, kann diese Methode erweitert werden, um Enzymmerkmale als Input (neben den Proteomics-Daten) einzubeziehen: kKatze und Km Konstanten oder sogar vollständige kinetische Charakterisierungskurven.

Die Erhöhung der Anzahl der Dehnungen verbessert die Genauigkeit dynamischer Vorhersagen

Wir haben simulierte Daten verwendet, um zu zeigen, dass sich die Vorhersagen deutlich verbesserten, wenn mehr Datensätze für das Training verwendet werden. Simulierte Datensätze haben den Vorteil, dass sie unbegrenzte Stichproben zur Verfügung stellen, um das Skalierungsverhalten gründlich zu testen, und es uns ermöglichen, eine größere Vielfalt an Dynamiktypen zu untersuchen, als experimentell zugänglich. Darüber hinaus sind die dichten Multiomics-Zeitreihendatensätze, die als Trainingsdaten benötigt werden, selten, da sie sehr zeitaufwendig und teuer in der Herstellung sind. Da sich die Vorhersagen des maschinellen Lernens im Allgemeinen verbessern, wenn mehr Daten verwendet werden, um sie zu trainieren, haben wir erwartet, dass sich unsere Methode mit der Verfügbarkeit von mehr Zeitreihen für das Training verbessert. Wir erwarteten, dass diese Verbesserung signifikant sein würde, da anfänglich nur zwei Zeitreihen (Stämme) für das Training verwendet wurden, von den drei für jedes Produkt verfügbaren 66 (die andere wurde zum Testen benötigt). Daher haben wir simulierte Daten verwendet, die mit dem für den Limonen-Pfad entwickelten kinetischen Modell (Abb. 3 und 4) erhalten wurden, um zu untersuchen: (1) wie stark sich Vorhersagen verbessern, wenn mehr Zeitreihendatensätze hinzugefügt werden und (2) wie viele Zeitreihen erforderlich sind, um die Pfadgestaltung effektiv zu steuern (nächster Abschnitt). Ein Pool von 10.000 Sätzen von Zeitreihendaten mit unterschiedlichen Proteinprofilen wurde erstellt, die dieselben kinetischen Konstanten teilten.Wir fütterten die maschinellen Lernalgorithmen mit Gruppen von 2, 10 und 100 Zeitreihen, die zufällig aus diesem Pool entnommen wurden, um zu untersuchen, wie schnell der Algorithmus in der Lage war, die ursprüngliche simulierte Dynamik wiederherzustellen. Um die Variabilität der Vorhersagen (d. h. wie sich Vorhersagen bei Verwendung verschiedener Trainingssätze ändern) als Funktion der Trainingsgruppengröße (2, 10 oder 100) zu messen, wiederholten wir die Vorhersagen zehnmal für jede Trainingsgruppengröße.

Der Vorhersagefehler (RMSE, Gl. (6)) nahm monoton als Funktion der Anzahl der Zeitreihen (Stränge) ab, die verwendet wurden, um den Algorithmus auf nichtlineare Weise zu trainieren (Abb. 7). Auch die Standardabweichung der Vorhersagen nahm mit der Anzahl der Trainings von Datensätzen signifikant ab (Abb. 8). Die Standardabweichung ist ein Hinweis auf die Variabilität der Vorhersagen der Pathway-Dynamik aufgrund stochastischer Effekte der Optimierungsalgorithmen (z. Daher erzeugt ein mit 10 oder 100 Datensätzen trainiertes Vorhersagemodell viel robustere Vorhersagen als ein mit zwei Datensätzen trainiertes Modell. Tatsächlich erklären die hohen Standardabweichungen, die für Modelle beobachtet wurden, die mit nur zwei Datensätzen trainiert wurden, die im vorherigen Abschnitt beobachtete Vorhersagevariabilität aufgrund stochastischer Effekte. Interessanterweise gibt es einen begrenzten Rückgang des Fehlers und der Standardabweichung von 10 auf 100 Dehnungen, wobei der Rückgang von 2 auf 10 am größten ist (Abb. 7). Dies deutet darauf hin, dass es produktiver ist, zehn Engineering-Runden durchzuführen, die zehn Zeitreihen-Datensätze sammeln, als eine einzige Runde, die 100 Zeitreihen sammelt: Auf diese Weise produzieren zehn Zeitreihen ausreichend genaue Vorhersagen, um den wünschenswerten Teil der Proteomik des Phasenraums zu lokalisieren , können neue Dehnungen um diesen Raum herum konstruiert werden, so dass neue Multiomics-Zeitreihen um den gewünschten Phasenraum erhalten und für die Vorhersagegenauigkeit um diesen Bereich des Phasenraums optimiert werden können. Dies zehnmal zu tun, ist genauer als eine einzelne Vorhersage basierend auf 100 Zeitreihen, die möglicherweise nicht in der Nähe des letztendlich wünschenswerten Phasenraums der Proteomik liegen. Darüber hinaus deutet es darauf hin, dass die Ergebnisse aus dem vorherigen Abschnitt viel zuverlässiger gewesen wären, wenn nur acht Zeitreihen mehr für das Training verfügbar gewesen wären.

Vorhersagefehler nehmen mit zunehmender Trainingssatzgröße deutlich ab. Mit zunehmender Anzahl verfügbarer Proteomik- und Metabolomik-Zeitreihendatensätze (Stämme) für das Training nimmt der Vorhersagefehler (RMSE, Gl. (6)) deutlich ab. Darüber hinaus nimmt auch die Standardabweichung des Vorhersagefehlers (vertikaler Balken) deutlich ab. Die Veränderung von 2 auf 10 Stämme ist ausgeprägter als die Veränderung von 10 auf 100. Diese Tatsache zeigt, dass es produktiver ist, zehn Runden Metabolic Engineering mit zehn Zeitreihendatensätzen durchzuführen, als eine einzelne Runde mit 100 Zeitreihen

Vorhersagen verbessern sich mit mehr Trainingsdatensätzen. Der maschinelle Lernalgorithmus wurde verwendet, um kinetische Modelle für unterschiedliche Größen von Trainingssätzen (2, 10 und 100 virtuelle Belastungen in Blau, Rot und Schwarz) vorherzusagen. Für jede Größe wurden zehn eindeutige Trainingssätze verwendet, um die Vorhersagevariabilität (Transparenz) für jede Trainingssatzgröße zu zeigen. Alle Modelle konvergieren in Richtung der tatsächlichen Dynamik mit den 100 Dehnungsmodellen in engster Übereinstimmung. Auch die Standardabweichungen (dargestellt durch die Transparenz) nehmen mit zunehmender Größe des Trainingssets deutlich ab

Modellvorhersagen sind genau genug, um das Design von Signalwegen zu steuern und biologische Erkenntnisse zu gewinnen

Die Vorhersagen des maschinellen Lernens müssen nicht zu 100% quantitativ korrekt sein, um die relative Rangfolge der Produktion für verschiedene Stämme genau vorherzusagen. In der Lage zu sein, zuverlässig vorherzusagen, welches von mehreren möglichen Wegedesigns die höchste Produktmenge produziert, ist sehr wertvoll, um biotechnologische Bemühungen zu leiten und sie zu beschleunigen, um Titer, Rate und Ausbeute (TRY) zu verbessern. Diese Prozesseigenschaften sind grundlegende Determinanten von wirtschaftlicher Relevanz. 67

Der maschinelle Lernalgorithmus war in der Lage, das relative Produktionsranking für Gruppen von drei zufällig ausgewählten Stämmen (höchster, niedrigster und mittlerer Produzent, die die verfügbaren experimentellen Daten nachahmen) zuverlässig vorherzusagen, die aus dem oben erwähnten Pool von 10.000 Zeitreihendatensätzen ausgewählt wurden (Abb . 9, linkes Feld). Die Erfolgsquote hing entscheidend von der Anzahl der für das Training verfügbaren Datensätze ab: von 22% für nur zwei Stämme bis zu 92% für 100 Trainingssätze. Für zehn Stämme beträgt die Erfolgsrate

80%, was zuverlässig genug ist, um die Bemühungen des Stoffwechselingenieurs zur Verbesserung des TRY praktisch zu leiten. Bei Modellen, die mit 100 Zeitreihen trainiert wurden, waren die Vorhersagefehler minimal (Abb. 9, rechtes Feld).

Die Erfolgsrate bei der Vorhersage der Produktionsränge steigt mit der Größe des Trainingssatzes. Das linke Feld zeigt die Erfolgsrate bei der Vorhersage der relativen Produktionsreihenfolge (dh welcher Stamm produziert am meisten, welcher produziert am wenigsten und welcher ist ein mittlerer Produzent) für Gruppen von drei Zeitreihen (Stämme), die zufällig aus einem Pool von 10.000 Stämmen ausgewählt wurden , als Funktion der Trainingsdatensatzgröße (Stränge). Für 100 Datensätze beträgt die Fehlerrate bei der Vorhersage des Top-Produzenten <10%. Für zehn Datensätze beträgt die Erfolgsrate

80%, was zuverlässig genug ist, um die technischen Bemühungen zu leiten. Die horizontale Linie gibt die Erfolgsrate (1/6) an, wenn die Reihenfolge zufällig gewählt wird. Das rechte Panel zeigt, dass die Vorhersage der Limonenproduktion für den Fall eines Trainingsdatensatzes, der aus 100 Zeitreihen (Stämmen) besteht, äußerst genau ist. Diese Daten zeigen, dass die Vorhersagen des Machine Learning-Modells genau genug sind, um das Pfaddesign zu leiten, wenn genügend Trainingsdaten verfügbar sind

Biologische Erkenntnisse können gewonnen werden, indem das Modell des maschinellen Lernens (ML) verwendet wird, um Daten anstelle von Laborexperimenten zu erzeugen. Zum Beispiel können wir ähnlich wie bei der Hauptkomponentenanalyse der Proteomik (PCAP 68 ) die ML-Simulationen verwenden, um zu bestimmen, welche Proteine ​​über-/unterexprimiert werden sollen und für welchen Basisstamm, um die Produktion zu verbessern (Abb. 10). Die Proteine ​​LS, AtoB, PMD und Idi sind die wichtigsten Produktionstreiber im Fall von Limonen: Eine Veränderung der Proteinexpression entlang der mit ihnen assoziierten Hauptkomponente erhöht die Limonenbildung (Abb. 10, linkes Feld). Darüber hinaus liefert dieser Ansatz das erwartete Verhalten für alle Metaboliten im Stoffwechselweg und liefert Hypothesen, die experimentell getestet werden können (Abb. 10, rechtes Feld).

Der ML-Ansatz kann verwendet werden, um biologische Erkenntnisse zu gewinnen. Das linke Feld zeigt die endgültige Position im Proteomik-Phasenraum (ähnlich dem PCAP 68-Ansatz) für 50 Stämme, die durch den ML-Algorithmus durch Lernen aus dem Michaelis-Menten-Kinetikmodell (Abb. 4) als Ground Truth generiert wurden. Die endgültige Limonenproduktion wird durch Kreisgröße und -farbe angegeben. Der PLS-Algorithmus findet Richtungen im Proteomik-Phasenraum, die am besten mit der zunehmenden Limonenproduktion (Komponente 1) übereinstimmen. Das Reisen im Proteomik-Phasenraum entlang dieser Richtung (was eine Überexpression von LS und eine Unterexpression von AtoB, PMD und Idi beinhaltet, siehe Tabelle S2) erzeugt Stämme mit einer höheren Limonenproduktion. Der ML-Ansatz liefert nicht nur biologische Erkenntnisse zur Steigerung der Produktion, sondern sagt auch die erwartete Konzentration als Funktion der Zeit für Limonen und alle anderen Metaboliten voraus und generiert Hypothesen, die experimentell getestet werden können (rechtes Bild).

Datenbeschränkungen sind signifikant, aber überwindbar

Da der ML-Ansatz rein datenbasiert ist, sind Datenquantität und -qualität von größter Bedeutung. Bedenken hinsichtlich der Datenmenge betreffen sowohl die Verfügbarkeit ausreichender Zeitreihen als auch die in jeder Zeitreihe erfassten Zeitpunkte.

Der hier verwendete Trainingssatz 66 ist einer der größten Datensätze, der einen metabolisch konstruierten Weg in regelmäßigen Zeitabständen durch Proteomik und Metabolomik charakterisiert. Es gibt keine größeren Datensätze, die Folgendes umfassen: Zeitreihen, verschiedene Arten von Omics-Daten, mehr als sieben Zeitpunkte und mehrere Stämme. Zum Beispiel: die E coli Die multiomics-Datenbank 69 enthält Proteomics- und Metabolomics-Daten für mehrere Stämme, jedoch keine Zeitreihen. Ma et al. 70 berichten über Proteomik- und Metabolomikdaten, aber nur eine Zeitreihe mit weniger Zeitpunkten (5 statt 7) Yang et al. 71 liefern nur eine Zeitreihe und nur einen Zeitpunkt für die Proteomik Doerfler et al. 72 und Dyar et al. 73 liefern nur Zeitreihen-Metabolomik-Daten Patel et al. 74 kombiniert keine Metabolomik und Proteomik und der Datendownload war zum Zeitpunkt des Testens deaktiviert das DOE kbase 75 konzentriert sich auf Genomik und hat keine öffentlich zugänglichen Zeitreihen-Proteomik oder Metabolomik und das Experiment Data Depot 76 hat keine darüber hinausgehenden Studien eine in Bezug auf Datenpunkte und Dehnungen.

Um genügend Paare von Ableitungen und Proteomik- und Metabolomikdaten zu erhalten, um ML-Algorithmen zu trainieren (Ergänzende Abb. S1), haben wir die Datenerweiterung (Filterung und Interpolation, Abb. 2 und ergänzende Abb. S2) verwendet, um die anfänglichen sieben Zeitpunkte zu erweitern auf 200, indem einfach Kontinuität in den Multiomics-Daten angenommen wird (nach unserer Erfahrung eine vernünftige Annahme). Es wäre wünschenswert, mehr Zeitpunkte zur Verfügung zu haben, um nicht von diesen Datenerweiterungstechniken abhängig zu sein. Datensätze mit mehr Zeitpunkten sind jedoch aus physikalischen, biologischen und wirtschaftlichen Gründen nicht vorhanden. Jedes Mal, wenn eine Probe für die -omics-Analyse entnommen wird, verringert sich das Volumen in der Kulturflasche, und wenn das gesamte Probenvolumen mit dem Gesamtvolumen vergleichbar ist, kann dies die Stammphysiologie erheblich beeinflussen. Da die Entnahme übermäßiger Proben die Messungen beeinträchtigen kann und diese gekoppelten Omics-Analysen teuer sind und spezialisiertes Personal erfordern, überrascht es nicht, dass die maximale Anzahl von Zeitpunkten, die wir gesehen haben, beträgt

7. Ein weiterer Grund, warum in der Regel nicht mehr Zeitpunkte erfasst wurden, besteht darin, dass Experten für Multiomics-Datenerfassung diese Abtastrate für eine vollständige Erfassung der Physiologie von Stämmen aufgrund früherer Erfahrungen halten. 77,78 Die Tatsache, dass wir in der Lage sind, vernünftige Vorhersagen für eine dritte Zeitreihe zu treffen, die der Algorithmus noch nie zuvor gesehen hat (Teststrain), bestätigt dies und die Annahme der Multiomics-Datenkontinuität.

Zukünftige Arbeit

Die Anwendung des maschinellen Lernens auf die synthetische Biologie wird hoffentlich neue Wege der Forschung eröffnen und die Einführung der Modellierung in die Biotechnik und darüber hinaus beschleunigen. Diese Arbeit ist ein erster Schritt, der zeigt, dass ein rein datengesteuerter Ansatz die biologische Dynamik fruchtbar vorhersagen kann. Es gibt viele Möglichkeiten, es zu verbessern.

Ein offensichtlicher erster Schritt besteht darin, andere überwachte Lerntechniken hinzuzufügen, um die Vorhersagen zu verbessern. Der aktuelle Ansatz verwendet ein baumbasiertes Pipeline-Optimierungstool (TPOT), um durch genetische Algorithmen 11 verschiedene Regressoren für maschinelles Lernen und 18 verschiedene Vorverarbeitungsalgorithmen (Merkmalsauswahl) zu kombinieren. Diesem Ansatz können neue überwachte Lerntechniken hinzugefügt werden, indem sie der scikit-learn-Bibliothek hinzugefügt werden. 79 TPOT testet sie automatisch und verwendet sie, wenn sie genauere Vorhersagen liefern als die hier verwendeten Techniken. Zu den beliebtesten Algorithmen für ML gehören Deep-Learning (DL)-Techniken, die auf neuronalen Netzen basieren. Die geringe Größe der verfügbaren Datensätze für diese Studie beschränkte jedoch den Einsatz von maschinellen Lerntechniken auf klassische Methoden. Moderne DL-Techniken erfordern typischerweise um Größenordnungen mehr Daten als in dieser Studie verwendet wurden (

1000 Stämme als Ausgangspunkt). Obwohl diese Datenmenge derzeit unerschwinglich ist, ist es ein lohnendes Ziel, sich in Richtung DL zu bewegen: Diese Methoden haben in einer Vielzahl von Disziplinen übermenschliche Leistungen gezeigt. Dazu gehören zum Beispiel Bildbeschriftungsaufgaben, bei denen der Mensch Kenntnisse entwickelt hat. In Bereichen, in denen der Mensch weniger fähig ist, wie der hier betrachteten dynamischen Systemcharakterisierung, sollte übermenschliche Leistung wesentlich leichter zu erreichen sein. Die Auszahlung würde eine radikale Verbesserung der technischen Ergebnisse beinhalten, indem die Vorhersagbarkeit komplexer biologischer Systeme proportional zur Menge der Eingabedaten gemacht wird.

Eine häufig gestellte Frage ist, ob aus ML-Ansätzen mechanistische Erkenntnisse abgeleitet werden können. Obwohl dies nicht trivial ist, gibt es einige Möglichkeiten für diese Schlussfolgerung: (1) Für jedes bestimmte ML-Modell, das gute Anpassungen erzeugt, liefern die relevantesten Merkmale (dh Protein x hat das höchste Gewicht bei der Bestimmung der y-Molekülkonzentration) eine priorisierte Liste mutmaßlicher mechanistisch verknüpfter Teile, die weiter untersucht werden können. (2) Das ML-Modell kann als Surrogat für Hochdurchsatzexperimente verwendet werden, um mechanistische biologische Erkenntnisse abzuleiten (Abb. 10). Ein weiteres Beispiel für diesen letzten Ansatz wäre die Untersuchung der Toxizität durch Hinzufügen von Zellbiomasse (durch optische Dichte, OD) zu den Messungen und die Simulation der Korrelation zwischen OD und allen Metaboliten für eine Vielzahl von Szenarien (Proteineinträge): eine negative Korrelation würde mutmaßliche toxische Metaboliten.

Es ist jedoch lehrreich, innezuhalten und über den Drang nach Mechanismen nachzudenken. Mechanismen bieten eine kausal zusammenhängende Menge von Prozessen und Teilen, die die beobachteten Phänomene erzeugen. Das Verständnis dieser Prozesse, Teile und kausalen Beziehungen erzeugt ein Wissen, das tatsächlich übertragen werden kann, um das Verhalten verschiedener Systeme (Wege, Stämme, Produkte usw.) vorherzusagen, an denen der gleiche Mechanismus beteiligt ist. Die Biologie war jedoch besonders ineffizient, um Vorhersagen komplexer Systeme anhand bekannter und getesteter Mechanismen zu treffen. Wenn unser endgültiges Ziel darin besteht, neue biologische Systeme vorherzusagen, kann es erfolgreicher sein, sich mit ML-Techniken wie dem Transferlernen zu befassen. 80 Diese Techniken gehen direkt die Herausforderung an, Systeme auf der Grundlage von Daten aus verwandten Systemen vorherzusagen, ohne sich mit Mechanismen befassen zu müssen. Abgesehen davon besteht kein Zweifel, dass das wünschenswerteste Ergebnis ein Modell ist, das sowohl prädiktiv als auch mechanistisch ist, aber wenn wir auf eines dieser Merkmale verzichten möchten, ist das mechanistische Wissen möglicherweise am wenigsten unmittelbar für die aktuelle Biotechnologie nützlich.

Die Einbringung von Vorwissen in den ML-Ansatz ist ein damit verbundener möglicher zukünftiger Forschungsweg. Derzeit schränkt unsere Methode die Vektorfelder nicht ein, die mit einer biologischen Intuition gelernt werden. Über diese dynamischen Systeme sind oft biologische Fakten bekannt, die zur Leistungssteigerung unserer Methode genutzt werden könnten. Insbesondere könnten stöchiometrische Beschränkungen auf Genomskala Garantien dafür bieten, dass die resultierende Systemdynamik die Masse erhält und unserem Vorwissen über den Organismus entspricht.

Da das hier skizzierte Verfahren nur geringe biologische Vorkenntnisse erfordert, ist es verlockend, sich vorzustellen, dieses Verfahren auf verschiedene Dateneingaben oder andere Arten von Anwendungen auszuweiten. Eine offensichtliche Erweiterung ist die Verwendung von Transkriptomikdaten als Eingabe. Angesichts der gegenwärtig exponentiellen Zunahme der Sequenzierfähigkeiten sind Transkriptomikdaten für die Hochdurchsatzproduktion zugänglicher als Proteomik- und Metabolomikdaten. Unserer biologischen Intuition zufolge sollten Transkriptomikdaten weniger aussagekräftig sein als Proteomikdaten, aber es ist sicherlich interessant zu untersuchen, ob dem mit mehr Zeitreihen (und wie vielen) begegnet werden kann. Es wäre auch interessant, die ML-Methode zur Vorhersage von Proteomik zusätzlich zu Metabolomik-Zeitreihen zu verwenden. Ein weiterer logischer Vorschlag ist es, diese Methode zu erweitern, um Multiomics-Daten auf Genomskala zu umfassen. Wir vermuten, dass die zusätzlichen prädiktiven Fähigkeiten des maschinellen Lernens in Bezug auf den Michaelis-Menten-Ansatz zum Teil darauf zurückzuführen sind, dass die Auswirkungen des Wirtsstoffwechsels durch Proxys (z. B. Metaboliten oder Proteine, die indirekt vom Wirtsstoffwechsel beeinflusst werden) indirekt berücksichtigt werden. Daher erwarten wir umfassendere Metabolomik- und Proteomik- (sowie Transkriptomik-) Datensätze, um die Vorhersagegenauigkeit der Methode zu erhöhen. Ein faszinierenderes und mutigeres Unterfangen wäre, diese Methode anzuwenden, um die Dynamik mikrobieller Gemeinschaften unter Verwendung von Metaproteomik- und Metabolitkonzentrationsdaten als Eingaben vorherzusagen. Es gibt nichts an diesem Ansatz, der ihn auf die Vorhersage intrazellulärer Signalwege und die Mikrobiomforschung einschränkt, und die Industrie hat einen eindeutigen Bedarf an einer erhöhten Vorhersagekraft. 81 Schließlich bietet die zunehmende Verfügbarkeit dichter Multiomics-Datensätze für den menschlichen Stoffwechsel ein verlockendes Ziel. 82,83


Einführung

Die Genotyp-Phänotyp-Karte ist ein wichtiges Instrument zum Verständnis der Evolution [1–13]. Die Verteilung und Konnektivität von Phänotypen in einer Karte bestimmt die Zugänglichkeit adaptiver evolutionärer Trajektorien [5, 7, 9, 14–16], stimmt die evolutionäre Dynamik [6,17–19] ab und verändert die Populationsstruktur [20, 21]. Die Charakterisierung von Genotyp-Phänotyp-Karten kann jedoch sehr schwierig sein, da sich die Größe der Karte mit zunehmender Anzahl von Mutationen exponentiell ausdehnt. Zum Beispiel umfasst eine Karte mit vier Mutationsstellen, von denen jede in einem von zwei Zuständen existiert, 16 Genotypen (2 4 ). Im Gegensatz dazu besteht eine Karte mit 15 Mutationsstellen aus 32.768 Genotypen (2 15 ). Angesichts des Zeit- und Kostenaufwands für die Charakterisierung jedes Genotyps beschränken sich die Forscher in der Regel auf ausgewählte Regionen der Genotyp-Phänotyp-Karte [11, 22–24]. Die Möglichkeit, aus einem kleinen Datensatz experimentell ermittelter Phänotypen eine vollständige Genotyp-Phänotyp-Karte abzuleiten, wäre daher für ein breites Spektrum von Biologieforschern äußerst nützlich.

In dieser Studie versuchten wir, Phänotypen in einer Karte mittlerer Größe abzuleiten, die 2 8 = 256 Genotypen enthielt. Dieses Regime ist besonders relevant, da die Evolution von Merkmalen wie Arzneimittel- oder Pestizidresistenz oft 5–10 Mutationen (d. h. 32–1.024 Genotypen) umfasst [4, 24–28]. Ein solides Verständnis der Evolution dieser Merkmale erfordert die Kenntnis der Phänotypen aller (oder der meisten) Genotypen. Vollständige kombinatorische Karten können zeigen, ob es viele oder wenige zugängliche evolutionäre Trajektorien zwischen der Wildtyp- und der mutierten Isoform gab, ob die Pfade adaptiv waren oder neutrale Schritte erforderten und warum sich Resistenzen manchmal schnell entwickeln [29–31], während sie in anderen Jahrzehnten brauchen Fälle [24, 32].

Eine erschöpfende Charakterisierung der Phänotypen in einer Karte mit Hunderten von Genotypen ist oft nicht möglich, insbesondere bei Phänotypen, die mit Hochdurchsatzmethoden schwer zu charakterisieren sind. Solche Karten sind jedoch auch zu klein, um mit ausgeklügelten, datenhungrigen Maschinenlernmodellen, die oft Tausende oder Zehntausende von Beobachtungen erfordern, ohne weiteres analysiert zu werden. Um diesen Mangel zu beheben, haben wir einen einfachen Ansatz entwickelt, um die fehlenden Phänotypen aus einer unvollständigen Phänotyp-Genotyp-Karte abzuleiten. Unser Ziel war es, kombinatorische Stichproben zu verwenden, die ≈20% einer Karte abdecken, um die verbleibenden Phänotypwerte abzuleiten, mit gut charakterisierter Unsicherheit in unseren Vorhersagen. Ein solches Wissen würde robuste und statistisch fundierte Analysen der evolutionären Trajektorien durch eine abgeleitete Genotyp-Phänotyp-Karte ermöglichen.

Als Modelldatensatz untersuchten wir die Karte zur Erfassung der Chloroquin (CQ)-Transportaktivität durch den „Chloroquin-Resistenz-Transporter“ (PfCRT) des Malariaparasiten [24, 33]. CQ ist eine diprotische schwache Base, die in die Verdauungsvakuole des Parasiten (pH 5,0–5,5) diffundiert, wo sie protoniert wird und sich in hohen Konzentrationen ansammelt [34]. Hier übt CQ seine Antimalariawirkung aus, indem es die Entgiftung des Häms verhindert, das bei der Verdauung des Wirtshämoglobins durch den Parasiten entsteht [35–37]. PfCRT befindet sich an der Membran der Verdauungsvakuole [38]. Bestimmte mutierte Isoformen von PfCRT verleihen CQ-Resistenz, indem sie CQ aus der Vakuole und damit weg von seinem Antimalariaziel transportieren [24, 33, 39–41]. Dem Wildtyp-Protein (PfCRT 3D7 ) fehlt eine signifikante CQ-Transportaktivität, während die „Dd2“-Isoform von PfCRT (PfCRT Dd2 ) die am häufigsten untersuchte der PfCRT-Isoformen ist, die CQ-Resistenz verleihen [42]. PfCRT 3D7 und PfCRT Dd2 unterscheiden sich an acht Aminosäureresten ( 1A ). Wir können jeden Genotyp als binären String darstellen, wobei PfCRT 3D7 00000000 und PfCRT Dd2 11111111 ist. Im gesamten Text beziehen wir uns auf die Zwischengenotypen in diesem Format.

A) Die Tabelle zeigt die Aminosäurerest-Unterschiede zwischen den Wildtyp- (PfCRT 3D7, 00000000) und mutanten (PfCRT Dd2, 11111111) Isoformen von PfCRT. Das Netzwerk zeigt den vollständigen Satz von Genotypen zwischen PfCRT 3D7 und PfCRT Dd2. Jeder Knoten repräsentiert einen anderen Genotyp mit einzigartiger Anzahl und Kombination der 8 Aminosäurereste Unterschiede zwischen den beiden Isoformen. Jede Kante verbindet Genotypen, die sich durch eine einzelne Mutation unterscheiden. Genotypen sind in kombinatorischer Reihenfolge sortiert, von links nach rechts, so dass die zweite Zeile 1000000, 0100000,…, 00000010, 00000001 enthält, die dritte Zeile 11000000, 10100000, …, 00000101, 00000011 enthält, die vierte Zeile enthält 11100000, 11010000, … , 00001011, 00000111 usw. Die grauen Knoten zeigen PfCRT-Genotypen an, deren CQ-Transportaktivitäten nicht gemessen wurden. Die Farben der verbleibenden Knoten zeigen experimentell bestimmte CQ-Transportaktivitäten relativ zur Aktivität von PfCRT Dd2 an [24]. Die Werte reichen von <5% (blau) bis 130% (rot). Neben PfCRT 3D7 und PfCRT Dd2 sind die Namen und Binärcodes von fünf weiteren Feldisoformen von PfCRT – „106/1“, „GB4“, „K1“, „783“ und „China e“ – angegeben. B) Eine mögliche evolutionäre Trajektorie von PfCRT 3D7 zu PfCRT Dd2, die nur durch gemessene Phänotypen verläuft. Die Mutationen in jedem Schritt sind neben der entsprechenden Kante zusammen mit der Wirkung auf die CQ-Transportaktivität angegeben. Diese Trajektorie verläuft durch die Isoformen PfCRT China e und PfCRT K1. Fünf der acht Schritte erhöhen die CQ-Transportaktivität, zwei haben keine Wirkung und der letzte Schritt bewirkt eine Abnahme.

Die PfCRT-Genotyp-Phänotyp-Karte lieferte einen hervorragenden Datensatz für die Entwicklung eines Vorhersagemodells. Die Phänotypen von 52 der 256 möglichen Kombinationen der 8 Mutationen in PfCRT Dd2 wurden zuvor in der Xenopus laevis Eizellensystem von Summers et al. [24]. Diese Genotypen wurden mit dem spezifischen Ziel ausgewählt, mögliche Trajektorien zwischen PfCRT 3D7 und PfCRT Dd2 zu identifizieren [24]. Diese Genotypen waren über die Karte verstreut, mit zwei Einzel-, sieben Doppel-, neun Dreifach-, zehn Vierfach-, sieben Fünffach-, vier Sechsfach- und acht Siebenfach-Mutanten. Jede Isoform wurde an der Oberfläche der Eizelle exprimiert und ihre Kapazität für den CQ-Transport unter Verwendung eines Radioisotopen-Aufnahme-Assays quantifiziert. Diese 52 Isoformen machen 20 % der PfCRT-Genotyp-Phänotyp-Karte aus ( 1A ). Zusammen enthüllten sie mehrere evolutionäre Trajektorien, die möglicherweise durchlaufen wurden, um PfCRT-Proteine ​​mit hohen Kapazitäten für den CQ-Transport zu erhalten [24]. Eine dieser Trajektorien ist in 1B gezeigt. Interessanterweise umfasste jede dieser Trajektorien mindestens einen Schritt, in dem die Mutation entweder die Kapazität des Proteins für den CQ-Transport nicht signifikant veränderte oder eine leichte Abnahme der Aktivität verursachte. Dieser offensichtliche Mangel an adaptiven Trajektorien könnte helfen zu erklären, warum sich die CQ-Resistenz im Feld erst nach einigen Jahren entwickelt hat und warum CQ-Resistenz nach CQ-Druck noch nicht von Wildtyp-Parasiten (z. B. „3D7“-Parasiten) erzeugt werden muss in vitro.

Die Summers et al. Die Studie deckte mehrere Trajektorien auf, die dazu führten, dass PfCRT den CQ-Transport erwarb, aber eine vollständige Genotyp-Phänotyp-Karte ist erforderlich, um festzustellen, ob es andere zugängliche Trajektorien gibt. Obwohl es 8 sind! = 40.320 mögliche Vorwärtstrajektorien durch diese Karte erlauben uns die gemessenen Phänotypen, die Zugänglichkeit von nur 428 dieser Trajektorien zu beurteilen. Damit bleiben 39.892 Trajektorien – 98,9% – übrig, für die ein oder mehrere Mutationsschritte fehlen. Die Messung aller verbleibenden Phänotypen wäre jedoch sowohl kostspielig als auch arbeitsintensiv.

Wir versuchten daher, ein Vorhersagemodell der PfCRT-Genotyp-Phänotyp-Karte zu erstellen. Dieser Ansatz würde es uns ermöglichen zu verstehen, wie sich PfCRT zu einem Arzneimittelresistenztransporter entwickelt hat, ohne alle 256 Phänotypen experimentell charakterisieren zu müssen. Das Modell beinhaltet die additiven Effekte von Mutationen, eine nichtlineare Skala und einen logistischen Klassifikator. Indem wir die Unsicherheit in unseren Vorhersagen charakterisieren, kennen wir auch die Unsicherheit in unseren evolutionären Schlussfolgerungen. Schließlich validierten wir unser endgültiges Modell gegen eine Sammlung zuvor veröffentlichter Genotyp-Phänotyp-Karten. Der hier beschriebene Ansatz scheint auf viele Genotyp-Phänotyp-Karten anwendbar zu sein. Wir haben unsere Implementierung des Modells als Open-Source-Python-Softwarepaket (GPSEER https://gpseer.readthedocs.io) veröffentlicht.


4. Diskussion

Wir haben eine neue Methode entwickelt, um Kandidatengene zu priorisieren, wenn eine Reihe von abnormalen Phänotypen im Zusammenhang mit einer genetisch basierten Krankheit stehen sowie viel Hintergrundwissen in biomedizinischen Ontologien. Unsere Methode verbessert sich gegenüber anderen phänotypbasierten Methoden in mehrfacher Hinsicht.

Erstens verwenden wir ein punktweises Learning-to-Rank-Modell des maschinellen Lernens, das die Vorhersageleistung verbessert, wenn es anhand von Gen-Krankheit-Assoziationen aus dem OMIM bewertet wird ( Amberger et al., 2011)-Datenbank ist unser Modell so konzipiert, dass es die Ähnlichkeiten zwischen zwei Einbettungen direkt lernt und im Vergleich zu anderen Modellen zu einer verbesserten Vorhersageleistung führt (Smaili et al., 2018, 2019) verwendet, um Gen-Krankheit-Assoziationen basierend auf Einbettungen vorherzusagen.

Zweitens haben wir eine neuartige Methode entwickelt, um komplexe Axiome auszunutzen, indem wir sie in einen Graphen umwandeln und sich auf Grapheneinbettungen verlassen. Wir zeigen, dass dieser Ansatz die Leistung erheblich verbessert, wenn mehrere Ontologien eingebettet werden, die nur durch komplexe Axiome verknüpft sind. Dieser Fortschritt ist besonders wichtig bei Ontologien, die stark mit OWL formalisiert und miteinander verknüpft sind, wie z et al., 2007). Mit DL2Vec sind wir beispielsweise in der Lage, die Assoziation zwischen einer Mendelschen Kataraktform (OMIM: 604 307) und dem Gen CRYGC bei der Aufnahme des GO innerhalb der ersten beiden Ränge zu priorisieren, während OPA2Vec und Onto2Vec dieses Gen unter Rang 1000 einstufen. Einer der wichtigsten Phänotypen der Katarakt ist Sehbehinderung ( HP: 0000505 ), die im HPO als vermindertes . definiert ist visuelle Wahrnehmung ( GO: 0007601 ) Basierend auf dieser formalen Definition erzeugt DL2Vec eine Kante zwischen Sehbehinderung und visuelle Wahrnehmung. Das Gen CRYGC ist der GO-Klasse zugeordnet visuelle Wahrnehmung. Wenn wir die iterierten Random Walks entweder vom Krankheitsknoten oder vom Genknoten aus durchführen, stellen wir fest, dass mehrere Spaziergänge diese Kante verwenden und daher zu einem direkten gleichzeitigen Auftreten sowohl der Krankheit als auch des Gens führen, wobei die Knoten . darstellen Sehbehinderung ebenso gut wie visuelle Wahrnehmung Die Anwendung von Word2Vec auf diese Wege führt dazu, dass die Einbettung von Genen und Krankheiten einander ähnlicher werden und ermöglicht es DL2Vec, die Assoziation auf einen der ersten Plätze zu setzen.

Drittens priorisiert unsere Methode Kandidatengene für eine Reihe von abnormalen Phänotypen unter Verwendung einer Kombination aus Genexpression, Funktion, Netzwerk, Phänotypdaten und Ontologien. Im Gegensatz zu Methoden, die auf Kenntnissen über krankheitsassoziierte Gene angewiesen sind, um neue Kandidaten zu priorisieren, sind für unsere Methode nur die bei einem Patienten beobachteten Phänotypen der Input. In unserem Ansatz beruht die Priorisierung von Kandidatengenen nicht auf dem Wissen (oder der Existenz) anderer Gene, die mit den gleichen Phänotypen assoziiert sind. Dies erreichen wir, indem wir die unterschiedlichen Annotationen auf zwei unterschiedlichen Ebenen kombinieren: Zum einen werden die unterschiedlichen Annotationen (Phänotyp, Funktion, Expression) auf der Ebene eines Gens oder Genprodukts (das wir nicht unterscheiden) zusammengefasst, sodass eine einzige Entität ( das Gen und seine Produkte) mit allen drei Arten von Informationen in Verbindung gebracht wird. Zweitens nutzen wir auch direkt die Verknüpfungen zwischen Ontologien. Die Verbindungen zwischen den Klassen in Ontologien ermöglichen es uns, neue Beziehungen zwischen den verschiedenen mit Genen assoziierten Merkmalen herzustellen, und diese Merkmale sind ohne die Verwendung der Ontologie-Axiome nicht zugänglich. Dies macht unseren Ansatz auf die Mendelsche Krankheit anwendbar, bei der keine Gene bekanntermaßen assoziiert sind (oder bei der nur ein einzelnes Gen assoziiert ist) und bei der Merkmale bekannter krankheitsassoziierter Gene nicht verwendet werden konnten, um neue ursächliche Gene zu identifizieren. Während Ansätze, die auf dem Schuld-durch-Assoziations-Prinzip basieren, bei Krankheiten oder Phänotypen mit mehreren bekannten assoziierten Genen ( Chen et al., 2009 Gillis und Pavlidis, 2012 Schlicker und Albrecht, 2010 Singleton et al., Tranchevent 2014 et al., 2016) hat unsere Methode ein breiteres Anwendungsspektrum.

Viertens gibt es zwar mehrere phänotypbasierte Methoden, die weit verbreitet sind, um Kandidatengene zu priorisieren ( Cornish et al., 2018 Köhler et al., 2009 Smedley et al., 2013), sind sie auf Gene mit assoziierten Phänotypen beschränkt. Da es nur eine begrenzte Anzahl menschlicher Gene mit assoziierten Phänotypen gibt, kann dieser Gensatz durch die Aufnahme von Phänotypen menschlicher Orthologe in Tiermodelle signifikant erweitert werden (Smedley et al., 2013) jedoch wird selbst die Verwendung von Tiermodell-Phänotypen etwa die Hälfte der menschlichen Gene ohne Phänotyp-Assoziationen hinterlassen, entweder aufgrund fehlender Phänotyp-Assoziationen in Tiermodellen oder aufgrund des Fehlens von Orthologen für ein menschliches Gen ( Shefchek et al., 2020). Wir erweitern phänotypbasierte Gen-Priorisierungsmethoden signifikant auf Gene, die entweder Phänotyp-Assoziationen aufweisen, mit GO-Funktionen assoziiert sind oder bekannte Expressionsstellen aufweisen. Während die Vorhersageleistung unserer Methode für Gene ohne Phänotyp-Assoziationen geringer ist als für Gene mit assoziierten Phänotypen, zeigen wir, dass wir dennoch krankheitsassoziierte Gene identifizieren können, indem wir Phänotypen mit Genfunktionen oder mit anatomischen Orten vergleichen.

Darüber hinaus ist unser Modell erweiterbar und kann zusätzliche Funktionen enthalten, wenn diese mithilfe von Ontologien kodiert werden können. Zum Beispiel können wir unser Modell durch die Genexpression in einzelnen Zelltypen erweitern, indem wir die Celltype Ontology (CL) verwenden ( Bakken et al., 2017). Wir experimentierten mit Einzelzell-RNAseq-Daten aus dem Tabula Muris-Projekt (The Tabula Muris Consortium et al., 2018), in denen Gene mit der CL annotiert sind. Aus diesem Datensatz erhalten wir 17 149 Assoziationen zwischen Genen und einer oder mehreren Klassen von CL. Wir fügten die CL-Annotation von Genen sowie die Krankheitsphänotyp-Annotationen hinzu und führten die gleichen Experimente wie für die anderen drei Ontologien durch. Ohne Berücksichtigung der funktionellen Interaktionen zwischen den Genen erhalten wir einen ROCAUC von 0,906 ( 0,883 − 0,949 ⁠ ) für die Vorhersage von Gen-Krankheit-Assoziationen ([email protected], [email protected] und [email protected] sind 0,037, 0,299 bzw. 0,634). Diese Ergebnisse zeigen, dass die Einzelzell-Genexpression mehr Informationen zur Vorhersage von Gen-Krankheit-Assoziationen liefern kann als die mit Uberon kodierte Genexpression auf Gewebeebene. Eine wesentliche Einschränkung bei der Verwendung der zelltypspezifischen Genexpression besteht darin, dass CL in weniger Axiomen innerhalb von Phänotyp-Ontologien verwendet wird (im Vergleich zu UBERON oder GO), und daher wird unsere Methode weder Beziehungen zwischen Phänotypen und Zelltypen noch Beziehungen zwischen den anderen Ontologien ausnutzen.

Unsere Methode hat noch einige Einschränkungen. Unsere Umwandlung von OWL in einen Graphen berücksichtigt nicht alle OWL-Axiome, und die Umwandlung behandelt auch verschiedene Arten von Einschränkungen und Axiomentypen identisch, obwohl ihre Semantik unterschiedlich ist. In Zukunft planen wir, die Methode zu erweitern, um beliebige OWL-Axiome in eine Graphendarstellung umzuwandeln, z.B. auf relationalen Mustern, die in der OBO Relation Ontology ( Smith et al., 2007) und stützen sich auch auf abgeleitete Axiome zur Generierung des Graphen, wie sie in der Onto2Graph-Methode implementiert sind ( Rodríguez-García und Hoehndorf, 2018).

Eine weitere wesentliche Einschränkung unseres Ansatzes besteht darin, dass er von Natur aus transduktiv und nicht induktiv ist. Insbesondere müssen die Krankheiten mit ihren Phänotyp-Assoziationen in unserem Arbeitsablauf bekannt sein, bevor wir Einbettungen generieren und unser Vorhersagemodell trainieren, und es ist nicht einfach, den Ansatz auf einen neuen Satz von Phänotypen (wie die bei einem Individuum beobachteten Phänotypen) anzuwenden. Diese Einschränkung wird von vielen Ansätzen zur Einbettung von Graphen und zur Einbettung von Wissensgraphen geteilt ( Wang et al., 2017b). Diese Einschränkung kann jedoch entweder durch den Einsatz induktiver Methoden zum Lernen an Wissensgraphen, wie etwa neuronalen Graphennetzen, überwunden werden ( Kipf und Welling, 2016 Scarselli et al., 2008) oder indem Patienten mit ihren Phänotypen als Teil der Originaldaten (oder Grafik) aufgenommen, das Modell auf Gen-Krankheits-Assoziationen trainiert und angewendet wird, um Kandidatengene für die Patientenknoten vorherzusagen. Die Ausweitung unseres Ansatzes auf ein induktives Setting wird jedoch eine einfachere Kombination unseres Ansatzes mit Methoden zum Auffinden pathogener ursächlicher Varianten basierend auf beobachteten Phänotypen und Sequenzierungsdaten der nächsten Generation ermöglichen ( Boudellioua et al., 2017 Robinson et al., 2014).

Schließlich behandeln wir alle Gene, von denen nicht bekannt ist, dass sie mit der Krankheit in Verbindung stehen, als negativ und haben folglich viel mehr negative als positive Assoziationen. Dies hat zwei Konsequenzen: Erstens können wir eine Assoziation fälschlicherweise als negativ klassifizieren, wenn ein Gen mit der Krankheit assoziiert ist, diese Assoziation jedoch noch nicht bekannt ist. Zweitens, während sich die prädiktive Gesamtleistung unserer Methode gegenüber dem Stand der Technik verbessert und der ROCAUC in unserer Bewertung in der Regel über 0,9 liegt, ist der Recall auf den ersten Rängen immer noch gering und überschreitet selten 5% auf dem ersten Rang. Der Grund für diesen Unterschied zwischen den Bewertungsmaßen ist der unausgewogene Datensatz, den wir für die Bewertung verwenden, bei dem alle Gene, von denen nicht bekannt ist, dass sie mit einer Krankheit in Verbindung stehen, als negativ für diese Krankheit angesehen werden. Unsere Auswertung berücksichtigt daher keine zusätzlichen Erkenntnisse über mögliche Assoziationen zwischen einem Gen und einer Krankheit. In einem realistischen Szenario, in dem neue Gene auf ihre Assoziation mit einer Mendelschen Krankheit untersucht werden, stehen jedoch in der Regel mehr Informationen zur Verfügung, entweder durch die Bewertung der Pathogenität von Varianten, die bei betroffenen Personen gefunden wurden, die Filterung nach Stammbaum und Vererbungsart oder die Filterung nach Varianten bei nicht verwandten Personen mit dem gleichen Phänotyp nach einem solchen Arbeitsablauf gefunden werden, bleiben normalerweise <100-Gene als potenzielle Kandidaten (Alfares et al., 2020) (im Gegensatz zu 9886 in unserer Auswertung) und die Erinnerung an die ersten Ränge wird sich verbessern.


Abstrakt

Jüngste technologische Fortschritte haben die Bandbreite der verfügbaren Omic-Daten erweitert, von Daten zur Sequenzierung des gesamten Genoms bis hin zu umfangreichen transkriptomischen, methylomischen und metabolomischen Daten. Ein wichtiges Ziel der Analyse dieser Daten ist die Identifizierung effektiver Modelle, die phänotypische Merkmale und Ergebnisse vorhersagen, wichtige Biomarker aufklären und wichtige Erkenntnisse über die genetischen Grundlagen der Vererbung komplexer Merkmale gewinnen. Es besteht weiterhin Bedarf an leistungsstarken und fortschrittlichen Analysestrategien, um den Nutzen dieser umfassenden Hochdurchsatzdaten voll auszuschöpfen, echte Assoziationen zu identifizieren und die Anzahl falscher Assoziationen zu reduzieren. In diesem Aufsatz untersuchen wir die aufkommenden Ansätze für die Datenintegration – einschließlich metadimensionaler und mehrstufiger Analysen – die darauf abzielen, unser Verständnis der Rolle von Genetik und Genomik bei komplexen Ergebnissen zu vertiefen. Mit der Nutzung und Weiterentwicklung dieser Ansätze kann ein verbessertes Verständnis der Beziehung zwischen genomischer Variation und menschlichen Phänotypen aufgedeckt werden.


Vorhersage des Phänotyps aus dem Genotyp: Normale Pigmentierung *

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Zentrum für Humangenetik, Marshfield Clinic Research Foundation, Marshfield, WI 54449.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Department of Genetics, Stanford University School of Medicine, Stanford, CA 94305.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Pharmakologische Abteilung, Teva Pharmaceutical Industries Ltd., Netanya, 42504, Israel.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Helen Wills Neuroscience Institute, University of California, Berkeley, CA 94720.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Institut für Ökologie und Evolutionsbiologie, University of Arizona, Tucson, AZ 85721.

Jake Gittlen Cancer Research Foundation, Abteilung für Pathologie Abteilung für Pharmakologie Abteilung für Biochemie und Molekularbiologie, Pennsylvania State University College of Medicine, Hershey, PA 17033.

Department of Chemistry, Fujita Health University School of Health Sciences, Toyoake, Aichi, Japan.

Department of Chemistry, Fujita Health University School of Health Sciences, Toyoake, Aichi, Japan.

DNAPrint Genomics, Inc., Sarasota, FL 34236.

DNAPrint Genomics, Inc., Sarasota, FL 34236.

Gegenwärtige Adresse: Informationssicherheit, Intelligenz und Analyse, Sylint Group, Sarasota, FL 34230.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Zentrum für Humangenetik, Marshfield Clinic Research Foundation, Marshfield, WI 54449.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Zentrum für Humangenetik, Marshfield Clinic Research Foundation, Marshfield, WI 54449.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Department of Genetics, Stanford University School of Medicine, Stanford, CA 94305.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Pharmakologische Abteilung, Teva Pharmaceutical Industries Ltd., Netanya, 42504, Israel.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Helen Wills Neuroscience Institute, University of California, Berkeley, CA 94720.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Institut für Ökologie und Evolutionsbiologie, University of Arizona, Tucson, AZ 85721.

Jake Gittlen Cancer Research Foundation, Abteilung für Pathologie Abteilung für Pharmakologie Abteilung für Biochemie und Molekularbiologie, Pennsylvania State University College of Medicine, Hershey, PA 17033.

Department of Chemistry, Fujita Health University School of Health Sciences, Toyoake, Aichi, Japan.

Department of Chemistry, Fujita Health University School of Health Sciences, Toyoake, Aichi, Japan.

DNAPrint Genomics, Inc., Sarasota, FL 34236.

DNAPrint Genomics, Inc., Sarasota, FL 34236.

Gegenwärtige Adresse: Informationssicherheit, Intelligenz und Analyse, Sylint Group, Sarasota, FL 34230.

Abteilung für Pädiatrie, College of Medicine, University of Arizona, Tucson, AZ 85724.

Gegenwärtige Adresse: Zentrum für Humangenetik, Marshfield Clinic Research Foundation, Marshfield, WI 54449.

Gefördert vom National Institute of Justice (2002-1J-CX-K010).

Abstrakt

Abstrakt: Genetische Informationen in forensischen Studien beschränken sich weitgehend auf CODIS-Daten und die Möglichkeit, Proben zuzuordnen und sie einer Person zuzuordnen. Es gibt jedoch Umstände, in denen eine bestimmte DNA-Probe mit keiner Person in der CODIS-Datenbank übereinstimmt und keine anderen Informationen über den Spender verfügbar sind. In dieser Studie haben wir 75 SNPs in 24 Genen (die zuvor an Human- oder Tierpigmentierungsstudien beteiligt waren) für die Analyse von Single- und Multi-Locus-Assoziationen mit Haar-, Haut- und Augenfarbe bei 789 Personen unterschiedlicher ethnischer Herkunft bestimmt. Unter Verwendung der multiplen linearen Regressionsmodellierung wurde festgestellt, dass fünf SNPs in fünf Genen in unseren bevölkerungsübergreifenden Analysen für große Anteile der Pigmentierungsvariation in Haar, Haut und Augen verantwortlich sind. Daher können diese Modelle von prädiktivem Wert sein, um den Pigmentierungstyp einer Person aus einer forensischen Stichprobe unabhängig von der ethnischen Herkunft zu bestimmen.


Computergestützte/mathematische Modelle zur Vorhersage des Phänotyps aus dem Genotyp - Biologie

WILLKOMMEN bei Wanglab

Das Optimization & Computational Systems Biology Lab befindet sich im Institut für Angewandte Mathematik der Akademie für Mathematik und Systemwissenschaften (AMSS) der Chinesischen Akademie der Wissenschaften (CAS). Außerdem gehören wir dem National Center for Mathematics and Interdisziplinary Sciences (NCMIS) der Chinese Academy of Sciences an. Unsere Forschung konzentriert sich auf Optimierung, Computerbiologie und Systembiologie. Unser Ziel ist es, durch Optimierungs- und Statistikmodelle Netzwerke für komplexe biomolekulare Systeme wie Genregulationsnetzwerke aufzubauen. Durch die weitere Integration mehrerer Datenquellen in Netzwerkmodelle wollen wir die Beziehung zwischen Sequenzvariante, regulatorischem Element, Regulator, Genexpression und Evolution biomolekularer Systeme aufklären, Designprinzipien biologischer Regulationen und Netzwerke untersuchen und systembiologische Mechanismen untersuchen von komplexen Merkmalen. Um diese Ziele zu erreichen, entwickeln wir verschiedene Berechnungsmethoden aus Theorie, Modell und Algorithmus.

    Modellierung von Genregulierungsnetzwerken. : Modellierung und Analyse des Genregulationsnetzwerks. Laufende Projekte im Labor umfassen: Interaktionen zwischen Chromatinregulatoren, sequenzspezifische Transkriptionsfaktoren und cis-regulatorische Sequenzelemente kontextspezifische Rekonstruktion regulatorischer Netzwerke.

Yong Wang Labor | Akademie für Mathematik und Systemwissenschaften | Chinesische Akademie der Wissenschaft


BIOINFORMATIK UND COMPUTATIONAL BIOLOGY (BCB)

Bioinformatik-Algorithmen. Zu den Themen gehören DNA-Restriktionskartierung, Finden von regulatorischen Motiven, Genom-Rearrangements, Sequenz-Alignments, Genvorhersage, Graphalgorithmen, DNA-Sequenzierung, Proteinsequenzierung, kombinatorischer Mustervergleich, ungefährer Mustervergleich, Clustering und Evolution, Baumkonstruktion, Hidden-Markov-Modelle, randomisierte Algorithmen.
Voraussetzungen: Voraussetzungen, COMP 210 und 211 oder COMP 401 und 410 und MATH 231 oder 241 oder BIOL 452 oder MATH 553 oder BIOL 525 in allen Vorkursen ist die Note C oder besser erforderlich.
Benotungsstatus: Briefnote
Gleich wie: KOMP 555.

BCB 645. Quantitative Genetik komplexer Merkmale. 1 Kredit.

Die Studierenden lernen verschiedene Themen kennen, die die Grundlage für das Verständnis der quantitativen Genetik komplexer Merkmale mit biomedizinischer und landwirtschaftlicher Relevanz bilden. Das ultimative Ziel der quantitativen Genetik in dieser postgenomischen Ära ist die Vorhersage des Phänotyps aus dem Genotyp, nämlich die Ableitung der molekularen Grundlage für die Variation genetischer Merkmale.
Benotungsstatus: Briefnote
Gleich wie: GNET 645.

BCB 701. Seminarreihe für Genomwissenschaften. 1 Kredit.

Nur für Studierende der Bioinformatik geöffnet. Vielfältige aber aktuelle Themen rund um die Bioinformatik. Bezieht sich auf neue Techniken und aktuelle Forschungen von Persönlichkeiten im Bereich der Bioinformatik und der Computerbiologie.
Wiederholungsregeln: Kann für Kredit wiederholt werden.
Benotungsstatus: Brief Grad.

BCB 702. Seminarreihe für Genomwissenschaften. 1 Kredit.

Nur für Studierende der Bioinformatik geöffnet. Vielfältige aber aktuelle Themen rund um die Bioinformatik. Bezieht sich auf neue Techniken und aktuelle Forschungen von Persönlichkeiten im Bereich der Bioinformatik.
Wiederholungsregeln: Kann für Kredit wiederholt werden.
Benotungsstatus: Brief Grad.

BCB 710. Bioinformatik-Kolloquium. 1 Kredit.

Das Ziel dieses Kurses ist es, die Studierenden mit den Forschungsinteressen der BCB-Fakultäten vertraut zu machen und den Studierenden die Möglichkeit zu geben, ihre eigenen Arbeiten zu präsentieren und Input von ihren Kollegen und Dozenten zu erhalten.
Benotungsstatus: Brief Grad.

BCB 712. Datenbanken, Metadaten, Ontologien und digitale Bibliotheken für biologische Wissenschaften. 1 Kredit.

Der Kurs führt in die grundlegenden informationswissenschaftlichen Methoden zum Speichern und Abrufen biologischer Informationen ein.
Benotungsstatus: Brief Grad.

BCB 715. Mathematische und computergestützte Ansätze zur Modellierung von Signalgebung und regulatorischen Pfaden. 1 Kredit.

Der Kurs bietet eine Einführung in die grundlegenden mathematischen Techniken, die verwendet werden, um Modelle biochemischer Netzwerke zu entwickeln und zu analysieren. Sowohl deterministische als auch stochastische Modelle werden diskutiert.
Benotungsstatus: Brief Grad.

BCB 716. Sequenzanalyse. 1 Kredit.

Dieses Modul soll die Studierenden in Konzepte und Methoden der vergleichenden Analyse von Nukleinsäuresequenzen mit modernsten Sequenzierungsplattformen einführen. Die Kursthemen umfassen Sequenz-Alignment, Genom-Assembly und rechnerische Details moderner Protokolle für die DNA- und RNA-Sequenzierung.
Benotungsstatus: Brief Grad.

BCB 717. Strukturelle Bioinformatik. 1 Kredit.

Der Kurs führt in Methoden und Techniken zur Proteinmodellierung ein.
Benotungsstatus: Brief Grad.

BCB 718. Labor für Computermodellierung. 1 Kredit.

Dieser Kurs bietet eine praktische Einführung in die computergestützte Modellierung zellulärer Systeme. Wir werden uns darauf konzentrieren, wie verschiedene Modellierungstechniken – deterministisch, stochastisch und abgeleitet – ausgewählt und implementiert werden können, um dasselbe biologische Phänomen zu beschreiben. Obwohl kein formaler mathematischer oder rechnerischer Hintergrund erforderlich ist, erfordert der Kurs eine beträchtliche Menge an Programmierung in MATLAB.
Benotungsstatus: Brief Grad.

BCB 720. Einführung in die statistische Modellierung. 3 Kreditpunkte.

Dieser Kurs führt in grundlegende statistische Konzepte und Modelle ein, die ein breites Spektrum analytischer Methoden in der Bioinformatik, statistischen Genetik, statistischen Genomik und verwandten Gebieten motivieren. Von den Studierenden wird erwartet, dass sie die Ein-Variablen-Kalküle kennen, mit der Matrixalgebra vertraut sind und einige Programmiererfahrung haben.
Benotungsstatus: Brief Grad.

BCB 722. Populationsgenetik. 1 Kredit.

Dieser kurze Kurs behandelt Methoden zum Ableiten/Schätzen der natürlichen Selektion, einschließlich des Dn/Ds-Verhältnisses, des McDonald-Kreitman-Tests und des Poisson-Random-Field-Modells. Der Kurs wird Diskussionen über hochkarätige Veröffentlichungen beinhalten, die die Anwendung dieser Methoden beschreiben, um Einblicke in die Kräfte zu gewinnen, die die Organismenevolution geprägt haben.
Benotungsstatus: Briefnote
Gleich wie: GNET 722.

BCB 723. Themen in der statistischen Genetik und Genomik. 1 Kredit.

Dieses Modul führt in ausgewählte Konzepte und Techniken der statistischen Genetik und Genomik ein.
Benotungsstatus: Brief Grad.

BCB 725. Einführung in die statistische Genetik. 3 Kreditpunkte.

Umfasst statistische Methoden zur Analyse familien- und bevölkerungsbezogener genetischer Daten. Themen sind unter anderem klassische Kopplungsanalyse, populationsbasierte und familienbasierte Assoziationsanalyse, Haplotypanalyse, genomweite Assoziationsstudien, Grundlagen der Populationsgenetik, imputationsbasierte Analyse, Pathway-basierte Analyse, Beimischungskartierung, Analyse von Kopienzahlvariationen, und Analyse von massiv parallelen Sequenzierungsdaten.
Benotungsstatus: Brief Grad.

BCB 730. Grundlagen der quantitativen Bildanalyse für die Lichtmikroskopie. 1 Kredit.

Dieser Kurs ist eine praktische Einführung in die quantitative Analyse von lichtmikroskopischen Bildern. Während des Unterrichts werden die Schüler Tutorien befolgen, die sie durch allgemeine Aufgaben bei der Analyse biologischer Bilder führen. Sie werden in grundlegende Konzepte der Bildverarbeitung wie Bildregistrierung, Filterung, Objekterkennung etc. eingeführt.
Benotungsstatus: Briefnote
Gleich wie: GNET 730.

BCB 784. Einführung in die Computerbiologie. 3 Kreditpunkte.

Molekularbiologie, Sequenz-Alignment, Identifizierung von Sequenzmotiven durch Monte-Carlo-Bayes-Ansätze, dynamische Programmierung, Hidden-Markov-Modelle, Computeralgorithmen, statistische Software, Hochdurchsatz-Sequenzierungsdaten und ihre Anwendung in der Computerbiologie.
Voraussetzungen: Voraussetzungen, BIOS 661 und 663 Erlaubnis des Dozenten für Studierende ohne die Voraussetzungen.
Benotungsstatus: Briefnote
Gleich wie: BIOS784.

BCB 785. Statistische Methoden zur Genexpressionsanalyse. 3 Kreditpunkte.

Clustering-Algorithmen, Klassifikationstechniken, statistische Techniken zur Analyse multivariater Daten, Analyse hochdimensionaler Daten, parametrische und semiparametrische Modelle für DNA-Microarray-Daten, Messfehlermodelle, Bayessche Methoden, statistische Software, Probengrößenbestimmung in Microarray-Studien, Anwendungen bei Krebs.
Voraussetzungen: Voraussetzungen, BIOS 661 oder 673 und 663 Erlaubnis des Dozenten für Schüler, die keine Voraussetzungen erfüllen.
Benotungsstatus: Briefnote
Gleich wie: BIOS785.

BCB 850. Ausbildung in Bioinformatik und Computerbiologieunterricht. 3 Kreditpunkte.

Grundlagen der bioinformatischen und computergestützten Biologie-Pädagogik. Die Studierenden sind für die Assistenz in der Lehre des BCB verantwortlich und arbeiten unter der Aufsicht der Fakultät, mit der sie regelmäßig über Methoden, Inhalte und Leistungsbewertung diskutiert werden.
Wiederholungsregeln: Kann für Kredit wiederholt werden.
Benotungsstatus: Brief Grad.

BCB 870. Schreiben von Fellowship-Vorschlägen. 1 Kredit.

Bietet Doktoranden praktische Erfahrung beim Schreiben von Stipendienanträgen unter Verwendung des NIH F31 als Vorlage. Die Studierenden erhalten wöchentliche Schreibaufgaben mit Feedback von Studierenden und Dozenten. Offen für Studenten im 2. und 3. Jahr des Curriculums oder mit Erlaubnis des Lehrers.
Benotungsstatus: Briefnote
Gleich wie: GNET 870.

BCB 888. Verantwortungsvolles Forschungsverhalten. 1 Kredit.

Klassenzimmerbasierter Graduiertenkurs zu kritischen Themen für ethische und verantwortungsvolle Durchführung experimenteller Forschung. Es gibt sowohl Präsenzvorlesungen als auch Workshop-ähnliche Diskussionskomponenten sowie außerhalb des Unterrichts zugewiesene Lesungen. Fallstudien und hypothetische Situationen mit den wahrscheinlichsten Szenarien, mit denen Doktoranden konfrontiert sind, werden behandelt. Zu diesen Themen gehören: Mentor- und Mentee-Beziehungen, Autorenschaft von Publikationen, Zusammenarbeit, Peer-Review, Interessenkonflikte, geistiges Eigentum, Plagiate, Datenerfassung und Datenverarbeitung. Beschränkt auf Studierende mit gutem Ansehen als Doktoranden an der UNC Im unwahrscheinlichen Fall, dass der Platz im Klassenzimmer begrenzt ist, werden Doktoranden bevorzugt, die zuvor externe Fördermittel des Bundes erhalten haben und möglicherweise einen Auffrischungskurs in RCR benötigen.
Wiederholungsregeln: Kann für Kredit wiederholt werden. 2 Gesamtkredite. 1 Gesamtabschlüsse.
Benotungsstatus: Briefnote
Gleich wie: BIOC 888.

BCB 891. Sonderthemen. 1-3 Kreditpunkte.

Weiterführende Themen in der aktuellen Forschung in Statistik und Operations Research.
Wiederholungsregeln: Kann für Credits wiederholt werden Kann im selben Semester für verschiedene Themen wiederholt werden.
Benotungsstatus: Briefnote
Gleich wie: MATH 891, GNET 891.

BCB 899. Spezielle Themen in Bioinformatik und Computerbiologie. 1-6 Kreditpunkte.

Spezialthemenkurs im Curriculum Bioinformatik und Computerbiologie. Die Themen werden variieren.
Wiederholungsregeln: Kann für Kredit wiederholt werden. 9 Gesamtkredite. 9 Gesamtabschlüsse.
Benotungsstatus: Brief Grad.

BCB 905. Forschung in Bioinformatik und Computerbiologie. 1-8 Kreditpunkte.

Kredit an Studierende für Forschung in Bioinformatik und Computerbiologie.
Wiederholungsregeln: Kann für Kredit wiederholt werden.
Benotungsstatus: Brief Grad.

BCB 993. Master-Forschung und Abschlussarbeit. 3 Kreditpunkte.

Studierende werden nicht zum Masterstudium zugelassen.
Wiederholungsregeln: Kann für Kredit wiederholt werden.

BCB 994. Doktoratsforschung und Dissertation. 3 Kreditpunkte.

Anrechnung für geleistete Promotionsarbeiten.
Wiederholungsregeln: Kann für Kredit wiederholt werden.


Multiskalen-Computermodelle der familiären hypertrophen Kardiomyopathie: Genotyp zu Phänotyp

Die familiäre hypertrophe Kardiomyopathie (FHC) ist eine Erbkrankheit, von der etwa einer von 500 Menschen betroffen ist. Sein Markenzeichen ist eine abnormale Verdickung der Ventrikelwand, die zu schweren Komplikationen wie Herzversagen und plötzlichem Herztod führt. Die Behandlung wird durch die unterschiedlichen Schweregrade, Symptome und Risiken eines plötzlichen Todes innerhalb der Patientenpopulation erschwert. Fast alle mit FHC assoziierten genetischen Läsionen treten in Genen auf, die sarkomerische Proteine ​​kodieren, was darauf hindeutet, dass Defekte in der Herzmuskelkontraktion der Erkrankung zugrunde liegen. Detaillierte biophysikalische Daten stehen zunehmend für computergestützte Analysen zur Verfügung, die verwendet werden könnten, um Herzphänotypen basierend auf dem Genotyp vorherzusagen. Diese Modelle müssen die in Herzzellen auftretenden dynamischen Prozesse mit Eigenschaften des Myokardgewebes, der Herzgeometrie und der hämodynamischen Belastung integrieren, um Belastungen und Belastungen in den Ventrikelwänden und die gesamte Pumpfunktion vorherzusagen. Jüngste Fortschritte haben die biophysikalischen Details dieser Modelle auf Myofilament-Ebene verbessert, wodurch die Eigenschaften von FHC-verknüpften mutierten Proteinen in Simulationen der Gesamtherzfunktion genau dargestellt werden können. Die kurzfristigen Auswirkungen dieser Modelle werden detaillierte Beschreibungen von kontraktiler Dysfunktion und veränderten myokardialen Belastungsmustern in den frühesten Stadien der Krankheit sein – Vorhersagen, die an genetisch veränderten Tieren validiert werden könnten. Langfristig haben diese Multiskalenmodelle das Potenzial, das klinische Management von FHC durch genotypbasierte Risikostratifizierung und personalisierte Therapie zu verbessern.

1. Einleitung

Bemühungen zur Modellierung der Herzfunktion in silico sind ein Prototyp für interdisziplinäre Wissenschaft und kombinieren Techniken aus den Bereichen Ingenieurwissenschaften, Informatik, medizinische Bildgebung, Molekularbiologie, Biophysik und Physiologie unter anderem. Computermodelle werden auf vielen verschiedenen biologischen Skalen angewendet, um das Herz unter normalen und kranken Bedingungen besser zu verstehen, mit der Aussicht, den Fortschritt an beiden Fronten stark zu beschleunigen (Übersicht in [1]). Das Ziel dieser Übersichtsarbeit ist es, den Fortschritt und das Potenzial aktueller experimenteller und computergestützter Techniken zu bewerten, um die Beziehung zwischen Genotyp und Phänotyp in einer bestimmten Klasse von Kardiomyopathie-verursachenden Mutationen aufzuklären.

Eine ungeklärte hypertrophe Kardiomyopathie (HCM) tritt in den USA bei einem von 500 Erwachsenen auf [2] und ist in den meisten Fällen auf genetische Faktoren zurückzuführen [3]. Die vererbte Form der Krankheit, die als familiäre hypertrophe Kardiomyopathie (FHC) bekannt ist, ist mit einer erhöhten Wanddicke des linken Ventrikels, Myokardfibrose, Myozytendisarrang und einem erhöhten Risiko eines plötzlichen Herztodes verbunden. Es gibt keine Heilung für die Erkrankung und Behandlungen zur Linderung der Symptome sind begrenzt. Der Einsatz von implantierbaren Kardioverter-Defibrillatoren gegen den drohenden plötzlichen Herztod hat die Mortalität bei FHC-Patienten erfolgreich reduziert, ebenso wie chirurgische Verfahren, bei denen überschüssiges Myokard aus dem intraventrikulären Septum entfernt wird [4]. Dennoch benötigen diese Patienten eine langfristige Behandlung der verbleibenden Krankheitskomplikationen.

Genetische Kopplungsstudien, die erstmals vor zwei Jahrzehnten erschienen [5], haben Mutationen an sarkomerischen Genen als Hauptursache für FHC identifiziert [6]. Diese Entdeckungen haben einige grundlegende Fragen zu FHC beantwortet, aber auch neue aufgeworfen, die Gegenstand intensiver Forschungsanstrengungen sind [3]. Ausmaß und Muster der Hypertrophie, das Risiko für einen plötzlichen Herztod, das Alter des Symptombeginns und die Gesamtprognose sind in der Patientenpopulation sehr unterschiedlich. Diese phänotypische Diversität scheint im Allgemeinen durch die große Zahl (mehr als 500) einzelner Mutationen zu erklären, die in der aktuellen medizinischen Literatur [3] dokumentiert sind, und legt nahe, dass Vorhersagen von Krankheitsphänotypen für bestimmte Genotypen möglich sein könnten. Die Identifizierung einer beträchtlichen Anzahl scheinbar asymptomatischer, genpositiver Individuen stellt jedoch eine neue Herausforderung für diese Idee dar und weist darauf hin, dass Phänotypen fortgeschrittener FHC auf mehrere Faktoren empfindlich reagieren [7]. Im Lichte dieser Erkenntnisse hat Tardiff [8, S. 765] hat in einem kürzlich erschienenen Review vorgeschlagen, dass „eine erneute Konzentration auf die proximalsten Ereignisse sowohl in der molekularen als auch in der klinischen Pathogenese von [FHC] notwendig sein wird, um das zentrale Ziel der Nutzung von Genotypinformationen zur Behandlung betroffener Patienten zu erreichen“.

Die implizite Hypothese der aktuellen FHC-Forschung ist, dass Hypertrophie, unabhängig von ihrer fortgeschrittenen Form, das Ergebnis einer veränderten akuten Funktion auf der Ebene des kardialen Sarkomers ist. Derzeit existieren experimentelle und rechnerische Werkzeuge, die zusammen verwendet werden könnten, um diese Art von proximalem, prähypertrophem Phänotyp basierend auf den Eigenschaften mutierter Proteine ​​vorherzusagen (Abbildung 1).Angewendet auf Tiermodelle von FHC würde eine solche Überbrückung von Genotyp und Phänotyp viel detailliertere Beschreibungen des Krankheitsprozesses und die Generierung fokussierter, überprüfbarer Hypothesen ermöglichen. Darüber hinaus könnten diese Instrumente ein quantitatives Mittel zur Risikostratifizierung bei Patienten bieten und bei der klinischen Entscheidungsfindung helfen.

Abbildung 1. Diagramm der wichtigsten experimentellen Methoden und potenzieller Rechenwerkzeuge zur Untersuchung der familiären hypertrophen Kardiomyopathie (FHC). Ungefähre Daten zeigen, wann jeder experimentelle Ansatz zum ersten Mal auf die FHC-Forschung angewendet wurde. Mehrskalige Berechnungsansätze wurden noch nicht auf die Untersuchung von FHC angewendet, aber viele der dafür notwendigen Werkzeuge sind in den letzten Jahren entstanden (die Daten spiegeln die Veröffentlichung anwendbarer Modellierungstechniken wider). [9] P-MRS bezieht sich auf Phosphor-31-Magnetresonanzspektroskopie [10].

In der Zwischenzeit verfolgen viele Gruppen weiterhin die FHC-Forschung mit traditionelleren Ansätzen (siehe [6,8,11] für aktuelle Übersichten). Dazu gehören genomweite Assoziationsstudien beim Menschen, um neue Mutationen zu identifizieren, Mauslinien, die so konstruiert sind, dass sie FHC-verknüpfte Mutationen aufweisen, und in vitro Studien zu veränderten sarkomerischen Proteinen. Ein neuer Ansatz, der derzeit erforscht wird, besteht darin, induzierte pluripotente Stammzellen aus menschlichem Körpergewebe zu erzeugen, die dann zu Herzzellen differenziert werden können [12]. Myozyten von Patienten mit FHC-Mutationen könnten dann für funktionelle Assays im Zellmaßstab oder als Mittel zur Gewinnung mutierter Proteine ​​für molekulare Studien verwendet werden. Gentechnisch hergestellte Mäuse haben den Vorteil, dass sie systematische molekulare, strukturelle und funktionelle Studien auf mehreren Skalen ermöglichen, aber in der Praxis erfolgt die Integration dieser Daten in der Regel qualitativ. Darüber hinaus können Sekundäreffekte wie die Entwicklung von Herzinsuffizienz, multigene Interaktionen oder epigenetische Faktoren Phänotypen durcheinanderbringen. Da Multiskalenmodelle ihr volles Potenzial entfalten, gehen wir davon aus, dass sie aktuelle und neue Ansätze stärken werden, indem sie Daten quantitativ integrieren und die Bemühungen unterstützen, sekundäre Faktoren zu berücksichtigen.

2. Sarkomerische Proteine

Ungefähr 70 Prozent der vererbten Formen der HCM können mit Genen in Verbindung gebracht werden, die für Proteine ​​im Sarkomer kodieren [3]. Die Sarkomere der Herzmuskelzellen sind für die Erzeugung der Kontraktionskraft verantwortlich und bestehen aus zwei überlappenden Anordnungen von Proteinfilamenten: dicken Filamenten, die das Motorprotein Myosin enthalten, und dünnen Filamenten, bestehend aus polymerisiertem Aktin, das mit den regulatorischen Proteinen Troponin und Tropomyosin dekoriert ist (Figur 2). Die Kontraktion wird initiiert, wenn Ca 2+ an den Troponinkomplex bindet, was eine Reihe von allosterischen Signalereignissen auslöst, die Tropomyosin auf der Oberfläche des Aktinfilaments bewegen, um Bindungsstellen für Myosinköpfe freizulegen [13]. Myosin interagiert zyklisch mit Aktin in einem Prozess, der Energie in Form von Adenosintriphosphat (ATP) in mechanische Arbeit umwandelt, dicke und dünne Filamente aneinander vorbeigleiten lässt und eine Verkürzung des Muskels bewirkt.

Abbildung 2. Schematische Darstellung des Herzsarkomers und der Hauptproteinbestandteile. Das Sarkomer besteht aus ineinandergreifenden Reihen dicker und dünner Filamente. Die erweiterte Ansicht markiert neun Hauptkomponenten: Myosin-Schwerkette (MHC), Essentielle Leichtkette (ELC), Regulatorische Leichtkette (RLC), Myosin-Bindungsprotein C (MyBP-C), Tropomyosin (Tm), Troponin I (TnI), Troponin T (TnT), Troponin C (TnC) und Aktin. Kardiomyopathie-verbundene Mutationen wurden in den Genen identifiziert, die für jedes dieser neun Proteine ​​kodieren, die die häufigsten Ursachen für vererbte HCM darstellen [6]. Im Ruhezustand wird die Kraft durch Tm gehemmt, das die Myosin-Bindungsstelle auf Aktin blockiert (das ganz linke Myosin-Molekül ist der Übersichtlichkeit halber jeweils der zweite Myosin-Kopf weggelassen). Die Kraftproduktion wird im Sarkomer eingeleitet, wenn Ca 2+ an eine Stelle mit geringer Affinität auf TnC (markiert) bindet, was eine Verschiebung der Tm-Position auslöst, um Bindungsstellen (Myosin in der Mitte) freizulegen. Nach der Anheftung setzt Myosin Energie frei, die aus der ATP-Hydrolyse gewonnen wird, um seinen Hebelarm zu drehen, seine Bindung an das dicke Filament zu dehnen und Kraft zu erzeugen. Es gibt Hinweise darauf, dass krankheitsbedingte Mutationen die Art und Weise verändern, wie dieses System als Reaktion auf Ca 2+ Kraft erzeugt.

Die ersten Mutationen, die definitiv mit menschlichem FHC in Verbindung stehen, wurden im Gen gefunden MYH7, das für die schwere β-Myosin-Kette (MHC) kodiert. β-MHC-Mutationen bleiben die häufigste Ursache für vererbte HCM [6]. MHC ist die größte der drei Untereinheiten, die das Myosinmolekül bilden, und enthält Domänen, die für die Aktinbindung und Nukleotidhydrolyse verantwortlich sind. Die anderen beiden Untereinheiten von Myosin, die essentielle leichte Kette (ELC) und die regulatorische leichte Kette (RLC), assoziieren und stabilisieren eine α-Helix von MHC, die als Hebelarm bekannt ist. Die Bewegung des Hebelarms ist für die Krafterzeugung durch Myosin verantwortlich [14]. Relativ seltene, aber gut dokumentierte FHC-Mutationen finden sich in den menschlichen Genen MYL2 und MYL3 kodierend für ELC bzw. RLC, was darauf hindeutet, dass diese Proteine ​​eine wichtige funktionelle Rolle spielen [11]. Mutationen am Gen MYBPC3, das für das Dickfilamentprotein Myosin-bindendes Protein C (MyBP-C) kodiert, sind bei Personen mit FHC am zweithäufigsten [11]. Während die Fähigkeit von MyBP-C, die Sarkomerfunktion zu modulieren, gut etabliert ist, sind die strukturellen und funktionellen Details seiner regulatorischen Aktivität noch nicht vollständig geklärt.

Fast alle anderen bekannten FHC-verursachenden Mutationen treten in dünnen Filamentproteinen auf (siehe [8] für eine Übersicht). Dazu gehören kardiales Aktin (ACTC), das das dünne Filament und seine Myosin-Bindungsstellen bildet. Tropomyosin blockiert diese Bindungsstellen während der Relaxation sterisch, und Mutationen des Gens für seine α Isoform (TPM1) sind mit FHC verknüpft. Kardiales Troponin T (TNNT2) verankert die anderen Troponin-Untereinheiten an Tropomyosin und soll die Ende-zu-Ende-Überlappung benachbarter Tropomyosine stabilisieren. Kardiales Troponin I (TNNI3) ist direkt an der Ca 2+ -abhängigen Regulierung der Kontraktion beteiligt, indem es an Aktin in einer Weise bindet, die die Bewegung von Tropomyosin verhindert [13]. Wenn Ca 2+ an Troponin C (TNNC1) bindet, ermöglicht die Übertragung der inhibitorischen Domänen von Troponin I von Aktin auf die N-terminale Domäne von Troponin C die Bewegung von Tropomyosin und die Bildung von Aktin-Myosin-Kreuzbrücken.

Es gibt zahlreiche Studien, die die Eigenschaften und funktionellen Konsequenzen mutierter sarkomerischer Proteine ​​untersuchen und wesentlich zu unserem Verständnis der Genotyp-Phänotyp-Verbindungen bei FHC beigetragen haben (siehe Tardiff [8] und Harris et al. [11] für detaillierte Rezensionen). Es wurden Studien an gereinigten Proteinen mit Punktmutationen durchgeführt, die bei menschlichen FHC-Patienten beobachtet wurden, aber FHC-Gene wurden auch kloniert und verwendet, um transgene und genzielgerichtete Tiermodelle (hauptsächlich Mäuse) zu erstellen. Die resultierenden Daten reichen von Messungen zur Aktivität einzelner Moleküle (z. B. [15]) bis hin zu Messungen der Herzfunktion in vivo [16].

Das vielleicht am häufigsten verwendete Experiment ist die Messung der Ca 2+ -Kraftempfindlichkeit in gehäuteten Myokardpräparaten, die mutierte Proteine ​​enthalten (siehe Bai et al. [17] für ein aktuelles Beispiel). In diesen Experimenten wird Gewebe mit einem Detergens behandelt, um die Zellmembranen zu schädigen, wodurch die Ca 2+ -Konzentration um die Myofilamente herum direkt durch die Badelösung eingestellt werden kann. Die Myokardprobe wird zwischen einem Kraftaufnehmer und einem motorgesteuerten Hebel befestigt, und die vom Präparat erzeugte stationäre Kraft kann bei unterschiedlichen Ca 2+ -Konzentrationen gemessen werden. Die so erhaltene Kraft-Ca 2+ -Beziehung wird typischerweise parametrisiert, indem Punkte mit der Hill-Gleichung angepasst werden,

Ein Trend, der sich aus den vielen stabilen Kräfte-Ca 2+ -Beziehungen ergibt, die in Gegenwart mutierter sarkomerischer Proteine ​​gemessen wurden, ist, dass Mutationen im Zusammenhang mit HCM dazu neigen, die Ca 2+ -Sensitivität der Myofilamente zu erhöhen, während die geringe (aber signifikante) Anzahl von Mutationen im Zusammenhang mit dilatativer Kardiomyopathie (DCM) neigen dazu, diese zu verringern [8,18]. Dieses Ergebnis ist signifikant, aber die Fähigkeit der Ca 2+ -Sensitivität, den Phänotyp vorherzusagen, scheint dadurch begrenzt, dass das Ausmaß der Empfindlichkeitsänderung gegenüber dem Ausgangswert die Schwere der Erkrankung nicht vorherzusagen scheint. Darüber hinaus kann ein einzelner Parameter den mehrdimensionalen phänotypischen Raum von FHC nicht beschreiben, der unterschiedliche Hypertrophiemuster und unterschiedliche Risiken für Arrhythmien für verschiedene Mutationen umfasst.

Selbst in einem Fall, in dem Ca 2+ -Sensitivitätsmessungen mit dem allgemeinen HCM/DCM-Paradigma übereinstimmen, wird die Genotyp-Phänotyp-Verbindung nur teilweise erreicht. In einem solchen Fall wird die anfängliche Herausforderung, eine spezifische Mutation mit der Art des kardialen Remodelings in Beziehung zu setzen, zu einer, die Mutation mit der Ca 2+ -Sensitivität in Beziehung zu setzen. Die Kenntnis der Aminosäuresequenz normaler und mutierter Proteine ​​sollte wichtige Hinweise liefern, und in dieser Hinsicht werden durch den Einsatz von Molekulardynamiksimulationen (MD) einige Fortschritte erzielt (siehe Ertz-Berger .). et al. [19] und Lorenz & Holmes [20]). MD verwendet Proteinstrukturdaten, um die Bewegung von Atomen innerhalb von Molekülen auf Pikosekunden-Zeitskalen vorherzusagen. In einem Fall wurde MD verwendet, um die Bewegung einer kritischen Region des Troponin T (TnT)-Moleküls in Gegenwart der FHC-verknüpften Mutationen R92W und R92L vorherzusagen [19]. Simulationen zeigten, dass beide Mutationen dazu neigten, helikale Strukturen im Protein zu destabilisieren, was die Flexibilität des Moleküls relativ zur Wildtyp-Sequenz erhöht. Gleichzeitig war der Grad der Flexibilität zwischen den beiden Mutationen unterschiedlich. Dies kann Unterschiede im Schweregrad der Hypertrophie erklären, die zwischen R92W und R92L sowohl bei Menschen als auch bei transgenen Mäusen mit diesen Mutationen beobachtet werden.

Der Vorteil von MD-Simulationen besteht darin, dass sie direkte funktionelle Vorhersagen basierend auf einzelnen Aminosäuresubstitutionen ermöglichen, aber durch die Zeitskala und die Möglichkeit der Simulation molekularer Systeme, die groß genug sind, um direkte Vorhersagen der Ca 2+ -aktivierten Kraft zu treffen, begrenzt sind. Selbst indirekte Vorhersagen sind schwierig, da noch Fragen zu den molekularen Mechanismen der Myofilamentfunktion bestehen, wie z. B. derzeit nicht genau bekannt ist, wie die Flexibilität einer einzelnen Region in TnT die Ca 2+ -Empfindlichkeit verändern könnte. Die Techniken für MD werden sich in Zukunft zweifellos verbessern und könnten diese Einschränkungen letztendlich überwinden. In der Zwischenzeit könnte es möglich sein, die Lücke zwischen molekularem Verhalten und Ca 2+ -Empfindlichkeit mit integrativen Modellen der Myofilamentaktivierung zu schließen.

3. Integrative Myofilamentfunktion

Integrative Modelle der Myofilamentfunktion sagen die Ca 2+ -Aktivierung auf der Grundlage bekannter struktureller Wechselwirkungen und Konformationszustände von Myofilamentproteinen voraus (neuere Beispiele umfassen [21–23]). Diese Modelle fehlen zwar eindeutig in den molekularen Details, die durch MD-Simulationen erreichbar sind, haben jedoch den Vorteil, dass sie funktionelle Messungen aus Herzmuskelpräparaten reproduzieren können. Im Allgemeinen repräsentieren diese Modelle die Ca 2+ -Bindung an Troponin C, die Aktivierung des Troponin-Tropomyosin-Regulierungsschalters und das Crossbridge-Cycling, mit Wechselwirkungen zwischen diesen Prozessen, die durch experimentelle Beweise nahegelegt werden. Integrative Myofilamentmodelle könnten verwendet werden, um Kraft-Ca 2+ -Beziehungen und andere Eigenschaften in muskelhaltigen FHC-Mutantenproteinen zu analysieren und auf einen oder mehrere der vereinfachten Prozesse hinzuweisen, die sie als die durch die Mutation induzierten wichtigsten funktionellen Veränderungen darstellen. Dies hat das Potenzial, atomistische Simulationen auf spezifische Strukturen und Wechselwirkungen zwischen Myofilamentproteinen zu fokussieren.

Verbesserungen dieser Art von Myofilamentmodellen in den letzten Jahren konzentrierten sich auf die Darstellung der kooperativen Aktivierung [24] durch Ca 2+ . Kooperativität beschreibt die steile, sigmoidale Beziehung zwischen der Ca 2+ -Konzentration und der Kontraktionskraft unter stationären Bedingungen (dargestellt durch den Parameter nh in der Hill-Gleichung). Es wird allgemein angenommen, dass der molekulare Ursprung der quergestreiften Muskelkooperativität End-to-End-Wechselwirkungen sind, die zwischen benachbarten Tropomyosin-Molekülen auf dem dünnen Aktinfilament entstehen [25,26]. Gemäß dem sterischen Blockierungsmodell der Muskelregulation [13] blockiert Tropomyosin die Myosinbindung an Aktin unter niedrigen Ca 2+ -Bedingungen. Es wird angenommen, dass Wechselwirkungen zwischen benachbarten Tropomyosinen Myosin-Bindungsstellen so koppeln, dass sie dazu neigen, in einer „Alles-oder-Nichts“-Weise exponiert zu werden, was einem steilen kooperativen Verhalten entspricht.

Eine Reihe von theoretischen und computergestützten Modellen wurde entwickelt, um diese und andere mutmaßliche Mechanismen der Myofilament-Kooperativität unter stationären Bedingungen zu beschreiben [27–32]. Andere wurden formuliert, um die Myofilamentaktivierung während der vorübergehenden Veränderungen von [Ca 2+ ], die im schlagenden Herzen auftreten, vorherzusagen [9,21,33]. Idealerweise wären diese Modelle in der Lage, Messungen der Myofilament-Ca 2+ -Empfindlichkeit und -Kooperativität von Hautmuskelpräparationen in ihre wahren Wirkungen unter physiologischen Bedingungen zu übersetzen. Trotz der Vielfalt und der Anzahl der veröffentlichten Myofilament-Modelle bleibt diese spannende Perspektive weitgehend unerfüllt.

Unsere eigenen jüngsten Arbeiten haben zur Formulierung eines Markov-Modells der Myofilamentaktivierung geführt, das gleichzeitig die stationären und dynamischen Kräfte-Ca 2+ -Beziehungen reproduzieren kann [23]. Das Modell basiert auf den drei Zuständen der kardialen Dünnfilament-Regulationseinheit, die ursprünglich von McKillop &. Geeves [28] vorgeschlagen und später durch Strukturdaten bestätigt wurde [34]. Betrachtet man Übergänge zwischen den drei Zuständen als abhängig von den Zuständen benachbarter regulatorischer Einheiten (durch Tropomyosin-Wechselwirkungen), weist das System sowohl stationäre als auch dynamische Aspekte der kooperativen Aktivierung auf. Das Modell wurde anhand von Daten validiert, die im gehäuteten Herzmuskel unter einer Vielzahl von Bedingungen gesammelt wurden, darunter die Zugabe von NEM-S1 (ein lösliches Myosin-Subfragment, das Aktin mit hoher Affinität bindet), eine erhöhte anorganische Phosphatkonzentration und eine verkürzte dünne Filamentlänge Andere.

Die Fähigkeit dieses Modells, Experimente zu reproduzieren, die Störungen auf molekularer Ebene verwenden, unterstützt seine Verwendung bei der Analyse stationärer Kraft-Ca 2+ -Beziehungen in Gegenwart von FHC-verknüpften Mutationen. Ein vereinfachtes Beispiel dafür ist in Abbildung 3 gezeigtein, wo das Modell verwendet wird, um eine Linksverschiebung und einen Verlust der Kooperativität in der Kraft-Ca 2+ -Beziehung zu reproduzieren, die bei der FHC-verknüpften Tropomyosin-Mutation E180G beobachtet wird [17]. Beide Änderungen wurden gleichzeitig durch die Senkung eines einzigen Parameters erreicht, der Änderung der freien Energie, die mit Wechselwirkungen zwischen den Tropomyosinen in nächster Nachbarschaft verbunden ist. Die vollständigen Details des Modells, einschließlich der Parameter, sind im elektronischen Zusatzmaterial zu diesem Dokument enthalten. Diese oberflächliche Beobachtung impliziert eine erhöhte Flexibilität von Tropomyosin oder Auswirkungen auf End-to-End-Tropomyosin-Wechselwirkungen als funktionelle Konsequenz von E180G und nicht auf eine einfache Änderung des Gleichgewichts im dünnen Filamentzustand [17]. Erkenntnisse wie diese könnten zu fokussierten MD- oder grobkörnigen molekularen Modellstudien mit direkter Anbindung an Funktionen auf höherer Ebene führen.

Abbildung 3. Myofilamentmodelle können die Lücke zwischen stationären und dynamischen Kräfte-Ca 2+ -Beziehungen schließen. (ein) Qualitative Veränderungen der stationären Kraft-pCa-Beziehung aufgrund der Tm-Mutation E180G [17], einschließlich einer Zunahme der Ca 2+ -Sensitivität und einer Abnahme der Kooperativität (Steilheit der Kurve) wurden in einem Myofilamentmodell [23] rekapituliert von Verringern des Betrags der Nächste-Nachbar-Tm-Kopplung (Kontrolle und E180G Tm sind durchgezogene bzw. gestrichelte Linien). Diese Parameteränderung zeigt entweder eine erhöhte Tm-Flexibilität oder eine Destabilisierung der Ende-zu-Ende-Bindung an. Jede Kurve wurde durch die maximale Spannung normalisiert, um den Unterschied in der Ca 2+ -Empfindlichkeit hervorzuheben. (B) Das Modell kann auch verwendet werden, um die Auswirkungen der E180G Tm-Mutation auf die Zuckdynamik vorherzusagen. Verwenden der gleichen Parameter wie in (B) wurden Zuckungen als Reaktion auf einen idealisierten Ca 2+ -Übergang (nicht gezeigt) ausgelöst. Die Simulation legt nahe, dass die Mutation die diastolische Spannung erhöht und sowohl die Kontraktions- als auch die Relaxationsrate verlangsamt, was mit bekannten Phänotypen übereinstimmt [17].

Das Markov-Modell der Aktivierung dünner Filamente, angepasst an Hautmuskeldaten, könnte auch verwendet werden, um den Einfluss mutierter Proteine ​​auf die Funktion vorherzusagen in vivo. Es wurde gezeigt, dass das Modell das Verhalten von intakten Muskeln reproduziert und die Zuckungskraft als Reaktion auf gemessene Ca 2+ -Transienten korrekt vorhersagt. Zur Veranschaulichung wurde hier ein isometrisches Zucken vorhergesagt, wobei derselbe Parametersatz verwendet wurde, der das Ca 2+ -aktivierte Verhalten im Steady-State für den Muskel reproduzierte, der die E180G-Tropomyosin-Mutante enthält (Abbildung 3B). Der vorhergesagte Effekt, basierend auf der Steady-State-Kraft-Ca 2+ -Beziehung, ist die Verlängerung der Zuckspannung und eine langsamere Relaxation als Folge der E180G-Tropomyosin-Mutation. Ein weiterer Vorteil des Markov-Modells ist die rechnerische Nachvollziehbarkeit, was bedeutet, dass das Modell ohne Verlust biophysikalischer Details in Modelle von Zellen und sogar dem ganzen Herzen nach oben integriert werden kann.

4. Ventrikuläre Myozyten

Bei jedem Herzschlag erreicht das Signal zur Kontraktion die Herzmuskelzellen in Form eines elektrischen Impulses. Auf Zellebene bewirkt diese elektrische Erregung eine schnelle Freisetzung von Ca 2+ -Ionen aus intrazellulären Speichern in das Zytosol, um die Kontraktion in den Sarkomeren zu aktivieren. Dieser Prozess von der elektrischen Stimulation bis zur Krafterzeugung wird als kardiale Erregungs-Kontraktions-Kopplung oder einfach als EC-Kopplung bezeichnet [35].

Mehrere zelluläre Strukturen und eine Vielzahl verwandter Proteine ​​sind an der EC-Kopplung in ventrikulären Myozyten beteiligt [35]. Ionenkanäle und ihre akzessorischen Proteine ​​an der Zellmembran sind dafür verantwortlich, die vorübergehenden Änderungen des Membranpotentials, die die Kontraktion auslösen, zu erkennen und zu verbreiten. Veränderungen des Membranpotentials öffnen Ca 2+ -Kanäle vom L-Typ, was die Ca 2+ -Freisetzung aus dem sarkoplasmatischen Retikulum (SR) in einem Prozess auslöst, der als Ca 2+ -induzierte Ca 2+ -Freisetzung (CICR) bekannt ist. Membrangebundene Proteine ​​im SR sind für die Wiederaufnahme von Ca 2+ aus dem Zytosol verantwortlich, wodurch Ca 2+ gesenkt und die Kontraktion beendet wird.

Es könnte argumentiert werden, dass der gesamte Prozess der Krafterzeugung durch die Myofilamente Teil der EC-Kopplung ist. Traditionell wurde die EC-Kopplung an dem Punkt als abgeschlossen angesehen, an dem Ca 2+ an Troponin C (TnC) bindet, aber zwei Beobachtungen deuten darauf hin, dass diese Ansicht potenziell wichtige Mechanismen im Verhalten des Herzmuskels vernachlässigt. Der erste ist, dass die Ca 2+ -Affinität von TnC durch die Myosinbindung an Aktin fast um das 10-Fache erhöht wird [36]. Dies bedeutet, dass die Kapazität von TnC als Puffer für zytosolisches Ca 2+ während eines Zuckens nicht als konstant angesehen werden kann. Eine zweite allgemeine Beobachtung ist, dass die Modifikation von Myofilamentproteinen in zahlreichen Fällen die allgemeine Ca 2+ -Empfindlichkeit (und vermutlich die Ca 2+ -Pufferung) der Sarkomere verändert, sei es durch posttranslationale Modifikation [37] oder durch Kardiomyopathie verbundene Mutationen [17 ]. Die Häufigkeit von TnC im Zytosol bedeutet, dass Faktoren, die die Ca 2+ -Empfindlichkeit der Myofilamente modifizieren, das Potenzial haben, die EC-Kopplung in der gesamten Zelle zu beeinflussen, eine Form eines Phänomens, das als mechanoelektrische Rückkopplung bekannt ist [38].Daher hängt das Verständnis der Beziehung zwischen Erregung und der durch Kontraktion erzeugten Kraft entscheidend von den Eigenschaften der Myofilamente ab.

Integrative ventrikuläre Myozytenmodelle, die Darstellungen der Elektrophysiologie, des Ca 2+ -Handlings und der Myofilamentkontraktion kombinieren, ermöglichen eine quantitative Untersuchung des komplexen Zusammenspiels dieser Prozesse [39–41]. Computermodelle der Myozyten-Elektrophysiologie haben sich über mehrere Jahrzehnte entwickelt und umfassen nun mechanistische Beschreibungen vieler Ionenkanäle und Transporter. Die jüngsten werden verwendet, um die Auswirkungen mutierter Kanalproteine ​​auf kardiale Aktionspotentiale vorherzusagen [42]. Innovative mathematische Ansätze, die im letzten Jahrzehnt entwickelt wurden, haben gleichzeitig die biophysikalische Genauigkeit und die Recheneffizienz von Ca 2+ -Handhabungs- und CICR-Modellen verbessert [43]. Wir haben kürzlich ein EC-Kopplungsmodell für Hunde verwendet, das diese verbesserte CICR-Darstellung enthält, gekoppelt mit dem Kontraktionsmodell von Rice et al. [22], um Quellen elektromechanischer Heterogenität in endokardialen, mittelmyokardialen und epikardialen Myozyten zu untersuchen [39]. Eine Vorhersage aus dieser Arbeit war, dass Unterschiede in der EC-Kopplung allein die schnelleren Kontraktions- und Relaxationsraten in Epikardzellen nicht erklären können. Stattdessen war eine Erhöhung der Rate des Crossbridge-Cyclings in Übereinstimmung mit einer erhöhten Expression der schnelleren α-MHC-Isoform erforderlich, um experimentelle Messungen zu erklären. Dieses Ergebnis wurde anschließend durch die Entdeckung einer erhöhten α-MHC-Expression im ventrikulären Epikard des Schweins unterstützt, die mit einer schnelleren Crossbridge-Kinetik in gehäuteten Epikardzellen korrelierte [44].

Integrative Modelle der Elektromechanik von Myozyten haben aus mehreren Gründen großes Potenzial im Bereich der FHC-Forschung. Viele FHC-Mutationen sind mit einem hohen Risiko für tödliche Arrhythmien verbunden [8], und der Myozyt ist das einfachste System, in dem sarkomerische Mutationen einen Einfluss auf die elektrische Aktivität im Herzen haben könnten. Myozyten sind auch das einfachste experimentelle Präparat, bei dem die Auswirkungen von FHC-Mutationen auf die Zuckungscharakteristika beobachtet werden können. Typischerweise werden in diesen Experimenten Ca 2+ -Transienten und unbeladene Zellverkürzung in Myozyten gemessen, die aus gentechnisch veränderten Mäusen isoliert wurden, die FHC-verknüpfte mutierte Proteine ​​exprimieren. Zuckungsmerkmale, die aus Messungen der ungeladenen Verkürzung gewonnen werden, unterscheiden sich häufig von Wildtyp-Kontrollen, aber die Interpretation von Zuckungs-Phänotypen basierend auf dem Genotyp wird durch die Tatsache erschwert, dass die Ca 2+ -Transienten, die die Zuckung antreiben, auch bei diesen Tieren verändert werden können (z. B. die E22K-Mutation in MYL3 [45]). Durch die Kombination von Experimenten mit quantitativer Modellanalyse können die Auswirkungen eines mutierten sarkomerischen Proteins auf das Zucken selbst von denen des Ca 2+ -Transienten getrennt werden. Zum Beispiel kann unser aktuelles Modell der Myofilamentaktivierung [23] in Verbindung mit geeigneten Gleichungen für die Längen- und Geschwindigkeitsabhängigkeit der Kontraktion [41] verwendet werden, um gemessene Ca 2+ -Transienten quantitativ mit der Zellverkürzung zu verknüpfen (Abbildung 4 siehe das elektronische Supplement Material für weitere Details). Ca 2+ -Handhabungsunterschiede könnten durch Anpassen von Modellparametern berücksichtigt werden, um die gemessene Verkürzung als Reaktion auf gemessene Ca 2+ -Transienten zu reproduzieren. Unterschiede in den angepassten Kontraktionsmodellparametern würden die Natur der funktionellen Veränderungen der Myofilamentaktivierung aufdecken, die durch das mutierte Protein verursacht werden.

Abbildung 4. Myofilament-Modelle sind in der Lage, Kontraktionsereignisse in lebenden Myozyten zu reproduzieren. (ein) Ein gemessener Ca 2+ -Transient wurde als Eingabe für ein Myofilament-Aktivierungsmodell verwendet, gekoppelt mit Gleichungen, die eine interne elastische Belastung für eine simulierte Zellverkürzung darstellen. (B) Freie Parameter wurden im Modell angepasst, bis die vorhergesagte Verkürzung (gestrichelte Kurve) mit der experimentell gemessenen Reaktion (durchgezogene Kurve, 0,2% relativer Fehler) übereinstimmte. Ventrikulärer Myozyt der Ratte bei 25°C.

Ein biophysikalisch detailliertes elektromechanisches Myozytenmodell würde eine noch integrativere Analyse ermöglichen, um nicht nur veränderte Zuckungen, sondern auch die Grundlage für Veränderungen des Ca 2+ -Transienten zu untersuchen. Der Umgang mit Ca 2+ unterliegt bestimmten wohlbekannten adaptiven Veränderungen bei Hypertrophie und Herzinsuffizienz, die nicht direkt von den Myofilamenten abhängig sind. Akute Veränderungen im Umgang mit Ca 2+ zu Beginn des Krankheitsprozesses könnten jedoch durch Veränderungen der Ca 2+ -Pufferung durch TnC, verursacht durch mutierte Proteine, vermittelt werden. Ein integratives Myozytenmodell, das die dynamische Pufferung von Ca 2+ durch Myofilamente darstellt, die normale gegenüber mutierten Proteinen enthalten, wäre in der Lage, die Durchführbarkeit eines solchen Mechanismus zu beurteilen.

5. Transmurale Heterogenität

Jeglicher Einfluss von FHC-Mutationen auf die Herzfunktion erfolgt vor dem Hintergrund natürlich vorkommender räumlicher Variationen in Expression und Zusammensetzung von Proteinen im Sarkomer (und anderswo), die die EC-Kopplungseigenschaften einzelner Zellen verändern [46–48]. Simulationen deuten darauf hin, dass regionale Unterschiede im kontraktilen Verhalten die Mechanik und die Pumpfunktion des Herzens entscheidend beeinflussen [49], und dies erhöht die Möglichkeit, dass FHC-Mutationen natürliche Heterogenitäten verändern oder auf andere Weise mit ihnen interagieren, um eine Krankheitspathologie zu erzeugen. Regionale Muster in der Morphologie und Dauer von Myozyten-Aktionspotentialen gehörten zu den ersten von vielen heterogenen Eigenschaften, die in den letzten 20 Jahren beschrieben wurden [50]. Seitdem Unterschiede in der Ionenkanal-Stromdichte [51], Ca 2+-Transienten [48,52,53], Myosin-Isoform-Expression [44,54–56], Myofilament-Protein-Phosphorylierung [57,58] und unbelasteter Zellverkürzung [48 ,52] wurden vermerkt. In einigen Fällen war es möglich, Variationen auf molekularer Ebene mit funktionellen Unterschieden zwischen Myozyten, die aus den jeweiligen Myokardregionen isoliert wurden, zu korrelieren [44,46,59] jedoch bleibt noch viel über die praktischen Auswirkungen beobachteter Heterogenitäten zu lernen, selbst bei das Niveau der einzelnen Zellen.

Dasselbe kann über die Rolle gesagt werden, die diese Heterogenitäten für die Funktion des ganzen Herzens spielen. Zum Beispiel neigen Zellen in der äußeren epikardialen Region des linken Ventrikels dazu, kürzere Aktionspotentiale und Ca 2+ -Transienten aufzuweisen und sich schneller zusammenzuziehen als Zellen in der inneren oder endokardialen Region [48,52]. Es wurde vorgeschlagen, dass diese Art von Heterogenität die Kontraktion im Herzen koordiniert [48,60]. Die Hypothese ist, dass eine schnellere Kontraktion in epikardialen Zellen es ihnen ermöglichen würde, zu endokardialen Zellen „aufzuholen“, die während des Herzzyklus früher aktiviert werden. Ein Computermodell sagt jedoch voraus, dass Heterogenitäten die ventrikuläre Deformation während des größten Teils der Systole beeinflussen, nicht nur in ihren Öffnungsmomenten (Abbildung 5) [49].

Abbildung 5. Ein dreidimensionales Modell kann verwendet werden, um die Auswirkungen der Zelltypverteilung auf die ventrikuläre Mechanik und Funktion vorherzusagen. Die in dieser Abbildung wiedergegebenen Simulationsdaten wurden während einer früheren Studie generiert (siehe [49] für vollständige Details). (ein) Diese Ansicht des Modells zeigt die ventrikuläre Geometrie und Ausrichtung der Herzfasern. (B) Das Modell wurde verwendet, um linksventrikuläre (LV) Druckwellenformen während der Systole vorherzusagen. Hier wurde eine physiologische Verteilung der Zelltypen (Baseline) mit einem hypothetischen Fall verglichen, in dem der Ventrikel vollständig aus Zellen des mittleren Myokards besteht (alle Mitte). Kreise markieren das Öffnen und Schließen der Aortenklappe. (C) Die beiden Fälle zeigen auch Unterschiede in ihren Mustern der ventrikulären Wanddehnung, hier an Querschnitten durch die ventrikuläre Wand. Diese Ergebnisse legen nahe, dass die Berücksichtigung der normalerweise auftretenden Heterogenität als Hintergrund für die Auswirkungen sarkomerischer Mutationen entscheidend für die korrekte Vorhersage früher Myokardstamm-Phänotypen ist. Blau, endokardiale Region rot, mittlere Myokardregion grün, epikardiale Region.

Es gibt starke Hinweise darauf, dass FHC-Mutationen in einigen Fällen direkt mit transmuralen heterogenen Eigenschaften interferieren, was eine faszinierende Quelle für phänotypische Variationen sein könnte. RLC enthält beispielsweise eine Phosphorylierungsstelle, die das kontraktile Verhalten im Herzmuskel moduliert, und der Phosphorylierungsgrad ist in der epikardialen Region höher als im Endokard [57]. Die FHC-verknüpfte E22K-Mutation in MYL3 ist nicht durch Myosin-Leichtketten-Kinase phosphorylierbar in vitro [61], die in vivo sollte den natürlich auftretenden Gradienten abschwächen. Ein wichtiger Grund für die Entwicklung von Multiskalen-Ventrikelmodellen von FHC ist die Vorhersage der Auswirkungen solcher Interaktionen auf die Myokardfunktion.

6. Modellierung und Messung der Myokardbelastung

Eine Herzhypertrophie wird klinisch als Reaktion auf Bluthochdruck oder jeden anderen Zustand beobachtet, der das Herz stärker belastet. HCM ist die Standarddiagnose für Patienten mit erhöhter linksventrikulärer Wanddicke, aber ohne offensichtliche ursächliche Faktoren wie Hypertonie [6]. Als mutierte sarkomerische Proteine ​​als Hauptursache für vererbte HCM identifiziert wurden, war dies für viele logisch, da zu erwarten war, dass Veränderungen des kontraktilen Apparats des Herzens zu Veränderungen der mechanischen Belastung führen und somit eine Hypertrophie auslösen würden. In den letzten Jahren haben nicht-invasive Bildgebungsstudien gezeigt, dass Veränderungen der normalen Muster der myokardialen Belastung mit dem Umbau von Herzgewebe bei verschiedenen Pathologien zusammenfallen oder sogar diesem vorausgehen [62,63]. Diese Ergebnisse bieten eine mögliche Erklärung für die phänotypische Vielfalt der Muster der ventrikulären Hypertrophie bei FHC-Patienten. Jede Mutation, die auf einem Hintergrund räumlich heterogener sarkomerischer und zellulärer Eigenschaften wirkt, hat das Potenzial, die myokardiale Belastung im linken Ventrikel auf unterschiedliche Weise zu beeinflussen. Subtile Unterschiede in Belastung und Belastung könnten zu diversen Remodelling-Phänotypen führen.

Multiskalenmodelle der ventrikulären Mechanik könnten verwendet werden, um den Zusammenhang zwischen verändertem Sarkomerverhalten und Mustern der myokardialen Belastung zu untersuchen. Ein allgemeiner Ansatz wäre die Verwendung von Daten von Mäusen, die ein mutiertes FHC-Protein exprimieren, um ein Finite-Elemente-Netz des linken Ventrikels mit realistischer dreidimensionaler Geometrie und kontraktilem Verhalten zu erstellen. Die Eigenschaften des isolierten Myokards dieser Mäuse konnten untersucht und verwendet werden, um mechanistische Myofilament- und Parametersätze auf Zellebene zu konstruieren. Diese wiederum würden in vollständig gekoppelte elektromechanische Simulationen des linken Ventrikels eingebettet werden, um die globale und regionale Funktion des Myokards vorherzusagen, die gegen validiert werden könnte in vivo Dehnungsmessungen.

Es kann besonders aufschlussreich sein, Multiskalenmodelle von Herzen zu bauen und zu vergleichen, die entweder hypertrophe oder DCM-verbundene sarkomerische Mutationen aufweisen. Die Modellierung von Herzen in einem frühen Alter vor anatomischen Veränderungen könnte Muster der Myokardbelastung aufdecken, die für jede Art von ventrikulärem Remodelling einzigartig sind. Wenn diese Modelle validiert würden, würden sie ein leistungsstarkes Werkzeug bieten, um Mutationen mit den mechanischen Hinweisen in Verbindung zu bringen, die die myokardiale Remodellierung auf der Ebene einzelner Zellen vorantreiben. Simulationen dieser Art könnten auch neue bildgebungsbasierte Strategien vorschlagen, die es Klinikern ermöglichen würden, die Existenz zugrunde liegender molekularer Pathologien nicht-invasiv zu erkennen.

Jüngste Fortschritte in der Magnetresonanz(MR)-Bildgebung und -Software haben den Prozess der Erstellung realistischer Netze der linksventrikulären Geometrie sogar bei Mäusen schneller und zugänglicher gemacht [64]. Die Orientierung der Herzfasern im linken Ventrikel ist eine kritische Determinante der ventrikulären Mechanik und kann durch Diffusionstensor-MR-Bildgebung [65] oder traditionelle histologische Methoden [66] gemessen werden. Regionale Belastungen im Myokard zur Modellvalidierung können entweder durch MR-Tagging mit harmonischer Phase (HARP)-Tracking oder echokardiographischer Belastungsbildgebung (Speckle-Tracking) erfasst werden. Es ist wichtig anzumerken, dass sich kürzlich gezeigt hat, dass sowohl MR-Tagging als auch Speckle-Tracking genau genug sind, um Veränderungen der regionalen Belastung bei Mäusen zu Zeitpunkten zu erkennen, die dem Umbau und Veränderungen der Herzfunktion vorausgehen [63,64]. Dies bedeutet, dass Mäuse mit FHC-Mutation in einem jungen Alter (weniger als acht Wochen) vor dem Auftreten einer Hypertrophie und dem Auftreten einer Herzinsuffizienz im Einklang mit dem von Tardiff vorgeschlagenen Paradigma [8] untersucht werden könnten.

In den letzten Jahren sind neue Methoden zur Kopplung von Modellen auf Zellebene mit Modellen der Aktionspotentialausbreitung und der ventrikulären Biomechanik entstanden. Diese Fortschritte sind wichtig, da sie es ermöglichen, experimentelle Daten, die in reduzierten Systemen wie Hautfasern oder isolierten Herzmuskelzellen gewonnen wurden, zu skalieren, um die Funktion auf der Ebene des intakten Herzens vorherzusagen. Eine anfängliche Herausforderung in diesem Bereich war die numerische Instabilität in Simulationen, die sich aus koppellängenabhängigen Kontraktionsmodellen mit iterativen Lösern für das Finite-Elemente-Mechanik-Problem ergibt [67,68]. Eine naive Kopplung wird durch einen Operator-Splitting-Ansatz erreicht, bei dem das System von Differential- und algebraischen Gleichungen (DAEs), die die zelluläre Elektromechanik repräsentieren, getrennt von den partiellen Differentialgleichungen (PDEs) gelöst wird, die die mechanische Verformung des dreidimensionalen ventrikulären Netzes regeln. Sarkomerlänge und -geschwindigkeit werden aus den mechanischen PDEs berechnet und während der Simulation in diskreten Zeitintervallen an die DAEs auf Zellebene geliefert. Die von den DAEs auf Zellebene berechneten Werte der aktiven Spannung werden gleichzeitig an die PDEs der Mechanik weitergegeben. Instabilität resultiert in diesem Fall, weil, da das Iterationsschema Knoten im Netz verformt, um Kräfte auszugleichen, ein konstanter Wert für die aktive Spannung angenommen wird, obwohl die Längenabhängigkeit im kontraktilen Modell bedeutet, dass sie sich bei jeder Iteration ändern sollte [67]. Mit extrem kleinen Zeitschritten oder der Neuauflösung des gesamten Zellmodells können DAEs mit jeder mechanischen Iteration die Instabilität mildern, sind jedoch beide rechnerisch untragbar. Stattdessen wurden die sogenannten „Update“-Schemata verwendet, bei denen vereinfachte Formen des Zellmodells verwendet werden, um bei jeder Iteration einen Näherungswert für die aktive Spannung zu aktualisieren oder neu zu berechnen [49,67,68].

Physiologische Belastungen können auf ventrikuläre Modelle angewendet werden, indem das linksventrikuläre Volumen und die Randbedingungen auf der endokardialen Oberfläche an lumped-Parameter-Systemmodelle des Kreislaufs gekoppelt werden [69]. Dies ermöglichte Simulationen der regionalen Herzfunktion, die klinisch relevante Erkenntnisse liefern [70]. Diese Simulationen, die nachahmen in vivo Belastung wird eine genaue Validierung regionaler Myokardstämme im Vergleich zu den in Tiermodellen gemessenen ermöglichen. Hämodynamische Parameter, die häufig in konstruierten Mausmodellen von FHC bewertet werden [71], werden ebenfalls in diesen Simulationen erzeugt und würden einen zusätzlichen Validierungspunkt darstellen.

7. Einschränkungen

Die Verwendung eines mehrskaligen Modellierungsansatzes zur Untersuchung von FHC-Mutationen bringt mehrere Herausforderungen mit sich, die bei der Implementierung angegangen werden müssen. Einige Einschränkungen sind dem breiteren Feld der Multiskalen-Herzmodellierung gemein (siehe Clayton et al. [72] für eine detaillierte Übersicht). Zum Beispiel bleiben viele Fragen über die Fähigkeit von Zellmodellen, das Verhalten von Myokardgewebe zu reproduzieren. In den meisten Fällen werden funktionell gekoppelte Zellen durch Kontinuumsnäherungen dargestellt, die komplexe Aspekte der Gewebemikrostruktur wie Hohlräume und das Vorhandensein von Fibroblasten oder anderen Nicht-Myozyten-Zellen vernachlässigen [72]. Es sind weitere Arbeiten erforderlich, um die Auswirkungen der Gewebeheterogenität in dieser Größenordnung zu verstehen. Es gibt auch Hinweise darauf, dass Modelle, die aus Einzelzelldaten erstellt wurden, sich nicht immer gut auf die im Gewebe vorhandenen Bedingungen erstrecken. Cherry & Fenton [73] zeigten, dass zwei veröffentlichte Modelle der Elektrophysiologie von ventrikulären Myozyten bei Hunden in zweidimensionalen Gewebesimulationen eine wesentlich unterschiedliche Spiralwellendynamik zeigten, obwohl die Modelle auf Daten derselben Spezies basieren. Daher sind Modelle auf Zellebene, die für die Untersuchung einer Frage nützlich sind, möglicherweise nicht geeignet, andere zu behandeln, insbesondere wenn es um das Überschreiten von Skalen geht.

Andere Hindernisse für die Multiskalenmodellierung bei FHC sind spezifischer für die Krankheit. Wie in der menschlichen Bevölkerung kann es bei Mäusestämmen, die mit menschlichen FHC-Mutationen manipuliert wurden, große phänotypische Variationen geben (z. B. [74]). Ohne ein konsistentes Muster der ventrikulären Hypertrophie wäre es schwieriger, Veränderungen in der regionalen Mechanik mit lokalisierten Bereichen der Geweberemodellierung in Verbindung zu bringen. Für Stämme mit stark variablen hypertrophen Phänotypen kann es notwendig sein, mausspezifische Modelle zu konstruieren, was den Aufwand und die Kosten stark erhöhen würde.

Die Untersuchung der proximalen Ereignisse bei FHC wurde zum großen Teil befürwortet, da spätere Stadien sekundäre Reaktionen beinhalten, die die Interpretation der Daten erschweren und die Hauptquellen für phänotypische Variationen sein könnten [8]. Während viele verwirrende Einflüsse durch die Untersuchung von Jungtieren vermieden werden können, werden einige kompensatorische Wege, wie die zur Regulierung des Blutdrucks, wahrscheinlich von den frühesten Stadien der FHC an verändert. Beispielsweise können bei transgenen Mäusen, die nicht phosphorylierbares Myosin RLC exprimieren, Hinweise auf eine veränderte β-adrenerge Signalgebung auf der Ebene der Myofilamente gefunden werden [75]. Wenn eine FHC-Mutation indirekt die Phosphorylierung oder das Isoform-Expressionsprofil anderer Myofilamentproteine ​​verändert, müssen diese Veränderungen berücksichtigt werden, um ihren Einfluss auf die Ca 2+ -Kontraktionsdynamik richtig zu erklären [76].

Eine weitere potenziell kritische Komponente akuter Reaktionen auf mutierte sarkomerische Proteine ​​ist ihr Einfluss auf den Zellstoffwechsel. Die Tendenz von FHC-verbundenen Mutationen, Funktionsgewinne wie eine erhöhte myofibrilläre Ca 2+ -Empfindlichkeit und eine Verkürzung der Geschwindigkeit zu bewirken, impliziert eine ineffiziente Verwendung von ATP als Krankheitsmechanismus. Während wir uns in diesem Review auf mechanische Reize als Treiber von FHC konzentriert haben, haben andere Autoren vorgeschlagen, dass ein veränderter Energiestoffwechsel die zentrale Ursache ist. Diese Hypothese stammt aus einer Studie, die bei FHC-Patienten niedrigere Phosphokreatin-ATP-Verhältnisse zeigte, die unabhängig von der spezifischen Genmutation waren [10], und ähnliche Ergebnisse wurden bei gentechnisch veränderten Mauslinien festgestellt (siehe [77] und Referenzen darin). Integrative Modelle ventrikulärer Myozyten, die mitochondriale Bioenergetik beinhalten, wurden entwickelt (z. B. [78]) und könnten verwendet werden, um die metabolischen Konsequenzen einer veränderten Myofilamentfunktion in Multiskalenmodellen zu untersuchen.

Diese Punkte unterstreichen die Notwendigkeit einer sorgfältigen Validierung der Modellierungsergebnisse auf allen Skalen und insbesondere in vivo wenn Multiskalenmodelle von FHC nützlich sein sollen. Es ist wahrscheinlich, dass die Modelle, ihr Umfang, das Volumen und die Art der eingeschlossenen Daten und sogar die experimentellen Protokolle, die zur Validierung verwendet werden, optimiert werden müssen, bevor Multiskalenmodelle zeitvariable Muster der Myokardbelastung oder andere Eigenschaften, die mit Hypertrophie korreliert werden. Die Iteration zwischen Rechenmodellen und Experimenten kann eine Einschränkung des Ansatzes darstellen, stellt aber auch einen erheblichen Vorteil dar, da eine solche integrative Analyse eine quantitative Bewertung der Vollständigkeit von Hypothesen ermöglicht.

8. Fazit

Multiskalenmodelle des Herzens haben das Potenzial, die nächsten Fortschritte beim Verständnis und der Behandlung von FHC zu ermöglichen, indem sie eine quantitative Verbindung zwischen sarkomerischen Mutationen und den Zuständen herstellen, die einer maladaptiven Hypertrophie vorausgehen.Die akuten Auswirkungen mutierter kontraktiler Proteine ​​auf die Funktion des gesamten Organs können aufgrund des Umfangs und der Komplexität der Informationen auf intervenierenden biologischen Skalen allein durch Intuition nicht sinnvoll vorhergesagt werden. Auf der anderen Seite sind Multiskalen-Herzmodelle so weit fortgeschritten, dass sie bald in der Lage sein werden, Belastungsmuster vor der Hypertrophie anhand des Genotyps vorherzusagen. Diese hypothetischen „Phänotypen vor der Hypertrophie“ werden es denjenigen, die FHC-Mutationen bei Mäusen untersuchen, ermöglichen, den Fokus vom Endpunkt der Hypertrophie auf die subtileren mechanischen Veränderungen zu verlagern, die in viel früheren Stadien vorhanden sein könnten.


Schau das Video: Mathematische Modellierung 1, Teil 1: Inhalt (August 2022).