Information

Welches ist besser für das Wasserstress-Experiment GWAS oder RNASeq zu verwenden?

Welches ist besser für das Wasserstress-Experiment GWAS oder RNASeq zu verwenden?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Dies ist mein erstes Mal in diesem Forschungsbereich. Ich arbeite an 95 Sorten von Bambara-Erdnuss. Ich habe die agromorphologische Charakterisierung dieser Sorten sowie die genetische Vielfalt mit Hilfe von DArT-Markern durchgeführt. Basierend auf dem Ergebnis der Charakterisierung habe ich 10 Sorten ausgewählt, die einem Wasserstress ausgesetzt werden, mit dem Ziel, Gene zu identifizieren, die für die Toleranz dieser Pflanze verantwortlich sind. Meine Herausforderung ist jetzt: 1. Bambara-Erdnuss hat kein Referenzgenom, also werde ich GWAS verwenden können, um diese Gene aus dem Ergebnis von DArTSeq zu erhalten. 2. Wenn man bedenkt, dass die gesamten 95 charakterisierten Sorten keinem Wasserstress ausgesetzt waren, muss ich dann ein weiteres Experiment komplett für den Wasserstress aufstellen und RNASeq verwenden, um die Gene zu erhalten? 3. Es ist offensichtlich, dass einige Gene hoch- und andere herunterreguliert werden. Wie identifiziere ich diese Gene und woher weiß ich, ob sie zu Beginn von Stress, während oder nach Stress exprimiert werden? 4. wann ist der richtige zeitpunkt um meine proben zu nehmen, habe ich überlegt, sie bei 50% blüte zu nehmen. Ist das gut? Jede Hilfe und aufschlussreiche Artikel werden sehr geschätzt.


  1. Bambara-Erdnuss hat kein Referenzgenom

Dies ist Ihr größtes Problem, wenn Sie eine sequenzierungsbasierte Analyse durchführen möchten. Ohne Referenzgenom (oder zumindest Transkriptom) sind weder GWAS- noch RNAseq-Datenanalysen möglich.
Abhängig von der Verfügbarkeit, Qualität und Ähnlichkeit von Referenzgenomen von verwandten Spezies kann es jedoch möglich sein, aus RNA-Sequenzierungsdaten, die Sie aus RNAseq-Experimenten erhalten, ein Referenztranskriptom für Ihre Spezies zu konstruieren. Ich bin mir nicht sicher, ob es machbar (oder tatsächlich möglich) ist, dasselbe mit Genomsequenzierungsdaten zu versuchen, da Sie mit nur 10 Individuen / Stämmen möglicherweise nur riesige Kopplungsgruppen für die GWAS-Analyse erhalten.

So oder so würde ich höchst empfehlen Ihnen, bei der Planung mit jemandem (z. B. aus Ihrem Institut) zu sprechen, der Erfahrung mit der Durchführung von RNAseq oder GWAS an Pflanzen hat. (Die Erfahrungen mit platns wichtigen Genomen von Säugetieren/Modellsystemen sind viel besser untersucht und weisen im Allgemeinen weniger Genomduplikationen auf, so dass die Analyse von Pflanzendaten mit ihrem eigenen Gepäck verbunden ist)

  1. Wenn man bedenkt, dass die gesamten 95 charakterisierten Sorten keinem Wasserstress ausgesetzt waren, muss ich dann ein weiteres Experiment komplett für den Wasserstress aufstellen und RNASeq verwenden, um die Gene zu erhalten?

Wenn Sie RNAseq verwenden möchten, um Gene zu finden, die in derselben Pflanze/Art unterschiedlich zwischen Zuständen von Wasserstress und keinem Wasserstress exprimiert werden, müssen Sie Proben vergleichen, die unter entsprechenden Bedingungen entnommen wurden. Dies ist nur mit RNAseq-Daten möglich.
Ein anderer Ansatz könnte darin bestehen, einige andere Experimente durchzuführen, um zu bestimmen, welche Pflanzen einen Phänotyp zeigen, wenn sie Wasserstress ausgesetzt sind, und dann nach Korrelationen dieses Phänotyps mit (Sequenz-)Isoformvarianten zu suchen [GWAS-ähnlicher Ansatz, möglich mit RNAseq oder genomischen Sequenzierungsdaten] oder mit Expressionsniveaus bestimmter Gene [wieder nur mit RNAseq-Daten möglich]. Bei diesem Ansatz müssen Sie sich bewusst sein, dass Ihre Sequenzierungsdaten entweder den Grundzustand aller Pflanzen (kein Stress) oder einen potenziell gestressten Zustand darstellen .

  1. Es ist offensichtlich, dass einige Gene hoch- und andere herunterreguliert werden. Wie identifiziere ich diese Gene und woher weiß ich, ob sie zu Beginn von Stress, während oder nach Stress exprimiert werden?

Erstens geben Ihnen die meisten Analysetools zwar immer einige Werte für die Auf- oder Abregelung, aber das bedeutet definitiv nicht, dass diese Werte immer aussagekräftig sind. Nur richtige statistische Tests können Ihnen sagen, welche Hoch-/Herunterregulierung einigermaßen zuverlässig ist (sie sagt Ihnen immer noch nicht, ob sie biologisch sinnvoll ist) und abhängig von der Qualität Ihrer Daten und den tatsächlichen biologischen Unterschieden können Sie möglicherweise nichts finden.
Zweitens, wenn Sie sich für den Zeitpunkt der Expression bestimmter Gene interessieren, müssen Sie einige Zeitreihenexperimente durchführen. (Dies für die gesamte RNAseq/GWAS zu tun wäre sehr teuer, also identifizieren Sie idealerweise zuerst einige Kandidatengene und untersuchen dann ihre spezifischen Expressionsprofile mit einfacheren Methoden).

  1. wann ist der richtige zeitpunkt um meine proben zu nehmen, habe ich überlegt, sie bei 50% blütezeit zu nehmen.

Wenn Sie kein Experte für die Art sind, mit der Sie arbeiten, würde ich Ihnen dringend empfehlen, mit jemandem zu sprechen, der es ist.


Varianten in Exons und Transkriptionsfaktoren beeinflussen die Genexpression in trans

In den letzten Jahren wurde über viele genetische Varianten (eSNPs) berichtet, die mit der Expression von Transkripten in trans. Die kausalen Varianten und Regulationsmechanismen, über die sie wirken, bleiben jedoch weitgehend unbekannt. In dieser Arbeit verfolgen wir zwei Arten von üblichen Verdächtigen: SNPs, die kodierende Regionen oder Transkriptionsfaktoren verändern, identifizierbar durch Sequenzieren von Daten mit Transkriptionsprofilen in derselben Kohorte. Wir zeigen, dass diese interpretierbaren genomischen Regionen für eSNP-Assoziationssignale angereichert sind, wodurch auf natürliche Weise Quell-Ziel-Genpaare definiert werden. Wir kartieren diese Paare auf ein Protein-Protein-Interaktions-(PPI)-Netzwerk und untersuchen ihre topologischen Eigenschaften.

Ergebnisse

Für exonische eSNP-Quellen berichten wir von Quelle-Ziel-Nähe und einem hohen Zielgrad innerhalb des PPI-Netzwerks. Diese Paare werden eher koexprimiert und die eSNPs neigen dazu, a cis Effekt, der die Expression des Quellgens moduliert. Im Gegensatz dazu wird nicht beobachtet, dass Transkriptionsfaktor-Quelle-Ziel-Paare solche Eigenschaften aufweisen, sondern stattdessen neigt eine Transkriptionsfaktor-Quelle dazu, sich zusammen mit ihren Genzielen zu Einheiten mit definierten funktionellen Rollen zusammenzufügen und mit ihnen denselben funktionellen Cluster des PPI . zu teilen Netzwerk.

Schlussfolgerungen

Unsere Ergebnisse deuten auf zwei Arten von trans Regulation: Die Variation des Transkriptionsfaktors wirkt häufig über einen modularen Regulationsmechanismus mit mehreren Zielen, die eine Funktion mit der Quelle des Transkriptionsfaktors teilen. Ungeachtet dessen handelt es sich bei der Exon-Variation oft um ein lokales cis Effekt, der kürzere Pfade von interagierenden Proteinen über funktionelle Cluster des PPI-Netzwerks hinweg skizziert.


Integration von GWAS, QTL, Kartierung und RNA-seq zur Identifizierung von Kandidatengenen für die Samenvitalität in Reis (Oryza sativa L.)

Die Samenstärke ist ein wichtiges Merkmal der Samenqualität bei Reis (Oryza sativa L.), das die Morphogenese von Sämlingen in verschiedenen Umgebungen tiefgreifend beeinflusst. Im Allgemeinen haben hochwüchsige Samen viele Vorteile in der landwirtschaftlichen Produktion, wie z. In der vorliegenden Studie wurden eine Keimplasmasammlung und eine Population rekombinanter Inzuchtlinien (RIL) verwendet, um quantitative Trait Loci (QTLs) für die Samenvitalität zu identifizieren. Insgesamt 19 Einzelnukleotidpolymorphismen (SNPs) wurden signifikant mit der Samenvitalität assoziiert (−log10(P) > 6) in der Keimplasmasammlung, die aus 200 Reissorten bestand. Neun Loci, die für die Samenvitalität verantwortlich sind, wurden mittels QTL-Mapping unter Verwendung einer High-Density-Bin-Map identifiziert. Um die Kandidatengene effizienter zu screenen, wählten wir sechs Loci aus, die in der GWAS- und QTL-Kartierung co-lokalisiert waren, frühere Berichte überlappten, Wiederholungen über zwei Saisons nachgewiesen oder eine hohe Beitragsrate als zuverlässige Loci. Insgesamt 44 differentiell exprimierte Gene wurden aus den zuverlässigen Loci mittels Genexpressionsprofilanalyse gewonnen. Unter diesen 44 Genen Os06g0108600, Os06g0110200, Os06g0253100, Os06g0282000, Os07g0583600, Os07g0592600, und Os09g0432300 waren die vielversprechendsten Kandidaten, die mit der Samenvitalität in Verbindung gebracht werden.

Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


Ergebnisse

Die Dynamik der Sprossfläche, absolute und relative Wachstumsrate im Versuchsverlauf

Über drei aufeinanderfolgende Jahre wurde die HEB-25-Population unter wasserlimitierten und Kontrollbedingungen bewertet, die 32 Tage nach dem Pflanzen (DAP) bis zum Abschluss des Experiments bei 59 DAP angewendet wurden ( 1a ). Diagramme für die geglättete Sprossfläche (SAsm), die absolute Wachstumsrate (AGR) und die relative Wachstumsrate (RGR) über die 3 Jahre sind in Zusatzdatei 1: Abbildung S1 und für 2014 im Nordosten (NE) Smarthouse als an . dargestellt Beispiel, ist in Fig. 1b gezeigt. Für AGR und RGR wurden drei Intervalle mit unterschiedlicher Kinetik beobachtet, darunter 32–40 DAP, 42–50 DAP und 52–59 DAP. Die AGR und RGR wurden für drei Intervalle berechnet, die diese drei Phasen erfassten.

Überwachung der Dynamik des Pflanzenwachstums während des gesamten Experiments. ein Die Pflanzen wurden 32 bis 59 Tage nach dem Pflanzen unter Trockenheit und nicht gestressten Behandlungen zerstörungsfrei abgebildet. B Parzellen für geglättete Sprossfläche (SAsm), absolute Wachstumsrate (AGR) und relative Wachstumsrate (RGR) unter Kontrolle (cyan) und Dürre (rot) Behandlung im Nordosten Smarthouse am Plant Accelerator, University of Adelaide im Jahr 2014 werden als Beispiel gezeigt. Die fette Linie stellt den Durchschnitt jeder Behandlung dar

Die RGR-Darstellung für 2014 unterschied sich von denen von 2015 und 2016. Im Jahr 2014 zeigte das RGR-Intervall von 42 bis 50 DAP einen steigenden Trend, während er für 2015 und 2016 abnehmend war. Um dies zu untersuchen, wurden Klimadaten in jedem Smarthouse untersucht und 3 Jahre verglichen. Bei der Differenz der RGR wurde keine Assoziation mit der Mindest-, Höchsttemperatur oder Wachstumsgradtagen beobachtet (Zusatzdatei 2: Abbildung S2). Die makroklimatischen Bedingungen in den beiden Smarthouses erschienen somit über die Jahre hinweg vergleichbar. Daher konnte der im Jahr 2014 beobachtete Unterschied in der RGR im Intervall von 42 bis 50 DAP nicht erklärt werden.

Auswirkung von Behandlung, Genotyp und Versuchsumgebung auf die phänotypische Variation

Die Behandlung erwies sich in allen 3 Jahren und für alle Merkmale als signifikant, der Genotypeffekt war jedoch merkmalsabhängig (Zusatzdatei 3: Tabelle S3). Im Jahr 2014 zeigten sieben Merkmale keinen signifikanten Genotyp-Effekt, darunter SAsm, AGR32, RGR42, RGR52, DW, FW und TN. Im Jahr 2015 hatten alle Merkmale einen signifikanten Genotyp-Effekt. Im Jahr 2016 hatten RGR32 und WUE keinen signifikanten Genotyp-Effekt.

Die Interaktion mit der Genotyp-X-Behandlung erwies sich für 3, 11 und 6 Merkmale in den Jahren 2014, 2015 bzw. 2016 als signifikant. Zwei Merkmale, die in keinem der Jahre einen signifikanten Behandlungseffekt des Genotyps x hatten, waren WUE und Tilleranzahl.

Es gab einen signifikanten Effekt des Smarthouse sowie der Interaktion zwischen Smarthouse x Position für alle 14 untersuchten Merkmale über 3 Jahre. Die Mittelwerte der Merkmalswerte von Pflanzen, die im nordöstlichen Smarthouse angebaut wurden, waren im Allgemeinen höher als diejenigen im nordwestlichen Smarthouse (Daten nicht gezeigt). Eine mögliche Erklärung war, dass das nordöstliche Smarthouse vor allem morgens mehr Licht erhält, was zu einem erhöhten Pflanzenwachstum führte.

Das Pflanzenwachstumsstadium wurde als Kovariate bei der Modellierung verwendet. Die meisten Linien befanden sich im Zadoks-Wachstumsstadium 33, einige wenige erreichten das Zadoks-Stadium 49 und darüber. Im Allgemeinen war das Wachstumsstadium nicht signifikant und fiel für die meisten Merkmale aus dem Modell (Zusatzdatei 3: Tabelle S3).

Merkmalsleistung

Die Mittelwerte der Merkmale SAsm, Trockengewicht (DW) und Frischgewicht (FW) in der Kontrollbehandlung waren 2–2,5 mal höher als die Mittelwerte dieser Merkmale in der Trockenheitsbehandlung über die 3 Jahre (Zusatzdatei 4: Tabelle S4). Die einzige Ausnahme war WUE, wo die Mittelwerte der Kontrollbehandlung 55–67 % der Mittelwerte der Trockenbehandlung betrugen.

Die Heritabilität jedes Merkmals war bei der Kontrollbehandlung im Allgemeinen höher als bei der Dürrebehandlung und reichte von 0,27 bis 0,85 bei der Kontrollbehandlung und 0,34 bis 0,80 bei der Dürrebehandlung über die 3 Jahre. HEI hatte in allen 3 Jahren in beiden Behandlungen die höchste Heritabilität. RGR42, WUE und RGR32 wiesen die geringste Erblichkeit für die Jahre 2014, 2015 und 2016 auf.

Um die Wachstumsreaktion von Genotypen unter Trockenheitsbehandlung mit solch großen Variationen in Pflanzengröße und Wachstum zu vergleichen, berechneten wir das Verhältnis der phänotypischen Werte zwischen SAsm, DW, HEI, TN bei Trockenstress gegenüber der Kontrollbehandlung. Verhältnisse repräsentieren die Dürrereaktion unabhängig von Pflanzengröße/Wachstumsparametern unter Kontrollbedingungen. Verhältnisse nahe 1 zeigen eine hohe Kapazität zur Aufrechterhaltung der vier Parameter an, während Verhältnisse kleiner als 1 eine stärkere Reduzierung anzeigen. Für alle vier ausgewählten Merkmale gab es keine signifikante Korrelation zwischen dem Verhältnis von SAsm, DW, HEI und TN bei Trockenstress gegenüber der Kontrolle und den entsprechenden phänotypischen Werten bei der Kontrollbehandlung (R < 0.2 für DW und SAsm, und R < 0,08 in allen Jahren für TN und HEI) (Zusätzliche Datei 5: Abbildung S6A, B, C und D).

GWAS-Ergebnisse

Trockengewicht (DW)

In der Kontrollbehandlung wurden 26 QTL nachgewiesen, die 44% der gesamten phänotypischen Varianz (Vp) erklärten. Bei der Dürrebehandlung wurden 24 QTL identifiziert und machten 37% des Vp aus. Von den 39 QTL für DW wurden 11 in beiden Behandlungen nachgewiesen und 17 waren behandlungsspezifisch (Abb. 2 und Zusatzdatei 6: Tabelle S6). Der QTL, der die phänotypischste Varianz für DW in der Kontroll- und Dürrebehandlung erklärte, war QDw.HEB25-7H.2 bei 70,4 cM (6%) bzw. QDw.HEB25-3H.4 bei 108 cM (5%). Beim gemeinsamen QTL QDw.HEB25-4H.4 (97,2 cM) hatten wilde Allele bei beiden Behandlungen eine gemischte Wirkung (sowohl zunehmend als auch abnehmend), wobei das Allel aus der Familie F01 DW am stärksten um bis zu 1,32 g (entspricht 17% Zunahme) in der Kontrollbehandlung. Bei der Trockenheitsbehandlung erhöhten wilde Allele aus 20 von 25 Familien bei diesem QTL das Trockengewicht im Vergleich zum Barke-Allel, wobei diejenigen aus den Familien F01 und F07 das DW um bis zu 0,3 g erhöhten (ca. 10 % Zunahme).

Vergleich der GWAS-Ergebnisse über fünf der destruktiv gemessenen Merkmale nach der Ernte. Die Daten in diesem Circos-Diagramm resultieren aus 100 kreuzvalidierten (20-fach 5-fach) GWAS-Läufen, die innerhalb jeder Behandlung für die fünf untersuchten Merkmale einschließlich Trockengewicht (DW), Frischgewicht (DW), Pflanzenhöhe (HEI), Bestockung durchgeführt wurden Anzahl (TN) und Wassernutzungseffizienz (WUE). Gerstenchromosomen sind im inneren Kreis mit verschiedenen Farben dargestellt und Zentromere sind mit transparenten Kästchen gekennzeichnet. Für jedes Merkmal repräsentiert die erste (innere) Spur die Häufigkeit der QTL-Erkennung in einem 5-cm-Fenster, während die äußere Spur den Effekt dieser QTL repräsentiert. Die maximale Höhe der Effektbalken für jedes Merkmal beträgt 1,3 g für DW, 9 cm für HEI, 1,82 für TN, 0,1 g/g Wasser für WUE. Fensterpositionen (in cM, in Anlehnung an Maurer et al. 2015) sind pro Chromosom im Uhrzeigersinn geordnet. In der inneren Spur werden QTL unter Kontrolle und Trockenstressbehandlung mit schwarzen bzw. grauen Balken dargestellt. Die Wirkung des durch das Wildallel verliehenen QTL relativ zu Barke ist auf der äußeren Spur dargestellt, wobei blaue und rote Balken für jede Behandlung abnehmende bzw. zunehmende Wildgersten-QTL-Effekte anzeigen. Kandidatengene, die möglicherweise die beobachteten QTL-Effekte erklären, sind im inneren Kreis angegeben

Frischgewicht (FW)

In der Kontrollbehandlung wurden 29 QTL nachgewiesen, was insgesamt 42% Vp erklärte und 25 QTL wurden in der Trockenbehandlung nachgewiesen, was 39% der Vp erklärte (Zusatzdatei 6: Tabelle S6). Die QTL, die die meisten Vp für Trockenstress und Kontrollbehandlung erklärten, waren QFw.HEB25-2H.4 mit 64,4 cM (4,5 %) bzw. QFw.HEB25-7H.2 mit 67,8 cM (5%). Aufgrund der hohen Korrelation zwischen DW und FW (Zusatzdatei 7: Abbildung S5) wurden 20 von 24 QTL, die für DW in der Dürrebehandlung nachgewiesen wurden, auch für FW in der Dürrebehandlung nachgewiesen, und 19 von 26 QTL, die für DW in der Kontrollbehandlung nachgewiesen wurden wurden auch für FW in der Kontrollbehandlung nachgewiesen. Bei der Dürrebehandlung erhöhten Wildallele bei QFw.HEB25-3H.5 (107,05 cM) das FW am stärksten (bis zu 9,8 g, äquivalent zu 37% Zunahme des FW). Bei der Kontrollbehandlung erhöhten Wildallele beim QTL QFw.HEB25-3H.6 (117 cM) das FW am stärksten (bis zu 12,0 g in der Familie F08 oder 10,5 % Zunahme des FW im Vergleich zu den Barke-Allelen).

Pinnennummer (TN)

Bei der Kontrollbehandlung wurden 18 Loci für die Bestockungszahl nachgewiesen, was 41% von Vp erklärte (Fig. 2 und zusätzliche Datei 6: Tabelle S6). Bei der Dürrebehandlung wurden 21 Loci erkannt und 46% von Vp erklärt. Von den insgesamt 39 für TN nachgewiesenen QTL waren 7 bei zwei Behandlungen üblich. Der QTL QTn.HEB25-5H.5, der mit dem Vernalisationsgen kolokalisiert wurde VRN-H1 erklärt die höchste phänotypische Variation (bis zu 10 % bei der Kontrolle und 14 % bei der Dürrebehandlung). Bei der VRN-H1 Locus erhöhten Wildallele aus allen Familien die Bestockungszahl auf bis zu 6,0 in der Kontrollbehandlung und auf bis zu 3,3 in der Trockenbehandlung. Unter den 13 für die Dürrebehandlung spezifischen QTL, wilde Allele bei zwei QTL, die mit HvELF3 und Ppd-H1 verringerte Pinnenzahl in allen Familien außer Familie F23.

Pflanzenhöhe (HEI)

Es wurden 23 bzw. 31 SNPs für HEI in der Dürre- bzw. Kontrollbehandlung nachgewiesen, von denen 16 bei allen Behandlungen gemeinsam auftraten (Zusatzdatei 6: Tabelle S6). Unter 38 Loci wurden für HEI identifiziert, 23 in der Nähe bekannter Gene, die das Blühen und die Pflanzenarchitektur in Gerste kontrollieren. Der Vp, der durch alle QTL für die Pflanzenhöhe sowohl in der Kontroll- als auch in der Trockenbehandlung erklärt wurde, betrug 60 %. Die signifikanteste Assoziation für die Pflanzenhöhe wurde beim QTL QHei.HEB25-3H.5 (108 cM) beobachtet, was 22 bzw. 11% der Varianz in der Kontroll- bzw. Trockenbehandlung erklärt. Dieser Locus co-lokalisiert mit der Halbzwergung sdw1/denso Gen in Gerste. Andere wichtige QTL, die 5 bis 10 % der phänotypischen Variation erklärten, sind QHei.HEB25-3H.6 (122 cM), QPh.HEB25-5H.3 (107,5 cM) und QHei.HEB25-5H.4 (122,6–125 .). cm). Die Wirkung der wilden Allele am sdw1/denso Locus in jeder Familie innerhalb der Dürrebehandlung ist im Allgemeinen halb so groß wie bei der Kontrollbehandlung. Wilde Allele aus 25 HEB-Familien at sdw1/denso Locus erhöhte die Pflanzenhöhe auf bis zu 8,9 cm in der Kontrolle und 5,9 cm in der Dürrebehandlung. Im Kontrast zu sdw1/denso, bei fünf anderen üblichen QTL, einschließlich QHei.HEB25-3H.4 (113,4 cM), QHei.HEB25-5H.1 (41,6–45,2 cM), QHei.HEB25-5H.3 (107 cM), QHei.HEB25-5H. 4 (125 cM) und QHei.HEB25-6H.2 (52,1–55 cM) reduzierten die wilden Allele der meisten Familien die Pflanzenhöhe.

Aufnahmebereich geglättet (SAsm)

Unter der Trockenstress- und Kontrollbehandlung wurden 27 bzw. 34 QTL nachgewiesen (Abb. 3 und Zusatzdatei 6: Tabelle S6). Es wurde festgestellt, dass 16 QTL zwischen den beiden Behandlungen üblich waren. Sechs von 15 gemeinsamen QTL für SAsm wurden auch als gemeinsame QTL für Trockengewicht erkannt.Die Wirkung der wilden Allele bei gemeinsamen QTL zwischen SAsm und DW war ebenfalls sehr ähnlich. Der QTL, der die phänotypischste Varianz für SAsm sowohl in der Kontroll- als auch in der Dürrebehandlung erklärte, war QSasm.HEB25-3H.7 (6%). An der QTL QSasm.HEB25-3H.7 in der Nähe von HvCMF1 Gen, wilde Allele erhöhten SAsm in den meisten Familien über beide Behandlungen hinweg. Bei allen anderen QTL war die Wirkung wilder Allele für SAsm über QTL und Familien hinweg gemischt.

Vergleich der GWAS-Ergebnisse des Trockengewichts relativ zu vier durch zerstörungsfreie Bildgebung bestimmten Merkmalen. Die Daten in diesem Circos-Diagramm resultieren aus 100 kreuzvalidierten (20-fach 5-fach) GWAS-Läufen, die innerhalb jeder Behandlung für die fünf untersuchten Merkmale durchgeführt wurden, einschließlich Trockengewicht (DW), geglättete Sprossfläche (SAsm), absolute Wachstumsrate 42–50 dap (AGR42), relative Wachstumsrate 42–50 dap (RGR42) und konvexe Hüllenfläche (CHA). Gerstenchromosomen sind im inneren Kreis mit verschiedenen Farben dargestellt und Zentromere sind mit transparenten Kästchen gekennzeichnet. Für jedes Merkmal repräsentiert die erste (innere) Spur die Häufigkeit der QTL-Erkennung in einem 5-cm-Fenster, während die äußere Spur den Effekt dieser QTL repräsentiert. Die maximale Höhe der Effektbalken für jedes Merkmal beträgt 1,3 g für DW, 98,6 kpixel für SA, 4,44 kpixel/Tag für AGR42, 0,0039 kpixel/Tag/kpixel für RGR42, 654 kpixel für CHA. Fensterpositionen (in cM, in Anlehnung an Maurer et al.2015) sind pro Chromosom im Uhrzeigersinn geordnet. In der inneren Spur werden unter Kontrolle erscheinende QTL und Trockenstressbedingungen mit schwarzen bzw. grauen Balken dargestellt. Die Wirkung des durch das Wildallel verliehenen QTL relativ zu Barke ist auf der äußeren Spur dargestellt, wobei blaue und rote Balken für jede Behandlung abnehmende bzw. zunehmende Wildgersten-QTL-Effekte anzeigen. Kandidatengene, die möglicherweise die beobachteten QTL-Effekte erklären, sind im inneren Kreis angegeben

Absolute Wachstumsrate (AGR)

Bei der Dürrebehandlung wurden in allen drei AGR-Intervallen fünf gemeinsame Genomregionen nachgewiesen, darunter 1H (48,5–48,9 cM), 1H (128.3–130,35 cM), 2H (106,8–109,3 cM), 3H (100,4–104,8 cM), 7H (99,8–102,2 cM) und 55 intervallspezifische QTL. Unter den üblichen QTL erhöhten die wilden Allele bei 3H (100,4–104,8 cM) die AGR in den meisten Familien. Innerhalb der Kontrollbehandlung gab es 11 gemeinsame QTL über alle drei AGR-Intervalle und 52 intervallspezifische QTL. Unter den 11 häufigen QTL befinden sich sechs in der Nähe bekannter Gene, darunter Ppd-H1, BFL/HvAPO2, VRN-H2, HvCO15, HvCCA1/HvLHY, HvCMF1, und HvCO6. Die genomischen Regionen auf Chromosom 2H von 106,8 bis 109,6 cM und 3H von 100,4 bis 106,1 cM wurden über alle drei AGR-Intervalle in beiden Behandlungen nachgewiesen. Bei der Kontrollbehandlung war der QTL, bei dem die wilden Allele den größten positiven Effekt zeigten, auf Chromosom 6H bei 5,6 cM für alle drei Intervalle. Bei Trockenstress waren QTL mit der größten Wirkung für AGR32, AGR42 und AGR52 QAgr32.HEB25-3H.4 bei 100,4 cM, QAgr42.HEB25-3H.6 bei 103,8 cM und QAgr52.HEB25-3H.5 bei 104,8 cM. bzw. Da AGR42 mit den anderen beiden Intervallen stark korreliert war (Zusatzdatei 7: Abbildung S5), werden die Details zu den für dieses Intervall erkannten QTL unten zusammengefasst.

Für AGR42 wurden 26 bzw. 29 QTL für Trockenstress- bzw. Kontrollbehandlung nachgewiesen (Zusatzdatei 6: Tabelle S6). Es gab 15 gemeinsame QTL zwischen zwei Behandlungen, von denen zehn in der Nähe bekannter Blühgene liegen. Der QTL, der den höchsten Vp (bis zu 6%) in der Trockenstress- und Kontrollbehandlung erklärte, war QAgr42.HEB25-3H.6. Bei der Dürrebehandlung zeigten die Wildallele bei QTL QAgr42.HEB25-3H.3 (55,5 cM), QAgr42.HEB25-3H.6 (103,8 cM) und QAgr42.HEB25-4H.4 (103,9 cM) die höchsten Merkmale -verstärkende Effekte. In der Kontrollbehandlung wurden mehrere QTL mit vorteilhaften Wildallelen, die AGR42 erhöhten, nachgewiesen, wie QAgr42.HEB25-2H.6 (146,4 cM), QAgr42.HEB25-3H.5 (89,1 cM), QAgr42.HEB25-3H.6 ( 106,1 cm), QAgr42.HEB25-6H.1 (5,6 cm) und QAgr42.HEB25-7H.6 (120 cm).

Relative Wachstumsrate (RGR)

Es wurden 22, 25 und 23 QTL für RGR32, RGR42 bzw. RGR52 in der Dürrebehandlung nachgewiesen. In allen drei Intervallen wurden sechs genomische Regionen nachgewiesen, darunter 1H (126–128 cM), 2H (18,9–23 cM), 2H (55,6–62 cM), 3H (131–135,5 cM), 4H (99,6–101,4 cM) , und 7H (23–29,6 cM). Vier dieser QTL befinden sich in der Nähe bekannter Entwicklungsgene, einschließlich HvELF3, Ppd-H1, HvCEN, und HvCMF4. In ähnlicher Weise wurden 19, 24 und 21 QTL für RGR32, RGR42 und RGR52 in der Kontrollbehandlung nachgewiesen, wobei drei gemeinsame QTL in allen Intervallen gefunden wurden, einschließlich 2H (18–26 cM), 4H (111,3 cM) und 5H ( 14,5 cm). Bei beiden Behandlungen gab es 7, 10 und 6 gemeinsame QTL für RGR32, RGR42 bzw. RGR52. An einer dieser gemeinsamen genomischen Regionen, 2H (18,9–23 cM), die in unmittelbarer Nähe zu Ppd-H1, reduzierten die Wildgerstenallele aus allen Familien die RGR in der Dürrebehandlung für alle drei Intervalle, während die Wirkung je nach Familien und RGR-Intervall in der Kontrollbehandlung gemischt war. Da RGR42 hochgradig mit den anderen beiden Intervallen korreliert war, werden die Details zu den für dieses Intervall detektierten QTL unten zusammengefasst.

Für RGR42 wurden 25 und 24 QTL unter Trockenstress bzw. Kontrollbehandlung nachgewiesen, wobei sich zehn QTL auf die beiden Behandlungen verteilten (Zusätzliche Datei 6: Tabelle S6). Unter den behandlungsüblichen QTL für RGR42 wurden vier auch für DW nachgewiesen, darunter QRgr42.HEB25-2H.2, QRgr42.HEB25-2H.6 (141–149 cM), QRgr42.HEB25-7H.1 (0,2–2,5 cM .) ) und QRgr42.HEB25-7H.4 (97,2–100,25 cM). Andere häufige QTL für RGR42 befanden sich in der Nähe bekannter Blühgene, einschließlich Ppd-H1, Ppd-H2, HvCMF1. Bei allen gängigen QTL hatten die wilden Allele eine gemischte Wirkung über die Familien hinweg.

Konvexer Rumpfbereich (CHA)

In der Trockenstress- und Kontrollbehandlung wurden 27 bzw. 28 QTL nachgewiesen (Abb. 3 und Zusatzdatei 6: Tabelle S6). Es gab 14 gemeinsame QTL zwischen den beiden Behandlungen, und vier davon wurden auch für DW (das Merkmal, mit dem CHA am stärksten korrelierte) nachgewiesen. Der QTL QCha.HEB25-3H.7, der sich in der Nähe des Gens befindet sdw1/denso, erklärte den höchsten Vp (10 %) in beiden Behandlungen. Ähnlich wie die Wirkung von sdw1/denso auf die Pflanzenhöhe erhöhten die wilden Allele aus allen Familien an diesem Locus die CHA in beiden Behandlungen. Es gab zwei zusätzliche QTL, bei denen die wilden Allele aus den meisten der 25 Familien die CHA in beiden Behandlungen erhöhten, einschließlich QCha.HEB25-5H.6 (152 cM) und QCha.HEB25-7H.3 (51 cM). Die Allele aus der Familie F14 erhöhten CHA bei allen dieser drei QTL am stärksten.

Bremssattellänge (CL)

Aufgrund der hohen Korrelation zwischen CHA und CL waren die GWAS-Ergebnisse für CHA und CL ähnlich. In der Kontrollbehandlung wurden 23 QTL für CL und 19 davon auch für CHA gefunden. Bei der Dürrebehandlung wurden 22 QTL identifiziert und 15 davon wurden zwischen CL und CHA geteilt (Zusatzdatei 6: Tabelle S6).

Wassernutzungseffizienz (WUE)

Es wurden 33 bzw. 22 QTL in der Trockenstress- bzw. Kontrollbehandlung nachgewiesen, einschließlich 10 gemeinsamer QTL, die in beiden Behandlungen nachgewiesen wurden (Zusätzliche Datei 6: Tabelle S6). Der QTL, der die phänotypischste Varianz erklärte, war QWue.HEB25-2H.6 mit 139,9 cM (3,5 %) in der Kontrollbehandlung und QWue.HEB25-3H.10 mit 154,8 cM (7%) in der Trockenstress-Behandlung. Bei der Dürre-Stress-Behandlung erhöhten wilde Allele bei QTL QWue.HEB25-3H.6 (87,4 cM) die WUE in allen Familien und wilde Allele bei QTL QWue.HEB25-6H.2 (37 cM) reduzierten WUE in allen Familien, allen anderen QTL zeigte einen gemischten Effekt für die wilden Allele. Bei QTL QWue.HEB25-7H.6 (116,1 cM) erhöhten die wilden Allele aus der Familie F02 die WUE am stärksten im Vergleich zum Barke-Allel (10,8% Zunahme).

QTL mit mehreren Merkmalen verbunden

Wenn alle signifikanten QTL, die für die Merkmale DW, HEI, TN, SAsm, CHA, WUE, AGR42 und RGR42 identifiziert wurden, zusammengestellt wurden, wurden QTL identifiziert, die mit mehreren Merkmalen assoziiert sind. Wenn QTL innerhalb eines 4 cM-Fensters zu einem einzigen QTL gruppiert wurden, was den von Maurer et al. [36] wurden 21 Genomregionen mit mindestens 4 Merkmalen oder mehr assoziiert. Die genomische Region auf Chromosom 2H kolokalisiert mit dem Gen HvCEN wurde mit allen Merkmalen assoziiert, von denen sechs in beiden Behandlungen, einschließlich DW, TN, HEI, AGR42, RGR42 und WUE, nachgewiesen wurden. Die zweithäufigsten genomischen Regionen (verbunden mit sieben Merkmalen, außer TN) befanden sich auf Chromosom 2H bei 109 cM und auf Chromosom 4H bei 113 cM und diese beiden kolokalisierten mit BFL (GERSTE FLORICAULA/BLATT)/HvAPO2 und VRN-H2 Gene bzw. Regionen, die mit sechs verschiedenen Merkmalen assoziiert waren, waren 3H (105–108 cM), 4H (97–104 cM), 5H (0–3,8 cM), 5H (144,2–149,8 cM), 5H (165,8–169,4 cM), 7H (0,2–2,5 cM) und 7H (70,2–72,5 cM).


Diskussion

Zusammenhang zwischen phänotypischen Eigenschaften und Tieftemperaturtoleranz von Mais

Der gesamte Wachstumsprozess von Mais wird ab der Keimungsphase der Saat durch Niedertemperaturstress beeinflusst. Der wichtigste Indikator für die Tieftemperaturtoleranz während der Keimung ist der Wurzelaufgang [1], der ein kritischer Faktor für Pflanzenentwicklung und Ertrag ist. Niedriger Temperaturstress verringert die Wurzelaktivität, verkürzt die Wurzellänge und führt bei betroffenen Pflanzen zu weniger Seitenwurzeln [26]. In Übereinstimmung mit früheren Studien wurde das Wurzel- und Sprosswachstum in kontrollierten Wachstumskammern unter einer Reihe von Temperaturregimen bewertet [12]. Tieftemperaturstress wirkt sich auch auf Maiskeimlinge nach der Keimung aus. Es wurde festgestellt, dass der relative Wassergehalt, die Blattfläche und das Blatttrockengewicht, die Pflanzenhöhe, die Wurzellänge, die Stängellänge und das Trockengewicht sowie das Frischgewicht der ganzen Pflanze beeinflusst werden können [12, 13, 27]. In unserer Studie wurden Tieftemperaturbedingungen mit 10 °C und für Normalbedingungen mit 25 °C definiert. Die bewerteten Keimungsmerkmale waren Keimwurzellänge, Keimwurzeloberfläche und Keimwurzelvolumen. Wir beobachteten eine große phänotypische Variation der Keimwurzellänge unter den 222 Mais-Inzuchtlinien unter Niedrigtemperaturbedingungen und eine starke Korrelation zwischen Keimwurzellänge und Keimungsrate. Ihre genetischen Loci waren jedoch unterschiedlich, was darauf hindeutet, dass unterschiedliche Mechanismen beteiligt sind. Unsere Studie konzentrierte sich auf die Keimung, die als Keimwurzelaustritt aus Samen definiert wurde, bei niedrigen Temperaturen. Die 30 assoziierten SNPs und zwei Kandidatengene, die in dieser Studie identifiziert wurden, bieten wertvolle Ressourcen für zukünftige Studien, um das Verständnis der genetischen Grundlagen der Tieftemperaturtoleranz von Mais zu verbessern und Maissorten durch Züchtung zu verbessern.

Integration von GWAS-Daten und RNA-seq-Daten für die Vorhersage von Kandidatengenen

GWAS wurde häufig verwendet, um potenzielle Kandidatengene für wichtige abiotische Stressmerkmale in Mais zu identifizieren [28], aber es gibt immer noch die Probleme wie die falsch positiven Ergebnisse und so weiter. RNA-seq hat sich zur bevorzugten Technik zum Nachweis genomweiter Genexpressionsmuster entwickelt [29]. Es ist jedoch schwierig, potenzielle Schlüsselkandidatengene zu identifizieren, da große Mengen von DEG normalerweise durch RNA-seq. Kürzlich wurde die Methode der Integration von GWAS und RNA-seq weit verbreitet, um Kandidatengene vorherzusagen. Beispielsweise wurde eine Methode verwendet, die GWAS-Ergebnisse mit verknüpften DEGs und Co-Expressions-Netzwerkanalyse kombiniert, um sieben Kandidatengene zu identifizieren, die auf Trockenstress in Mais reagieren [28]. Mit dieser Methode haben wir 10 Kandidatengene identifiziert, die mit der Samenkeimung bei niedrigen Temperaturen in Verbindung stehen. Darunter die beiden Kandidatengene, Zm00001d039219 und Zm00001d034319 wertvolle Informationen zum Verständnis des genetischen Mechanismus der Tieftemperaturtoleranz während der Maiskeimung liefern könnten.

Konsistente SNPs in früheren Berichten

Um die Zuverlässigkeit der in dieser Arbeit entdeckten SNPs zu bewerten, haben wir die 30 in der vorliegenden Studie identifizierten SNPs mit denen in mehreren verwandten Publikationen verglichen. Drei SNPs überlappten mit den physischen Positionen veröffentlichter QTLs (Zusatzdatei 8: Tabelle S6). QTL-8 für ФPSII im Keimlingsstadium [30] stimmte mit PUT-163a-149,007,696-748 überein. Zwei SNPs (PZE-102099570 und PZE-102100684) auf Chromosom 2 wurden in QTL-Regionen lokalisiert, die mit Strohtrockengewicht [31] Blattgrün (SPAD) und Einfangeffizienz von PSII assoziiert sind (F′v/F′m)bei 15 °C [8]. Darüber hinaus ist ein Kandidatengen (Zm00001d010671), die stark mit einem nahegelegenen SNP (PZE-108068725) korreliert war, wurde durch ein zuvor identifiziertes Kandidatengen unterstützt [5]. Somit hat unsere Analyse erfolgreich die SNPs aufgezeigt, von denen bekannt ist, dass sie mit Niedrigtemperaturtoleranz verbunden sind, was darauf hindeutet, dass die identifizierten SNPs aus der vorliegenden Studie sehr zuverlässig für die Verwendung bei der Genklonierung und Maiszüchtung sind.

MAPK-Signalwege als Reaktion auf Tieftemperatur-Stress

MAPKs sind Serin-Threonin-Kinasen, die intrazelluläre Signale vermitteln und eine wichtige Rolle bei der Regulierung von Pflanzenwachstum, Entwicklung und Stressreaktionen spielen. Gegenwärtig wurde gezeigt, dass viele Proteinkinase-Gene, einschließlich derjenigen, die MAPKs codieren, die Übertragung von abiotischen Stressreaktionssignalen vermitteln [32]. In Pflanzen kann die Akkumulation von Permeanten und Antioxidantien durch niedrige Temperaturen, Trockenheit und Salzstress induziert werden, der durch MAPK-Wege in Hefe und Tieren vermittelt wird [33]. Diese MAPK-Wege werden durch unterschiedliche Stimuli über Rezeptoren wie Protein-Tyrosin-Kinasen, G-Protein-gekoppelte Rezeptoren und Zweikomponenten-Histidin-Kinasen aktiviert. Arabidopsis hat ungefähr 60 MAPKKKs, 10 MAPKKs und 20 MAPKs. Diese Kinasen können durch niedrige Temperatur und andere abiotische Stressfaktoren aktiviert werden und gelten als wichtige Komponenten der abiotischen Stresssignalisierung [34]. In Medicago sativa, führt eine Niedertemperaturbehandlung zur Aktivierung einer MAPK innerhalb von zehn Minuten [35]. In ähnlicher Weise wurde in Tabakzellen gezeigt, dass eine MAPK und eine andere Proteinkinase durch osmotischen Stress als Reaktion auf Ca 2+ oder auf ABA-unabhängige Weise aktiviert werden [36]. Das Mais-Gen ZmMAPK5 zeigten eine erhöhte Expression als Reaktion auf spezifische Niedertemperaturbehandlungen [22]. Bisher wurden verschiedene Mechanismen vorgeschlagen, die der Reaktion bei niedrigen Temperaturen zugrunde liegen, und relevante koordinierte Regulierungsnetzwerke wurden in Reis und . analysiert Arabidopsis. Insbesondere wurden die Signaltransduktionswege zwischen MPK-Aktivierung und ICE1-Stabilität bei niedrigen Temperaturen aufgeklärt. Dies markiert einen wichtigen Durchbruch auf dem Gebiet der Pflanzenregulation als Reaktion auf niedrige Temperaturen [37,38,39] und zeigt die wichtige Rolle der MAPK-Kaskadensignale. Ein Kandidatengen (Zm00001d039219), über die in dieser Studie berichtet wird, steht im Zusammenhang mit dem MAPK-Signalweg, der möglicherweise mit der Tieftemperaturtoleranz von Mais in Zusammenhang steht.

Funktionelle Analyse von Kandidatengenen

Zwei Kandidatengene (Zm00001d039219 und Zm00001d034319) haben mutmaßliche Funktionen im Zusammenhang mit der Niedertemperaturbeständigkeit, wie MAPK-Signalübertragung [22] und Fettsäurehydroxylase-Aktivität [40] bei Mais und anderen Arten. Zm00001d039219 kodiert ein Protein, das eine Pleckstrin-Homologie (PH)-Domäne enthält, die homolog ist zu Arabidopsis AT4G23895 und Reis LOC_Os05g51710.1. Pleckstrin-Homologie-(PH)-Domänen sind typischerweise daran beteiligt, Proteine ​​an den geeigneten zellulären Ort zu lenken und an Protein-Protein-Interaktionen. Trotz minimaler Sequenzerhaltung teilen sie eine gemeinsame elektrostatisch polarisierte Falte. Einige (< 10%) PH-Domänen binden Phosphoinositidphosphate (PIPs) mit hoher Spezifität und Affinität. Sie finden sich in einer Vielzahl von zellulären Signalproteinen, einschließlich Serin/Threonin-Kinasen, Adaptoren, Zytoskelett-assoziierten Molekülen, Lipid-assoziierten Enzymen, Tyrosinkinasen, Regulatoren von G-Proteinen und endozytotischen GTPasen [41]. Das mutmaßliche Protein kodiert von Zm00001d034319 ist eine Inosit-Phosphorylceramid-B-C-26-Hydroxylase, die zur Superfamilie der Fettsäure-Hydroxylasen gehört und eine Sequenzhomologie mit der Fettsäure-Hydroxylase in . aufweist Arabidopsis (AT2G34770) und in Reis (LOC_Os03g56820.1). Die Superfamilie der Fettsäure-Hydroxylasen umfasst sowohl Fettsäure- als auch Carotin-Hydroxylasen und Sterol-Desaturasen. Beta-Carotin-Hydroxylase hydroxyliert Beta-Carotin bei der Zeaxanthin-Synthese und kann an anderen Stoffwechselwegen beteiligt sein. Andere Familienmitglieder umfassen C-5-Sterol-Desaturasen und C-4-Sterol-Methyloxidasen. Die Familienmitglieder, die zwei Kopien des HXHH-Motivs enthalten, sind an der Cholesterinbiosynthese und der Biosynthese von pflanzlichem Kutikularwachs beteiligt. Diese Mitglieder sind typischerweise integrale Membranproteine ​​[41]. Die Fluidität der Maiszellmembran nimmt unter Niedertemperaturstress signifikant ab und die normale physiologische Funktion membrangebundener Proteine ​​geht verloren. Es wurde gezeigt, dass die Veränderung der Zusammensetzung von Membranlipidfettsäuren durch genetische Manipulation die Tieftemperaturtoleranz von Pflanzen verbessert [40].

Zusammenfassend lässt sich sagen, dass zwei Kandidatengene (Zm00001d039219 und Zm00001d034319) zeigten signifikant unterschiedliche Genexpressionsniveaus unter Niedertemperaturbehandlung in resistenten und sensitiven Maislinien. Homologe dieser Gene in Arabidopsis und Reis haben Funktionen im Zusammenhang mit der Stressresistenz bei niedriger Temperatur, sodass diese Gene attraktive Kandidatengene für eine Beteiligung an der Tieftemperaturtoleranz von Mais sind.


Materialen und Methoden

Pflanzenmaterialien, Wachstumsbedingungen und Versuchsdesign

Wie in Abb. 1a gezeigt, wurde ein Association Mapping Panel (AMP) bestehend aus 368 verschiedenen Inzuchtlinien [69, 70] mit 2 Behandlungen: DS und WW im RAP [27] mit aktualisierten HSI- und CT-Scannern in 2 Replikaten gepflanzt . Die Samen wurden am 27. März 2017 direkt in Töpfe mit 4,5 kg Erde ausgesät, und die WW-Gruppe wurde 1 Tag früher als die DS-Gruppe ausgesät. Nach der Aussaat wurden alle Pflanzen bewässert und dann mit Folie abgedeckt, die beim Auflaufen der Sämlinge entfernt wurde. Die Düngung erfolgte bei Aussaat, 3-Blatt-Stadium und 10-Blatt-Setzling-Stadium (60 kg Wasser + 370,68 g Carbamid + 330,76 g Kaliumdihydrogenphosphat + 94,24 g Kaliumchlorid, vollständig mit 150 ml Flüssigkeit aufzulösen Dünger). Ab dem 4-Blatt-Stadium (D25) wurde die Bewässerung der DS-Gruppe gestoppt, die WW-Gruppe wässerte normal und die Bodenfeuchtigkeit (SM) wurde mit einem DELTA-T-Bodenfeuchtigkeitskit (Delta-T Devices Ltd., UK) gemessen ). Wie in Abb. 1a gezeigt, sind die TS-Bedingungen in dieser Studie relativ zu den WW-Bedingungen, wobei die Bodenfeuchten der TS-Bedingungen von 50 auf . sinken

10%, während die Bodenfeuchtigkeit der WW-Bedingungen bei bleibt

50%. Im Keimlingsstadium wurden alle Maiszugänge zu 10 Zeitpunkten für RGB-Bildgebung (einmal alle 3 Tage, beginnend von D25 bis D52) und 4 Zeitpunkten für HSI-Bildgebung (einmal alle 6 Tage, beginnend von D34 bis D52) gescreent.

Um die dynamische Trockenheitsreaktion des AMP während des Blühstadiums zu phänotypisieren, wurden zwei Replikate der WW-Gruppe im Sämlingsexperiment in eine DS-Gruppe und eine WW-Gruppe aufgeteilt, und die Trockenbehandlung war die gleiche wie für das Sämlingsstadium.In der Blütephase wurde das AMP zu 3 Zeitpunkten mittels CT gescreent (einmal alle 7 Tage, beginnend von D84 bis D98). Der gesamte Versuchsplan, Inspektionstermine, Wetterbedingungen und SM sind in Zusatzdatei 1: Tabelle S21 enthalten.

Bildanalyse und Merkmalsextraktion

Nachdem für eine Pflanze ein binärer Datenstrom der HSI-Bildgebung erfasst wurde, wurde der binäre Datenstrom in 250 hyperspektrale Bilder reorganisiert. Nach Bildsegmentierung und Merkmalsberechnung wurden 2000 hyperspektrale i-Merkmale berechnet, die Gesamtreflexionsmerkmale, durchschnittliche Reflexionsmerkmale und logarithmische Merkmale enthielten (Zusatzdatei 1: Tabelle S2, Zusatzdatei 9: Anmerkung S1 und 2). Für jeden Beitritt wurden 3 verschiedene Behandlungen (DS, WW, DS/WW) zu 4 Zeitpunkten inspiziert, was 24.000 i-Merkmale ergab.

Für jedes RGB-Scannen einer Maispflanze wurden 20 RGB-Seitenansicht-Bilder aus 360 Winkeln erhalten. Nach der Bildbestimmung mit Berechnung der maximalen Pflanzenbreite, Bildsegmentierung und Merkmale wurden 67 RGB i-Merkmale extrahiert (Zusatzdatei 1: Tabelle S2, Zusatzdatei 9: Anmerkung S1 und 2). Für jeden Beitritt wurden 3 verschiedene Behandlungen (DS, WW, DS/WW) zu 10 Zeitpunkten inspiziert, was zu 2010 i-Traits führte.

Für jeden CT-Scan einer Maispflanze wird eine Serie von 360 röntgenprojizierten Bildern (Schritt 1°, Gesamtwinkel 1° × 360,

360°) wurde mit dem Hochdurchsatz-Mikro-CT-RGB-System (HCR) gesammelt [71]. Die Leistung der Röntgenquelle wurde auf 40 KV und 400 μA eingestellt, und die räumliche Auflösung des HCR wurde auf eingestellt

36 μm. Nach Extraktion des Sinogramms, Bildrekonstruktion, Bildsegmentierung und Berechnung von Merkmalen wurden 100 CT-Merkmale erhalten (Zusatzdatei 1: Tabelle S2, Zusatzdatei 9: Anmerkung S1 und 2). Für jeden Beitritt wurden 3 verschiedene Behandlungen (DS, WW, DS/WW) zu 3 Zeitpunkten inspiziert, was 900 CT i-Merkmale ergab. Die HSI-, RGB- und CT-Bildanalysen wurden mit LabVIEW 2015 (National Instruments, USA) entwickelt und die Dynamic Link Library mit Visual Studio 2013 (Microsoft, USA) generiert.

Auswahl von auf Trockenheit reagierenden i-Merkmale

Nachdem insgesamt 26910 i-Merkmale erhalten wurden, wurden die dürrebezogenen i-Merkmale mit den folgenden Schritten ausgewählt: (1) Zuerst wurde ein 3σ-Kriterium verwendet, um abnormale Daten zu eliminieren, die als Werte größer als der Mittelwert definiert wurden± 3σ. Das Grundkonzept des 3σ- oder PauTa-Kriteriums besteht darin, die gegebene Konfidenzwahrscheinlichkeit von 99,7% als Standard und die dreifache Standardabweichungsgrenze als Basis zu nehmen. Jeder Fehler, der diese Grenze überschreitet, wird nicht als Zufallsfehler, sondern als grober Fehler angesehen. Der Messwert mit grobem Fehler wird als abnormaler Wert bezeichnet, der aus den Messdaten eliminiert wird. (2) Nach dem Filtern von Ausreißern wird ein Independent-Samples T-Test wurde verwendet, um i-Merkmale mit signifikanten Unterschieden zwischen der DS-Gruppe und der WW-Gruppe auszuwählen, wobei ein 95%-Konfidenzintervall verwendet wurde. (3) Mehrschichtiges Perzeptron (MLP) wurde verwendet, um die i-Merkmale nach ihrer Bedeutung für die Klassifizierung der DS-Gruppe und der WW-Gruppe zu sortieren. Um den Fehler aufgrund zufälliger Ergebnisse zu reduzieren, wurde die Multilayer-Perceptron-Operation fünfmal wiederholt. Wenn der durchschnittliche Wichtigkeitswert eines i-Merkmals weniger als 50 % beträgt, wird es gelöscht. (4) Schließlich haben wir auch die Erblichkeit (h 2 ) der i-Merkmale, die für jedes i-Merkmal wie folgt berechnet wurden:

wo σ 2 g ist die genotypische Varianz, σ 2 e ist die Fehlervarianz und r ist die Anzahl der Replikationen. Die i-Merkmale mit höherer Heritabilität (h 2 ≥ 0,2) wurden für die weitere Analyse aufbewahrt. Die Ausreißerfilterung wurde mit LabVIEW 2015 (National Instruments, USA) durchgeführt. Die Multilayer-Perzeptron- und Independent-Samples-t-Tests wurden mit der SPSS-Softwareversion 25.0 (IBM, USA) durchgeführt. Die Heritabilität wurde mit der Funktion lmer im Paket lme4 in der R-Umgebung berechnet [26] (http://www.r-project.org/) [72] und das Heritability Screening wurde mit LabVIEW 2015 (National Instruments, USA ). Die ausgewählten RGB-, HSI- und CT-i-Merkmale sind in Zusatzdatei 1, Tabelle S3-S5 aufgeführt.

Genomweite Assoziationsstudien

In dieser Studie wurde eine genomweite Assoziationsstudie (GWAS) für i-Traits durchgeführt, um die statistischen Assoziationen zwischen Genotyp und Phänotyp (i-Traits) mit einem gemischten linearen Modell zu testen [25, 73, 74] (MLM, Q + K). In der Assoziationsanalyse wurden SNPs mit geringer Allelfrequenz (MAF ≥ 0,05) in den 368 Linien verwendet. GWAS wurde mit der Software TASEEL5.0 [75] unter Verwendung des unkomprimierten P3D-Modells durchgeführt. Um die Typ-I-Fehlerrate zu kontrollieren, wurde der p-Wert jedes SNP berechnet und die Signifikanz bei einem einheitlichen Schwellenwert von p ≤ 1,8 × 10 −6 (p = 1/nn = 558.650, Gesamtmarker verwendet) definiert [25] . Für jeden signifikanten i-Trait-Locus sind der signifikant assoziierte SNP und sein entsprechendes Kandidatengen in der zusätzlichen Datei 1, Tabelle S7, angegeben. Als Kandidatengene wurden nur Gene ausgewählt, die signifikant assoziierte SNPs im Bereich des Gens aufwiesen. Wenn andere signifikante SNPs innerhalb von 100 kb stromaufwärts oder stromabwärts eines signifikanten SNPs identifiziert wurden, wurden diese benachbarten SNPs zusammengeführt. Dieser Zusammenführungsvorgang wurde wiederholt, bis keine SNPs mehr zusammengeführt werden konnten. Der zusammengeführte Bereich wurde dann als Ziel-QTL bezeichnet.

EQTL-Mapping

Um zu bestimmen, ob die Kandidatengene auf Transkriptionsebene reguliert wurden, wurde GWAS verwendet, um die Beziehung zwischen den SNPs des gesamten Genoms und den Expressionsniveaus von i-Trait-assoziierten Kandidatengenen zu analysieren. In dieser Studie verwendeten wir die Expressionsdaten von 197 verschiedenen Inzuchtlinien (von zuvor veröffentlichten 540 Inzuchtlinien für die Assoziationskartierung) unter DS- und WW-Bedingungen, kombiniert mit 1,25 Millionen SNPs [41] für GWAS. Es gibt 135 Inzuchtlinien dieser 197 Linien, die auch an den 368 Inzuchtlinien, die in dieser Studie verwendet wurden, beteiligt sind. Die in dieser Analyse verwendeten SNPs haben Nebenallelfrequenzen (MAF) ≥ 0,05. Der p-Wert jedes SNP wurde berechnet und die Signifikanz wurde bei einem einheitlichen Schwellenwert von p ≤ 8,4 × 10 –7 (p = 1/n n = verwendete Gesamtmarker) definiert. Dann haben wir das 10-kb-Intervall zwischen signifikanten SNPs stromaufwärts und stromabwärts als eQTL-Intervall erweitert. Wenn das Kandidatengen innerhalb dieses Intervalls lag, wurde es als angesehen cis-anders geregelt, es war trans-reguliert.

Genontologische Analyse

Die GO-Anreicherungsanalyse wurde mit agriGO [76] (http://bioinfo.cau.edu.cn/agriGO/index.php [77]) durchgeführt. Eine falsche Entdeckungsrate (FDR ≤ 0,05) wurde verwendet, um signifikante GO-Begriffe zu identifizieren.

KEGG-Analyse

Die Anreicherungsanalyse des KEGG-Pfads wurde in zwei Schritten durchgeführt. Zuerst wurden die Maiskandidaten-Gen-IDs umgewandelt und durch angepasste Skripte unter Verwendung von Geninformationen (Zea_mays.gene info) von GenBank in Entrez-Gen-IDs gefiltert. Dann wurden die Entrez-IDs vom Gene-List-Enrichment-Tool in KOBAS3.0 (http://kobas.cbi.pku.edu.cn/kobas3) [78] aufgerufen, um die KEGG-Pfad-Anreicherung mit den Standardparametern durchzuführen [79] . Der Cut-off für die Signifikanz war P < 0,05. Gene-Trait-Netzwerk (Abb. 3a) wurde mit Gephi [80] (Version 0.9.2) implementiert.

Genomselektionsanalyse

Die Genomselektionsanalyse gliederte sich in drei Schritte: Zunächst wurden die gesamten Maisgenomgene in zwei Genpools unterteilt: den Kandidatengenpool und den Zufallsgenpool (ausgeschlossene Kandidatengene) und den SNP mit der signifikantesten Assoziation mit der Überlebensrate wurde ausgewählt, um dieses Gen zu repräsentieren. Zweitens wurde eine unterschiedliche Anzahl der signifikantesten SNPs (top1, top10, top20, top30, top40, top50, top100, alle Genome) für Kandidatengene ausgewählt. Für Zufallsgene wurden SNPs entsprechend der Anzahl der Kandidatengene jedes Mal zufällig ausgewählt und der Vorgang wurde 50 Mal wiederholt. Nach Erhalt aller SNPs der ausgewählten Gene (MAF ≥ 0,05) wurde schließlich das R-Paket RR-BLUP (http://www.r-project.org/) [72] und BGLR (Bayes A) [81] verwendet um die Überlebensraten von AMP vorherzusagen, von denen 50 % als Training und 50 % als Test verwendet wurden. Dabei wurden Kandidatengene 500-mal und Zufallsgene 10-mal wiederholt. Die endgültigen Vergleichsergebnisse basierten auf 500 Wiederholungen von GS-Analysen für jede gegebene Anzahl von Gensets. Der Korrelationskoeffizient r zwischen dem vorhergesagten Wert und dem beobachteten Wert wird verwendet, um die Genauigkeit der Vorhersage zu bewerten.

Metabolomische Studie mit GC-MS

Blätter von WW und DS B73 Wildtyp und Zmcpgm2 mutierte Pflanzen wurden für die metabolomischen Experimente mit jeweils drei biologischen Replikaten verwendet. In flüssigem Stickstoff eingefrorene Blattproben wurden in einem Mischer/Mühle (MM400 Retsch) mit einer Stahlkugel für 30 s bei 30 Hz gemahlen. 50 Milligramm jeder Probe wurden mit 3:1 Methyl-tert-butyl:Ether:Methanol, v:v extrahiert, wobei 10 µL 1 mg/mL 13C-Ribitol als interner Standard zugegeben wurde [82]. Insgesamt wurden 200 µl der polaren Phase für jede Probe in einem SpeedVac-Konzentrator ohne Erhitzen getrocknet. Die Probe wurde erneut in 50 μL 20 mg/mL O-Methylhydroxylamin-Hydrochlorid (Sigma, Steinheim, Schweiz) in Pyridin gelöst, gevortext und bei 37 °C für 120 Minuten inkubiert. Dann wurden 70 μL N-Methyl-N-trimethylsily-trifluoracetamid (Sigma, Steinheim, Schweiz) zu der Mischung gegeben, gevortext und bei 37 °C auf einem Schüttler für 30 Minuten inkubiert. Die Silyl-derivatisierten Proben wurden mittels GC-MS (7890A-5975C, Agilent, USA) analysiert.

Von jeder Probe wurde ein Mikroliter entnommen und in das GC-MS bei 270 °C im Split-Modus (50:1) mit Helium-Trägergas (> 99,999 % Reinheit) auf 1 ml/min eingestellt und durch ein DB-getrennt. 35MS UI (30 m × 0,25 mm, 0,25 μm) Kapillarsäule. Die Temperatur war 4 min lang isotherm bei 90 °C, gefolgt von einem Anstieg von 8 °C pro min auf 205 °C, dann 2 min gehalten und schließlich mit einer Geschwindigkeit von 15 °C pro min auf 310 °C hochgefahren , 2 min gehalten. Die Temperatur der Transferleitung wurde auf 300 °C eingestellt, und die Temperatur der Ionenquelle wurde auf 230 °C eingestellt. Der analysierte Massenbereich reichte von m/z 85 bis 700. Die Software Agilent MassHunter Qualitative Analysis (Version B06.00) und Agilent MassHunter Quantitative Analysis (Version B.07.01) wurden gemeinsam für GC-MS-Datenanalysen verwendet. Die NIST-Bibliothek und die interne Datenbank, die unter Verwendung authentischer Standards erstellt wurde, wurden zusammen zur Identifizierung von Metaboliten verwendet.

Überprüfen Sie die Trockenheitsresistenz von Zmcpgm2 und Zmfab1a

Um die Funktionen der Kandidatengene bei der Trockenheitsresistenz zu verifizieren, bestellten wir EMS-Mutanten von Zmcpgm2 und Zmfab1a und identifizierten ihre Genotypen durch die KASP-Methode (LGC, UK). Die mutmaßlichen EMS-Zielstellen der Gene wurden dann sequenziert, um die Mutation zu bestätigen (zusätzliche Datei 1, Tabelle S22). Homozygote Mutanten wurden durch Rückkreuzung gereinigt und anschließend in Hainan (18° 25' N, 109° 51' E) amplifiziert.

Von Ende März bis Anfang Juli 2019 haben wir gepflanzt Zmcpgm2, Zmfab1a und B73 (Wildtyp) für die Erkennung von i-Trait (RGB, HSI, CT). Jeder Genotyp wurde in zwei Behandlungen unterteilt: DS und WW, mit mindestens 10 Töpfen pro Behandlung. Die Maispflanzen wurden im 2-Blatt-Stadium in die RAP überführt. Dürrebehandlungen und Pflanzverfahren waren wie oben beschrieben. Alle Maiskeimlinge wurden zu 4 Zeitpunkten RGB- und HSI-Bildgebung unterzogen (der durchschnittliche SM unter Trockenstress betrug 41 %, 19 %, 15 % und 10 % zu den aufeinanderfolgenden Zeitpunkten). In der Blütephase wurden alle Maispflanzen durch CT-Bildgebung zu 4 Zeitpunkten mit mindestens 5 Töpfen pro Behandlung gescreent (die durchschnittliche SM unter Trockenstress betrug 45%, 20%, 15% bzw. 10%). Die Inspektionsdaten, Wetterbedingungen und SM-Daten sind in Zusatzdatei 1: Tabelle S21 enthalten.

Für das Überlebensraten-Experiment haben wir gepflanzt Zmcpgm2, Zmfab1a, und B73 im Herbst 2019. Jeder Genotyp wurde in zwei Behandlungen unterteilt: DS und WW, mit mindestens 10 Töpfen pro Behandlung in 3 Wiederholungen. Die Bewässerung wurde im 4-Blatt-Stadium gestoppt und die Trockenheitsbehandlung war die gleiche wie zuvor beschrieben. Als der SM 10% erreichte, wurden die Pflanzen erneut bewässert und die Überlebensrate wurde 3 Tage nach dem erneuten Bewässern bestimmt.

Das Photosynthese-Experiment wurde im Herbst 2019 durchgeführt. Danach Zmcpgm2, Zmfab1aund B73-Samen, die auf einer Petrischale keimten, wurden sie in Plastiktöpfe (Länge × Breite × Höhe = 42 cm × 32 cm × 15 cm) umgepflanzt. Jeder Topf wurde mit 12,5 kg Erde gefüllt. Die Düngung wurde vor dem Umpflanzen und dem 3-Blatt-Stadium durchgeführt. Die Mutanten und B73 wurden nebeneinander in den Töpfen gezüchtet, mit insgesamt 18 Pflanzen für jeden Genotyp, und es gab 3 Wiederholungen von jedem Experiment. Vor dem Mais-4-Blatt-Stadium wurden die Töpfe ins Freie gepflanzt. Die Temperatur der Wachstumskammer betrug 28 °C und der Lichtzyklus war 12 h hell/12 h dunkel. Trockenstress wurde eingeleitet, indem die Bewässerung im 4-Blatt-Stadium eingestellt wurde. Während des Trockenstresses haben wir einen LI-COR6800 (LI-COR, USA) verwendet, um die Photosyntheseparameter zu messen. Jeden zweiten Tag wurden 6 Blätter der Mutante und B73 in jedem Topf ab 8:30 Uhr gemessen. Nach der täglichen Messung verwendeten wir ein DELTA-T Bodenfeuchte-Kit (Delta-T Devices Ltd., UK), um SM zu messen.

Für Wasserverlustmessungen wurden Blätter von Zmcpgm2, Zmfab1a, und B73 im 6-Blatt-Stadium und wurden der Luft bei Raumtemperatur ausgesetzt. Diese Blätter wurden in verschiedenen Zeitintervallen gewogen und der Verlust an Frischgewicht (Prozent) wurde verwendet, um die Wasserverlustrate zu berechnen.

Datenverfügbarkeit

Die ausgewählten RGB-, HSI- und CT-i-Merkmale sind in Zusatzdatei 1: Tabelle S3-S5 aufgeführt. Insgesamt sind 4322 signifikante SNPs und 2318 Kandidatengene, die mit i-Traits assoziiert sind, in Zusatzdatei 1: Tabelle S7 aufgeführt. Alle Bilder, phänotypischen Daten und Genotypdaten sind unter folgendem Link öffentlich zur Wiederverwendung verfügbar: https://doi.org/10.6084/m9.figshare.14429003.v1 [83]. Der Code der CT-, HSI- und RGB-Bildanalysepipelines kann über den Link heruntergeladen werden: https://github.com/fenghuifh2006/Maize-RGB-CT-HSI-program und https://doi.org/10.5281/zenodo .4690730 [84, 85]. Alle Abbildungen und ergänzenden Dateien konnten über den Link heruntergeladen werden: https://doi.org/10.6084/m9.figshare.14412572.v1 [86]. Alle anderen angemessenen Anfragen nach Daten und Forschungsmaterialien sind durch Kontaktaufnahme mit den entsprechenden Autoren erhältlich.


Offene Forschung

Alle für diesen Artikel gesammelten Daten sind in öffentlichen Repositorien zugänglich. Die phänotypischen Rohdaten der gemessenen Arabidopsis HapMap-Akzessionen in dieser Studie sind unter https://doi.org/10.5281/zenodo.3740415 zu finden, während das r-Notebook mit einer Zusammenfassung der Analyseschritte unter https://doi.org/ verfügbar ist. 10.6084/m9.figshare.12173382.v1. Die räumlich korrigierten Daten für die HapMap-Population wurden unter https://doi.org/10.5281/zenodo.3740429 zur Verfügung gestellt, die als Eingabe für das GWAS verwendet wurden. Die GWAS-Ausgabedateien finden Sie unter https://doi.org/10.5281/zenodo.3740443, während das r-Skript zum Generieren der Manhattan- und QQ-Plots unter https://rpubs.com/mjulkowska/ArabidopsisEarlySaltManhattanAndQQ zu finden ist. Die phänotypischen Rohdaten der T-DNA-Experimente können unter https://doi.org/10.5281/zenodo.3762244 abgerufen werden, während die r-Analysepipeline unter https://rpubs.com/mjulkowska/Arabidopsis_PSI_TDNA_pipeline_01 verfügbar ist.

Tabelle S1. Die untersuchten Arabidopsis-Akzessionen. Details zur Nordborg-ID des Beitritts, die Namen der Samensammler und die Breiten- und Längenkoordinaten der Samensammelstellen wurden vom 1001 Arabidopsis Genomes Project erhalten, während die Zugangs-CS-Nummern von der Arabidopsis Information Resource (TAIR)-Website abgerufen wurden.

Tabelle S2. Zusammenfassung der Rot:Grün:Blau-, Grün- und Chlorophyll-Fluoreszenz-Merkmalsbeschreibungen, Werte und signifikanten Veränderungen. Die Pflanzen wurden 1 h bis 7 Tage nach der Kontrolle oder Salzbehandlung mit dem Hochdurchsatz-Phänotypisierungssystem gescreent. Die Mittelwerte basierten auf dem letzten Tag der Messung von drei oder mehr biologischen Replikaten pro Genotyp und Zustand unter Verwendung des Standardfehlers. Grüntöne wurden als [Rot:Grün:Blau]-Koordinaten im RGB-Raum dargestellt, die aus dem RGB-Bildfarbsegmentierungsprozess erhalten wurden. Die salzinduzierten signifikanten Veränderungen und die Tage, an denen die Veränderungen im Vergleich zu den Kontrollbedingungen beobachtet wurden, wurden unter Verwendung einer Einweg-Varianzanalyse für alle Tage nach dem Transfer (DAT) bestimmt. RGB, Rot:Grün:Blau.

Tabelle S3. Mehrere lineare Regressionsmodelle für den Rosettenbereich. Alle gemessenen Merkmale wurden als erklärende Variablen, mit Ausnahme des Rosettenumfangs und der Grüntöne, in die multiplen linearen Regressionsmodelle der Rosettenfläche (mm 2 ) implementiert. Der Begriff „Schätzung“ stellt die jedem Merkmal zugeschriebenen Modellneigungswerte dar, während der Standardfehler (SE) die Abweichung der Koeffizientenschätzung vom tatsächlichen Wert der Antwortvariablen widerspiegelt. Die T-Wert stellt die Abweichungen der Koeffizientenschätzung von 0 dar, während Pr(>|T|) ist die Wahrscheinlichkeit, einen Wert gleich oder größer als zu beobachten T. Die Bedeutung der Werte ist enthalten, wobei ‘ ’, ‘.’, *, ** und *** angeben P-Werte >0,1, <0,1, 0,05, 0,01 bzw. 0,001.

Tabelle S4. Genomweite Assoziationsstudienergebnisse der signifikant assoziierten Loci. Die Assoziationen wurden unter Verwendung der räumlich korrigierten phänotypischen Daten von Arabidopsis durchgeführt, die aus den RGB- und Chlorophyll-Fluoreszenzbildern abgeleitet wurden, bestehend aus Rosettengröße, Morphologie, Grün und Chlorophyll-Fluoreszenzmerkmalen, die unter Kontroll- und Salzstressbedingungen erfasst wurden. Der Salztoleranzindex (STI) wurde in den beiden Zeitintervallen 0 bis 3 und 4 bis 7 Tage nach der Behandlung geschätzt. Im GWAS wurden Single-Trait- und Multi-Trait-Mixed-Modelle (MTMM) verwendet, bei denen der Logarithm of Odds (LOD)-Score durch −log . geschätzt wurde10(P-Wert). Die erklärte Varianz bezieht sich auf die in der untersuchten Population beobachtete natürliche Variation. GWAS, Genomweite Assoziationsstudie.

Tabelle S5. Zusammenfassung der identifizierten Loci, die aus der genomweiten Assoziationsstudie (GWAS) generiert wurden. Die signifikant assoziierten SNPs über mehrere Zeitpunkte und Merkmale wurden zusammengestellt, wobei die salzspezifischen Merkmale hervorgehoben wurden. Das Single-Trait-GWAS-Modell wurde verwendet, um alle aufgeführten Assoziationen zu identifizieren, wobei jeder signifikante SNP, der sich innerhalb von 10 kbp von einem anderen signifikanten SNP befindet, als Kopplungsungleichgewicht betrachtet und als ein Locus behandelt wurde. Upstream- und Downstream-SNPs beziehen sich auf die flankierenden SNPs jedes geschätzten Locus. Der LOD-Score wurde durch −log . geschätzt10(P-Wert), während die Anzahl der SNPs, Merkmale, Tage und Behandlungen jedes Locus angegeben wurde. Behandlungszahlenwerte von 1 zeigen Assoziationen an, die entweder bei der Kontrolle oder der Salzbehandlung gefunden wurden, 2 zeigt beide Behandlungen an, während 3 Assoziationen anzeigt, die bei den beiden Behandlungen üblich sind und das Verhältnis von Salz zu Kontrolle verwendet wird. Die Matrix veranschaulicht die signifikanten Assoziationen in jedem Locus pro Merkmal unter Verwendung eines Binärcodes von 0 und 1, was das Fehlen bzw. Vorhandensein einer signifikanten Assoziation widerspiegelt. Die in der Matrix enthaltenen Merkmale wurden als treatment_trait_day bezeichnet.

Tabelle S6. Die T-DNA-Insertionslinien und Primer, die für die genotypische Validierung verwendet wurden. Die Primer wurden mit dem T-DNA Express: Arabidopsis Gene Mapping Tool des Salk Institute Genomic Analysis Laboratory entworfen, wobei Col-0 (Wildtyp) als Hintergrundlinie zur Erzeugung der T-DNA-Insertionslinien verwendet wurde. Die zur Validierung der T-DNA-Insertionslinien verwendeten linken und rechten Primer (LP bzw. RP) wurden aufgelistet, ebenso wie die erwartete Bandengröße von Col-0 (WT), die durch die PCR-Reaktion von LP und RP . erhalten wurde . Die erwartete Größe der Bande in der T-DNA-Insertionsmutante, die durch die PCR-Reaktion von RP und dem SALK- oder SAIL-spezifischen Border-Primer (BP) erhalten wurde, wurde ebenfalls aufgeführt.

Tabelle S7. Die Primer, die für die Zielgenexpressionen der T-DNA-Insertionslinien verwendet wurden. Fwd und Rev beziehen sich auf die Vorwärts- bzw. Rückwärts-Primersequenzrichtungen.

Bitte beachten Sie: Der Herausgeber ist nicht verantwortlich für den Inhalt oder die Funktionalität der von den Autoren bereitgestellten unterstützenden Informationen. Alle Anfragen (außer fehlenden Inhalten) sollten an den entsprechenden Autor des Artikels gerichtet werden.


Inhalt

Eine typische menschliche Zelle besteht aus etwa 2 x 3,3 Milliarden Basenpaaren DNA und 600 Millionen Basen mRNA. Normalerweise wird eine Mischung aus Millionen von Zellen verwendet, um die DNA oder RNA mit traditionellen Methoden wie der Sanger-Sequenzierung oder der Illumina-Sequenzierung zu sequenzieren. Durch die tiefe Sequenzierung von DNA und RNA aus einer einzelnen Zelle können zelluläre Funktionen umfassend untersucht werden. [1] Wie typische NGS-Experimente enthalten die Protokolle der Einzelzellsequenzierung im Allgemeinen die folgenden Schritte: Isolierung einer einzelnen Zelle, Nukleinsäureextraktion und -amplifikation, Vorbereitung der Sequenzierungsbibliothek, Sequenzierung und bioinformatische Datenanalyse. Es ist schwieriger, eine Einzelzellsequenzierung durchzuführen als eine Sequenzierung aus Zellen in großen Mengen. Die minimale Menge an Ausgangsmaterialien aus einer einzelnen Zelle führt dazu, dass Abbau, Probenverlust und Kontamination deutliche Auswirkungen auf die Qualität der Sequenzierungsdaten haben. Darüber hinaus ist aufgrund des Picogramm-Niveaus der verwendeten Nukleinsäuremenge [4] während der Probenvorbereitung der Einzelzellsequenzierung häufig eine starke Amplifikation erforderlich, was zu einer ungleichmäßigen Abdeckung, einem Rauschen und einer ungenauen Quantifizierung der Sequenzierungsdaten führt.

Jüngste technische Verbesserungen machen die Einzelzellsequenzierung zu einem vielversprechenden Werkzeug, um eine Reihe scheinbar unzugänglicher Probleme anzugehen. Beispielsweise können heterogene Proben, seltene Zelltypen, Zelllinienbeziehungen, Mosaik von Körpergeweben, Analysen von nicht kultivierbaren Mikroben und Krankheitsverlauf durch Einzelzellsequenzierung aufgeklärt werden. [5] Die Einzelzellsequenzierung wurde von der Nature Publishing Group zur Methode des Jahres 2013 gewählt. [6]

Bei der Einzelzell-DNA-Genomsequenzierung wird eine einzelne Zelle isoliert, das gesamte Genom oder die interessierende Region amplifiziert, Sequenzierungsbibliotheken erstellt und dann die DNA-Sequenzierung der nächsten Generation (z. B. Illumina, Ion Torrent, MGI) angewendet. In Säugersystemen ist die Einzelzell-DNA-Sequenzierung weit verbreitet, um die normale Physiologie und Krankheit zu untersuchen. Die Einzelzellauflösung kann die Rolle des genetischen Mosaiks oder der intratumoralen genetischen Heterogenität bei der Krebsentwicklung oder dem Ansprechen auf die Behandlung aufdecken. [7] Im Kontext von Mikrobiomen wird ein Genom eines einzelnen einzelligen Organismus als Single Amplified Genom (SAG) bezeichnet. Fortschritte bei der Einzelzell-DNA-Sequenzierung haben die Sammlung von Genomdaten von unkultivierten prokaryontischen Spezies ermöglicht, die in komplexen Mikrobiomen vorkommen. [8] Obwohl sich SAGs durch eine geringe Vollständigkeit und signifikante Verzerrung auszeichnen, haben neuere Computerfortschritte den Aufbau nahezu vollständiger Genome aus zusammengesetzten SAGs ermöglicht. [9] Daten, die von Mikroorganismen gewonnen wurden, könnten in Zukunft Verfahren für die Kultivierung etablieren. [10] Einige der Genom-Assembly-Tools, die bei der Einzelzell-Genomsequenzierung verwendet werden können, umfassen: SPAdes, IDBA-UD, Cortex und HyDA. [11]

Methoden Bearbeiten

Multiple Displacement Amplification (MDA) ist eine weit verbreitete Technik, die es ermöglicht, DNA-Femtogramme von Bakterien auf Mikrogramme für die Sequenzierung zu amplifizieren. Zu den für MDA-Reaktionen erforderlichen Reagenzien gehören: Zufallsprimer und DNA-Polymerase aus dem Bakteriophagen phi29. Bei einer 30-Grad-isothermen Reaktion wird die DNA mit den enthaltenen Reagenzien amplifiziert. Während die Polymerasen neue Stränge herstellen, findet eine Strangverdrängungsreaktion statt, bei der mehrere Kopien von jeder Matrizen-DNA synthetisiert werden. Gleichzeitig werden die zuvor verlängerten Stränge verdrängt. MDA-Produkte haben eine Länge von ca. 12 kb und reichen bis ca. 100 kb, was den Einsatz in der DNA-Sequenzierung ermöglicht. [10] Im Jahr 2017 wurde eine wesentliche Verbesserung dieser Technik namens WGA-X eingeführt, indem eine thermostabile Mutante der phi29-Polymerase genutzt wurde, die zu einer besseren Genomgewinnung aus einzelnen Zellen, insbesondere solchen mit hohem G+C-Gehalt, führte . [13] MDA wurde auch in einem mikrofluidischen Tröpfchen-basierten System implementiert, um eine hochgradig parallelisierte Amplifikation des gesamten Genoms einzelner Zellen zu erreichen. Durch die Einkapselung einzelner Zellen in Tröpfchen zum Einfangen und Amplifizieren von DNA bietet dieses Verfahren im Vergleich zu herkömmlichem MDA eine geringere Verzerrung und einen verbesserten Durchsatz. [14]

Eine andere gängige Methode ist MALBAC. [15] Diese Methode beginnt mit einer isothermen Amplifikation wie bei MDA, aber die Primer werden von einer „gemeinsamen“ Sequenz für die nachgeschaltete PCR-Amplifikation flankiert. Wenn die vorläufigen Amplikons erzeugt werden, fördert die gemeinsame Sequenz die Selbstligation und die Bildung von „Schleifen“, um eine weitere Amplifikation zu verhindern. Im Gegensatz zu MDA wird das hochverzweigte DNA-Netzwerk nicht gebildet. Stattdessen werden die Loops in einem weiteren Temperaturzyklus denaturiert, sodass die Fragmente mit PCR amplifiziert werden können. MALBAC wurde auch in einem mikrofluidischen Gerät implementiert, aber die Amplifikationsleistung wurde durch die Einkapselung in Nanolitertröpfchen nicht signifikant verbessert. [16]

Beim Vergleich von MDA und MALBAC führt MDA zu einer besseren Genomabdeckung, aber MALBAC bietet eine gleichmäßigere Abdeckung über das gesamte Genom. MDA könnte für die Identifizierung von SNPs effektiver sein, während MALBAC zum Nachweis von Kopienzahlvarianten bevorzugt wird. Während die Durchführung von MDA mit einem mikrofluidischen Gerät Bias und Kontamination deutlich reduziert, zeigt die an MALBAC beteiligte Chemie nicht das gleiche Potenzial für eine verbesserte Effizienz.

Ein besonders geeignetes Verfahren zur Entdeckung genomischer Strukturvariationen ist die Einzelzell-DNA-Matrizenstrang-Sequenzierung (auch bekannt als Strand-Seq). [17] Unter Verwendung des Prinzips der Einzelzell-Tri-Kanal-Verarbeitung, die gemeinsame Modellierung von Leseorientierung, Lesetiefe und Haplotyp-Phase verwendet, ermöglicht Strand-seq die Entdeckung des gesamten Spektrums somatischer struktureller Variationsklassen ≥200 kb in Größe. Strand-seq überwindet die Beschränkungen der auf der Amplifikation des gesamten Genoms basierenden Methoden zur Identifizierung somatischer genetischer Variationsklassen in einzelnen Zellen [18], da es nicht gegen Lese-Chimäre anfällig ist, die zu Calling-Artefakten führen (detailliert im folgenden Abschnitt besprochen) und weniger von Ausfällen betroffen. Die Wahl der Methode hängt vom Ziel der Sequenzierung ab, da jede Methode andere Vorteile bietet. [7]

Einschränkungen Bearbeiten

Die MDA einzelner Zellgenome führt zu einer sehr ungleichmäßigen Genomabdeckung, d. h. einer relativen Über- und Unterrepräsentation verschiedener Regionen der Matrize, was zum Verlust einiger Sequenzen führt. Dieser Prozess besteht aus zwei Komponenten: a) stochastische Über- und Unterverstärkung zufälliger Regionen und b) systematische Verzerrung gegenüber Regionen mit hohem GC-Gehalt. Die stochastische Komponente kann adressiert werden, indem Einzelzell-MDA-Reaktionen vom gleichen Zelltyp gepoolt werden, indem eine Fluoreszenz-in-situ-Hybridisierung (FISH) und/oder eine Bestätigung nach der Sequenzierung verwendet wird. [10] Der Bias von MDA gegenüber Regionen mit hohem GC-Gehalt kann durch die Verwendung thermostabiler Polymerasen, wie in dem als WGA-X bezeichneten Prozess, angegangen werden. [13]

Single-Nukleotid-Polymorphismen (SNPs), die einen großen Teil der genetischen Variation im menschlichen Genom ausmachen, und die Kopienzahlvariation (CNV) stellen Probleme bei der Einzelzellsequenzierung dar, ebenso wie die begrenzte Menge an DNA, die aus einer einzelnen Zelle extrahiert wird. Aufgrund der geringen DNA-Mengen bereitet eine genaue DNA-Analyse selbst nach der Amplifikation Probleme, da die Abdeckung gering und fehleranfällig ist. Bei MDA beträgt die durchschnittliche Genomabdeckung weniger als 80 % und SNPs, die nicht durch Sequenzierungs-Reads abgedeckt werden, werden ausgeschlossen. Darüber hinaus weist MDA ein hohes Verhältnis von Allel-Dropout auf und erkennt keine Allele aus heterozygoten Proben. Derzeit werden verschiedene SNP-Algorithmen verwendet, aber keiner ist spezifisch für die Einzelzellsequenzierung. MDA mit CNV wirft auch das Problem auf, falsche CNVs zu identifizieren, die die echten CNVs verbergen. Um dies zu lösen, können Algorithmen dieses Rauschen erkennen und beseitigen, wenn Muster aus falschen CNVs erzeugt werden können, um echte Varianten zu erzeugen. [19]

Strand-seq überwindet die Grenzen von Methoden, die auf der Amplifikation des gesamten Genoms für das Genvarianten-Calling basieren: Da Strand-seq keine Reads (oder Read-Paare) erfordert, die die Grenzen (oder Breakpoints) von CNVs oder kopienbalancierten strukturellen Variantenklassen überschreiten, ist es weniger anfällig für allgemeine Artefakte von Einzelzellmethoden, die auf der Amplifikation des gesamten Genoms basieren, einschließlich Ausfällen von Variantenaufrufen aufgrund fehlender Reads am Varianten-Breakpoint und Read-Chimäre. [7] [18] Strand-seq entdeckt das gesamte Spektrum an strukturellen Variationsklassen von mindestens 200 kb Größe, einschließlich Bruch-Fusions-Brücken-Zyklen und Chromothripsis-Ereignissen sowie balancierte Inversionen und kopienzahlbalancierte oder unbalancierte Translokationen. [18] " Strukturelle Variantenaufrufe von Strand-seq werden durch den Chromosomenlängen-Haplotyp aufgelöst, was zusätzliche Spezifität für Variantenaufrufe bietet. [18] Als aktuelle Einschränkung erfordert Strand-seq sich teilende Zellen für die strangspezifische Markierung mit Bromdesoxyuridin (BrdU ) und die Methode erkennt keine Varianten mit einer Größe von weniger als 200 KB, wie z. B. das Einfügen von mobilen Elementen.

Anwendungen Bearbeiten

Mikrobiome gehören aufgrund der Schwierigkeit, die meisten Mikroorganismen in den meisten Umgebungen zu kultivieren, zu den Hauptzielen der Einzelzellgenomik. Die Einzelzellgenomik ist eine leistungsstarke Methode, um mikrobielle Genomsequenzen ohne Kultivierung zu erhalten. Dieser Ansatz wurde in großem Umfang auf Meeres-, Boden-, Untergrund-, Organismen- und andere Arten von Mikrobiomen angewendet, um ein breites Spektrum von Fragen im Zusammenhang mit mikrobieller Ökologie, Evolution, öffentlichem Gesundheitswesen und biotechnologischem Potenzial zu beantworten. [20] [21] [22] [23] [24] [25] [26] [27] [28]

Die Krebssequenzierung ist ebenfalls eine neue Anwendung von scDNAseq. Frische oder gefrorene Tumoren können unter Verwendung von Gesamtgenom-DNAS-Ansätzen ziemlich gut in Bezug auf SCNAs, SNVs und Umlagerungen analysiert und kategorisiert werden. [29] Krebs-scDNAseq ist besonders nützlich für die Untersuchung der Komplexitätstiefe und der zusammengesetzten Mutationen, die in amplifizierten therapeutischen Zielen wie Rezeptor-Tyrosin-Kinase-Genen (EGFR, PDGFRA usw.) die Muster des gemeinsamen Auftretens dieser Mutationen innerhalb einzelner Zellen des Tumors. Eine solche Überlappung kann eine Redundanz der Signalwegaktivierung und der Tumorzellresistenz bereitstellen.

Die Einzelzell-DNA-Methylom-Sequenzierung quantifiziert die DNA-Methylierung. Es gibt mehrere bekannte Methylierungsarten, die in der Natur vorkommen, darunter 5-Methylcytosin (5mC), 5-Hydromethylcytosin (5hmC), 6-Methyladenin (6mA) und 4mC 4-Methylcytosin (4mC). Bei Eukaryoten, insbesondere Tieren, ist 5mC entlang des Genoms weit verbreitet und spielt eine wichtige Rolle bei der Regulierung der Genexpression durch die Unterdrückung transponierbarer Elemente. [31] Die Sequenzierung von 5mC in einzelnen Zellen kann zeigen, wie epigenetische Veränderungen in genetisch identischen Zellen eines einzelnen Gewebes oder einer Population zu Zellen mit unterschiedlichen Phänotypen führen.

Methoden Bearbeiten

Die Bisulfit-Sequenzierung hat sich zum Goldstandard für den Nachweis und die Sequenzierung von 5 mC in Einzelzellen entwickelt. [32] Die Behandlung von DNA mit Bisulfit wandelt Cytosinreste in Uracil um, lässt jedoch 5-Methylcytosinreste unberührt. Daher behält DNA, die mit Bisulfit behandelt wurde, nur methylierte Cytosine. Um die Methylom-Auslesung zu erhalten, wird die Bisulfit-behandelte Sequenz auf ein unmodifiziertes Genom ausgerichtet. Die Bisulfit-Sequenzierung des gesamten Genoms wurde 2014 in Einzelzellen erreicht. [33] Die Methode überwindet den DNA-Verlust, der mit dem typischen Verfahren verbunden ist, bei dem Sequenzierungsadapter vor der Bisulfit-Fragmentierung hinzugefügt werden. Stattdessen werden die Adapter hinzugefügt, nachdem die DNA behandelt und mit Bisulfit fragmentiert wurde, sodass alle Fragmente durch PCR amplifiziert werden können. [34] Mithilfe von Deep Sequencing erfasst diese Methode

40% der gesamten CpGs in jeder Zelle. Mit der bestehenden Technologie kann DNA vor der Bisulfit-Behandlung nicht amplifiziert werden, da die 5mC-Markierungen nicht von der Polymerase kopiert werden.

Eine weitere Methode ist die Bisulfit-Sequenzierung mit reduzierter Repräsentation von Einzelzellen (scRRBS). [35] Diese Methode nutzt die Tendenz methylierter Cytosine, sich an CpG-Inseln (CGIs) zu gruppieren, um Bereiche des Genoms mit hohem CpG-Gehalt anzureichern. Dies reduziert die Kosten der Sequenzierung im Vergleich zur vollständigen Genom-Bisulfit-Sequenzierung, schränkt jedoch die Abdeckung dieser Methode ein. Wenn RRBS auf Massenproben angewendet wird, wird die Mehrheit der CpG-Stellen in Genpromotoren nachgewiesen, aber die Stellen in Genpromotoren machen nur 10 % der CpG-Stellen im gesamten Genom aus. [36] In Einzelzellen werden 40 % der CpG-Stellen aus der Massenprobe nachgewiesen. Um die Abdeckung zu erhöhen, kann diese Methode auch auf einen kleinen Pool von Einzelzellen angewendet werden. In einer Probe von 20 gepoolten Einzelzellen wurden 63 % der CpG-Stellen aus der Sammelprobe nachgewiesen. Das Poolen einzelner Zellen ist eine Strategie zur Erhöhung der Methylomabdeckung, jedoch auf Kosten der Verschleierung der Heterogenität in der Zellpopulation.

Einschränkungen Bearbeiten

Während die Bisulfit-Sequenzierung der am weitesten verbreitete Ansatz für den 5mC-Nachweis bleibt, ist die chemische Behandlung hart und fragmentiert und zersetzt die DNA. Dieser Effekt wird verstärkt, wenn von Massenproben zu Einzelzellen übergegangen wird. Andere Verfahren zum Nachweis der DNA-Methylierung umfassen methylierungsempfindliche Restriktionsenzyme. Restriktionsenzyme ermöglichen auch den Nachweis anderer Methylierungsarten, wie beispielsweise 6mA mit DpnI. [37] Die Nanoporen-basierte Sequenzierung bietet auch einen Weg zur direkten Methylierungssequenzierung ohne Fragmentierung oder Modifikation der ursprünglichen DNA. Nanoporen-Sequenzierung wurde verwendet, um die Methylome von Bakterien zu sequenzieren, die von 6 mA und 4 mC (im Gegensatz zu 5 mC in Eukaryoten) dominiert werden, aber diese Technik wurde noch nicht auf einzelne Zellen herunterskaliert. [38]

Anwendungen Bearbeiten

Die Einzelzell-DNA-Methylierungssequenzierung wurde häufig verwendet, um epigenetische Unterschiede in genetisch ähnlichen Zellen zu untersuchen. Um diese Methoden während ihrer Entwicklung zu validieren, wurden die Einzelzell-Methylomdaten einer gemischten Population erfolgreich durch hierarchisches Clustering klassifiziert, um verschiedene Zelltypen zu identifizieren. [35] Eine weitere Anwendung ist die Untersuchung einzelner Zellen während der ersten Zellteilungen in der frühen Entwicklung, um zu verstehen, wie verschiedene Zelltypen aus einem einzelnen Embryo hervorgehen. [39] Die Einzelzell-Genom-Bisulfit-Sequenzierung wurde auch verwendet, um seltene, aber hochaktive Zelltypen bei Krebs wie zirkulierende Tumorzellen (CTCs) zu untersuchen. [40]

Einzelzelltransposase-zugängliche Chromatin-Sequenzierung kartiert die Zugänglichkeit von Chromatin im gesamten Genom. Eine Transposase fügt Sequenzierungsadapter direkt in offene Chromatinregionen ein, wodurch diese Regionen amplifiziert und sequenziert werden können. [41]

Standardmethoden wie Microarrays und Bulk-RNA-Seq-Analyse analysieren die Expression von RNAs aus großen Zellpopulationen. In gemischten Zellpopulationen können diese Messungen kritische Unterschiede zwischen einzelnen Zellen innerhalb dieser Populationen verschleiern. [42] [43]

Einzelzell-RNA-Sequenzierung (scRNA-seq) liefert die Expressionsprofile einzelner Zellen und gilt ab 2020 als Goldstandard für die Definition von Zellzuständen und Phänotypen In jeder Zelle können aufgrund der geringen Menge an verfügbarem Material Muster der Genexpression durch Gen-Clustering-Analysen identifiziert werden. [45] Dies kann die Existenz seltener Zelltypen innerhalb einer Zellpopulation aufdecken, die vielleicht noch nie zuvor gesehen wurde. Zum Beispiel wurden 2018 von zwei Gruppen identifiziert, die scRNA-Seq auf Lungen-Atemwegsepithelien durchführten, seltene spezialisierte Zellen in der Lunge, die als pulmonale Ionozyten bezeichnet werden und den Transmembran-Leitfähigkeitsregulator für zystische Fibrose exprimieren. [46] [47]

Methoden Bearbeiten

Aktuelle scRNA-seq-Protokolle beinhalten die Isolierung einzelner Zellen und ihrer RNA und dann das Befolgen der gleichen Schritte wie Bulk-RNA-seq: reverse Transkription (RT), Amplifikation, Generierung von Bibliotheken und Sequenzierung. Frühere Verfahren trennten einzelne Zellen in separate Vertiefungen, neuere Verfahren kapseln einzelne Zellen in Tröpfchen in einer Mikrofluidik-Vorrichtung ein, wo die reverse Transkriptionsreaktion stattfindet, wodurch RNAs in cDNAs umgewandelt werden. Jedes Tröpfchen trägt einen DNA-"Barcode", der die von einer einzelnen Zelle abgeleiteten cDNAs eindeutig markiert. Sobald die reverse Transkription abgeschlossen ist, können die cDNAs vieler Zellen zur Sequenzierung zusammengemischt werden. Transkripte einer bestimmten Zelle werden durch den einzigartigen Barcode identifiziert. [48] ​​[49]

Zu den Herausforderungen für scRNA-Seq gehören die Erhaltung der anfänglichen relativen Häufigkeit von mRNA in einer Zelle und die Identifizierung seltener Transkripte. [50] Der Schritt der reversen Transkription ist entscheidend, da die Effizienz der RT-Reaktion bestimmt, wie viel der RNA-Population der Zelle schließlich vom Sequenzierer analysiert wird. Die Prozessivität von reversen Transkriptasen und die verwendeten Priming-Strategien können die Produktion von cDNA in voller Länge und die Erzeugung von Bibliotheken beeinflussen, die zum 3'- oder 5'-Ende von Genen tendieren.

Im Amplifikationsschritt wird derzeit entweder PCR oder In-vitro-Transkription (IVT) verwendet, um cDNA zu amplifizieren. Einer der Vorteile von PCR-basierten Verfahren ist die Fähigkeit, cDNA voller Länge zu erzeugen. Jedoch kann auch eine unterschiedliche PCR-Effizienz bestimmter Sequenzen (z. B. GC-Gehalt und Snapback-Struktur) exponentiell amplifiziert werden, wodurch Bibliotheken mit ungleichmäßiger Abdeckung erzeugt werden. Auf der anderen Seite können, während durch IVT erzeugte Bibliotheken einen PCR-induzierten Sequenz-Bias vermeiden können, spezifische Sequenzen ineffizient transkribiert werden, wodurch ein Sequenzausfall oder die Erzeugung unvollständiger Sequenzen verursacht wird. [1] [42] Mehrere scRNA-seq-Protokolle wurden veröffentlicht: Tang et al., [51] STRT, [52] SMART-seq, [53] CEL-seq, [54] RAGE-seq, [55] Quartz -Folge [56] und C1-CAGE. [57] Diese Protokolle unterscheiden sich in Bezug auf Strategien für die reverse Transkription, cDNA-Synthese und -Amplifikation und die Möglichkeit, sequenzspezifische Barcodes (d. h. UMIs) aufzunehmen oder gepoolte Proben zu verarbeiten. [58]

Im Jahr 2017 wurden zwei Ansätze eingeführt, um gleichzeitig die mRNA- und Proteinexpression einzelner Zellen durch Oligonukleotid-markierte Antikörper, bekannt als REAP-seq, [59] und CITE-seq. [60]

Einschränkungen Bearbeiten

Die meisten RNA-Seq-Methoden hängen vom Einfangen von Poly(A)-Schwanzen ab, um mRNA anzureichern und reichlich vorhandene und nicht aussagekräftige rRNA zu verbrauchen.Daher sind sie oft darauf beschränkt, polyadenylierte mRNA-Moleküle zu sequenzieren. Neuere Studien beginnen jedoch nun, die Bedeutung von Nicht-Poly(A)-RNA, wie lang nicht kodierender RNA und microRNAs, für die Genexpressionsregulation zu erkennen. Small-seq ist eine Einzelzellmethode, die kleine RNAs (<300 Nukleotide) wie microRNAs, Fragmente von tRNAs und kleine nukleoläre RNAs in Säugerzellen einfängt. [61] Diese Methode verwendet eine Kombination aus „Oligonukleotidmasken“ (die das Einfangen sehr häufig vorkommender 5.8S-rRNA-Moleküle hemmen) und Größenauswahl, um große RNA-Spezies wie andere sehr häufig vorkommende rRNA-Moleküle auszuschließen. Um auf größere Nicht-Poly(A)-RNAs, wie lange nicht-kodierende mRNA, Histon-mRNA, zirkuläre RNA und Enhancer-RNA, abzuzielen, ist die Größenauswahl nicht anwendbar, um die sehr häufig vorkommenden ribosomalen RNA-Moleküle (18S- und 28s-rRNA) zu vernichten. [62] Einzelzell-RamDA-Seq ist eine Methode, die dies erreicht, indem eine reverse Transkription mit zufälligem Priming (Random-Displacement-Amplifikation) in Gegenwart von „not so random“ (NSR)-Primern durchgeführt wird, die speziell entwickelt wurden, um ein Priming auf rRNA-Molekülen zu vermeiden. [63] Während diese Methode erfolgreich vollständige RNA-Transkripte in voller Länge für die Sequenzierung einfängt und eine Vielzahl von Nicht-Poly(A)-RNAs mit hoher Sensitivität detektiert, weist sie einige Einschränkungen auf. Die NSR-Primer wurden sorgfältig entsprechend der rRNA-Sequenzen im spezifischen Organismus (Maus) entworfen, und das Designen neuer Primer-Sets für andere Spezies würde einen erheblichen Aufwand erfordern. Kürzlich demonstrierte eine CRISPR-basierte Methode namens scDASH (single-cell depletion of reichlichll sequence by hybridization) einen weiteren Ansatz zur Depletion von rRNA-Sequenzen aus Einzelzell-Gesamt-RNA-Seq-Bibliotheken. [64]

Bakterien und andere Prokaryoten sind derzeit aufgrund des Fehlens von polyadenylierter mRNA nicht für Einzelzell-RNA-seq zugänglich. Daher wird die Entwicklung von Einzelzell-RNA-seq-Methoden, die nicht vom Einfangen von Poly(A)-Schwanzen abhängen, auch dazu beitragen, Mikrobiom-Studien mit Einzelzellauflösung zu ermöglichen. Bei bakteriellen Massenstudien wird normalerweise eine allgemeine rRNA-Verarmung angewendet, um den Mangel an polyadenylierter mRNA bei Bakterien zu überwinden, aber auf Einzelzellebene ist die in einer Zelle gefundene Gesamt-RNA zu klein. [62] Der Mangel an polyadenylierter mRNA und die Knappheit an Gesamt-RNA in einzelnen Bakterienzellen sind zwei wichtige Barrieren, die den Einsatz von scRNA-seq in Bakterien einschränken.

Anwendungen Bearbeiten

scRNA-Seq wird in vielen biologischen Disziplinen eingesetzt, darunter Entwicklungsbiologie, [65] Neurologie, [66] Onkologie, [67] [68] [69] Immunologie, [70] [71] Herz-Kreislauf-Forschung [72] und Infektionskrankheiten. [73] [74]

Mit maschinellen Lernmethoden wurden Daten aus Bulk-RNA-Seq verwendet, um das Signal-Rausch-Verhältnis in scRNA-Seq zu erhöhen. Insbesondere haben Wissenschaftler Genexpressionsprofile aus Pan-Krebs-Datensätzen verwendet, um Koexpressionsnetzwerke aufzubauen, und diese dann auf Genexpressionsprofile einzelner Zellen angewendet, um eine robustere Methode zum Nachweis des Vorhandenseins von Mutationen in einzelnen Zellen anhand von Transkriptniveaus zu erhalten. [75]

Einige scRNA-seq-Methoden wurden auch auf einzellige Mikroorganismen angewendet. SMART-seq2 wurde verwendet, um einzellige eukaryotische Mikroben zu analysieren, aber da es auf dem Einfangen von Poly(A)-Schwanzen beruht, wurde es nicht in prokaryotischen Zellen angewendet. [76] Mikrofluidische Ansätze wie Drop-seq und die Fluidigm IFC-C1-Geräte wurden verwendet, um einzelne Malariaparasiten oder einzelne Hefezellen zu sequenzieren. [77] [78] Die Einzelzellhefestudie versuchte, die heterogene Stresstoleranz in isogenen Hefezellen zu charakterisieren, bevor und nachdem die Hefe Salzstress ausgesetzt wurde. Eine Einzelzellanalyse der verschiedenen Transkriptionsfaktoren durch scRNA-seq zeigte Heterogenität in der Population. Diese Ergebnisse legen nahe, dass die Regulierung zwischen den Mitgliedern einer Population variiert, um die Überlebenschancen für einen Bruchteil der Bevölkerung zu erhöhen.

Die erste Einzelzell-Transkriptomanalyse in einer prokaryotischen Spezies wurde unter Verwendung des Terminator-Exonuklease-Enzyms zum selektiven Abbau von rRNA und Rolling-Circle-Amplifikation (RCA) von mRNA durchgeführt. [79] Bei dieser Methode wurden die Enden einzelsträngiger DNA zu einem Kreis zusammenligiert und die resultierende Schleife dann als Matrize für die lineare RNA-Amplifikation verwendet. Die endgültige Produktbibliothek wurde dann durch Microarray mit geringem Bias und guter Abdeckung analysiert. RCA wurde jedoch nicht mit RNA-seq getestet, die typischerweise eine Sequenzierung der nächsten Generation verwendet. Einzelzell-RNA-seq für Bakterien wäre sehr nützlich für die Untersuchung von Mikrobiomen. Es würde Probleme ansprechen, die bei herkömmlichen Massenmetatranskriptomik-Ansätzen auftreten, wie z.

scRNA-Seq hat erhebliche Einblicke in die Entwicklung von Embryonen und Organismen gegeben, darunter den Wurm Caenorhabditis elegans [80] und die regenerative Planarie Schmidtea mediterranea [81] [82] und Axolotl Ambystoma mexicanum. [83] [84] Die ersten auf diese Weise kartierten Wirbeltiere waren Zebrafische [85] [86] [87] und Xenopus laevis. [88] Es wurden jeweils mehrere Stadien des Embryos untersucht, wodurch der gesamte Entwicklungsprozess zellweise abgebildet werden konnte. Die Wissenschaft hat diese Fortschritte als den Durchbruch des Jahres 2018 anerkannt. [89]

Isolierung einzelner Zellen Bearbeiten

Es gibt mehrere Möglichkeiten, einzelne Zellen vor der Amplifikation und Sequenzierung des gesamten Genoms zu isolieren. Die fluoreszenzaktivierte Zellsortierung (FACS) ist ein weit verbreiteter Ansatz. Einzelne Zellen können auch durch Mikromanipulation gesammelt werden, beispielsweise durch serielle Verdünnung oder unter Verwendung einer Patch-Pipette oder eines Nanoröhrchens, um eine einzelne Zelle zu ernten. [15] [90] Die Vorteile der Mikromanipulation sind Einfachheit und geringe Kosten, aber sie sind mühsam und anfällig für eine falsche Identifizierung von Zelltypen unter dem Mikroskop. Die Laser-Capture-Mikrodissektion (LCM) kann auch zum Sammeln einzelner Zellen verwendet werden. Obwohl die LCM das Wissen über die räumliche Lage einer entnommenen Zelle innerhalb eines Gewebes bewahrt, ist es schwierig, eine ganze einzelne Zelle zu erfassen, ohne auch die Materialien von benachbarten Zellen zu sammeln. [42] [91] [92] Hochdurchsatzmethoden zur Einzelzellisolierung umfassen auch die Mikrofluidik. Sowohl FACS als auch Mikrofluidik sind genau, automatisch und in der Lage, unverzerrte Proben zu isolieren. Beide Methoden erfordern jedoch zuerst das Ablösen der Zellen von ihrer Mikroumgebung, wodurch die Transkriptionsprofile bei der RNA-Expressionsanalyse gestört werden. [93] [94]

Anzahl der zu analysierenden Zellen Bearbeiten

ScRNA-Seq Bearbeiten

Im Allgemeinen werden für ein typisches Massenzell-RNA-Sequenzierungs-(RNA-seq)-Experiment zehn Millionen Reads generiert und ein Gen mit über dem Schwellenwert von 50 Reads pro kb pro Million Reads (RPKM) wird als exprimiert betrachtet. Bei einem Gen mit einer Länge von 1 kb entspricht dies 500 Reads und einem minimalen Variationskoeffizienten (CV) von 4% unter der Annahme der Poisson-Verteilung. Für eine typische Säugerzelle mit 200.000 mRNA müssen Sequenzierungsdaten von mindestens 50 Einzelzellen gepoolt werden, um diesen minimalen CV-Wert zu erreichen. Aufgrund der Effizienz der reversen Transkription und anderer Störungen, die in die Experimente eingeführt wurden, sind jedoch mehr Zellen für genaue Expressionsanalysen und die Identifizierung des Zelltyps erforderlich. [42]


Genomweite Assoziation und Transkriptomanalyse von wurzelfarbenbezogenen Genen in Gossypium arboreum L.

Die signifikante Anzahl von Loci und Kandidatengenen der Wurzelfarbe in Gossypium arboreum identifiziert und liefern eine theoretische Grundlage für die Wurzelfarbe von Baumwolle.

Abstrakt

Am 4. Tag der Aussaat wurde ein stimulierendes Phänomen in der Wurzelfarbe einiger . beobachtet G. arboreum Beitritte, die rot wurden. Um die genetischen Mechanismen der Wurzelfarbenbildung über Genom- und Transkriptebenen aufzudecken, identifizierten wir die signifikante Anzahl von SNPs und Kandidatengenen, die mit der Wurzelfarbe in Verbindung stehen, durch genomweite Assoziationsstudien (GWAS) und RNAseq-Analyse in G. arboreum. Zunächst 215 Nr. von G. arboreum Akzessionen wurden gesammelt, und die Farben der Wurzel am 4., 6. und 9. Tag der Keimung wurden aufgezeichnet. Die GWAS zeigte, dass 225 signifikante SNPs und 47 Kandidatengene vollständig identifiziert wurden. Das stärkste Signal SNP A04_91824 konnte die Wurzelfarbe stark unterscheiden, wobei die meisten „C“-Allel-Akzessionen weiß und „T“-Allel-Akzessionen rot angezeigt wurden. RNAseq wurde an Akzessionen mit der weißen und roten Wurzel durchgeführt, und die Ergebnisse zeigten, dass 12 bzw. 138 DEGs am 2. bzw. 4. Tag nachgewiesen wurden. ACD6, UFGT, und LYM2 waren die am stärksten verwandten Gene der Wurzelfarbe, die später durch qRT-PCR verifiziert wurden. Die reife Zone der roten und weißen Wurzeln wurde durch das histologische Schnittverfahren beobachtet, und die Ergebnisse zeigten, dass die Zellen in der weißen Wurzel enger angeordnet waren und sowohl die durchschnittliche Zelllänge als auch die Zellbreite in der roten Wurzel länger waren. Diese Studie wird Baumwollzüchtern helfen, mehrere Elite-Gene und verwandte SNPs in Bezug auf die Wurzelfarbe zu nutzen und eine Verbindung mit wirtschaftlich wichtigen Interessenmerkmalen zu finden.

Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


Zusätzliche Datei 1: Abbildung S1.

Populationscharakterisierung von 224 Maisakzessionen und die Anzahl der RNA-Seq-Reads. Abbildung S2. Expressionsmuster-Clustering von 15.369 differentiell exprimierten Genen (DEGs) als Reaktion auf Trockenstress und genontologische Anreicherung jedes Clusters. Abbildung S3. Statistische Analyse der dynamischen eQTLs-Kodierung TF Gene, Schätzung des genomweiten Kopplungsungleichgewichts (LD)-Zerfalls, Vergleich von eQTLs, die in Maiskörnern und -blättern nachgewiesen wurden, und die Verteilung der Leit-SNPs der statischen und dynamischen lokalen eQTLs. Abbildung S4. Vergleich von Hotspots, struktureller Variationsverteilung und LD auf Maischromosomen. Abbildung S5. Analyse der ursächlichen Variation von abh2. Abbildung S6. Phylogenetischer und Expressionsspiegelvergleich von abh2 homologe Gene.

Zusatzdatei 2: Tabelle S1.

Die SNP-Konkordanzrate zwischen den vorherigen und aktuellen Studien. Tabelle S2. Informationen zu statischen und dynamischen eQTLs, die in der vorliegenden Studie identifiziert wurden. Tabelle S3. 3733 eQTLs direkt in TF-Genen lokalisiert. Tabelle S4. Detailinformationen zum eQTL-Netzwerk. Tabelle S5. Detaillierte Informationen zu 97 Kandidatengenen, die durch die Mendelsche Randomisierungsanalyse identifiziert wurden. Tabelle S6. In der vorliegenden Studie verwendete Primer.


Schau das Video: Commerzbank oder ING - Welches Konto ist besser? (Kann 2022).