Information

Vermissen Variantenaufrufer seltene Varianten als Referenz?

Vermissen Variantenaufrufer seltene Varianten als Referenz?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Im Allgemeinen suchen variantenaufrufende Programme (wie GATK-UnifiedGenotyper) nach Unterschieden zwischen Referenzgenom und eingereichter Sequenz. Wir alle wissen jedoch, dass das Referenzgenom aus seltenen Varianten in verschiedenen Positionen besteht. Wenn die übermittelte Sequenz diese seltene Form dieser Variante aufweist, sieht der Variantenaufruf sie nicht und meldet sie überhaupt nicht. Diese Variante könnte jedoch für die Analyse sehr wertvoll sein.

Also, wie kann ich dieses Problem lösen? Was soll ich tun, um diese seltenen Varianten nicht zu übersehen, auch wenn sie sich im Referenzgenom befinden?


Wenn die Referenzsequenz mit einer Krankheit oder einer erhöhten Anfälligkeit für einen Phänotyp verbunden ist, zeigt die Population, mit der Sie vergleichen (mit einer Variante), einen Schutz dafür. So oder so finden Sie eine Assoziation, dies ändert nur das Vorzeichen des Koeffizienten.


Nun, Sie würden hoffen, dass die "Referenz"-Sequenz von einem gesunden Individuum stammt und kein sehr schädliches Allel trägt, das Ihnen wichtig ist.

Oder holen Sie sich eine Reihe von Kontrolldaten aus dem 1K-Genomprojekt und vergleichen Sie sie ebenfalls mit der Referenz; sie tragen nicht die seltenen Allele, die Ihre Referenz hat.


Das Referenzgenom ist eine zusammengesetzte Sequenz aus mehreren Individuen, daher sollte Szenario A kaum oder gar nicht eintreten. Die unbefriedigende Antwort ist, dass es sehr unwahrscheinlich ist, dass die für Sie interessanten seltenen Varianten in der Referenz enthalten sind.


Einfluss seltener und häufiger genetischer Variationen des Interleukin-1-Signalwegs auf die menschliche Zytokinantwort

Der Interleukin (IL)-1-Weg ist in erster Linie mit der angeborenen immunologischen Abwehr verbunden und spielt eine wichtige Rolle bei der Induktion und Regulation von Entzündungen. Sowohl häufige als auch seltene genetische Variationen in diesem Signalweg liegen verschiedenen entzündungsvermittelten Erkrankungen zugrunde, aber die Rolle seltener Varianten im Vergleich zu häufigen Varianten bei der Variabilität der Immunantwort bei gesunden Personen bleibt unklar.

Methoden

Wir führten eine molekulare Inversionssonden-Sequenzierung an 48 IL-1-Weg-bezogenen Genen bei 463 gesunden Personen aus dem Human Functional Genomics Project durch. Wir haben häufige und seltene Varianten funktionell nach Gen-, Subpathway- und Entzündungsniveau gruppiert und den Sequence Kernel Association Test durchgeführt, um die Assoziation mit in-vitro-stimulationsinduzierten Zytokinreaktionen zu testen, insbesondere IL-1β- und IL-6-Zytokinmessungen bei Stimulationen, die eine Reihe mikrobieller Infektionen: Lipopolysaccharid (LPS), Phytohämagglutinin (PHA), Candida albicans (C. albicans), und Staphylococcus aureus (S. aureus).

Ergebnisse

Wir haben eine Belastung von NCF4 seltene Varianten mit PHA-induziertem IL-6-Zytokin und zeigten, dass die jeweiligen Träger zu den 1% niedrigsten IL-6-Produzenten gehören. Das Kollabieren seltener Varianten in IL-1-Subpathway-Genen führt zu einer bidirektionalen Assoziation mit LPS-induzierten IL-1β-Zytokinspiegeln, was sich in einer signifikanten Spearman-Korrelation widerspiegelt. Auf entzündlicher Ebene identifizierten wir eine Belastung durch seltene Varianten in Genen, die für Proteine ​​mit entzündungshemmender Funktion kodieren, mit S. aureus-induziertes IL-6-Zytokin. Im Gegensatz zu diesen seltenen Variantenbefunden, die auf unterschiedlichen Reizarten beruhten, wurden häufige Variantenassoziationen ausschließlich mit . identifiziert C. albicans-induziertes Zytokin über verschiedene Gruppierungsebenen, vom Gen über den Subpathway bis hin zur Entzündungsebene.

Schlussfolgerungen

Zusammenfassend zeigt diese Studie, dass die funktionelle Gruppierung häufiger und seltener genetischer Varianten die Aufklärung von IL-1-vermittelten biologischen Mechanismen ermöglicht, insbesondere für IL-1β- und IL-6-Zytokinantworten, die durch verschiedene Stimuli induziert werden. Der in dieser Studie verwendete Rahmen kann die Analyse seltener und häufiger genetischer Varianten in einer größeren Vielfalt (nicht-immuner) komplexer Phänotypen ermöglichen und hat daher das Potenzial, zu einem besseren Verständnis ungelöster, komplexer Merkmale und Krankheiten beizutragen.


Einführung

Die massiv parallele Sequenzierung von Nukleinsäuren ermöglicht DNA- und RNA-Analysen im großen Stil. Eine natürliche Implementierung dieser "Next Generation Sequencing (NGS)"-Technologie besteht darin, die einzigartigen und komplexen genomischen Veränderungen, die bei malignen Neoplasmen auftreten, zu beurteilen, mit dem Ziel, die Patientenversorgung durch personalisierte Diagnose, Prognose und Therapie zu verbessern.

Die derzeit am weitesten verbreitete Implementierung von NGS für die Onkologie ist die Mutationserkennung über gezielte Panels 1-5. Diese Assays verwenden molekulare Methoden wie Multiplex-Polymerase-Kettenreaktionen (PCR), um klinisch relevante Abschnitte des Genoms zu isolieren, wie zum Beispiel Mutations-Hotspots oder kodierende Exons ganzer Gene. Diese Tafeln reichen von einigen hundert Zielorten bis zu vielen Tausenden. In diesen Assays werden die Rohsequenz-Reads zuerst mit dem menschlichen Referenzgenom abgeglichen. Anschließend wird ein Varianten-Calling durchgeführt, um kleine Fehlpaarungen in diesen Alignments zu identifizieren, die Mutationen darstellen können, die in der Probe vorhanden sind. Anschließend muss eine Variantenanalyse und -interpretation durchgeführt werden, um die technische Validität und den klinischen Nutzen jeder Variante zu bewerten ( Abbildung 1 ).

Zusammenfassung der technischen Validität und Bewertung des klinischen Nutzens für Krebs-NGS. (A) NGS-Basenrufen, wobei eine DNA-Sequenz und ein entsprechender Konfidenzwert aus einer nuklearen genomischen DNA-Matrize erzeugt werden. (B) Der nächste Schritt, der alle verfügbaren Daten mit der Referenz und miteinander vergleicht. Dann wird ein Variantenaufruf durchgeführt (unterstrichene Basen in Feld B), ein Vergleich von Basisaufrufen über viele Lesevorgänge hinweg. Viele falsch positive Variantenaufrufe (ausgekreuzte Basen) können gefiltert werden, während wahre positive (eingekreiste Basen) ein starkes Signal erzeugen sollten. (C) Beim Variantenaufruf werden mehrere Qualitätsmetriken generiert, die mit Cutoffs verglichen werden können, die während der Assay-Validierung festgelegt wurden (gestrichelte Linien). (D) Detaillierte Überprüfung der verfügbaren Datenbanken und Literatur (linke Seite) und Vergleich mit der klinischen Anamnese und Tumorpathologie (rechte Seite), um den klinischen Nutzen zu beurteilen. VAF, Variantenallelfrequenz QUAL, Variantenrufqualität COSMIC, Catalogue of Somatic Mutations in Cancer TKIs, Tyrosinkinase-Inhibitor-Therapien.

Bevor eine Variantenanalyse durchgeführt wird, müssen die Daten auf die Gesamtleistung und Qualität des Assays überprüft werden. Da viele chirurgische Pathologieproben eine begrenzte Gewebemenge und -qualität aufweisen und mit Formalinfixierung behandelt wurden, treten mit einiger Regelmäßigkeit Assay-Fehler auf. Da es viele verschiedene Möglichkeiten gibt, die Assay-Leistung zu messen, erfordert jeder Assay einen einzigartigen Satz von Parametern, der während der Validierung festgelegt wurde 6,7 .

Technische Validität und klinischer Nutzen sind die beiden Hauptprobleme, die für jede über die somatische NGS-Variantenerkennung identifizierte Variante gelöst werden müssen. Wenn eine nachgewiesene Variante die vorgegebenen Validitäts- und Nützlichkeitskriterien nicht erfüllt oder überschreitet, sollte sie klinisch nicht als medizinisch relevant gemeldet werden. Obwohl sie im Prinzip einfach sind, gibt es in diesen Bereichen eine tiefe Komplexität, die eine genaue Betrachtung verdient.


METHODEN

Studiendesign

Wir führten eine retrospektive diagnostische Genauigkeitsstudie von SNP-Chips (Indextest) mit NGS (Referenztest) von UKB-Teilnehmern durch, bei denen beide Datensätze verfügbar waren. Die SNP-Chip-Daten wurden zentral von UKB generiert und die NGS-Daten wurden extern von Regeneron generiert und werden als Teil einer externen Zugriffsanwendungsanforderung an die UKB-Ressource zurückgegeben.

Teilnehmer

Das UKB ist eine bevölkerungsbezogene Forschungskohorte von ∼ 500.000 Teilnehmern, die zwischen 2006 und 2010 im Vereinigten Königreich rekrutiert wurden. Etwa 9,2 Millionen Personen im Alter von 40 bis 69 Jahren, die im Umkreis von 40 km von einem von 22 Assessment Centern lebten, wurden eingeladen, und 5,5 % nahmen daran teil [10 ].

Testmethoden

Wir untersuchten 49.960 Personen (55% weiblich) aus UKB mit NGS-Daten (Referenztest). Die Exom-Erfassung wurde mit einem am Regeneron Genetics Center entwickelten Ansatz durchgeführt und die Proben wurden mit 75 Basenpaaren Paired-End-Reads auf der Illumina NovaSeq 6000-Plattform sequenziert [14]. Alignment, Variantenaufruf und Qualitätskontrolle der Exomsequenzierungsdaten sind in [14] beschrieben.

Von diesen Personen hatten 49.908 auch SNP-Chip-Daten mit QC-Bestand (Indextest). Eine Untergruppe von 4.037 Personen wurde zuvor mit dem Applied Biosystems UK BiLEVE Axiom Array von Affymetrix (807.411 genetische Marker) genotypisiert, und 45.871 Personen wurden zuvor mit dem Applied Biosystems UK Biobank Axiom® Array (825.927 genetische Marker) genotypisiert, das 95 % seiner Markerinhalt mit dem BiLEVE [10]. Individuen wurden in 106 Chargen von 5000 Proben genotypisiert. Wir schlossen Proben ein, die die zentrale UKB-Qualitätskontrolle (QC) auf einem der UKB-SNP-Chips bestanden haben, und schlossen nur direkt genotypisierte Varianten ein, die eine Genotyp-Missing-Rate von <5% aufwiesen und Hardy Weinberg P<1 × 10 –6 . Wir haben das UCSC Genome Browser Liftover Tool verwendet, um Positionen von SNP-Chipvarianten, die in hg37- in hg38-Koordinaten gemeldet wurden, für den direkten Vergleich mit NGS-Daten umzuwandeln.

Analysen

Für den genomweiten Vergleich mit SNP-Chip-Genotypen haben wir nur direkt genotypisierte Einzelnukleotidvarianten (SNVs) mit genomischen Positionen in den gVCF-Dateien und abgedeckt durch >15-Reads in den NGS-Daten eingeschlossen. Wir verwendeten die Minor Allel Frequency (MAF) von allen 488.377 SNP-Chip-genotypisierten Individuen in UKB [10]. Für häufige und seltene SNV-Untergruppen haben wir die Genotypisierungsqualität heterozygoter SNVs auf den SNP-Chips im Vergleich zu NGS-Calls getestet und durchschnittliche Leistungsmetriken pro Variante berechnet.

Für einen detaillierten genspezifischen Vergleich mit SNP-Chip-Genotypen haben wir direkt genotypisierte SNVs, Insertionen und Deletionen in die BRCA1 oder BRCA2 Gene. Als pathogen wurden Varianten definiert, bei denen entweder vorhergesagt wurde, dass sie zu einem verkürzten Protein führen oder zuvor in der ClinVar-Datenbank [15] als wahrscheinlich oder definitiv pathogen eingestuft wurden inbegriffen. NGS-Daten wurden visuell mit dem Integrative Genomics Viewer (IGV) [16] untersucht, um festzustellen, ob die Variante vorhanden war oder nicht. Für alle Teilnehmer wurden Krebsregisterdaten für Brust-, Eierstock-, Prostata- und Bauchspeicheldrüsenkrebs extrahiert. Logistische Regressionen wurden durchgeführt, um die Beziehung zwischen testpositiven Teilnehmern und jeglichem BRCA-bedingten Krebs zu beurteilen.

Die Ergebnisse werden in Übereinstimmung mit den STARD-Richtlinien für die Berichterstattung über diagnostische Genauigkeitsstudien [17] präsentiert, wobei Sensitivität, Spezifität, positiver Vorhersagewert (PPV) und negativer Vorhersagewert (NPV) zur Bewertung der Testleistung verwendet werden.


ERGEBNISSE

Ringversuchs-Pilotstudie

Es wurde eine Ringstudie durchgeführt, um sowohl unser Verständnis der Auswirkungen verschiedener NGS-Methoden auf herausfordernde Variantentypen zu stärken als auch zu bewerten, ob synthetische Positivkontrollen ein nützliches Werkzeug für die Entwicklung und Validierung von Methoden zum Nachweis solcher Varianten sind. In dieser Studie konnten alle 10 NGS-Workflows in kooperierenden Labors die synthetischen Kontrollmischungen sequenzieren und analysieren, wodurch die Kompatibilität des Syntheseansatzes mit verschiedenen NGS-Biochemien nachgewiesen wurde. Allerdings wurden nur 2 der 13 herausfordernden Varianten (wie in Abb. 1 definiert) von allen 10 Workflows erkannt und nur drei Workflows erkannten alle 13 (Tabellen 1, S1, S2). Darüber hinaus wurden 3 der 11 anderen, weniger anspruchsvollen Indels von einigen Workflows übersehen.

Die manuelle Überprüfung mit IGV zeigte, dass in den meisten Rohdatensätzen Hinweise auf die übersehenen Varianten sichtbar waren, was darauf hindeutet, dass die Empfindlichkeitsbeschränkungen größtenteils bioinformatischer Natur waren. Die IGV-Überprüfung von Daten von synthetischen Kontrollen und Patientenproben, die dieselben Varianten enthielten, zeigte ähnliche Herausforderungen wie Artefakte, Fehlausrichtungen, abgeschnittene Messwerte, Stottern und Abweichungen von 50:50-Allelfraktionen (Abbildung S1). Der Amplikon-Sequenzierungs-Workflow (Nummer 8) war jedoch eine Ausnahme, da 5 der 12 gezielten Indels falsch negativ waren, weil (1) die Variante eine PCR-Primer-Bindungsstelle veränderte, (2) die Variante nahe einer Amplikon-Grenze lag, was das Alignment störte , oder (3) die Variante verursachte eine erhebliche Zunahme der Amplikongröße, die die Biochemie nicht ausgleichen konnte. Diese Sequenzierungsplattform zeigte in dieser Studie auch ihre charakteristische Einschränkung bei beiden Homopolymer-assoziierten Varianten. 25

Viele, aber nicht alle der in dieser Studie identifizierten Sensitivitätseinschränkungen waren den kooperierenden Labors bereits bekannt. Eine weitere Überprüfung der Komponenten der Arbeitsabläufe (Tabelle S2) identifizierte wahrscheinliche Grundursachen für diese Sensitivitätsbeschränkungen und zeigte, dass diese Beschränkungen wahrscheinlich für Patientenproben und andere Varianten mit ähnlichen Eigenschaften gelten würden (nicht nur für die spezifischen Proben und Varianten in dieser Studie). . Unsere Überprüfung schlug auch Workflow-Änderungen vor, die implementiert werden könnten, um die Leistung potenziell zu verbessern. Insgesamt stellten wir fest, dass synthetische Kontrollen ein informatives und gültiges Instrument zur Bewertung der Fähigkeit von Methoden sind, viele schwierige Variantentypen zu erkennen.

Sensitivitätsstudie

In unserer Prävalenzanalyse (unten) wurde ein NGS-Workflow (Abb. 2) aus der Pilotstudie verwendet. Die Sensitivität wurde weiter mit einem methodenbasierten Ansatz 2,3,4,26 und nicht mit einem gen- oder variantenbasierten Ansatz bewertet, der angesichts der großen Anzahl an Zielgenen und -varianten die einzige praktikable Option war. In solchen Studien werden positive Kontrollproben mit einer Vielfalt von Varianten erhalten, und die Fähigkeit zum Nachweis dieser Varianten wird nach Klasse gemessen. In dieser speziellen Studie wurden 94 Proben verwendet, die 601 unabhängig voneinander charakterisierte positive Kontrollvarianten in 47 interessierenden Genen enthielten. Alle 601 wurden korrekt erkannt, was eine beobachtete Empfindlichkeit von 100 % zeigt (Tabelle 1). Wir stellten fest, dass die Art und Weise, in der die verschiedenen Probentypen zu dieser Studie beigetragen haben, erheblich variierte, mit erheblichen Auswirkungen auf die Bewertung von Methoden zum Nachweis anspruchsvoller Varianten, auf die wir hier eingehen.

So trugen die sieben GIAB-Stichproben mit 470/601, 78,2 % am meisten zu den Studienvarianten bei, obwohl diese eine begrenzte klinische oder methodische Relevanz hatten. Die überwiegende Mehrheit (92%) waren SNVs, während pathogene Varianten in diesen 47 Genen oft Indels oder CNVs sind. 7,27 Darüber hinaus war keines der 36 GIAB-Indels größer als 5 Basenpaare (bp) und viele herausfordernde Genomorte (z. B. die Pseudogen-assoziierten Exons von PMS2) hatte keine Aufrufe mit hoher Vertrauenswürdigkeit in den GIAB 3.3.2-Daten (neuere GIAB-Datensätze können diese spezielle Einschränkung jedoch verbessern, wie unten gezeigt). Die GIAB-Proben enthalten zusätzliche Variantentypen (d. h. CNVs und strukturelle Varianten), 28 aber diese befanden sich nicht in oder in der Nähe unserer Zielgene und waren für die Messung der Sensitivität dieses Assays nicht geeignet. Tatsächlich erfüllte keine der 470 GIAB-Varianten unsere Definition von technisch anspruchsvoll.

Um die Zahl der klinisch bedeutsamen Variantentypen zu erhöhen, haben wir 58 zusätzliche Referenzproben (Tabelle S5) und 26 klinische Proben aufgenommen. Im Gegensatz zu GIAB trugen diese jeweils nur eine oder zwei unabhängig voneinander charakterisierte Varianten zu unserer Studie bei. Nichtsdestotrotz fügte dieser Satz 60 Indels hinzu, von denen 10 größer als 5 bp waren, und 9 CNVs. Vor allem lieferte es 14 Varianten, die unserer Definition von technisch anspruchsvoll entsprachen (Abb. 1).

Obwohl verbessert, blieben diese Variantenzahlen klein, insbesondere für die verschiedenen anspruchsvollen Varianten-Subtypen. Wir fügten unserer Studie daher synthetische Kontrollen hinzu, die den Vorteil haben, mehrere interessierende Varianten in jede DNA-Probe einzubeziehen. Nur drei Exemplare fügten weitere 18 heterogene, technisch anspruchsvolle Varianten hinzu (mehr als die Hälfte der insgesamt 32) sowie 23 zusätzliche Indels (Tabellen S1, S6). Wichtig ist, dass die meisten dieser Varianten einzigartig waren, im Gegensatz zu Varianten in den Referenz- und GIAB-Proben, die häufig (21 % bzw. 74 %) in mehreren Proben wiederholt wurden (wiederholte Varianten können beim Nachweis der Reproduzierbarkeit im Vergleich zur Sensitivität nützlicher sein). Mehrere Genpanels mit unterschiedlichen Hybridisierungsassays, aber einem ansonsten üblichen Arbeitsablauf, wurden entwickelt, validiert und in unserer Prävalenzstudie unten verwendet.

Verbreitung technisch anspruchsvoller Varianten

In unserer Kohorte von 471.591 Patienten, die die Studienkriterien erfüllten, trugen 102.085 (21,6%) eine oder mehrere klinisch berichtete pathogene oder wahrscheinlich pathogene (P/LP) Varianten in 1.217 verschiedenen Genen. Diese positive Rate war angesichts der Mischung aus klinischen Indikationen und durchgeführten Tests der Patienten zu erwarten. Insgesamt wurden 127.710 P/LP-Varianten berichtet, von denen Indels 31,4 %, CNVs 9,7 % und SNVs 58,9 % ausmachten. Diese Varianten wurden bei Bedarf bestätigt 21 und wurden daher alle zuversichtlich als richtig positiv angesehen.

Technisch anspruchsvolle Varianten waren vorherrschend. Von den 127.710 P/LP-Befunden erfüllten 17.561 (13,8% 95% CI 13,6–13,9%) eines oder mehrere unserer Kriterien als technisch anspruchsvoll (Abb. 1). Diese herausfordernden Varianten wurden bei 16.618 Patienten (d. h. einige Patienten trugen mehr als eines) und bei 556 Genen (46 % dieser Gene mit P/LP-Befunden) entdeckt. Technisch anspruchsvolle Varianten wurden in allen untersuchten klinischen Bereichen beobachtet (Abb. 3), insbesondere in der Trägerdiagnostik und bei Neurologen, Pädiatrie und erblichen Krebstests, die zwischen 10,3 % und 20,4 % aller P/LP-Befunde bei diesen Patienten ausmachten. Die Prävalenz war niedriger, aber immer noch klinisch signifikant (2,1 % bis 4,3 %), in Kardiologie, Stoffwechselerkrankungen, Präventivtests, Immunologie und anderen Indikationen. Eine Auflistung der Gene und Befunde nach Typ finden Sie in den Tabellen S7 und S8. Es überrascht nicht, dass schwierige Varianten wahrscheinlich waren (

75%) im Vergleich zu anderen (

Für jeden klinischen Bereich haben wir die Population pathogener oder wahrscheinlich pathogener (P/LP)-Varianten bewertet, die eine oder mehrere unserer Definitionen von technisch anspruchsvoll erfüllten (Abb. 1). Blaue Balken zeigen die Prävalenz herausfordernder Varianten unter allen gemeldeten P/LP-Befunden an. Die Heatmap (grüne Zellen) zeigt den relativen Beitrag jeder Variantenklasse zu diesem Ergebnis an. Graue Balken zeigen den Anteil einzigartiger Varianten, die technisch anspruchsvoll waren (d. h. wenn dieselbe Variante bei mehr als einem Patienten auftrat, wurde sie in dieser Analyse nur einmal gezählt, wurde jedoch in der Prävalenzanalyse mehrfach gezählt [blaue Balken]). Die Unterschiede zwischen diesen beiden Fraktionen resultieren aus einer kleinen Anzahl relativ häufiger P/LP-Varianten, die (z. B. in Träger- oder Neurologietests) oder nicht (z. B. präventive Tests) technisch anspruchsvoll sind. In diesem Datensatz sind insgesamt 102.085 Patienten mit P/LP-Varianten in 1.217 Genen vertreten. In allen klinischen Bereichen wurden herausfordernde Varianten der meisten Typen beobachtet. CNV-Kopiennummer-Variante, Indel-Einfügung oder -Löschung.

Eine geringe Zahl rezidivierender Varianten machte einen überproportionalen Anteil aller positiven Befunde aus, was auch angesichts des Patienten- und Testmixes zu erwarten war. Elf spezifische Stellen (Tabelle S9) machten beispielsweise 22,2 % (28.351) aller P/LP-Befunde aus, und 34 % davon (9.683) wurden als schwierig eingestuft. Diese vorherrschenden Befunde umfassten Allele mit hoher, moderater und niedriger Penetranz, wobei sowohl dominante als auch rezessive Vererbungsarten vertreten waren. Ohne diese 11 Standorte blieb die Prävalenz herausfordernder Varianten hoch (7,9 %). Unter Berücksichtigung der seltensten Befunde in unserer Kohorte wurden 18.856 P/LP-Varianten nur bei einem einzelnen Individuum beobachtet, von denen 9,2 % (2.434) als schwierig angesehen wurden. So wurden häufig sowohl seltene als auch relativ häufige technisch anspruchsvolle Varianten beobachtet.

Kein einzelnes Attribut definiert alle oder auch nur die meisten der technisch anspruchsvollen Varianten, die wir beobachtet haben. Vielmehr war ein breites Spektrum vorhanden. Von den anspruchsvollen P/LP-Varianten befanden sich 42,3 % (7.423) in Regionen geringer Komplexität (z. B. Homopolymere, kurze Tandemwiederholungen) und 35,0 % (6.153) in segmentalen Duplikationen (Segdups). Darüber hinaus waren 11,4 % (1.995) kleine CNVs, 6,5 % (1.135) große Indel und 1,4 % (238) komplexe Umlagerungen. Schließlich wurden 0,6% der Varianten (740) als potenziell mosaikartig gekennzeichnet, basierend auf einer ungewöhnlich niedrigen NGS-Allelfraktion. (Beachten Sie, dass nicht alle dieser Varianten tatsächlich ein Mosaik waren: einige könnten das Ergebnis einer klonalen Hämatopoese sein, andere befanden sich anscheinend innerhalb von CNVs, aber alle könnten eine Untersuchung rechtfertigen.) Einige Varianten (118) fielen in mehr als eine Kategorie (z , großes Indel innerhalb eines Segdup).

Ein beträchtlicher Anteil der Varianten mit geringer Komplexität (5.254, 70,8%) waren Veränderungen am CFTR intronische Poly-T/Poly-TG-Stelle, die je nach Diplotyp ein mäßiges Risiko für Pankreatitis, Atemwegserkrankungen und männliche Unfruchtbarkeit mit sich bringt. 29 Ausgenommen CFTR, 2.169 andere Varianten mit geringer Komplexität wurden in 233 verschiedenen Genen entdeckt, die 1,7 % aller P/LP-Befunde ausmachen. Einige waren für konventionelle NGS besonders herausfordernd. Zum Beispiel 91 bestätigte Ergebnisse von MSH2 Variante NM_000251.3:c.942+3A>T wurden beobachtet, was keine Homopolymerlängenänderung ist, sondern eher eine SNV am Ende eines 25-bp-Homopolymers. Diese einzelne, hochpenetrierende, pathogene Spleißvariante machte 11,0 % aller P/LP-Befunde in MSH2, ein Gen, das ein Krebsrisiko (Lynch-Syndrom) sowie eine Reaktion auf bestimmte Immunonkologie-(IO)-Medikamente verleiht. 30 Weitere 185 Prämutations- und Vollmutationsallele wurden in beobachtet FMR1, die dem Fragilen-X-Syndrom zugrunde liegen, wurden jedoch aufgrund methodischer Unterschiede nicht in die obigen Zählungen einbezogen.

Die häufigsten (5.457) Befunde von P/LP SNVs, Indels und CNVs innerhalb segmentweise duplizierter Gene wurden in . beobachtet SMN1/2, GBA, und HBA1/2. Alle wurden im Trägerscreening getestet, mit SMN1/2 auch in neurologische Tests enthalten. Andere Segdup-Regionen, einschließlich NEB (Exons 83–103), PMS2 (Exons 12-15), PRSS1, und SDHA, entfielen 358 zusätzliche Befunde in den Indikationen erblicher Krebs, Neurologie und Kinderheilkunde. Zum Beispiel, PMS2 (mögen MSH2) ist am Lynch-Syndrom und an der IO-Reaktion beteiligt, und 20,9 % aller 1.194 P/LP-Befunde waren in den vier Pseudogen-assoziierten Exons lokalisiert. In NEB, der Nemalin-Myopathie zugrunde liegt, befanden sich 7,7 % der P/LP-Varianten in den dreifachen Exons.

Große Indels, kleine CNVs und komplexe Umlagerungen stellten zusammen 3.366 P/LP-Befunde dar, 6,4% aller Nicht-SNVs, die 38% der Gene und jeden klinischen Bereich betreffen (Abb. 4a). Mehr als die Hälfte (1.836) davon waren Deletionen zwischen 50 bp und einem Exon in der Größe. Ob solche Ereignisse als CNVs oder als Indels angesehen wurden, wurde in der Praxis mehr durch Methodik als durch Biologie definiert. Bewegliche Elemente, manchmal als „springende Gene“ bezeichnet, machten 128 Befunde aus, von denen 58 nur bei einem einzelnen Individuum beobachtet wurden.

(ein) Größenverteilung von pathogenen/wahrscheinlich pathogenen (P/LP) Indels und Kopienzahlvarianten (CNVs), ob technisch anspruchsvoll oder nicht. 64 % dieser Varianten hatten eine Größe von 1–5 bp (nicht gezeigt). Einzelnukleotidvarianten (SNVs), FMR1 Trinukleotid-Wiederholungserweiterungen und Varianten in den CFTR poly-T/TG-Site sind nicht enthalten. (B) Next-Generation-Sequencing (NGS)-Abdeckung von Positionen klinischer P/LP-Varianten in der gnomAD-Datenbank von 125.748 Exomsequenzen (Version 2.2.1). Die gnomAD-Genomsequenzen wurden in dieser Analyse nicht verwendet. Die durchschnittliche Abdeckung des gnomAD-Exoms betrug an diesen klinischen Varianten das 76-fache (viel niedriger als der 660-fache Durchschnitt für unsere klinischen Tests). Die beobachtete Rate einer Lokalisation einer klinischen Variante mit weniger als dem angegebenen Abdeckungsgrad in den gnomAD-Exomen wurde bei den angegebenen spezifischen Schwellenwerten berechnet. 5,1% haben keine Abdeckung (0x), 6,7% weniger als 10x Abdeckung (einschließlich 0x) und 10,1% weniger als 20x. CNVs wurden in diese Analyse nicht eingeschlossen. (C) Vergleich der Standorte der klinischen P/LP-Variante mit den Benchmark-Regionen Genome in a Bottle (GIAB) unter Verwendung der GIAB-Datensätze der Versionen 3.3.2 und 4.1. Viele (9,7 %) dieser Varianten lagen in allen sieben GIAB-Stichproben (Kategorie „Nicht alle“) außerhalb der Benchmark-Regionen und 15,1 % dieser Varianten lagen in mindestens einer der sieben Stichproben („Nicht alle“ ). Die neueren GIAB-Daten der Version 4.1, die derzeit nur für eine der GIAB-Stichproben verfügbar sind, verbessern diese Situation jedoch erheblich. CNVs wurden in diese Analyse nicht eingeschlossen.

Vergleiche mit öffentlichen Datensätzen

Wie erwartet waren die meisten der von uns beobachteten P/LP-Varianten selten und fehlten daher in Populationsdatenbanken, einschließlich gnomAD 31 (Daten nicht gezeigt), obwohl einige dieser Abwesenheiten durch methodische Unterschiede bei der Variantenerkennung zwischen gnomAD und unseren Daten erklärt werden. Nichtsdestotrotz untersuchten wir die Exomsequenzen von gnomAD Version 2.1.1 als repräsentative, wenn auch heterogene Ansicht der Abdeckung, die der Exomfang an den Orten der P/LP-Varianten in unserer Studie erreichen kann. Obwohl die durchschnittliche Abdeckung unter den 125.748 gnomAD-Exomsequenzen an diesen Stellen 76× beträgt, hatten unsere P/LP-Varianten eine Chance von 5,1 %, keine Abdeckung in einem gnomAD-Exom zu haben und eine 10,1 %-Chance einer <20-fachen Abdeckung (Abb. 4b). . Auch wenn von 76× auf . verdoppelt

150-fach im Durchschnitt, eher typisch für die klinische Exom-Sequenzierung, würde diese Abdeckung wahrscheinlich weiterhin unzureichend sein, um viele unserer anspruchsvollen P/LP-Varianten zu erkennen.

In ähnlicher Weise verglichen wir unsere Variantenstandorte mit den GIAB-Benchmark-Regionen für alle sieben GIAB-Stichproben und fanden heraus, dass 15,1 % der Varianten in mindestens einer der sieben Regionen außerhalb dieser Regionen und 9,7 % außerhalb dieser Regionen lagen, wenn Version 3.3.2 GIAB verwendet wurde Daten (Abb. 4c). Eine neue Version der GIAB-Daten der Version 4.1 war für eine Stichprobe (HG002) verfügbar, in der nur 3,0 % unserer P/LP-Varianten außerhalb der Benchmark-Regionen lagen, eine bemerkenswerte Verbesserung aufgrund der jüngsten Verwendung von Lang- und Kurz durch das GIAB-Konsortium -Lesesequenzierung mit verbesserter Bioinformatik. 32


Offene Forschung

Der KATK-Quellcode wird unter den Bedingungen von GNU GPL v3 vertrieben. Die k-mer Datenbanken werden unter der Creative Commons CC BY-NC-SA Lizenz vertrieben. Der Quellcode ist auf GitHub als Teil des GenomeTester4-Pakets verfügbar (https://github.com/bioinfo-ut/GenomeTester4/). Die im aktuellen Papier beschriebenen Binärdateien des KATK-Pakets und der k-mer-Datenbanken sind unter http://bioinfo.ut.ee/KATK/ verfügbar.

Dateiname Beschreibung
humu24197-sup-0001-Supp_File_S1.pdf70.7 KB Zusätzliche Informationen.
humu24197-sup-0002-Supp_File_S2.pdf73.4 KB Zusätzliche Informationen.
humu24197-sup-0003-Supp_File_S3.pdf83.5 KB Zusätzliche Informationen.
humu24197-sup-0004-Supp_File_S4.pdf69 KB Zusätzliche Informationen.
humu24197-sup-0005-Supp_Table_S5.xls16.5 KB Zusätzliche Informationen.

Bitte beachten Sie: Der Herausgeber ist nicht verantwortlich für den Inhalt oder die Funktionalität der von den Autoren bereitgestellten unterstützenden Informationen. Alle Anfragen (außer fehlenden Inhalten) sollten an den entsprechenden Autor des Artikels gerichtet werden.


Ergebnisse

FamSeq.

Abb. 1 beschreibt das FamSeq-Framework. Diese Methode liefert ein Konfidenzmaß für Genotypaufrufe, bei dem es sich um eine Posterior-Wahrscheinlichkeit Pr(gich|D,P). Hier g bezeichnet Genotyp, ich bezeichnet eine Person, P bezeichnet die Stammbaumstruktur und D ist ein Vektor, der Sequenzierungsdaten bezeichnet, einschließlich Leseanzahl, Basisqualität und Abbildungsqualität für alle n Familienmitglieder (Einzel ich und Verwandte). Einbeziehen von Daten von Familienmitgliedern, Pr(gich|D,P) ermöglicht einen genauen Variantenaufruf, wenn die Daten von Person ich sind nicht informativ, vielleicht aufgrund eines schwachen Signal-Rausch-Verhältnisses, indem man sich die Stärke von allen Verwandten leiht (Abb. 1B). Hier messen wir das Signal-Rausch-Verhältnis unter Verwendung der Verhältnisse der Likelihood-Schätzungen (Pr(Dich|gich)) für die beiden wahrscheinlichsten Genotypen. FamSeq hat Wahrscheinlichkeiten von De-novo-Mutationen aufgenommen. Es ermöglicht eine variable Stammbaumgröße (n > 3) und Struktur. Neben der Verwendung des Elston-Stewart-Algorithmus wie in Li et al. (12) Für die Stammbaumanalyse haben wir zwei einzigartige Ansätze implementiert, Bayesian Network und MCMC. Der Bayessche Netzwerkansatz berechnet direkt gemeinsame Wahrscheinlichkeiten für jede Kombination von Genotypen aller Familienmitglieder und ermöglicht eine analytische Berechnung in Stammbäumen mit Eheschleifen und/oder Blutsverwandtschaft, solange sie gerichtete azyklische Graphen bilden. Diese Methode ermöglicht eine schnellere Berechnung als der Elston-Stewart-Algorithmus mit oder ohne Schleifen in Stammbäumen mit einer Größe von weniger als 7. Die MCMC-Methode ermöglicht die Verwendung kontinuierlicher Wahrscheinlichkeitsdichtefunktionen als Prioren für die Genotyp-Wahrscheinlichkeit und -Likelihood, anstatt die Punktmasse zu bestimmen a priori.

Darstellung des Variantenaufrufs mit FamSeq. (EIN) FamSeq-Variantenaufruf-Framework. (B) Zwei Beispiele in einem Familientrio. Wir gebrauchen 0 Referenz zu kennzeichnen und 1 heterozygote Variante zu bezeichnen. Die Reihenfolge der Genotypen in Klammern ist Vater, Mutter und Kind. In beiden Fällen gibt FamSeq dem Kind eine hohe Aposterior-Wahrscheinlichkeit (>0,9) für den wahren Genotyp, selbst wenn das Kind einen relativ niedrigen log10 LLR hat. Dies geschieht in FamSeq durch Ausleihen von Stärke aus Daten der Eltern.

Motivierendes Beispiel: Familie mit ererbtem WT.

Die familiäre Übertragung der Prädisposition für WT, einen Nierentumor im Kindesalter, steht im Einklang mit einer autosomal-dominanten Mutation mit unvollständiger Penetranz. Durch genetische Kopplungsstudien wurden zwei Prädispositionsgene lokalisiert, aber keines der Gene wurde identifiziert (15). Wir generierten WGS-Daten für fünf Mitglieder einer großen WT-Familie und konzentrierten uns auf eine 5,6-MB-Verbindungsregion auf chr19q. Da die genetische Verknüpfung bereits zuvor nachgewiesen wurde, wird erwartet, dass die beiden entfernt verwandten Individuen WTX524-708 und WTX524-000 dieselben Mendelschen Varianten teilen wie die Individuen WTX524-709 und WTX524-004 im Trio (Fig. 2). Beim Vergleich von FamSeq mit GATK (mit Variantenrekalibrierung) fanden wir, dass beide Methoden 4.920 Positionen mit Variantenaufrufen in allen vier betroffenen Familienmitgliedern identifizierten. FamSeq identifizierte weitere 132 Positionen und GATK identifizierte eindeutig eine Position.

Eine Familie mit Wilms-Tumor zur genomischen Sequenzierung der 19q13-verknüpften Region. Das Familientrio besteht aus betroffener Mutter (WTX524-004), nicht betroffenem Vater (WTX524-029) und betroffenem Kind (WTX524-709). Zwei betroffene entfernte Verwandte (WTX524-708, WTX524-000) werden ebenfalls sequenziert.

Sanger-Validierung.

Um die Gültigkeit der eindeutig benannten FamSeq-Varianten zu beurteilen, führten wir eine Sanger-Sequenzierung an 57 der 132 Positionen durch, die in einer Unterregion existieren und eine zusätzliche Anforderung erfüllen, Referenzaufrufe beim nicht betroffenen Vater zu präsentieren. Dieses Filterverfahren mit vier Varianten plus einer Referenz wurde entwickelt, um für WT potenziell wichtige Varianten zu priorisieren und wurde sowohl für FamSeq- als auch für GATK-basierte Aufrufe durchgeführt. Wir erhielten zuverlässige Sanger-Ergebnisse für 38 FamSeq-eindeutige Positionen und bestätigten, dass 32 (61 Variantenaufrufe) wahr sind (SI-Anhang, Tabelle S1). Unsere Validierungsrate beträgt 61/73 = 84 % (95 % Konfidenzintervall: 75–92 %). Von den bestätigten FamSeq-Unique-Varianten sind 17 (53%) selten (nicht gemeldet oder mit einer geringen Allelhäufigkeit von weniger als 5%). Abgesehen von einer Position, an der FamSeq einen Aufruf der Variante von GATK korrigierte, um auf den nicht betroffenen Vater zu verweisen, wurden die FamSeq-eindeutigen Positionen von GATK übersehen, weil sie (ich) als Referenz bei einer betroffenen Person genannt, (ii) während der Neukalibrierung des Varianten-Qualitätsfaktors entfernt, oder (iii) hatten Variantenaufrufe auf einer Tranchenebene von 99,9–100 oder niedriger.

Anhand von simulierten und tatsächlichen Daten haben wir Variablen identifiziert, die die möglichen Verbesserungen durch unsere familienbasierte Analyse bestimmen. Von nun an vergleichen wir FamSeq mit der Single-Methode basierend auf ihren Posterior-Wahrscheinlichkeiten. Zunächst beschreiben wir die Ergebnisse anhand von Simulationen.

Genotyp-Konfigurationen.

FamSeq verbesserte die Genauigkeit bei allen Mendelschen Genotypen (15 Szenarien für ein Familientrio, Abb. 3 .)EIN) und in zwei Szenarien wesentliche Verbesserungen vorgenommen: (ich) an Positionen, an denen alle Familienmitglieder Referenzgenotypen aufweisen, korrigierte FamSeq FP-Aufrufe ( ∼ 30% SI-Anhang, Abb. S1), und (ii) at positions where a single parent and child carry heterozygous variants, FamSeq corrected FN calls (20–40% SI-Anhang, Fig. S1). FamSeq identified true Mendelian positions that were erroneously called as variants by the Single method, as shown by the red cells in the heatmap of Fig. 3EIN. For example, at truth = 000, FamSeq reduced discordant calls of 001 at truth = 101, again FamSeq reduced discordant calls of 001 und 102, made by the Single method. When the de novo mutation rate is high [1 × 10 −5 , compared with variants with minor allele frequency (MAF) of 0.01 SI-Anhang, Fig. S1B], FamSeq missed 34% of true de novo mutations correctly called by the Single method, suggesting possible underestimations. We made similar observations with a family quartet.

Simulation results. (EIN) Highlighted results from a full simulation of all possible genotype configurations of a family. Each row is the simulated genotype for the family trio (father, mother, child). Hier, 0 is homozygous reference, 1 is heterozygous variant, and 2 is homozygous variant. Each heatmap entry is the percent reduction in discordance from using the Single method to using FamSeq. The values on the diagonal are equal to the sum of all other 63 values in the same row. Only 27 columns are shown. Additionally, there are 37 columns with genotypes containing “no calls.” The corresponding complete results can be found in SI-Anhang, Fig. S1. The barplot on the right presents the frequency for observing each configuration. (B) Targeted simulation to evaluate effect of MAF. F stands for FamSeq and S stands for single method. (C) Targeted simulation to evaluate effect of pedigree size and structure.

The MAF parameter is used for computing prior probabilities of genotypes, Pr(g), in FamSeq and the Single method and is mostly unknown (Fig. 3B). Setting different values of MAF (from 10 −5 to 0.5) switches the balance between the FNR and FPR in the Single method. As MAF increases, FNRs decrease and FPRs increase. With FamSeq, not only are both error rates lower at all values, but as the MAF varies, the changes in FNRs and in FPRs in the children, and changes in FNRs in the parents, are much attenuated that is, error rates are less dependent on MAF values. Therefore, by jointly calling variants in all family members, we can set the same MAF at all base positions, for example 0.001, without compromising the detection of true variants.

Family Size and Pedigree Structure.

Starting from a parent–child pair, FamSeq reduced both FNR and FPR when we included the second parent (family size = 2 to size = 3), and then added another sibling (size = 3, 4) (Fig. 3C). Interestingly, adding more children (size = 4, 5, 6) did not further reduce error rates, whereas adding the grandparents (size = 5–7) made additional reductions in both FNR and FPR. When the parental data are not available, we also observed improvements made by FamSeq in analyzing all siblings together (size = 3, FNR 23.5% vs. 13.3%, FPR 0.5% vs. 0.4%). This has important implications when prioritizing individuals from a larger pedigree to accurately and comprehensively detect rare DNA variants.

Contribution to Family Members.

The reduction in error rates using FamSeq is membership-dependent (Fig. 3 B und C). FNRs are better controlled in parents than in children. FPRs are better controlled in children than in parents (founders), which reduces the cost of subsequent sequence verifications. Both reduce the FPs in calling de novo mutations in children. Accordingly, when grandparents’ data are available, the FPRs in the corresponding parent (nonfounder) decrease substantially, which improves the detection of de novo mutations in children.

Next, we present results from the analysis of sequencing data in extended families (SI-Anhang, Tabelle S2).

WGS Data Analysis.

We analyzed a three-generation HapMap WGS dataset of five samples. In the whole genomes of HapMap samples, FamSeq found 1,179, 317, and 494 new variant positions across all samples when analyzing pedigrees g3 (grandparent trio), c3 (child trio), and a5 (all five). Within each sample, FamSeq called ∼ 7,000 to ∼ 32,000 more variants than the Single method. Samples with lower coverage (NA12892 at ∼ 25× SI-Anhang, Tables S2 and S3) benefited most from FamSeq analysis, exhibiting a greater percentage of increased variant calls.

HapMap Sample Validation.

In three samples (mean coverage ∼ 25–30×), we compared FamSeq calls with HapMap calls at ∼ 1 million single-nucleotide polymorphism (SNP) positions (16) (SI-Anhang, Tabelle S3). Homozygous genotypes are more easily identified than heterozygous variants (17). Using known SNP data, we combined all homozygous SNP positions as true negatives and used all heterozygous SNP positions as true positives, from NA12878, NA12891, and NA12892 ( ∼ 400,000 true positives for each sample). As expected, FamSeq called more positions at high confidence (7–29% fewer no call positions) and identified more true variants with percent reduction in FNs of 14–33%, and without substantially increasing the number of false discoveries (1–3% Fig. 4EIN und SI-Anhang, Tabelle S3). In particular, comparing pedigrees c3 and a5, we observed a statistically significant difference in the percent reduction of FNs (15% vs. 33% in NA12878, P < 0,0001). This result is consistent with simulations comparing sizes of 5 and 7 in the parent (Fig. 3C). We also observed low sensitivity to varying MAF values in variant calling when using FamSeq (SI-Anhang, Fig. S2). In contrast to the simulations, we did not observe a decrease in FPs in the child (NA12878 in g3). One explanation is we derived the input likelihood estimates from GATK, which may aggressively filter out FPs, but at a price of missing some true positives.

Analysis of sequencing data in extended pedigrees. (EIN) HapMap SNP validation (SI-Anhang, Tabelle S3). (B) FamSeq-unique variants found in 45 people (parents) in 25 families affected with mitochondrial disorders. (C) Coverage versus LLR in TS samples. All positions called concordantly by the Single method and FamSeq are shown in the background as a smoothed scatterplot. Red circles represent FamSeq-unique variants black triangles represent Single-unique variants.

This validation was performed at HapMap SNP positions, including all common SNPs whose known genotypes may have been used for calibration by GATK. Additionally, most of these SNPs (98%) are located in the noncoding region. Therefore, we look for larger improvements from using FamSeq for finding rare DNA variants at sequence sites where variant calling in the Single method has not been optimized.

Targeted Sequencing Data Analysis in Families with Mitochondrial Neurodevelopmental Disorders.

These families vary in size from 2 to 7 and include single-parent, nuclear, as well as three-generation families (SI-Anhang, Tabelle S2). In each individual, we sequenced 524 nuclear-encoded mitochondrial candidate genes (18, 19) and focused our analysis on 962 Kb of coding regions in autosomes. We observed a significant increase in new variants called by FamSeq in the parents (Fig. 4B und SI-Anhang, Table S4 FamSeq vs. Single method at size = 3: Kolmogorov-Smirnov test P < 0.001 FamSeq vs. Single method at size = 4: P < 0.001 FamSeq at size = 3 vs. size = 4: P < 0.001, FamSeq at size = 4 vs. size > 4, P = 0.06). We measured the significantly increased number of variants as related to family size in a total of 45 individuals from 25 different families, thus accounting for biological and technological variations between different sequenced individuals. We are currently validating these positions using Sanger-based sequencing, which may facilitate finding the unknown gene defects in these families. We did not observe significant increases in variants in the children (Fig. 3C und SI-Anhang, Fig. S3). However, the approximate reduction in FNRs (estimated by % FamSeq-unique variants) in the three-generation pedigree was 1–5%, which is substantially larger than the 0.1% observed at HapMap SNP positions (SI-Anhang, Table S5) indicating the power of FamSeq in detecting rare variants. In three of these families, we found 15 unique variant positions (SI-Anhang, Table S5) that are not reported in the Single Nucleotide Polymorphism Database (dbSNP) or the 1,000 Genomes Project, nine of which are nonsynonymous. We also analyzed family MTF04 in three ways: trio, trio plus either pair of grandparents, and trio plus both pairs of grandparents. Interestingly, compared with the Single method for this family, only the extended pedigree (size = 5 or 7) analysis found new positions in the affected child. This illustrates the limitation of the Single method in detecting rare DNA variants and demonstrates the power of using multigeneration pedigrees to detect rare variants.

Coverage and Log Likelihood Ratios.

FamSeq improved variant calling in both WGS and targeted sequencing (TS) data at mean base coverages from 25× to 1,200×. In the HapMap WGS data (mean coverage 25–60×), FamSeq improved accuracy primarily at positions with low-to-moderate coverage (15–20× Table 1 and SI-Anhang, Abb. S4). NA12892 had the lowest mean coverage (25×) and presented the biggest reduction in error rates among the three samples (Fig. 4EIN). Compared with the WGS data, the TS data have a wider range of mean coverage (200–1,200×). However, FamSeq still called 1.2% more variants overall, at coverage from 11 to 600× (median 24× Fig. 4C und SI-Anhang, Fig. S3). To explore why, we correlated base coverage with log likelihood ratio (LLR) (input for FamSeq) in all sequence data. We expected a genotype-specific linear relationship between LLR and coverage (SI-Anhang, Fig. S5, R = 0.87 for heterozygotes, R = 0.80 for homozygous positions), which can be derived analytically from the underlying binomial distribution used by Samtools and GATK (20). FamSeq strengthens signals at positions with a low LLR (LLR < 10). Therefore, it can improve variant calling in sequencing data at positions with coverage 20× or lower. However, in TS data where most positions are at high coverage, FamSeq called more variants in 381 positions, 234 (61%) of which have high coverage (>20×) but still low LLR (<10), and thus show a relationship that varies from the expected linear relationship (Fig. 4C und SI-Anhang, Abb. S5).

Mean base coverage of all loci with HapMap heterozygous calls in FamSeq performance categories


EMPIRICAL EVALUATION OF THE ROLE OF RARE VARIANTS IN COMMON DISEASES

There are many examples of rare and low-frequency variants associated with complex traits and our aim here is not to provide an exhaustive list of them (for a review of some of the relevant studies, see Table 1 in Schork et al. [ 20]). Rather, we will discuss here the results of some recently published resequencing studies on cases and controls that have addressed the issue of the contribution of rare variants in complex traits.

The first study is a large resequencing effort of 25 GWAS-identified genes for autoimmune diseases in 24 892 subjects with six autoimmune diseases and 17 019 controls [ 36]. A total of 2990 variants in protein-coding regions of these genes were identified among which 73.6% were novel (never reported in public databases), 97.1% had a frequency <0.5% in the controls (the frequency threshold considered by the authors for rare variants) and 68.9% were only seen in one or two individuals. These numbers are similar to what was also observed in 202 drug target genes sequenced in 14 002 individuals [ 34]. On these data, the authors first performed single-locus analysis with each of the seven studied phenotypes in an attempt to detect possible rare variants with strong effect that could be shared among several cases. They found some signals with some low-frequency variants, but those were in fact explained by common variants that were already identified by GWAS. Next, they consider the possibility of heterogeneity and that the susceptibility could be due to multiple rare variants within the same gene. They thus applied burden association tests that look for a difference in the load of variants both rare and predicted to be of functional impact (they considered variants with a frequency <0.5% in controls that were annotated as nonsynonymous, premature stop or splice-site altering). They used different types of tests to combine the information on these different variants and failed to detect any significant association with any of the phenotypes. They concluded that, in the seven tested autoimmune diseases, there was little support for a significant impact of rare coding-region variants in the known risk genes. The GWAS signals previously detected in these diseases were not explained by rare variants with strong effects through synthetic associations [ 37]. However, it cannot be excluded that, for these diseases, rare variants located outside these GWAS regions contribute significantly to the risk. Moreover, the frequency threshold used to filter out common variants could also have an impact on the results. It would be interesting to reevaluate the association using tests that consider the overall spectrum of variation within each gene to test for a cumulative effect of rare and common variants [ 38]. Moreover, it is also possible that a polygenic burden of rare coding variants located in different genes is involved, and effects are not detectable at the individual gene level as recently found in schizophrenia exomes [ 39].

Another relevant study is a whole-exome sequencing study of 1000 cases affected by type 2 diabetes and 1000 controls from Denmark, where the authors tested for association using a wide-range of strategies from single-marker tests to gene set analysis with different allele frequency thresholds to include variants in these tests [ 40]. They failed to detect any significant signal after correction for multiple testing but performed some simulations based on the observed patterns of genetic variation in their data to assess the power of the gene-based association tests under different scenarios. Their simulation approach is original in that it does not fix effect sizes or allele frequencies but fixes the heritability and considers that it is equally divided among different numbers of coding variants. They found that the power to detect a particular gene effect was limited, but their study was powerful enough to detect at least one gene if rare variations in <20 genes were involved in type 2 diabetes risk. Because they were not able to evidence any such association, they concluded that low-frequency variants in a small number of genes do not explain a large amount of type 2 diabetes heritability. Their simulation model is simplistic in that it assumes that each variant equally contributes to the heritability of the trait, however, the approach calibrated on real data is interesting.

A similar idea was also recently highlighted by Agarwala et al. [ 41], who proposed an integrated simulation framework to test the fit of different disease architecture models with real data. They went even further in their approach in that they consider empirical data from different genetic studies (linkage, GWAS, polygenic score and sequencing studies). They simulated genetic variation at the population scale consistent with empirical sequencing data and considered a wide range of disease genetic models to generate phenotypes of individuals. Then, they sampled in this phenotyped population to mimic different types of genetic study (epidemiological estimates of sibling recurrence risk, linkage scans in affected sibpairs, GWAS and replication in large case-control samples and polygene score logistic regression studies). They compared the results of these in silico studies against the results of these different types of studies conducted so far on type 2 diabetes. More than 50 different disease models were considered that were defined by two parameters: the mutation target size T and the coupling τ between the effects of the variant on fitness and on disease. The mutational target size T is the number of nucleotides that could influence disease risk if mutated and they considered values of T ranging from 75 kb to 3.75 Mb corresponding to situations where there could be between 1 and 1500 genes involved. The coupling parameter τ was varied between tight coupling (τ = 1), where variants with large effects on fitness were assumed to have large effects on disease risk and no coupling (τ = 0), where these two effects were assumed to be independent. Comparing the in silico genetic studies produced under these different models against the empirical data for type 2 diabetes, they found that only the most extreme models could be excluded and a wide range of models was compatible from models with moderate τ, where a large part of the heritability is explained by rare alleles (CDRV hypothesis) to models with weak τ, where the contribution of rare variants is more limited (CDCV hypothesis). The results of this complex simulation study could leave the feeling that it is much ado about nothing as, at the end, we are not able to quantify the respective contribution of rare and common variants in the genetic architecture of type 2 diabetes. However, the interest of the study is to provide tools to integrate the information coming from both population genetics studies and genetic epidemiological studies. This is indeed a necessary step toward a comprehensive understanding of the genetic bases of common diseases [ 24].

The failures of common disease exome sequencing studies to evidence genes differentially enriched in rare coding variants among cases and controls could be due to their limited sample sizes. A recent study by Zuk et al. [ 14] suggest that samples at least as large as those that were genotyped on SNP-chips for GWAS will need to be resequenced to gain enough power to test for association with rare variants in an agnostic manner, testing all genes using gene-based tests and/or gene-set analyses. They computed the power of rare variant association tests under various scenarios of mutation rates, selection coefficients and effect sizes of alleles within genes and reached the conclusion that at least 25 000 cases would be needed in the discovery phase to reach a 90% power to detect genes that contain missense mutations associated with an increased disease risk at least 3-fold. These numbers are much larger than expected and between 10 and 25 orders of magnitude from the sizes of the samples studied by exome sequencing in the papers highlighted above. They raised the question of whether alternative strategies that rely on formal genetics should be preferred [ 42]. This is well illustrated by the study by Cruchaga et al. [ 43], where the role in Alzheimer’s disease of rare coding variants in the phospholipase D3 gene could be evidenced by sequencing no more than 40 exomes in the exploratory phase (29 affected and 11 unaffected individuals). The key point here was the selection of the cases for the exome study. They were sampled from 14 large families containing at least four cases with late-onset Alzheimer’s disease. Such multiplex families have been collected for many common diseases and have been underexploited compared with case-control data in the GWAS era [ 44]. This is really a pity, as they contain important information useful to gain insights into the importance of rare and common variants in complex diseases, allowing modeling of their respective contribution rather than just detection of effects difficult to link to phenotypes [ 45].


A Comparison of Variant Calling Pipelines Using Genome in a Bottle as a Reference

High-throughput sequencing, especially of exomes, is a popular diagnostic tool, but it is difficult to determine which tools are the best at analyzing this data. In this study, we use the NIST Genome in a Bottle results as a novel resource for validation of our exome analysis pipeline. We use six different aligners and five different variant callers to determine which pipeline, of the 30 total, performs the best on a human exome that was used to help generate the list of variants detected by the Genome in a Bottle Consortium. Of these 30 pipelines, we found that Novoalign in conjunction with GATK UnifiedGenotyper exhibited the highest sensitivity while maintaining a low number of false positives for SNVs. However, it is apparent that indels are still difficult for any pipeline to handle with none of the tools achieving an average sensitivity higher than 33% or a Positive Predictive Value (PPV) higher than 53%. Lastly, as expected, it was found that aligners can play as vital a role in variant detection as variant callers themselves.

1. Background

In the past few years there have been many advances made to high-throughput sequencing technologies. Due to these advances, it is now possible to detect a great number of potential disease-causing variants [1], and, in a few cases, next generation sequencing (NGS) data has even been used for diagnostic purposes [2–4]. This is partially due to the developments in sequencing technologies over the past few years but also due to the number of improvements made to the various bioinformatic tools used to analyze the mountains of data produced by NGS instruments [5].

When searching for mutations in a patient, a typical workflow is to sequence their exome with an Illumina sequencer, align the raw data to the human reference genome, and then identify single nucleotide variants (SNVs) or short insertions and deletions (indels) that could possibly cause or influence the phenotype of interest [6]. While this is fairly straightforward, deciding on the best tools to use at each stage of the analysis pipeline is not. There are a large number of tools that are used in various intermediate steps, but the two most important steps in the entire process are aligning the raw reads to the genome and then searching for variants (i.e., SNVs and indels) [7]. In this study, we aim to help today’s bioinformatician by elucidating the correct combination of short read alignment tool and variant calling tool for processing exome sequencing data produced by NGS instruments.

A number of these studies have been performed in the past, but they all had drawbacks of some form or another. Ideally one should have a list of every known variant contained in a sample so that when a pipeline of analysis tools is run, you can test it to know with certainty that it is performing correctly. However, in the past no such list existed, so validation had to be performed by less complete methods. In some instances, validation was performed by generating simulated data so as to create a set of known true positives (TP) and true negatives (TN) [8–10]. While this conveniently provides a list of every TP and TN in the dataset, it does a poor job of accurately representing biology. Other methods of validating variant calling pipelines include using genotyping arrays or Sanger sequencing to obtain a list of TPs and false positives (FP) [11]. These have the upside of providing biologically validated results, but they also have the downside of not being comprehensive due to the limited number of spots on genotyping arrays and the prohibitive cost of Sanger validation when performed thousands of times. Lastly, none of these studies aimed at looking at the effect the short read aligner had on variant calling. Consequently, the upstream effect of aligner performance could not be assessed independently.

In this study, we have the advantage of a list of variants for an anonymous female from Utah (subject ID: NA12878, originally sequenced for the 1000 Genomes project [12]) that was experimentally validated by the NIST-led Genome in a Bottle (GiaB) Consortium. This list of variants was created by integrating 14 different datasets from five different sequencers, and it allows us to validate any list of variants generated by our exome analysis pipelines [7]. The novelty of this work is to validate the right combination of aligners and variant callers against a comprehensive and experimentally determined variant dataset: NIST-GiaB.

To perform our analysis we will be using one of the exome datasets originally used to create the NIST-GiaB list. We chose only one of the original Illumina TruSeq-generated exomes because we wanted to provide a standard use case scenario for someone who wishes to perform NGS analysis, and while whole genome sequencing is continuing to drop in price, exome sequencing is still a popular and viable alternative [1]. It is also important to note that, per Bamshad et al., currently the expected number of SNVs per European-American exome is 20,283 ± 523 [13]. Despite this, the total number of SNVs found in the NIST-GiaB list with the potential to exist in TruSeq exome dataset was 34,886, which is significantly higher than expected. This is likely due to the fact that while the exome kit was used to generate NIST-GiaB data it was also supplemented by whole genome sequencing.

Lastly, we considered a large number of aligners [14–21] and variant callers [22–29] but ultimately chose the 11 tools based on prevalence, popularity, and relevancy to our dataset (e.g., SNVMix, VarScan2, and MuTect were not used as they are intended for use on tumor-derived samples). Our analysis itself involves comparing six aligners (Bowtie2 [14], BWA sampe [15], BWA mem [16], CUSHAW3 [17], MOSAIK [18], and Novoalign) and five variant callers (FreeBayes [22], GATK HaplotypeCaller, GATK UnifiedGenotyper [23], SAMtools mpileup [24], and SNPSVM [25]). In this study we also try to determine how much of an effect, if any, the aligner has on variant calling and which aligners perform best when using a normal Illumina exome sample. To our knowledge, this is the first report which validates all possible combinations (total of 30 pipelines) of a wide array of aligners and variant callers.

2. Methods

2.1. Datasets

Human reference genome hg19 was downloaded from the UCSC browser (http://hgdownload.soe.ucsc.edu/goldenPath/hg19/chromosomes/) and was used to perform the alignments. The human exome, SRR098401, was downloaded from the Sequence Read Archive (SRA) (http://www.ncbi.nlm.nih.gov/sra). For annotation and calibration purposes, dbSNP137 without sites after version 129, HapMap 3.3, Human Omni 2.5 BeadChip, and Mills and 1000 G gold standard indel set lists were used (all from ftp://ftp.broadinstitute.org/distribution/gsa/gatk_resources.tgz).

2.2. Die Pipeline

Figure 1 shows the workflow used in this study, which is similar to the one outlined in the Best Practices guide produced by The Broad Institute [30]. This involves a number of steps to ensure that the alignment files produced are of the highest quality as well as several more to guarantee the variants are called correctly. First, raw reads were aligned to hg19, and then PCR duplicates were removed from the alignment. Next, to help with indel identification later in the pipeline, read realignment was performed around indels. The last step of alignment processing was to perform a base quality score recalibration step, which helps to ameliorate the inherent bias and inaccuracies of scores issued by sequencers. Unfortunately, despite these steps, the alignment rate of each aligner was significantly lower than expected, so to offset this, the fastx toolkit was used to filter out low quality reads (Table 1). Low quality reads were defined as those reads that had at least half of their quality scores below 30. Following alignment processing, variant calling and variant filtering were performed.


Informationen zum Autor

Mitgliedschaften

Division of Molecular Biology and Human Genetics, Faculty of Medicine and Health Sciences, Stellenbosch University, Cape Town, South Africa

Brigitte Glanzmann & Soraya Bardien

Department of Law, Faculty of Law, Stellenbosch University, Cape Town, South Africa

SA MRC Centre for TB Research, DST/NRF Centre of Excellence for Biomedical TB Research, Division of Molecular Biology and Human Genetics, Faculty of Medicine and Health Sciences, Stellenbosch University, Cape Town, South Africa

Craig J. Kinnear & Marlo Möller

South African National Bioinformatics Institute, University of the Western Cape, Cape Town, South Africa


Schau das Video: Ich werde dich vermissen.. = (Juni 2022).