Information

Wie führt man SNP-Daten mit einem Referenzgenom zusammen?

Wie führt man SNP-Daten mit einem Referenzgenom zusammen?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Meine Daten

Ich habe eine 23andMe-Datei, die SNPs in der Form auflistet:

rsid Chromosomenposition Genotyp rsXXXXX 1 PPPPPP CT rsXXXXX 1 PPPPPP GG

Felder sind durch TAB getrennt und jede Zeile entspricht einem einzelnen SNP. Für jeden SNP werden vier Datenfelder geliefert.

  1. Eine Kennung (eine rsid oder eine interne ID)
  2. Seine Position auf dem Referenzgenom.
    • Das Chromosom, auf dem es sich befindet.
    • Die Position innerhalb des Chromosoms befindet sich auf.
  3. Der Genotypruf orientiert sich in Bezug auf den Plusstrang auf der menschlichen Referenzsequenz.

Das Referenzgenom ist das Human Assembly Build 37 (auch bekannt als Annotation Release 104).

Meine Frage

Wie füge ich die SNPs in das Referenzgenom ein?

Nehmen Sie zum Beispiel die erste Zeile in meiner SNP-Datei:

rsXXXXX 1 PPPPPP CT

Teil 1

Ich kann sehen, dass ich das Nukleotid an Position PPPPPP auf Chomosom 1 des Referenzgenoms durch ein Nukleotid aus dem Genotyp-Feld ersetzen muss, aber welches Nukleotid soll ich verwenden? C oder T? Und warum?

Teil 2

Wo soll ich anfangen, auf dem Referenzgenom zu zählen? Wenn man sich Chromosom 1 des menschlichen Zusammenbaus 37 ansieht, sind die ersten ~10.000 Zeichen (ohne die Beschreibung der ersten Zeile)n. Ist das erste N die Zahl 1? z.B. Wenn PPPPPP 100.000 wäre, würde ich das 100.000ste Zeichen im Referenzgenom durch das richtige Nukleotid von . ersetzen Teil 1 dieser Frage? Oder soll ich ab dem ersten Nicht-N-Zeichen in der Fasta-Datei zählen?


Zunächst müssen Sie wissen, auf welche Genomsequenz sich die SNP-Datei bezieht. Sie müssen die von ihnen verwendete Referenzsequenz erwähnt haben.

Wie andere den Fall erwähnt habenCTist Heterozygotie. Wenn Sie nur die Änderungen markieren möchten, verwerfen Sie den bereits im Referenzgenom vorhandenen Rest und verwenden Sie das andere Allel. Wenn Sie jedoch den Haplotyp im Auge behalten möchten, müssen Sie sicherstellen, dass ein Satz von SNPs von demselben Chromatid stammt. Dies ist schwierig - Sie können es möglicherweise immer noch für SNPs wissen, die nahe genug sind, um durch einen einzigen Lesevorgang abgebildet zu werden, aber es ist fast unmöglich für SNPs, die gut genug getrennt sind.

Wie Endre sagte, muss man beim ersten Nukleotid beginnen. Es erscheint jedoch zweifelhaft, dass Sie $ (NNNN)_n$ am Anfang von Chromosom 1 erhalten. Vollständig zusammengesetzte Chromosomen haben keine solchen Dehnungen. Unten sind die ersten 10 Zeilen der Fasta-Datei von Chromosom 1. Überzeugen Sie sich selbst.

>gi|568815364|ref|NT_077402.3| Homo sapiens Chromosom 1 genomischer Gerüsts, GRCh38 Primary Assembly HSCHR1_CTG1 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAA CCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCT AACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTA ACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACC CTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTA ACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCG CCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAAATCTGTGCAGAGGAC AACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGTTGCAAAGG

Das Ersetzen des $N^{th}$-Rests ist eine recht einfache Aufgabe. Aber das ist eine Programmierfrage und nicht Gegenstand dieses Forums. Angenommen, Sie haben das Problem von Teil 1 gelöst und eine Registerkarte getrennt sortiert Datei wie folgt:

Chromosomenposition Rest 1 79989 G 1 100232 T 3 341342 A

Dieses Skript ist möglicherweise nicht das beste, würde aber in einem Linux/*nix/Cygwin-Terminal funktionieren, um die Reste zu ersetzen (stellen Sie sicher, dass SieGawk-Version >=4.0):

gawk -F "	" '(FNR==1){x++} (x==1){a[$1][$2]=$3;weiter} (x==2){if($0~/>/ ){h=$0;sub(/^.*chromosom /,"",h);sub(/ .*/,"",h)} else{seq[h]=seq[h]$0}} END{ für(i in a){s=0; for(j in a[i]){m=m substr(seq[i],s,j-1) a[i][j];s=j+1} m=m substr(seq[i], S); print ">Chr"i"
"m}}' SNP_file Genome.fa | falten -w 60

Genetics 101, Sie haben 2 Kopien Ihrer gesamten DNA an jeder Position, eine Kopie von Ihrer Mutter, eine von Ihrem Vater. Für das "CT" haben Sie also eine Kopie mit einem C und eine mit einem T.

Und ja, es ist normal, dass die ersten tausend oder Millionen Buchstaben N sind. Das Genom ist dort repetitiv und eklig, aber es wird trotzdem zu Nummerierungszwecken gezählt.

Ehrlich gesagt würde ich das nicht mit einer riesigen Textdatei des Genoms machen. Suchen Sie einfach in ensembl.org mit der rs-Nummer nach Ihrem SNP, und Sie erhalten den SNP und eine flankierende Sequenz und etwas Kontext. Durchsuchen Sie es in PubMed, wenn Sie sehen möchten, ob es jemals in einer Publikation aufgetaucht ist


Teil 1:

Laut Lior Pachter sind die 23andme-Daten nicht gestaffelt. Das bedeutet, dass Sie für jeden Eintrag im Genotyp-Feld nicht wissen, von welcher Chromosomenkopie er stammt. Dies geschieht, da moderne Microarray-Plattformen nicht in der Lage sind, zu erkennen, von welcher der beiden Kopien eines Chromosoms ein snp stammt.

Sie können dieses Problem für die meisten snps lösen, indem Sie Ihre Allele mit dem Referenzgenom vergleichen, aber dies würde einige Programmierschritte erfordern. Sie könnten https://github.com/endrebak/qc_gwas als Beispiel verwenden, das dasselbe tut, jedoch für plink-Dateien.

Teil 2:

Ich gehe davon aus, dass Sie dies programmatisch tun möchten und nicht durch Kopieren und Einfügen der snps in das Referenzgenom.

Die kurze Antwort ist, dass das erste N das erste Nukleotid ist. Aber Sie sollten lieber ein Paket wie Biopython verwenden, um die Zählung für Sie zu erledigen, es könnte knorriger sein, als Sie denken (Sie müssen zum Beispiel Zeilenenden in der Fasta-Datei anpassen).


Wie führt man SNP-Daten mit einem Referenzgenom zusammen? - Biologie

Kurzbeschreibung aller Skripte, die in Picard und Gehring, 2017 Genome Biology verwendet werden. Alle Skripte geschrieben von Colette L Picard (cpicard AT mit DOT edu) und lizenziert unter der Apache License, Version 2.0:

Copyright 2017 Colette L Picard

Unter der Apache-Lizenz, Version 2.0 (die "Lizenz") lizenziert, dürfen Sie diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Eine Kopie der Lizenz erhalten Sie unter

Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird die unter der Lizenz vertriebene Software "WIE BESEHEN" OHNE ausdrückliche oder stillschweigende Gewährleistungen oder Bedingungen jeglicher Art vertrieben. Siehe die Lizenz für die spezifische Sprache, die Berechtigungen und Einschränkungen unter der Lizenz regelt.

Alle Fragen oder Probleme können an CLP gerichtet werden. Einige Skripte erfordern die Installation zusätzlicher Tools, die nach Möglichkeit angegeben werden.

Beachten Sie, dass alle hier aufgeführten Skripte ohne Argumente aufgerufen werden können, um weitere Informationen zu Optionen und Verwendung zu erhalten. Alle hier nicht beschriebenen Skripte sind Hilfsskripte, die von einem oder mehreren dieser primären Skripte benötigt werden, aber nicht separat beschrieben werden.

v.1.3, Python-Skript, erfordert Python 2, getestet auf 2.7.6 - erforderliche Pakete sys, os, argparse, re

v.1.2, R-Skript, erfordert R, getestet auf 3.3.2 - erfordert Paket optparse

v.1.0, Python-Skript, erfordert Python 2, getestet auf 2.7.6 - erforderliche Pakete sys, os, argparse, re, matplotlib, numpy, scipy

v.1.7, Bash-Skript, erfordert Python 2, getestet auf 2.7.6 und R, getestet auf 3.3.2 - erforderliche Hilfsskripte (müssen sich im selben Verzeichnis wie dieses Skript befinden): - end_analysis_get_intervals.py - von Colette L Picard - end_analysis_process_intersect.py - von Colette L Picard - end_analysis_make_plot.R - von Colette L Picard - end_analysis_make_matrix.py - von Colette L Picard (nur erforderlich bei Verwendung der Optionen -M oder -C) - erforderlich installiert auf Benutzerpfad: - bedtools (getestet auf .) v2.23.0)

v.1.0, Bash-Skript - erforderliche Hilfsskripte (müssen sich im selben Verzeichnis wie dieses Skript befinden): - merge_by_column.R (von Colette Picard) - fishers_exact.R (von Colette Picard) - erforderlich installiert auf Benutzerpfad: - bedtools (getestet) auf v2.23.0)


Abstrakt

Das MUMmer-System und das darin enthaltene Genom Sequence Aligner Nucmer gehören zu den am häufigsten verwendeten Alignment-Paketen in der Genomik. Seit der letzten Hauptversion von MUMmer Version 3 im Jahr 2004 wurde es auf viele Arten von Problemen angewendet, darunter das Alignment ganzer Genomsequenzen, das Alignment von Reads zu einem Referenzgenom und den Vergleich verschiedener Baugruppen desselben Genoms. Trotz seines breiten Nutzens weist MUMmer3 Einschränkungen auf, die die Verwendung für große Genome und die heute üblichen sehr großen Sequenzdatensätze erschweren können. In diesem Artikel beschreiben wir MUMmer4, eine wesentlich verbesserte Version von MUMmer, die Einschränkungen der Genomgröße durch Ändern der 32-Bit-Suffix-Baum-Datenstruktur im Kern von MUMmer in ein 48-Bit-Suffix-Array angeht und die durch parallele Verarbeitung von . eine verbesserte Geschwindigkeit bietet Eingabeabfragesequenzen. Mit einer theoretischen Begrenzung der Eingabegröße von 141 Tbp kann MUMmer4 nun mit Eingabesequenzen jeder biologisch realistischen Länge arbeiten. Wir zeigen, dass das Nucmer-Programm in MUMmer4 als Ergebnis dieser Verbesserungen problemlos mit Ausrichtungen großer Genome umgehen kann über 96% ihrer Länge. Mit den hier beschriebenen Verbesserungen kann MUMmer4 auch verwendet werden, um Reads effizient an Referenzgenomen auszurichten, obwohl es weniger empfindlich und genau ist als die dedizierten Read-Aligner. Der Nucmer-Aligner in MUMmer4 kann nun aus Skriptsprachen wie Perl, Python und Ruby aufgerufen werden. Diese Verbesserungen machen MUMer4 zu einem der vielseitigsten verfügbaren Genom-Alignment-Pakete.

Zitat: Marçais G, Delcher AL, Phillippy AM, Coston R, Salzberg SL, Zimin A (2018) MUMmer4: Ein schnelles und vielseitiges Genom-Alignment-System. PLoS Comput Biol 14(1): e1005944. https://doi.org/10.1371/journal.pcbi.1005944

Editor: Aaron E. Darling, University of Technology Sydney, AUSTRALIEN

Empfangen: 15. August 2017 Akzeptiert: 1. Januar 2018 Veröffentlicht: 26. Januar 2018

Dies ist ein Open-Access-Artikel, der frei von allen Urheberrechten ist und von jedermann für rechtmäßige Zwecke frei reproduziert, verteilt, übertragen, modifiziert, darauf aufgebaut oder anderweitig verwendet werden darf. Die Arbeit wird unter der Creative Commons CC0 Public Domain Widmung zur Verfügung gestellt.

Datenverfügbarkeit: Die für dieses Papier verwendeten Daten sind von der NCBI SRA https://www.ncbi.nlm.nih.gov/sra und von der Cold Spring Harbor Laboratory-Website http://schatzlab.cshl.edu/data/ectools . verfügbar /.

Finanzierung: Diese Forschung wurde teilweise von den US National Institutes of Health im Rahmen des Grant R01 GM083873 an Steven Salzberg, teilweise von der Data-Driven Discovery Initiative der Gordon and Betty Moore Foundation durch Grant GBMF4554 an Carl Kingsford und teilweise von der National Science Foundation unterstützt IOS-1238231 an Jan Dvorak, IOS-144893 an Herbert Aldwinckle, Keithanne Mockaitis, Aleksey Zimin, James Yorke und Marcela Yepes. Die Geldgeber spielten keine Rolle beim Studiendesign, der Datenerhebung und -analyse, der Entscheidung zur Veröffentlichung oder der Erstellung des Manuskripts.

Konkurrierende Interessen: Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.

Das ist ein PLOS Computerbiologie Software-Papier.


Vermeintlich funktionale Variation

Als wir die Analysen auf die Varianten beschränkten, die die Genfunktion am wahrscheinlichsten beeinflussen, fanden wir heraus, dass ein typisches Genom 149–182 Stellen mit proteinverkürzenden Varianten, 10.000 bis 12.000 Stellen mit Peptidsequenz-verändernden Varianten und 459.000 bis 565.000 Variantenstellen enthielt, die bekannte regulatorische . überlappen Regionen (untranslatierte Regionen (UTRs), Promotoren, Isolatoren, Enhancer und Transkriptionsfaktor-Bindungsstellen). Afrikanische Genome lagen durchweg am oberen Ende dieser Bereiche. Die Anzahl der mit einer Krankheit oder einem Phänotyp assoziierten Allele in jedem Genom folgte nicht diesem Muster der erhöhten Diversität in Afrika (Erweiterte Daten Abb. 4): Wir beobachteten ∼ 2.000 Varianten pro Genom, die mit komplexen Merkmalen assoziiert sind, durch genomweite Assoziationsstudien (GWAS ) und 24–30 Varianten pro Genom, die durch ClinVar an seltenen Krankheiten beteiligt sind, wobei Genome europäischer Vorfahren am oberen Ende dieser Zählungen liegen. Es ist unwahrscheinlich, dass das Ausmaß dieses Unterschieds durch die Demografie erklärt wird 10,11 , sondern spiegelt stattdessen die ethnische Voreingenommenheit aktueller genetischer Studien wider. Wir erwarten, dass eine verbesserte Charakterisierung der klinischen und phänotypischen Konsequenzen außereuropäischer Allele eine bessere Interpretation der Genome aller Individuen und Populationen ermöglichen wird.


Ergebnisse

Genomweite SNP-Analyse

Alle Genome hatten eine durchschnittliche Abdeckung von mindestens 29,6×, außer DAL972, das eine 5,7× Abdeckung aufwies und das einzige Genom im Datensatz war, das mit der Sanger-Methode sequenziert wurde (Ergänzungstabelle S2, Supplementary Material online). Insgesamt wurden 890.170 SNPs in den Genomen der 56 . genannt Trypanosoma Stämme und 194.566 bestanden unsere Filterkriterien. Die gefilterten SNPs wurden verwendet, um ein Neighbournet-Netzwerk (Abb. 1), eine Haplotyp-basierte Clustering-Analyse (Abb. 2) und einen RAxML-Maximum-Likelihood-Baum (ergänzende Abb. S1, Ergänzendes Material online) zu konstruieren.

—NeighborNet-Netzwerk basierend auf 194.566 genomweiten SNP-Loci in 3 Trypanosoma brucei gambiense Gruppe 1, 3 T. b. gambiense Gruppe 2, 17 Trypanosoma brucei rhodesiense, 21 Trypanosoma brucei brucei, 8 Trypanosoma evansi, und 4 Trypanosoma-Equiperdum Stämme.

—NeighborNet-Netzwerk basierend auf 194.566 genomweiten SNP-Loci in 3 Trypanosoma brucei gambiense Gruppe 1, 3 T. b. gambiense Gruppe 2, 17 Trypanosoma brucei rhodesiense, 21 Trypanosoma brucei brucei, 8 Trypanosoma evansi, und 4 Trypanosoma-Equiperdum Stämme.

– Koancestry-Matrix basierend auf phasengesteuerten Haplotypdaten. Heatmap fasst die Anzahl der Haplotypsegmente (Farbschlüssel rechts) zusammen, die ein bestimmter Parasit von einem anderen Parasiten (Spalten) erhalten hat (Zeilen). Die Individuen werden entlang jeder Achse gemäß dem Baum (links) geordnet, der aus dem fineSTRUCTURE-Lauf abgeleitet wurde.

– Koancestry-Matrix basierend auf phasengesteuerten Haplotypdaten. Heatmap fasst die Anzahl der Haplotypsegmente (Farbschlüssel rechts) zusammen, die ein bestimmter Parasit von einem anderen Parasiten (Spalten) erhalten hat (Zeilen). Die Individuen werden entlang jeder Achse gemäß dem Baum (links) geordnet, der aus dem fineSTRUCTURE-Lauf abgeleitet wurde.

Alle drei Analysen ergaben eine ähnliche Evolutionsgeschichte für T. evansi und T. Ausrüstung. Die 6 T. evansi Typ-A-Stämme bilden einen monophyletischen Cluster und weisen nur geringe SNP-Variationen über Zeit und Raum auf, obwohl sie zwischen 1980 und 2013 aus verschiedenen Tierarten in Kenia, Äthiopien, Brasilien, Indonesien und China isoliert wurden. Innerhalb dieses Clusters war der größte genomische Unterschied zwischen STIB810 und E110 mit insgesamt nur 2.534 SNP-Unterschieden (homozygot und heterozygot) gefunden. Die afrikanischen Stämme C13 und MU09 zeigten den geringsten genomischen Unterschied (375 SNPs) und waren näher mit dem brasilianischen Stamm E110 verwandt als mit den asiatischen Stämmen STIB805, STIB810 und RoTat 1.2. Die Zwei T. evansi Typ B-Stämme KETRI2479 und MU010 bilden ebenfalls einen monophyletischen Cluster, der getrennt von den Vorfahren der west-/zentralafrikanischen Trypanosomen entstanden ist.

Die T. Equiperdum Stämme sind genetisch am stärksten mit Ostafrika verwandt T. brucei Stämme. Die T. Equiperdum Stämme Dodola 943, TeAp-N/D1 und OVI bilden einen monophyletischen Cluster, der eng mit dem Kiboko . verwandt ist T. b. brucei Stämme TREU927 und KETRI1738 und die T. b. Rhodesiense Stamm EATRO 240. Wir beobachteten nur 27 SNP-Unterschiede (homozygot und heterozygot) zwischen den T. Equiperdum Genome von Dodola 943 und TeAp-N/D1, 27 SNP-Unterschiede zwischen OVI und TeAp-N/D1 und 24 SNP-Unterschiede zwischen Dodola 943 und OVI. Die T. Equiperdum Stamm BoTat, der in Marokko von einem Pferd isoliert wurde, unterscheidet sich von diesem monophyletischen Cluster und sein Genom ist eng verwandt mit dem T. b. brucei Stamm J10 aus einer Hyäne in Sambia isoliert. Sowohl BoTat als auch J10 weisen eine ungewisse Abstammung auf und teilen Haplotypen mit T. b. Rhodesiense EATRO 240, T. b. brucei TRUE972 und KETRI1738 und T. Equiperdum Dodola 943, TeAp-N/D1 und OVI (Abb. 2). In geringerem Maße teilen sie auch Haplotypen mit Ost- und Westafrika T. brucei Stämme.

Teilkonzernspezifische SNPs

SNPs einzigartig für T. evansi Tippe A, T. evansi Typ B, T. Equiperdum BoTat und die T. Equiperdum Dodola 943, TeAp-N/D1 und der monophyletische OVI-Cluster wurden identifiziert. Wir schlossen nur Mutationen ein, die sich vom homozygoten Referenzzustand (im Vergleich zum Referenzgenom TREU927) dadurch unterschieden, dass sie für das alternative Allel homozygot waren. Die vollständige Liste der SNPs für jede untersuchte Untergruppe ist in der ergänzenden Tabelle S3, Ergänzendes Material online, dargestellt. Wir identifizierten 354 SNPs, die nur monophyletisch vorkommen T. Equiperdum Cluster mit Dodola 943, TeAp-N/D1 und OVI, und das trat bei keinem anderen der 53 Stämme dieser Studie auf. Von den 354 SNPs befanden sich 224 in kodierenden Regionen, von denen 109 nicht-synonyme Substitutionen waren. In dem T. Equiperdum BoTat-Stammes wurden 1.425 einzigartige SNPs beobachtet, von denen 850 in kodierenden Regionen und 429 nicht-synonyme Substitutionen waren. Nur fünf eindeutige SNPs wurden von allen geteilt T. Equiperdum Genome, einschließlich des unterschiedlichen BoTat-Genoms. Zum T. evansi Typ B entdeckten wir 701 einzigartige SNPs, von denen 454 in kodierenden Regionen und 238 nicht-synonyme Substitutionen waren. Eine Übersicht über die subgruppenspezifischen SNPs ist in der Ergänzungstabelle S2 , Ergänzendes Material online dargestellt.

Humane Serumresistenzgene, diagnostische VSGs und F1-ATP-Synthase-Untereinheit

Das TgsGP-Gen wurde in allen nachgewiesen T. brucei gambiense Gruppe 1-Stämme und in keinem der anderen Trypanosomen. Die T. b. gambiense Das spezifische S210-Codon der Gruppe 1 im TbHpHbR-Gen war ebenfalls für alle einzigartig T. b. gambiense Gruppe 1 Stämme, wohingegen die anderen Stämme in dieser Studie für L210 im TbHpHbR-Gen kodierten. Alle T. b. Rhodesiense enthaltene Genome SRA, außer EATRO240. Überraschenderweise ist die T. b. Rhodesiense ein spezifisches SRA-Gen wurde auch in der T. b. brucei Stämme H883 bzw. STIB213 aus einem Hund in Uganda bzw. einer Hyäne in Tansania isoliert. RoTat 1.2 wurde in allen gefunden T. evansi Typ-A-Stämme und nicht in irgendeinem anderen Stamm. Im Gegensatz dazu zeigen unsere Daten, dass der VSG JN 2118HU, der als einzigartig gilt für T. evansi Typ B, ist auch in der T. b. gambiense Typ-2-Stämme ABBA, TH126 und STIB 386 und die T. b. brucei Stämme B8/18 Klon B, KP33 Klon 16 und TSW187/78E. Die Sequenzen für JN 2118HU waren nicht in allen Genomen identisch, aber es wurde kein einziger SNP identifiziert, der einzigartig ist für T. evansi Typ B. F1-ATP-Synthase-Untereinheit γ DNA- und Aminosäuresequenzen wurden für alle Genome, die in dieser Studie eingeschlossen waren, ausgerichtet (ergänzende Abb. S2 und S3, ergänzendes Material online). Die nicht-synonyme heterozygote Substitution C142C/T (R48R/G) und die heterozygote Deletion GCT841del (A281del) sind für alle einzigartig T. evansi Typ-A-Stämme und der heterozygote A844A/T (M282M/L) für alle T. evansi Typ B-Stämme. Die nicht-synonyme homozygote Substitution G817C (A273P) ist einzigartig für die T. Equiperdum BoTat-Stamm.


SNiPloid: Ein Dienstprogramm zur Nutzung von SNP-Daten mit hohem Durchsatz, die aus RNA-Seq in allopolyploiden Arten abgeleitet wurden

Hochdurchsatz-Sequenzierung ist ein gängiger Ansatz zur Entdeckung von SNP-Varianten, insbesondere bei Pflanzenarten. Methoden zur Analyse vorhergesagter SNPs werden jedoch häufig für diploide Pflanzenarten optimiert, während viele Kulturpflanzenarten allopolyploide sind und verwandte, aber divergente Subgenome (homöologe Chromosomensätze) kombinieren. Wir haben ein Software-Tool, SNiPloid, entwickelt, das mutmaßliche SNPs im Kontext der Allopolyploidie ausnutzt und interpretiert, indem wir SNPs eines Allopolyploiden mit denen seiner heutigen diploiden Vorläufer vergleichen. SNiPloid kann SNPs vergleichen, die aus einer Probe gewonnen wurden, um den Subgenombeitrag zum Transkriptom abzuschätzen, oder SNPs, die aus zwei polyploiden Akzessionen erhalten wurden, um nach SNP-Divergenz zu suchen.

1. Einleitung

Das Aufkommen von Hochdurchsatz-Sequenzierungstechnologien revolutioniert unsere Fähigkeit, Einzelnukleotid-Polymorphismen (SNPs) zu entdecken und zu nutzen. Polyploidie tritt bei vielen Tieren und Pflanzen auf, ist jedoch bei Blütenpflanzen, einschließlich vieler wichtiger Nutzpflanzen, besonders weit verbreitet. Die meisten Methoden zur Entdeckung und Validierung vorhergesagter SNPs sind jedoch für diploide Arten optimiert, sodass spezifische Herausforderungen im Zusammenhang mit Polyploidie noch angegangen werden müssen.

Viele polyploide Pflanzen einschließlich Kaffee (Kaffee arabica), Weizen (Triticum durum Desf.), Baumwolle (Gossypium hirsutum L.) und Erdnuss (Arachis hypogaea L.) sind allopolyploide und enthalten nach interspezifischer Hybridisierung zwischen verwandten diploiden Arten und Chromosomenverdopplung zwei oder mehr verschiedene Genome (homöologe Chromosomen). Infolgedessen enthalten allopolyploide Genome unterschiedliche Kopien der meisten ihrer Gene, und die genomische Verschmelzung und Verdoppelung führt zu einer Vielzahl von genomischen Effekten, einschließlich Veränderungen in der Expression dieser doppelten Gene („Homoeologs“). Bei einem Allopolyploid paaren sich die Chromosomen verschiedener Elternarten nicht bei der Meiose und die Genkopien, „Homoeoallele“ oder „Homoeologs“, die von verschiedenen Elternarten stammen, haben keine allelischen Beziehungen und können folglich von echten Allelen unterschieden werden. Mit anderen Worten, Sequenzvariation zwischen Subgenomen koexistiert mit allelischer Variation innerhalb von Subgenomen. Die genaue Identifizierung von HomöoSNPs (d. h. Polymorphismen, die nur in einem der Subgenome auftraten) in tetraploiden Sequenzdaten ist aufgrund des Zusammenbaus von Homöologen eine Herausforderung. In einer gemeinsamen Anordnung könnten einzelne Nukleotidunterschiede zwischen den beiden Subgenomen mit SNP an einem einzelnen Locus verwechselt werden.

Die Sequenzierung von Transkripten mit Hochdurchsatz-Sequenzierungsmethoden (RNA-Seq) kann neue Einblicke in die polyploide Biologie liefern [1]. Typischerweise werden die Reads von einem gegebenen Allopolyploid auf ein Referenztranskriptom ausgerichtet. Wenn dann die Allelsequenzen der diploiden Vorläuferspezies abgetastet werden können, ist es möglich, auf den Genomursprung der identifizierten SNPs zu schließen und den Beitrag der homöologen Gene zum Gesamttranskriptniveau abzuschätzen.

Hier präsentieren wir ein neues Werkzeug, SNiPloid, das die vielen Aspekte der Analyse von SNPs im Kontext der Allopolyploidie angehen kann. Basierend auf dem Zusammenbau von Homöologen vergleicht SNiPloid entweder mutmaßliche SNPs, die von einem Allopolyploid nachgewiesen wurden, mit denen, die in seinen Elterngenomen erhalten wurden, oder mutmaßliche SNPs, die von zwei allopolyploiden Akzessionen abgeleitet wurden, um nach Polymorphismus zu suchen. Der SNiPloid-Webserver und der Quellcode (herunterladbar unter der öffentlichen CeCILL-Lizenz) sind unter http://sniplay.cirad.fr/cgi-bin/sniploid.cgi zugänglich.

2. Methoden

2.1. Datenvorverarbeitung

Vor der Interpretation der Ergebnisse von RNA-Seq-Daten mit SNiPloid ist eine Datenvorverarbeitung erforderlich. Biologen können ihre Daten über den öffentlichen Galaxy-Server (https://main.g2.bx.psu.edu/) wie in Abbildung 1 beschrieben vorverarbeiten.


Datenvorverarbeitung. Vor dem Start von SNiPloid muss jede einzelne Probe vorverarbeitet werden, indem nacheinander Mapping-Alignments und SNP-Aufrufe ausgeführt werden.

SNiPloid geht davon aus, dass Short-Read-Datensätze (dh Proben), die von einem einzigartigen einzelnen Genotyp oder unterschiedlichen Akzessionen (diploid oder polyploid) stammen, separat gegen eine einzelne diploide Transkriptom-Referenz abgeglichen werden, die einem der elterlichen Diploiden entspricht, unter Verwendung einer speziellen Kartierungssoftware wie BWA [2] , Seife [3] oder Fliege [4].

Die Zuordnungsausrichtung ist ein wichtiger Schritt bei der Datenvorverarbeitung, und die Zuordnungsparameter müssen angepasst und optimiert werden, um am besten zu dem als Referenz verwendeten einzelnen diploiden Genom zu passen. Da das diploide Referenztranskriptom enger mit einem der beiden Subgenome im Tetraploiden verwandt ist, könnte es kollaterale Auswirkungen auf die Kartierungseffizienz haben und indirekt zu Verzerrungen bei der Interpretation des SNP führen, insbesondere bei der Analyse der relativen homöologen Genexpression, die dargestellt wird durch den Beitrag von Subgenomen zur gesamten Genexpression.

Das SNiPloid-Dienstprogramm nutzt die Leistungsfähigkeit des Variant Call Format (VCF), das SNP-Variationen auflistet und Allele für jede sequenzierte Probe durch Vergleich mit einer Referenzsequenz zuweist [5]. Das VCF-Format ist heute weithin anerkannt und ist ein Standardformat für die Ausgabe zahlreicher SNP-Anrufsoftware. Aus dieser Perspektive empfehlen wir die Verwendung der UnifiedGenotyper Modul im GATK-Toolkit [6] für die SNP-Erkennung. Ein zweiter Eingabetyp, der von SNiPloid benötigt wird, entspricht einer vom Abdeckungstiefe Modul von GATK. Optional kann die SNP-Erkennung und die anschließende SNiPloid-Analyse durch Ausführen des GATK . verbessert werden ReadBackedPhasing Nützlichkeit, um potenzielle Assoziationen zwischen Allelen zu bestimmen und Phasing zu erzeugen.

2.2. SNiPloid-Dienstprogramm

Die Eingaben in die SNiPloid-Software bestehen aus zwei verschiedenen GATK-Ausgaben für jede Probe: (i) eine VCF-Datei, die mutmaßliche SNPs auflistet, und (ii) eine Bedeckungstiefendatei (Abbildung 1). Für jede Probe kann der Benutzer die minimale Tiefenabdeckung einstellen, die erforderlich ist, um eine Position in der Ausgabestatistik zu berücksichtigen, und die minimale Nebenallelfrequenz (MAF), die erforderlich ist, um die Position als Variante zu betrachten.

SNiPloid umfasst drei Hauptschritte (Abbildung 2(a)). Der erste Schritt des Dienstprogramms besteht darin, Regionen zu extrahieren, die für jede Probe eine (zuvor vom Benutzer festgelegte) Mindestabdeckungstiefe erfüllen, und dann in der Identifizierung überlappender Regionen zwischen den Proben. Die anschließende Analyse wird zum Variantenvergleich auf diese Regionen beschränkt. Wenn mutmaßliche SNPs eine ausreichende Tiefenabdeckung im Allopolyploiden, aber nicht im Diploiden aufweisen, oder umgekehrt, wird die Position nicht verarbeitet.


(ein)
(B)
(ein)
(B) (a) SNiPloid-Verfahren. Für jede Referenzsequenz oder jedes Gen eines diploiden Genoms G2 extrahiert SNiPloid Intervalle, die eine minimale Abdeckungstiefenschwelle für jede Probe erfüllen (1a) und identifiziert überlappende Intervalle zwischen den Proben (1b). Es extrahiert dann mutmaßliche SNPs in beiden Proben innerhalb dieser definierten gemeinsamen Regionen (2) und vergleicht die zwischen den Proben beobachteten Unterschiede, um die Situation zu interpretieren (3). (b) Phylogenetische Kontexte innerhalb eines Polyploidie-Genoms und Zuordnung von SNP-Kategorien.

Im zweiten Schritt extrahiert SNiPloid ebenfalls für jede Probe Allele aus der VCF-Datei für SNP-Positionen innerhalb der definierten gemeinsamen Regionen. Im dritten Schritt werden die beobachteten Unterschiede zwischen den Stichproben verglichen und die Situation interpretiert.

Mit seiner Hauptfunktionalität („Polyploid versus elterliches Diploid“), bietet SNiPloid die Möglichkeit, SNPs zu vergleichen, zu interpretieren und zu clustern. Basierend auf dem Zusammenbau von Homöologen ist SNiPloid in der Lage, den Ursprung des SNP-Genoms abzuleiten und interspezifische SNPs und homöoSNPs (oder genomspezifische SNP = HSV) [7] zu unterscheiden, indem es nachgewiesene SNPs im Allopolyploid mit den entsprechenden Nukleotiden in beiden modernen elterlichen diploiden Genomen vergleicht . SNiPloid klassifiziert daher SNPs in verschiedene Kategorien, indem es Evolutionsmuster wie folgt hypothetisiert (Abbildung 2(b)). (i) Muster 1 und 2 entsprechen interspezifischen SNPs und werden zugeordnet, wenn ein Allel für eines der Elterngenome spezifisch ist. Die Mutation trat nach dem Polyploidisierungsereignis auf (z. B. diploid1 A/A, diploid2 G/G und tetraploid G/G). (ii) Muster 5 entspricht mutmaßlichen homöoischen SNPs, da die gleiche Variation in Tetraploiden und zwischen elterlichen Genomen beobachtet wird (z. B. diploid1 A/A, diploid2 G/G und tetraploid A/G). Mit diesem Muster identifiziert SNiPloid unter Verwendung diploider Sequenzallele, in welchem ​​Subgenom sich das Homöoallel befindet. Im zweiten Schritt kann durch Abrufen und Kombinieren der Alleltiefen für die Referenz- und alternativen Allele, die im VCF-Format bereitgestellt werden, der Beitrag des Subgenoms zum Transkriptom für jedes homöologe Gen geschätzt werden. (iii) Muster 3 und 4 werden zugeschrieben, wenn die im Tetraploiden beobachtete Variation zwischen den Elterngenomen (z. B. diploid1 A/A, diploid2 A/A und tetraploid A/G) nicht identifiziert wird. Die Mutation kann in einem der Subgenome des Allotetraploiden nach dem Polyploidisierungsereignis aufgetreten sein. Bei einer Mischung von Reads, die aus zwei Subgenomen bei der Kartierung eines Allotetraploiden stammen, können Muster 3 oder 4 ohne Haplotyp-Information nicht zugeordnet werden, und es wird ein Muster „3 oder 4“ zugeordnet. Darüber hinaus kann SNiPloid von den Phaseninformationen profitieren, die in der vom Allotetraploid abgeleiteten VCF-Datei enthalten sind, um den Ursprung eines Allels abzuleiten und zwischen einem hypothetischen Evolutionsmuster 3 oder 4 zu unterscheiden. Tatsächlich sieht das VCF-Format die Codierung von Allelphaseninformationen vor ( Allelpaare, die durch 0∣1 anstelle von 0/1 spezifiziert sind, wenn sie mit dem vorherigen Polymorphismus phasenverschoben sind), um Haplotypblöcke zu definieren. So können die Phasing-Informationen, wenn sie im VCF bereitgestellt werden, potenzielle Assoziationen mit dem SNP-Muster 5 spezifizieren, dessen Subgenom-Ursprung bekannt ist, und somit zwischen den Mustern 3 und 4 unterschieden werden .

3. Vorteile

3.1. Internetanwendung

SNiPloid ist eine Komponente der South Green Bioinformatics Platform (http://southgreen.cirad.fr) und ist als spezifisches Dienstprogramm der SNiPlay-Anwendung unter http://sniplay.cirad.fr/cgi-bin/sniploid.cgi zugänglich [8] zur Analyse allopolyploider Spezies.

Alternativ kann SNiPloid als Komponente des Galaxy-Projekts [9] heruntergeladen werden, einem webbasierten Open-Source-Computing-Framework, das die einfache Einbindung verschiedener Tools ermöglicht. Durch das Herunterladen dieses Pakets ist es auch möglich, das Dienstprogramm über die Befehlszeile auszuführen, was bedeutet, dass Benutzer umfangreichere Eingabedatensätze verwalten können.

3.2. SNiPloid-Ausgänge

Die Webanwendung ermöglicht den Export der detaillierten Liste der klassifizierten SNPs in einem tabellarischen Format. Am Ende des Prozesses fasst das Programm die Analyse zusammen, indem es die verschiedenen SNP-Klassen für jedes Gen/Contig des Referenzdatensatzes zählt und die Ergebnisse in einer dynamisch sortierbaren Tabelle (Abbildung 3(a)) protokolliert, damit die Benutzer leicht klassifizieren können und Abrufen von SNP-Klassen von Interesse. Für Gene, die mindestens eine SNP-Klasse 5 aufweisen, wird ein durchschnittliches Verhältnis angegeben, um eine globale Schätzung des Subgenom-Beitrags des Gens zum Transkriptom zu erhalten.


SNiPloid-Ausgänge. (a) SNiPloid erzeugt HTML-Ausgaben, die die Anzahl der vordefinierten SNP-Kategorien und ein ungefähres Verhältnis des Subgenom-Beitrags zum Transkriptom für jede Referenzsequenz zeigen. (b) SNiPloid ist auch in der Lage, ein grafisches Bild zu erstellen, das die Gesamtverteilung der SNP-Kategorien und der Subgenombeiträge entlang der Chromosomen zeigt.

Wenn das Ziel darin besteht, allgemeine Statistiken oder SNP-Häufigkeiten entlang des Transkriptoms zu berechnen, kann die Zählung der SNP-Kategorien außerdem auf die Anzahl der für die Analyse berücksichtigten Positionen gemeldet werden, dh Positionen, die den Schwellenwert für die Mindestabdeckungstiefe erreicht haben vom Benutzer definiert.

3.3. Vergleich zweier Proben

Grundsätzlich ist die zweite Option „Polyploid versus polyploid“ der Anwendung ermöglicht es, spezifische und gemeinsame SNPs zwischen zwei Stichproben schnell zu unterscheiden und zu zählen. Der Vergleich kann auf drei verschiedenen Ebenen durchgeführt werden: entweder zwischen zwei Proben, die von einer einzelnen polyploiden Akzession stammen, oder zwischen zwei polyploiden Akzessionen oder allgemeiner zwischen zwei Arten. Durch die Nutzung dieser Funktionalität können neue originelle Ansätze basierend auf differentieller SNP für die Untersuchung der Genomstruktur von Polyploiden oder des Beitrags des Subgenoms zur Genexpression entstehen.

3.4. SNiPloid Kartenbetrachter

Schließlich enthält SNiPloid einen Viewer, der einen grafischen Überblick über die Verteilung der SNP-Kategorien und der Subgenombeiträge entlang der Chromosomen ermöglicht (Abbildung 3(b)).

Diese Funktionalität kann nur auf Arten angewendet werden, für die eine vollständige und vollständig annotierte Referenzgenomsequenz verfügbar ist, und erfordert als zusätzliche Eingabe eine strukturelle Genomannotation im Format General Feature Format (GFF), die dem Betrachterprogramm die Koordinaten der verwendeten Genmodelle zur Verfügung stellt Verweis auf das Genom. Ziel ist die schnelle Lokalisierung potenzieller stark verzerrt exprimierter Regionen, introgressierter Gene oder homogenisierter Regionen innerhalb des Genoms.

3.5. Beispiele für Anwendungsfälle

Eine vollständige Transkriptomanalyse wurde auf dem allotetraploiden durchgeführt Kaffee arabica durch Verwendung der SNiPloid-Software zur Analyse des Beitrags von Subgenomen zum Transkriptom [10]. This study enabled to characterize genome-wide homoeologous expression gene expression in C. arabica, a recent allopolyploid combining two subgenomes that derive from two closely related diploid species: C. canephora und C. eugenioides. Different samples of C. arabica obtained at contrasted temperatures and one C. eugenioides sample were mapped against the C. canephora reference transcriptome, analyzed for SNP discovery, before being compared with SNiPloid in order to estimate homoeologous gene expression and to highlight potential variation between growing conditions. Additionally, by mapping reads against the C. eugenioides transcriptome instead of C. canephora, this study showed that the relative homoeologous gene expression is slightly biased in favour of the genome used as reference, as anticipated above.

Sampled from this study, an example of datasets is provided by the SNiPloid Web server to familiarize users with the correct input and expected results.

3.6. Performance and Limitations

The main functionality of SNiPloid is dedicated to RNA-Seq data and to polyploid species for which a diploid transcriptome reference is available for at least one of the parents.

One limitation of the use of RNA-Seq for SNP detection and subsequent interpretation is that the transcript sequences represent only the expressed part of the genome and that the sequencing depth varies considerably across the genome due to the different gene expression levels. Thus, only SNPs in well-expressed genes can be detected and allele or homoeolog expression bias could make the detection of certain SNP difficult due to their low frequency in the transcriptome. However, NGS technologies and the use of appropriate read cutoffs allow to detect and interpret SNPs for a large number of genes distributed across the genome.

Theoretically, even though the allele expression quantification would not be performed, a genome wide analysis would be also possible on genomic data. However from a technical point of view, whole genome analysis would be difficult to perform through our Web server, since it requires uploading VCF and depths file inputs that would be sizeable and should be computed by command line after having downloaded the SNiPloid package or through Galaxy.

In terms of performance, in our practical experience two RNA-Seq samples derived from a polyploid and a diploid species first mapped against a complete reference transcriptome and then generating 600 000 putative SNPs each can be successfully compared by SNiPloid Web server in less than five minutes.

3.7. Comparison with Other SNP Bioinformatics Tools

Even though numerous SNP bioinformatics tools or pipelines exist for SNP calling (GATK [6], VarScan [11], WEP [12], and MiST [13]) or SNP annotation (SNPEff [14]) at a whole genome scale, only a few software packages allow to automatically categorize and interpret putative SNPs from polyploid species.

An example of pipeline reported by Hand et al. [15] predicts the subgenome-specific origin of SNPs using a phylogenetic approach based on comparison with orthologous sequences from predicted progenitor species. More recently a new pipeline called PolyCat [16] has been developed for mapping and categorizing NGS reads produced from allopolyploid organisms. Having the same aim as SNiPloid, the approach is a little bit different. PolyCat uses reads from diploids to generate preindexed homoeoSNPs that will be then used to assign reads from tetraploids to a subgenome. The subgenome attribution is made at the read level whereas SNiPloid manages the subgenome attribution by considering SNPs position by position, counting homoeoSNPs for each transcript of a whole transcriptome analysis.

This approach is relevant and more advanced but can appear slightly more fastidious to operate. The main advantage of SNiPloid is its ease to be applied since it does not require preliminary work to establish homoeoSNPs database that can be time-consuming, and offers to non-bioinformaticians a ready-to-use Web server allowing to rapidly obtain subgenome attribution thanks to a “one click” analysis.

In addition, our approach seems to be more appropriate for allopolyploid species for which the polyploidization event is relatively recent in the evolution such as Coffea or Spartina.

4. Conclusions

To our knowledge, SNiPloid is the first Web tool dedicated and optimized for the SNP analysis of RNA-Seq data obtained from an allopolyploid species. By exploiting the well-organized information stored in the standard VCF format, SNiPloid helps to interpret putative SNPs detected in a whole transcriptome by a comprehensive SNP categorization. SNiPloid is appropriate for allotetraploids and opens new prospects for investigating allopolyploid genome structure or expression.

Verweise

  1. J. Higgins, A. Magusin, M. Trick, F. Fraser, and I. Bancroft, “Use of mRNA-Seq to discriminate contributions to the transcriptome from the constituent genomes of the polyploidy crop species Brassica napus,” BMC Genomics, Bd. 13, article 247, 2012. View at: Google Scholar
  2. H. Li and R. Durbin, “Fast and accurate short read alignment with Burrows-Wheeler transform,” Bioinformatik, Bd. 25, nein. 14, pp. 1754–1760, 2009. View at: Publisher Site | Google Scholar
  3. R. Li, C. Yu, Y. Li et al., “SOAP2: an improved ultrafast tool for short read alignment,” Bioinformatik, Bd. 25, nein. 15, pp. 1966–1967, 2009. View at: Publisher Site | Google Scholar
  4. B. Langmead, “Aligning short sequencing read with Bowtie,” in Current Protocols in Bioinformatics, chapter 11, unit 11. 7, John Wiley & Sons, New York, NY, USA, 2010. View at: Publisher Site | Google Scholar
  5. “VCF format,” http://www.1000genomes.org/wiki/Analysis/Variant�ll𥈏ormat/vcf-variant-call-format-version-41. Ansehen bei: Google Scholar
  6. A. McKenna, M. Hanna, E. Banks et al., “The genome analysis toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data,” Genomforschung, Bd. 20, nein. 9, pp. 1297–1303, 2010. View at: Publisher Site | Google Scholar
  7. S. Kaur, M. G. Francki, and J. W. Forster, “Identification, characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species,” Zeitschrift für Pflanzenbiotechnologie, Bd. 10, nein. 2, pp. 125–138, 2012. View at: Publisher Site | Google Scholar
  8. A. Dereeper, S. Nicolas, L. Le Cunff et al., “SNiPlay: a web-based tool for detection, management and analysis of SNPs. Application to grapevine diversity projects,” BMC Bioinformatik, Bd. 12, article 134, 2011. View at: Publisher Site | Google Scholar
  9. J. Goecks, A. Nekrutenko, J. Taylor, and T. Galaxy Team, “Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences,” Genombiologie, Bd. 8, nein. 8, article R86, 2010. View at: Publisher Site | Google Scholar
  10. M. C. . Combes, A. Dereeper, D. Severac, B. Bertrand, and P. Lashermes, “Contribution of subgenomes to the transcriptome and their intertwined regulation in the allopolyploid Kaffee arabica grown at contrasted temperatures,” Neuer Phytologe, Bd. 200, nein. 1, pp. 251–260, 2013. View at: Publisher Site | Google Scholar
  11. D. C. Koboldt, K. Chen, T. Wylie et al., “VarScan: variant detection in massively parallel sequencing of individual and pooled samples,” Bioinformatik, Bd. 25, nein. 17, pp. 2283–2285, 2009. View at: Publisher Site | Google Scholar
  12. M. D'Antonio, P. D. De Meo, D. Paoletti et al., “WEP: a high-performance analysis pipeline for whole-exome data,” BMC Bioinformatik, Bd. 14, supplement 7, article S11, 2013. View at: Google Scholar
  13. S. Subramanian, V. Di Pierro, H. Shah et al., “MiST: a new approach to variant detection in deep sequencing datasets,” Genombiologie, Bd. 11, nein. 8, article R86, 2010. View at: Google Scholar
  14. P. Cingolani, A. Platts, L. Wang le et al., “A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster Belastung w 1118 , iso-2, iso-3,” Fliegen, Bd. 6, nein. 2, pp. 80–92, 2012. View at: Publisher Site | Google Scholar
  15. M. L. Hand, N. O. Cogan, and J. W. Forster, “Genome-wide SNP identification in multiple morphotypes of allohexaploid tall fescue (Festuca arundinacea Schreb),” BMC Genomics, Bd. 13, article 219, 2012. View at: Publisher Site | Google Scholar
  16. J. T. Page, A. R. Gingle, and J. A. Udall, “PolyCat: a resource for genome categorization of sequencing reads from allopolyploid organisms,” G3, Bd. 3, nein. 3, pp. 517–525, 2013. View at: Google Scholar

Urheberrechte ©

Copyright © 2013 Marine Peralta et al. Dies ist ein Open-Access-Artikel, der unter der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium erlaubt, vorausgesetzt, das Originalwerk wird ordnungsgemäß zitiert.


The basic principles of SNP array are the same as the DNA microarray. These are the convergence of DNA hybridization, fluorescence microscopy, and solid surface DNA capture. The three mandatory components of the SNP arrays are: [3]

  1. An array containing immobilized allele-specific oligonucleotide (ASO) probes.
  2. Fragmented nucleic acid sequences of target, labelled with fluorescent dyes.
  3. A detection system that records and interprets the hybridization signal.

The ASO probes are often chosen based on sequencing of a representative panel of individuals: positions found to vary in the panel at a specified frequency are used as the basis for probes. SNP chips are generally described by the number of SNP positions they assay. Two probes must be used for each SNP position to detect both alleles if only one probe were used, experimental failure would be indistinguishable from homozygosity of the non-probed allele. [4]

A SNP array is a useful tool for studying slight variations between whole genomes. The most important clinical applications of SNP arrays are for determining disease susceptibility [5] and for measuring the efficacy of drug therapies designed specifically for individuals. [6] In research, SNP arrays are most frequently used for genome-wide association studies. [7] Each individual has many SNPs. SNP-based genetic linkage analysis can be used to map disease loci, and determine disease susceptibility genes in individuals. The combination of SNP maps and high density SNP arrays allows SNPs to be used as markers for genetic diseases that have complex traits. For example, genome-wide association studies have identified SNPs associated with diseases such as rheumatoid arthritis, [8] prostate cancer, [9] A SNP array can also be used to generate a virtual karyotype using software to determine the copy number of each SNP on the array and then align the SNPs in chromosomal order. [10]

SNPs can also be used to study genetic abnormalities in cancer. For example, SNP arrays can be used to study loss of heterozygosity (LOH). LOH occurs when one allele of a gene is mutated in a deleterious way and the normally-functioning allele is lost. LOH occurs commonly in oncogenesis. For example, tumor suppressor genes help keep cancer from developing. If a person has one mutated and dysfunctional copy of a tumor suppressor gene and his second, functional copy of the gene gets damaged, they may become more likely to develop cancer. [11]

Other chip-based methods such as comparative genomic hybridization can detect genomic gains or deletions leading to LOH. SNP arrays, however, have an additional advantage of being able to detect copy-neutral LOH (also called uniparental disomy or gene conversion). Copy-neutral LOH is a form of allelic imbalance. In copy-neutral LOH, one allele or whole chromosome from a parent is missing. This problem leads to duplication of the other parental allele. Copy-neutral LOH may be pathological. For example, say that the mother's allele is wild-type and fully functional, and the father's allele is mutated. If the mother's allele is missing and the child has two copies of the father's mutant allele, disease can occur.

High density SNP arrays help scientists identify patterns of allelic imbalance. These studies have potential prognostic and diagnostic uses. Because LOH is so common in many human cancers, SNP arrays have great potential in cancer diagnostics. For example, recent SNP array studies have shown that solid tumors such as gastric cancer and liver cancer show LOH, as do non-solid malignancies such as hematologic malignancies, ALL, MDS, CML and others. These studies may provide insights into how these diseases develop, as well as information about how to create therapies for them. [12]

Breeding in a number of animal and plant species has been revolutionized by the emergence of SNP arrays. The method is based on the prediction of genetic merit by incorporating relationships among individuals based on SNP array data. [13] This process is known as genomic selection.


Genome-wide genetic changes during modern breeding of maize

The success of modern maize breeding has been demonstrated by remarkable increases in productivity over the last four decades. However, the underlying genetic changes correlated with these gains remain largely unknown. We report here the sequencing of 278 temperate maize inbred lines from different stages of breeding history, including deep resequencing of 4 lines with known pedigree information. The results show that modern breeding has introduced highly dynamic genetic changes into the maize genome. Artificial selection has affected thousands of targets, including genes and non-genic regions, leading to a reduction in nucleotide diversity and an increase in the proportion of rare alleles. Genetic changes during breeding happen rapidly, with extensive variation (SNPs, indels and copy-number variants (CNVs)) occurring, even within identity-by-descent regions. Our genome-wide assessment of genetic changes during modern maize breeding provides new strategies as well as practical targets for future crop breeding and biotechnology.


Informationen zum Autor

Mitgliedschaften

L.K. Ernst Federal Science Center for Animal Husbandry, Dubrovitzy 60, Podolsk, Moscow, Russia, 142132

Alexander A. Sermyagin, Arsen V. Dotsev, Elena A. Gladyr, Alexey A. Traspov, Tatiana E. Deniskova, Olga V. Kostyunina, Gottfried Brem & Natalia A. Zinovieva

Institute of Genome Biology, Leibniz Institute for Farm Animal Biology (FBN), 18196, Dummerstorf, Mecklenburg-Vorpommern, Germany

Henry Reyer & Klaus Wimmers

Department of Animal Sciences, Food and Nutrition, Università Cattolica del Sacro Cuore, via Emilia Parmense 84, Piacenza, Italy

Russian Research Institute of Farm Animal Genetics and Breeding, Moskovskoe shosse 55a, St. Petersburg–Pushkin, Russia, 196601

Ivan A. Paronyan & Kirill V. Plemyashov

Division of Livestock Sciences, University of Natural Resources and Life Sciences, Gregor-Mendel-Straße 33, 1180, Vienna, Austria

Yakut Scientific Research Institute of Agriculture, 23/1, ul. Bestuzheva-Marlynskogo, Yakutsk, Sakha Republic, Russia, 677001

Institute of Animal Breeding and Genetics, University of Veterinary Medicine, Veterinärplatz 1, 1210, Vienna, Austria


Schau das Video: What is a SNP? Single nucleotide polymorphism SNP data in theory and practice (Kann 2022).