Information

Was ist der Unterschied zwischen Sequenz, Reads und Contigs von genetischem Material?

Was ist der Unterschied zwischen Sequenz, Reads und Contigs von genetischem Material?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Kann jemand die Unterschiede zwischen Sequenz, Reads und Contigs von genetischem Material wie DNA erklären, wenn möglich an einem Beispiel?

Ich bin neu in der Bioinformatik und habe auf all diese Konzepte im Web keine schlüssigen Antworten gefunden.


Mein Verständnis dieser drei Wörter ist wie folgt:

  • Reihenfolge ist ein generischer Name, der die Reihenfolge biologischer Buchstaben (DNA/RNA oder Aminosäuren) beschreibt. Sowohl Contigs als auch Reads sind DNA/RNA- oder aa-Sequenzen

  • liest sind nur eine kurze Hand für sequenzielle Lesevorgänge. Normalerweise beziehen sich sequenzierte Lesevorgänge auf etwas digitale Informationen, die von der Sequenzierungsmaschine (z. B. Illumina MySeq) erhalten und imschnellqDatei mit Qualitätsbewertungen pro Basis. Lesevorgänge sind in der Regel kurz. Allerdings ändert sich "kurz" schnell. Im Moment produziert MySeq irgendwo zwischen 50-150 Basenpaare lang (bp). Aus einem einzigen Durchlauf (es hängt wirklich vom Durchlauf ab) können Sie Millionen von Lesevorgängen erhalten, wobei jeder Lesevorgang eine bp-Größe hat, z. B. 100 bp lang. Alle Lesevorgänge werden in einem einzigen gespeichertschnellqDatei pro Replikat, wobei alle Lesevorgänge in dieser Datei normalerweise eine einheitliche Größe haben, z. B. alle 5 Millionen Lesevorgänge sind 100 bp lang.

Als Bioinformatiker müssen Sie zuerst herausfinden, wo sich diese befinden liest komme aus. Abhängig vom experimentellen Ziel und davon, welche Art von Sequenzierung Sie durchgeführt haben, z contigs.

  • contigs sind einfach zusammengestellte Reads. Zum Beispiel, wenn Sie tun de novo Transkriptomik. Dann würdest du:

    1. Reinigen Sie Ihr Transkript aus einem Gewebe und senden Sie es zur Sequenzierung
    2. Holen Sie sich Ihre fastq-Dateien mit sequenzierten Lesevorgängen, die alle kurze Lesevorgänge sind (z. B. 100 bp)
    3. diese 100bp-Reads zu einem längeren zusammenbauen contig das wird hoffentlich deinem individuellen Transkript ähneln

Ich werde dasselbe wie @Serin sagen, aber in einem etwas anderen Kontext. Nehmen wir ein Beispiel, bei dem Sie Raucher mit Nichtrauchern vergleichen möchten.

In diesem Zusammenhang möchten Sie eine DNA-Sequenz von Rauchern nehmen. Aufgrund technologischer Einschränkungen erhalten Sie jedoch keine einzige DNA-Sequenz von der Sequenziermaschine. Sie erhalten Millionen von kurzen überlappenden DNA-Sequenzen, die als Reads bekannt sind.

Wir brauchen einen Assembler, um die Reads "zu kartieren" und sie mit einem Referenzgenom zu vergleichen. In diesem Beispiel könnte das Referenzgenom das menschliche HG38 gewesen sein.

Der Assembler müsste die überlappenden Lesevorgänge in einen Satz nicht überlappender Bereiche, bekannt als Contigs, zusammenführen.


Was ist der Unterschied zwischen einem DNA- und RNA-Impfstoff?

Laura Hensley ist eine preisgekrönte Lifestyle-Journalistin, die in einigen der größten Nachrichtenredaktionen Kanadas gearbeitet hat.

James Lacy, MLS, ist Faktenprüfer und Forscher. James erwarb einen Master of Library Science von der Dominican University.

Die zentralen Thesen

  • DNA- und RNA-Impfstoffe haben das gleiche Ziel wie herkömmliche Impfstoffe, wirken jedoch etwas anders.
  • Anstatt wie bei einem herkömmlichen Impfstoff eine abgeschwächte Form eines Virus oder Bakteriums in den Körper zu injizieren, verwenden DNA- und RNA-Impfstoffe einen Teil des eigenen genetischen Codes des Virus, um eine Immunantwort zu stimulieren.
  • Ein von Pfizer und BioNTech gemeinsam entwickelter mRNA-Impfstoff gegen COVID-19 ist der erste seiner Art, der in den USA für den Notfalleinsatz zugelassen ist.
  • Mehrere andere potenzielle DNA- und RNA-COVID-19-Impfstoffe befinden sich in klinischen Studien, was bedeutet, dass sie ein wichtiger und vielversprechender Bereich der Impfstoffentwicklung sind.

Forscher auf der ganzen Welt arbeiten an der Entwicklung sicherer und wirksamer Impfstoffe gegen COVID-19, die durch das neuartige Coronavirus SARS-CoV-2 verursachte Krankheit. Derzeit finden mehrere weltweite klinische Studien mit Impfstoffen statt, darunter vier große Studien in den Vereinigten Staaten. Einige dieser potenziellen COVID-19-Impfstoffe sind RNA- und DNA-Impfstoffe, ein aufstrebender Bereich der Impfstoffentwicklung.

Am 11. Dezember erteilte die Food and Drug Administration eine Notfallgenehmigung für einen von Pfizer und BioNTech gemeinsam entwickelten Messenger-RNA-Impfstoff (mRNA) gegen COVID-19. Diese Notfallanwendung ist für Personen ab 16 Jahren zugelassen.


Was ist genetisches Material?

Genetisches Material ist das Medium, durch das Anweisungen von einer Generation von Organismen an die nächste weitergegeben werden. Im Leben auf der Erde nimmt es die Form von Nukleotidsequenzen an, die in Genomen organisiert sind. Ein Genom ist die gesamte DNA, die in der Zelle eines Lebewesens enthalten ist. Jedes Molekül der menschlichen DNA hat Milliarden von Nukleotiden, die wie Stufen auf einer Leiter angeordnet sind.

Es ist die Sequenz von Nukleotiden, die die Eigenschaften des Organismus bestimmt. An verschiedenen Stellen, die als Loci bezeichnet werden, entlang jedes Chromosoms zwischen großen Abschnitten von nicht kodierenden DNA-Sequenzen von Nukleotiden lösen sich die DNA-Sequenzen von Nukleotiden in kohärente Muster auf, die Botenproteine ​​anweisen, andere Proteine ​​​​zu bauen. Diese Proteine ​​werden im Zytoplasma der Zelle synthetisiert und arbeiten daran, jede Struktur eines lebenden Körpers aufzubauen. Gene bauen als natürliche Folge ihrer Nukleotidsequenzen Proteine ​​auf und Proteine ​​bauen Körper.

Genetisches Material wird zwischen großen Organismen durch vertikale Übertragung von Eltern zu Nachkommen weitergegeben. Jedes Nachkommen ähnelt seinem Elternteil eher als einem zufällig ausgewählten Mitglied seiner Art, da die genaue Abfolge der genetischen Anweisungen zum Aufbau des Körpers von den Elternteilen geerbt wurde. Kleine Fehler beim Kopieren von Genen werden als Mutationen bezeichnet, und ihre Vermehrung in einem Genpool treibt den Evolutionsprozess an.


Was ist der Unterschied zwischen Sequenz, Reads und Contigs von genetischem Material? - Biologie

Schnelles Aufrufen von haploiden Varianten und Ausrichtung des Kerngenoms

Snippy findet SNPs zwischen einem haploiden Referenzgenom und Ihren NGS-Sequenz-Reads. Es findet sowohl Ersetzungen (snps) als auch Einfügungen/Löschungen (indels). Es wird so viele CPUs verwenden, wie Sie auf einem einzelnen Computer bereitstellen können (getestet auf 64 Kerne). Es ist auf Geschwindigkeit ausgelegt und erzeugt einen konsistenten Satz von Ausgabedateien in einem einzigen Ordner. Es kann dann eine Reihe von Snippy-Ergebnissen unter Verwendung derselben Referenz verwenden und ein Kern-SNP-Alignment (und schließlich einen phylogenomischen Baum) generieren.

Installieren Sie Homebrew (MacOS) oder LinuxBrew (Linux) dann:

Dadurch wird die neueste Version direkt von Github installiert. Sie müssen das bin-Verzeichnis von Snippy zu Ihrem $PATH hinzufügen.

Stellen Sie sicher, dass Sie die gewünschte Version haben:

Überprüfen Sie, ob alle Abhängigkeiten installiert sind und funktionieren:

  • ein Referenzgenom im FASTA- oder GENBANK-Format (kann in mehreren Contigs vorliegen)
  • Sequenzlesedatei(en) im FASTQ- oder FASTA-Format (kann .gz komprimiert sein) Format
  • ein Ordner, um die Ergebnisse abzulegen
Verlängerung Beschreibung
.Tab Eine einfache tabulatorgetrennte Zusammenfassung aller Varianten
.csv Eine durch Kommas getrennte Version der .tab-Datei
.html Eine HTML-Version der .tab-Datei
.vcf Die letzten kommentierten Varianten im VCF-Format
.Bett Die Varianten im BED-Format
.gff Die Varianten im GFF3-Format
.bam Die Ausrichtungen im BAM-Format. Enthält nicht zugeordnete Multimapping-Lesevorgänge. Schließt Duplikate aus.
.bam.bai Index für die .bam-Datei
.Protokoll Eine Protokolldatei mit den ausgeführten Befehlen und ihren Ausgaben
.ausgerichtet.fa Eine Version der Referenz, aber mit - an Position mit Tiefe=0 und N für 0 < Tiefe < --mincov (hat keine Varianten)
.konsens.fa Eine Version des Referenzgenoms mit alle Varianten instanziiert
.consensus.subs.fa Eine Version des Referenzgenoms mit nur Ersatz Varianten instanziiert
.raw.vcf Die ungefilterte Variante fordert von Freebayes
.filt.vcf Die gefilterten Variantenaufrufe von Freebayes
.vcf.gz Komprimierte .vcf-Datei über BGZIP
.vcf.gz.csi Index für die .vcf.gz über bcftools index )

⚠️ ❌ Snippy 4.x tut es NICHT Produziere die folgenden Dateien, die Snippy 3.x erstellt hat

Verlängerung Beschreibung
.vcf.gz.tbi Index für die .vcf.gz über TABIX
.Tiefe.gz Ausgabe von samtools Tiefe -aa für die .bam Datei
.tiefe.gz.tbi Index für die .depth.gz-Datei

Spalten in den Formaten TAB/CSV/HTML

Name Beschreibung
CHROM Die Sequenz, in der die Variante gefunden wurde, z. der Name nach dem > in der FASTA-Referenz
POS Position in der Sequenz, gezählt von 1
TYP Der Variantentyp: snp msp ins del complex
REF Das/die Nukleotid(e) in der Referenz
ALT Das/die alternative(n) Nukleotid(e), die von den Reads unterstützt werden
BEWEIS Frequenzzählungen für REF und ALT

Wenn Sie eine Genbank-Datei als --reference anstelle einer FASTA-Datei angeben, füllt Snippy diese zusätzlichen Spalten mithilfe der Genom-Annotation aus, um Ihnen mitzuteilen, welche Funktion von der Variante betroffen war:

Name Beschreibung
FTYPE Betroffene Merkmalsklasse: CDS tRNA rRNA .
STRAND Strand das Feature war auf: + - .
NT_POS Nukleotidposition der Variante innerhalb des Merkmals / Länge in nt
AA_POS Restposition / Länge in aa (nur wenn FTYPE CDS ist)
LOCUS_TAG Das /locus_tag des Features (falls vorhanden)
GEN Das /gene-Tag des Features (falls vorhanden)
PRODUKT Das /product-Tag der Funktion (falls vorhanden)
WIRKUNG Die mit snpEff annotierte Folge dieser Variante (ANN-Tag in .vcf)

Typ Name Beispiel
snp Einzelnukleotid-Polymorphismus A => T
mnp Multipler Nukleotid-Polymorphismus GC => AT
ins Einfügen ATT => AGTT
del Streichung ACGG => ACG
Komplex Kombination aus snp/mnp ATTC => GTTA

Der Variantenaufruf erfolgt durch Freebayes. Die wichtigsten Parameter unter der Kontrolle des Benutzers sind:

  • --mincov - die minimale Anzahl von Lesevorgängen, die eine zu berücksichtigende Site abdecken (Standard=10)
  • --minfrac - der Mindestanteil derjenigen Reads, die von der Referenz abweichen müssen
  • --minqual - der minimale VCF-Variantenaufruf "Qualität" (Standard=100)

Varianten im Detail betrachten mit snippy-vcf_report

Wenn Sie Snippy mit der Option --report ausführen, wird automatisch snippy-vcf_report ausgeführt und eine snps.report.txt generiert, die einen Abschnitt wie diesen für jeden SNP in snps.vcf enthält:

Wenn Sie diesen Bericht erstellen möchten nach Sie Snippy ausgeführt haben, können Sie es direkt ausführen:

Wenn Sie eine HTML-Version zur Anzeige in einem Webbrowser wünschen, verwenden Sie die Option --html:

Es funktioniert durch Ausführen von samtools tview für jede Variante, was sehr langsam sein kann, wenn Sie Tausende von Varianten haben. Es wird empfohlen, --cpus so hoch wie möglich zu verwenden.

--rgid setzt die Read Group (RG) ID (ID) und Sample (SM) in der BAM- und VCF-Datei. Wenn nicht angegeben, wird der Ordnername --outdir sowohl für ID als auch für SM verwendet.

--mapqual ist die minimale Mapping-Qualität, die beim Variantenaufruf akzeptiert wird. BWA MEM verwendet 60, um zu bedeuten, dass ein Lesevorgang "eindeutig zugeordnet" ist.

--basequal ist die Mindestqualität, die ein Nukleotid beim Variantenaufruf verwenden muss. Wir verwenden 13, was einer Fehlerwahrscheinlichkeit von entspricht

5%. Es ist ein traditioneller SAMtools-Wert.

--maxsoft gibt an, wie viele Basen einer Ausrichtung weich abgeschnitten werden dürfen, bevor die Ausrichtung verworfen wird. Dies soll eine globale über lokale Ausrichtung fördern und wird an das samclip-Tool übergeben.

--mincov und --minfrac werden verwendet, um dem Variantenaufruf über das vorhandene statistische Maß hinaus harte Schwellenwerte zuzuweisen. Die optimalen Werte hängen von Ihrer Sequenzierungstiefe und Kontaminationsrate ab. Üblicherweise werden Werte von 10 und 0,9 verwendet.

--targets nimmt eine BED-Datei und ruft nur Varianten in diesen Regionen auf. Normalerweise nicht erforderlich, es sei denn, Sie interessieren sich nur für Varianten in bestimmten Loci (z. B. AMR-Gene), führen jedoch immer noch WGS anstelle der Amplikon-Sequenzierung durch.

--contigs ermöglicht es Ihnen, SNPs aus Contigs statt aus Reads aufzurufen. Es zerkleinert die Contigs in synthetische Reads, um die Aufrufe in einer Multi-Sample-Analyse mit anderen Read-Samples abzugleichen.

Wenn Sie SNPs für mehrere Isolate aus derselben Referenz aufrufen, können Sie ein Alignment von "Kern-SNPs" erstellen, das verwendet werden kann, um eine hochauflösende Phylogenie aufzubauen (wobei eine mögliche Rekombination ignoriert wird). Eine "Core Site" ist eine genomische Position, die in alle die Beispiele. Eine Kernstelle kann in jeder Probe das gleiche Nukleotid aufweisen ("monomorph") oder einige Proben können unterschiedlich sein ("polymorph" oder "variante"). Wenn wir die Komplikationen von "ins", "del"-Variantentypen ignorieren und nur Varianten-Sites verwenden, sind dies das "Core-SNP-Genom".

Um das Ausführen einer Reihe von Isolat-Sequenzen (Reads oder Contigs) für dieselbe Referenz zu vereinfachen, können Sie das Skript snippy-multi verwenden. Dieses Skript erfordert a Tab getrennt input-Datei wie folgt und kann Paired-End-Lesevorgänge, Single-End-Lesevorgänge und assemblierte Contigs verarbeiten.

Dann würde man dies ausführen, um das Ausgabeskript zu generieren. Der erste Parameter sollte die Datei input.tab sein. Die verbleibenden Parameter sollten alle verbleibenden gemeinsam genutzten Snippy-Parameter sein. Die ID wird für --outdir jedes Isolats verwendet.

Es wird auch snippy-core am Ende ausführen, um die Core-Genom-SNP-Alignment-Dateien core.* zu generieren.

Verlängerung Beschreibung
.aln Ein Kern-SNP-Alignment im --aformat-Format (Standard FASTA)
.voll.aln Ein SNP-Alignment des gesamten Genoms (einschließlich invarianten Stellen)
.Tab Tabulatorgetrennte Spaltenliste von Ader SNP-Sites mit Allelen, aber KEINE Annotationen
.vcf Multi-Sample-VCF-Datei mit Genotyp-GT-Tags für alle entdeckten Allele
.TXT Tabulatorgetrennte Spaltenliste der Ausrichtungs-/Kerngrößenstatistiken
.ref.fa FASTA-Version/Kopie der --ref
.self_mask.bed BED-Datei wird generiert, wenn --mask auto verwendet wird.

Warum ist core.full.aln eine Buchstabensuppe?

Die Datei core.full.aln ist eine FASTA-formatierte Multiple Sequence Alignment-Datei. Es hat eine Sequenz als Referenz und eine für jede Probe, die an der Kerngenomberechnung teilnimmt. Jede Sequenz hat die gleiche Länge wie die Referenzsequenz.

Charakter Bedeutung
ATGC Wie die Referenz
atgc Anders als die Referenz
- Null Abdeckung in diesem Beispiel oder eine Streichung in Bezug auf die Referenz
n Geringe Abdeckung in dieser Stichprobe (basierend auf --mincov )
x Maskierter Referenzbereich (von --mask )
n Heterozygoter oder minderwertiger Genotyp (hat GT=0/1 oder QUAL < --minqual in snps.raw.vcf )

Sie können alle "seltsamen" Zeichen entfernen und sie durch N ersetzen, indem Sie das mitgelieferte snippy-clean_full_aln verwenden. Dies ist nützlich, wenn Sie es an ein Tool zum Erstellen von Bäumen oder zum Entfernen von Rekombinationen übergeben müssen:

  • Wenn Sie bestimmte Regionen des Genoms maskieren möchten, können Sie eine BED-Datei mit dem Parameter --mask bereitstellen. Alle SNPs in diesen Regionen werden ausgeschlossen. Dies ist üblich für Genome wie M.tuberkulose wo lästige repetitive PE/PPE/PGRS-Gene falsch positive Ergebnisse verursachen oder Phagenregionen maskieren. Eine --maskenbettdatei für M.tb wird mit Snippy im Ordner etc/Mtb_NC_000962.3_mask.bed bereitgestellt. Es wird aus der XLSX-Datei von https://gph.niid.go.jp/tgs-tb/ abgeleitet.
  • Wenn Sie die Option snippy --cleanup verwenden, werden die Referenzdateien gelöscht. Das bedeutet, dass snippy-core die Referenz nicht "automatisch finden" kann. In diesem Fall verwenden Sie einfach snippy-core --reference REF, um die Referenz im FASTA-Format bereitzustellen.

Erhöhung der Geschwindigkeit bei zu vielen Lesevorgängen

Manchmal haben Sie viel mehr Sequenzierungstiefe, als Sie SNPs nennen müssen. Ein häufiges Problem ist eine ganze MiSeq-Durchflusszelle für ein einzelnes Bakterienisolat, bei der 25 Millionen Reads zu einer Genomtiefe von bis zu 2000x führen. Dies macht Snippy viel langsamer als nötig, da die meisten SNPs mit 50-100x Tiefe wiederhergestellt werden. Wenn Sie wissen, dass Sie zehnmal so viele Daten haben, wie Sie benötigen, kann Snippy Ihre FASTQ-Daten nach dem Zufallsprinzip unterwerten:

Nur Aufrufen von SNPs in bestimmten Regionen

Wenn Sie nach bestimmten SNPs suchen, beispielsweise AMR-verwandten in bestimmten Genen in Ihrem Referenzgenom, können Sie viel Zeit sparen, indem Sie nur dort Varianten aufrufen. Fügen Sie einfach die interessierenden Regionen in eine BED-Datei ein:

Finden von SNPs zwischen Contigs

Manchmal ist eines Ihrer Samples nur als Contigs verfügbar, ohne entsprechende FASTQ-Reads. Sie können diese Contigs weiterhin mit Snippy verwenden, um Varianten anhand einer Referenz zu finden. Dies geschieht durch Shreddern der Contigs in 250 bp Single-End-Reads bei 2 & Amperezeiten --mincov einheitliche Abdeckung.

Um diese Funktion zu verwenden, verwenden Sie anstelle von --R1 und --R2 die Option --ctgs mit der Datei contigs:

Dieser Ausgabeordner ist vollständig mit Snippy-Core kompatibel, sodass Sie FASTQ- und Contig-basierte Snippy-Ausgabeordner mischen können, um Ausrichtungen zu erstellen.

Montagefehler korrigieren

Die de novo Der Assemblierungsprozess versucht, die Reads in die ursprünglichen DNA-Sequenzen zu rekonstruieren, von denen sie abgeleitet wurden. Diese rekonstruierten Sequenzen heißen contigs oder Gerüste. Aus verschiedenen Gründen können kleine Fehler in die zusammengebauten Contigs eingebracht werden, die nicht von den ursprünglichen Lesevorgängen unterstützt werden, die im Zusammenbauprozess verwendet werden.

Eine gängige Strategie besteht darin, die Reads auf die Contigs auszurichten, um auf Diskrepanzen zu prüfen. Diese Fehler erscheinen als Varianten (SNPs und Indels). Wenn wir können umkehren diese Varianten als wir die Contigs "korrigieren" können, damit sie mit den Beweisen übereinstimmen, die von den Original-Reads geliefert wurden. Offensichtlich kann diese Strategie schief gehen, wenn man nicht aufpasst wie das Read-Alignment durchgeführt wird und welche Varianten akzeptiert werden.

Snippy kann bei diesem Contig-Korrekturprozess helfen. Tatsächlich erzeugt es eine snps.consensus.fa FASTA-Datei, die die bereitgestellte ref.fa-Eingabedatei ist, aber mit den entdeckten Varianten in snps.vcf angewendet!

Allerdings ist Snippy nicht perfekt und findet manchmal fragwürdige Varianten. Normalerweise würden Sie eine Kopie von snps.vcf erstellen (nennen wir es corrects.vcf ) und die Zeilen entfernen, die Varianten entsprechen, denen wir nicht vertrauen. Zum Beispiel erwarten wir bei der Korrektur von Roche 454- und PacBio SMRT-Contigs in erster Linie Homopolymerfehler und erwarten daher mehr Ins als Varianten vom snp-Typ.

In diesem Fall müssen Sie den Korrekturprozess manuell mit diesen Schritten ausführen:

Vielleicht möchten Sie iterieren diesen Prozess durch die Verwendung von corrected.fa als neue --ref für eine wiederholte Ausführung von Snippy. Manchmal ermöglicht das Korrigieren eines Fehlers es BWA, Dinge auszurichten, die vorher nicht möglich waren, und neue Fehler werden aufgedeckt.

Snippy ist möglicherweise nicht der beste Weg, um Baugruppen zu korrigieren - Sie sollten spezielle Tools wie PILON oder iCorn2 in Betracht ziehen oder die Köcherparameter (für Pacbio-Daten) anpassen.

Manchmal interessieren Sie sich für die Reads, die es getan haben nicht auf das Referenzgenom ausrichten. Diese Reads repräsentieren DNA, die neu war für Ihre Beispiel, das möglicherweise interessant ist. Eine Standardstrategie ist es, de novo stellen Sie die nicht kartierten Reads zusammen, um diese neuartigen DNA-Elemente zu entdecken, die oft mobile genetische Elemente wie Plasmide umfassen.

Standardmäßig tut Snippy nicht Behalten Sie die nicht zugeordneten Lesevorgänge bei, nicht einmal in der BAM-Datei. Wenn Sie sie behalten möchten, verwenden Sie die Option --unmapped und die nicht ausgerichteten Lesevorgänge werden in einer komprimierten FASTQ-Datei gespeichert:

Der Name Snippy ist eine Kombination aus SNP (ausgesprochen "snip"), snappy (bedeutet "schnell") und Skippy the Bush Kangaroo (um seinen australischen Ursprung zu repräsentieren)

Snippy ist freie Software, veröffentlicht unter der GPL (Version 2).

Bitte senden Sie Vorschläge und Fehlerberichte an den Issue Tracker

  • Perle >= 5.18
  • Bioperl >= 1.7
  • bwa mem >= 0.7.12
  • Minikarte2 >= 2.0
  • samtools >= 1.7
  • bcftools >= 1.7
  • Bettzeug >= 2.0
  • GNU parallel >= 2013xxxx
  • freebayes >= 1.1 (freebayes, freebayes-parallel, fasta_generate_regions.py)
  • vcflib >= 1.0 (vcfstreamsort, vcfuniq, vcffirstheader) >= 0.5
  • snpEff >= 4.3
  • samclip >= 0.2
  • seqtk >= 1.2
  • snp-Sites >= 2.0
  • any2fasta >= 0.4
  • wgsim >= 1.8 (nur zum Testen - wgsim-Befehl)

Für Linux (kompiliert auf Ubuntu 16.04 LTS) und macOS (kompiliert auf High Sierra Brew) sind einige der Binärdateien, JARs und Skripte enthalten.


Diskussion

Wir haben das erste Genom für eine zweihäusige Art innerhalb der Gattung generiert Solanum, um das frühe Auftreten und die genomischen Signaturen der Geschlechtsdifferenzierung und Geschlechtsbestimmung zu beurteilen. Dazu haben wir ein hochwertiges Genom zusammengestellt, k-mer-Ansatz, um geschlechtsgebundene Genomregionen zu finden, und führte ein RNA-seq-Experiment an Blütengeweben durch, um Gene zu finden, die an der Geschlechtsbestimmung und dem Sexualdimorphismus beteiligt sind. Wir fanden das zweihäusig S. appendiculatum scheint eine vor kurzem entwickelte Geschlechtsbestimmungsregion zu haben und dass Männer wahrscheinlich das heterogametische Geschlecht sind. Tatsächlich weisen die von uns beobachteten Muster der männlich-weiblichen Sequenzdivergenz nicht auf das Vorhandensein einer großen nicht-rekombinierenden Region hin, die Gene enthält, die an der Geschlechtsbestimmung beteiligt sind. Darüber hinaus legen die spezifischen Loci, die mit der Geschlechtsdifferenzierung verbunden sind, nahe, dass die Evolution der Diözese in diesem System Veränderungen in der Regulierung der Pektinsynthese und des Pektinabbaus beinhaltet, einschließlich spezifischer phänotypischer Übergänge, die bei funktionell weiblichen Blüten beobachtet werden. Dieses Genom und die damit verbundenen Kandidatengene stellen eine wertvolle genomische Ressource für die weitere Untersuchung der jüngsten Übergänge zur Diözese innerhalb von . dar Solanum.

Begrenzte geschlechtsspezifische Genexpression und wenige geschlechtsbezogene Regionen stehen im Einklang mit der jüngsten Entwicklung des Sexualdimorphismus

Wir fanden eine sehr bescheidene Menge an geschlechtsspezifischer Genexpression in Blütenknospen und größere, aber immer noch begrenzte Geschlechtsunterschiede in den Expressionsprofilen reifer Blüten. Da zu erwarten ist, dass sich die Geschlechtsspezifität der Genexpression mit der Zeit seit der Entstehung des Sexualdimorphismus anhäuft (Ellegren und Parsch 2007), ist die Beobachtung, dass nur wenige Gene eine geschlechtsspezifische Expression zeigen, mit einem jungen Geschlechtsbestimmungssystem vereinbar. Diese sehr bescheidene genomische und transkriptomische Divergenz zwischen den Geschlechtern stimmt mit der subtilen morphologischen Unterscheidung zwischen männlichen und weiblichen Blüten überein, die bei den zweihäusigen Nachtschattengewächsen zu den am wenigsten ausgeprägt ist ( Anderson et al. 2015).

Bei reifen Blüten wiesen geschlechtsspezifische Gene häufiger bei Weibchen eine höhere Expression auf als bei Männchen ( Abb. 2B). Dieser Befund steht im Gegensatz zu einer anderen Art mit einer kürzlich entwickelten geschlechtsbestimmenden Region – dem Gartenspargel (Harkess et al. 2015) – wahrscheinlich aufgrund von Entwicklungsunterschieden im Geschlechtsausdruck zwischen den beiden Systemen. Bei Spargel wird die Antherenentwicklung vor der Mikrosporen-Meiose in weiblichen Blüten gestoppt ( Caporali et al. 1994), daher ist zu erwarten, dass Gene, die mit der späteren Pollenentwicklung assoziiert sind, nur bei männlichen Blüten exprimiert werden ( Harkess et al. 2015). Im Gegensatz dazu S. appendiculatum weibliche Blüten entwickeln reifen Pollen, lagern jedoch kein Primexin in den Öffnungsregionen ab (Zavada und Anderson 1997). Unsere Beobachtung von mehr weiblich voreingenommenen Genen in S. appendiculatum stimmt daher mit dieser Aufrechterhaltung sowohl des funktionellen Stils (weibliche Fortpflanzungsteile) als auch der aktiven Produktion von (unperturierten) Pollen ( Levine und Anderson 1986) in weiblichen Blüten überein und scheint einen gewissen Funktionsverlust der weiblichen Fortpflanzungsteile bei männlichen Pflanzen anzuzeigen. Dieser mögliche Funktionsverlust spiegelt sich jedoch nicht in der Morphologie der männlichen Blüten wider, die vollständige weibliche Fortpflanzungsteile aufweisen (wenn auch mit viel kürzeren Griffeln Anderson 1979 Anderson und Levine 1982).

Regulation von Pektin als potenzieller Mechanismus für die Bildung von Blütenpollen

Die Identifizierung von Kandidatengenen, die potenzielle feminisierende oder maskulinisierende Wirkungen haben, ist wichtig, um die Geschlechtsbestimmung bei dieser kürzlich entwickelten zweihäusigen Art zu verstehen. Insgesamt drei verschiedene Ansätze in dieser Studie – Genfamiliendynamik, geschlechtsspezifische Expression und geschlechtsspezifische k-mers – hat eine Reihe von Loci erkannt, die charakteristisch für sind S. appendiculatum. Einige davon haben wahrscheinlich nichts mit dem Übergang dieser Art zur Diözese zu tun, und einige andere sind möglicherweise eher mit allgemeinen physiologischen Folgen dieses Übergangs des Zuchtsystems verbunden als direkt an der Geschlechtsdifferenzierung und Geschlechtsbestimmung an sich beteiligt. Unsere Genfamilienanalyse wies beispielsweise eine Kontraktion der Selbstinkompatibilitätsprotein-S1-Familie spezifisch in nach S. appendiculatum. Da die Evolution der Diözese die Möglichkeit der Selbstbefruchtung dramatisch reduziert, könnte man erwarten, dass dieser Übergang die Selektion entspannt, um funktionelle Selbstinkompatibilitätsgene aufrechtzuerhalten (zB zur Selbstkompatibilität Wu et al. 2019). Nichtsdestotrotz fällt unter den entdeckten genetischen Veränderungen auf, dass alle drei unserer verschiedenen Ansätze Pektin-verwandte Gene in Verbindung mit der Geschlechtsdifferenzierung in S. appendiculatum, einschließlich Pektin-Acetylesterasen (PAE), Pektin-Lyase-ähnliche Proteine ​​(PLL) und Pektin-Methylesterase-Hemmer (PMEI). Unser Befund ist besonders faszinierend, da bekannt ist, dass die Pektinsynthese und -regulation eine wichtige Rolle bei der Entwicklung der Pollenwand und allgemein bei der Pollenfunktion spielt. Pektin besteht aus Homogalacturonan (HG), das methyl- und acetylverestert sein kann ( Wu et al. 2018), und Pektinpolysaccharide sind kritische Bestandteile der Pollenwand. Mutanten in Genen, die für synthetische und abbauende Enzyme von Pektinpolysacchariden kodieren – einschließlich Pektinmethylesterase (PME), Polygalatcturonase (PG), PAE und PLL – weisen oft defekte Primexin-, Intin- oder andere Pollenwandstrukturen auf ( Shi et al. 2015 Wu et al. 2018). Auffallend, in Nicotiana (Solanaceae), transgene Mutanten eines Pektinacetylesterase-Gens, PAE1, zeigen den Verlust von Keimporen auf der Oberfläche der Pollenkörner ( Gou et al. 2012) – ein sehr ähnlicher Phänotyp wie der in den weiblichen Blüten von S. appendiculatum. Der Überdruck PAE1 in transgenem Tabak führt zu schwerer männlicher Sterilität, indem es die Keimung von Pollenkörnern und das Wachstum von Pollenkörnern beeinträchtigt ( Gou et al. 2012).

Andere Pektin-assoziierte Proteine ​​sind ebenfalls an zahlreichen funktionellen Rollen bei der Keimung und dem Wachstum des Pollenschlauchs beteiligt, unter anderem über eine koordinierte Regulation zwischen PMEs und ihren Inhibitoren – PMEIs ( Mollet et al. 2013). PME ist zum Beispiel wichtig für die Bildung von methylverestertem HG in der apikalen Zone wachsender Pollenröhren, die eine ausreichende Plastizität für ein nachhaltiges Wachstum bietet ( Cheung und Wu 2008). Die Entfernung von Methylestergruppen durch PME kann es Pektin-abbauenden Enzymen wie PLL oder PG ermöglichen, das HG-Rückgrat zu spalten, was die Starrheit der Zellwand beeinträchtigen kann (Gaffe et al. 1994 Micheli 2001). Es wurde vorgeschlagen, dass die Pollenzelle über die Regulierung durch PMEIs ein eng reguliertes Niveau der PME-Aktivität aufrechterhalten könnte, um das Gleichgewicht zwischen Festigkeit und Plastizität in der apikalen Zellwand aufrechtzuerhalten (Bosch und Hepler 2005, 2006). Zum Beispiel die Stummschaltung der PME1 Gen in Tabak (Bosch und Hepler 2006) und Suppression von PMEI At1g10770 in Arabidopsis (Zhang et al. 2010) führen beide zu einem verlangsamten Pollenschlauchwachstum.

Zusätzlich zum Nachweis der geschlechtsspezifischen Expression von PAE fanden wir auch drei PMEIs in einer geschlechtsbestimmenden Kandidatenregion (scf14997) in S. appendiculatum. Die Anordnung und Beziehung zwischen diesen mutmaßlichen geschlechtsbestimmenden Genen stimmt damit überein, dass es sich um kürzliche Duplikationen handelt, ähnlich wie bei anderen zweihäusigen Pflanzen (Harkess et al. 2017 Akagi et al. 2018). Obwohl die spezifische Funktion dieser Gene noch nicht bekannt ist, legt die allgemeine Rolle von PMEIs, PAE und anderen verwandten Proteinen bei der Bildung und Funktion von Pollen einige mögliche Modelle für die Entstehung geschlechtsspezifischer Pollenfunktionen bei beiden Geschlechtern nahe S. appendiculatum. Zum Beispiel ist es möglich, dass diese PMEI-Kopien die unterschiedlichen (geschlechtsspezifischen) Expressionsmuster von nachgeschalteten pektinbezogenen Genen in reifen Blüten, einschließlich PAE, beeinflussen und dadurch den bei weiblichen Blüten beobachteten feminisierenden Effekt (dh nicht geöffneter Pollen) hemmen oder auslösen . An diesem Prozess könnten auch andere eng verknüpfte Gene beteiligt sein: Der gleiche syntenische Block enthält ein Gen, das für a . kodiert LOB Domänenprotein (sapp25115), das Arabidopsis Orthologe davon (AT1G06280) wird spezifisch während der Tapetum- und Mikrosporenentwicklung in den Staubbeuteln exprimiert (Oh et al. 2010 Zhu et al. 2010). Auch andere differentiell exprimierte Gene haben eindeutig relevante Funktionen. Zum Beispiel die Pyruvatdehydrogenase E1-Komponente Untereinheit alpha (sapp29734) wurde zwischen Männchen und Weibchen in der reifen Blüte unterschiedlich exprimiert. Pyruvat-Dehydrogenase katalysiert die frühen Schritte der Sporopollenin-Biosynthese, einem Hauptbestandteil der Exine-Schicht von Pollenkörnern (Jiang et al. 2013).

Obwohl Pektin-verwandte Gene vielversprechende Kandidaten für den erwarteten männlichen Sterilisationsschritt in der Evolution der Diözese sind, ist es möglich, dass sie einem Hauptregulator der Geschlechtsbestimmung nachgeschaltet sind. Ein MYB-ähnlicher Transkriptionsfaktor, der dem in scf15476 (Gen sapp39069) war an der Bestimmung des Geschlechts beteiligt Spargel officinalis ( Murase et al. 2017), und der Knockout seines mutmaßlichen Orthologs verursacht männliche Sterilität in Arabidopsis thaliana (Zhu et al. 2008). Obwohl die sapp39069 Transkriptionsfaktor könnte ein Regulator des Geschlechts sein, die R2R3-MYB-Superfamilie hat eine extreme Vielfalt an regulatorischen Funktionen ( Yanhui et al. 2006) und wir haben noch nicht genügend Daten, um die Rolle dieses Gens in S. appendiculatum. Daher muss in zukünftigen Studien untersucht werden, ob einige vorgelagerte genetische Veränderungen die nachgelagerten Veränderungen in pektinbezogenen Genen auslösen. Beispielsweise könnte eine Transkriptomanalyse zusätzlicher Entwicklungsstadien von männlichen und weiblichen Blüten klären, wie sich die Pektinregulation über die Blütenentwicklung hinweg verändert und das spezifische Timing divergierender Expressionsunterschiede zwischen männlichen und weiblichen Blüten. Unabhängig davon konnten wir mit einer genomweiten Suche nach geschlechtsspezifischen Sequenzen in Verbindung mit Genexpressionsanalysen sowohl mutmaßliche geschlechtsbestimmende Regionen als auch Gene nachweisen, die zu mindestens einem der beiden erwarteten Schritte auf dem Weg von Hermaphroditismus zur Diözese. Diese Loci bieten klare Kandidaten für eine direkte Funktionsanalyse in diesem System, insbesondere für Phänotypen der Pollenentwicklung in weiblichen Blüten ohne Öffnungen.

Die S. appendiculatum Genom bietet eine Grundlage für den Umgang mit wiederholten Übergängen zur Diözese

Obwohl die artenreiche Gattung Solanum weniger als 20 dokumentierte zweihäusige Arten enthält, ist die Diözese schätzungsweise mindestens viermal unabhängig aufgetreten (Anderson et al. 2015). Viele dieser Übergänge scheinen gemeinsame phänotypische Merkmale zu beinhalten, insbesondere die Entwicklung von Pollen ohne Öffnungen bei weiblichen Individuen und eine dramatische Reduzierung des Stempels bei männlichen Blüten (Anderson et al. 2015). Als solche bietet diese junge Gattung (geschätzt ∼17 My old Särkinen et al. 2013) ein vielversprechendes System, um die genomischen Merkmale und genetischen Mechanismen wiederholter, neuer Übergänge zur Diözese zu untersuchen.

Solanum appendiculatum gehört zu den jüngsten zweihäusigen Angiospermen mit sequenzierten Genomen (<4 My Echeverría-Londoño et al. 2020). Die hier generierten Ressourcen bieten einen wertvollen Rahmen für die Untersuchung zusätzlicher Übergänge zur Diözese in der hochspeziellen Gattung, einschließlich eines qualitativ hochwertigen assemblierten Genoms, einer Transkriptom-Charakterisierung für Annotations- und Genexpressionsanalysen und einer Reihe von Kandidaten-Loci für die gezielte Exploration in parallelen Systemen. Da die meisten zweihäusigen Nachtschattengewächse ähnliche Geschlechtsmerkmale aufweisen, einschließlich unperturierter Pollen in den Staubgefäßen weiblicher Blüten ( Anderson et al. 2015), kann die Auseinandersetzung mit den parallelen Ursprüngen der Diözese in dieser Gruppe auch darauf eingehen, ob diese Übergänge konvergente Wege bei genomischen, genetischen, und Entwicklungsstufen. In Verbindung mit S. appendiculatum Genom, Sequenzdaten von anderen diözischen Solanum Arten können verwendet werden, um diese parallelen Ursprünge der Geschlechtsbestimmung in Solanum, einschließlich ob diese ähnliche genomische Merkmale aufweisen (in Bezug auf die Anzahl, Größe und Verteilung der neu entstehenden Regionen zur Geschlechtsbestimmung), auf die gleichen Arten von genomischen/genetischen Veränderungen zurückgreifen (dh orthologe geschlechtsgebundene Regionen teilen) und/ oder dieselben spezifischen Wege und individuellen Loci betreffen, einschließlich der Frage, ob Pektin-bezogene Loci eine allgemeine Rolle bei der frühen Entstehung der sexuellen Differenzierung spielen. In diesem Zusammenhang wurde die genetische Kontrolle des Geschlechtsausdrucks bei Arten wie S . untersucht. polygam und S. conocarpum—both of which bear anthers on female flowers, but that anthers are largely devoid of any pollen ( Anderson et al. 2015)—could prove especially informative. Data from multiple recent, parallel systems will also be critical for testing the general predictions of theoretical models of the evolution of dioecy and assessing whether the complexity of genomic transitions that underpinning real empirical transitions matches well with these theoretical expectations.


Genomics & Systems Biology

David P. Clark , Nanette J. Pazdernik , in Molecular Biology (Second Edition) , 2013

2 Assembling Small Genomes by Shotgun Sequencing

As described in Chapter 8 , individual dideoxy sequencing reactions give lengths of sequence that are several hundred base pairs long. A whole genome must be assembled from vast numbers of such short sequences. There are three approaches to whole genome assembly: shotgun sequencing , cloned contig sequencing, and the directed shotgun approach, which is really a mixture of the first two.

In shotgun sequencing the genome is broken randomly into short fragments (1 to 2 kbp long) suitable for sequencing. The fragments are ligated into a suitable vector and then partially sequenced. Around 400–500 bp of sequence can be generated from each fragment in a single sequencing run. In some cases, both ends of a fragment are sequenced. Computerized searching for overlaps between individual sequences then assembles the complete sequence. Overlapping sequences are assembled to generate contigs ( Fig. 9.04 ). The term contig refers to a known DNA sequence that is contiguous and lacks gaps.

Figure 9.04 . Shotgun Sequencing

The first step in shotgun sequencing an entire genome is to digest the genome into a large number of small fragments suitable for sequencing. All the small fragments are then cloned and sequenced. Computers analyze the sequence data for overlapping regions and assemble the sequences into several large contigs. Since some regions of the genome are unstable when cloned, some gaps may remain even after this procedure is repeated several times.

Sequencing very large numbers of small fragments provides enough information to assemble a complete genome sequence—if your computer is powerful enough.

Since fragments are cloned at random, duplicates will quite often be sequenced. To get full coverage the total amount of sequence obtained must therefore be several times that of the genome to allow for duplications. For example, 99.8% coverage requires a total amount of sequence that is 6- to 8-fold the genome size. In principle, all that is required to assemble a genome, however large, from small sequences is a sufficiently powerful computer. No genetic map or prior information is needed about the organism whose genome is to be sequenced. The original limitation to shotgun sequencing was the massive data handling that is required. The development of faster computers overcame this problem.

The first bacterial genome to be sequenced was Hämophilus-Influenza. The sequence was deduced from just under 25,000 sequences averaging 480 bp each. This gave a total of almost 12 million bp of sequence—six times the genome size. Computerized assembly using overlaps resulted in 140 regions of contiguous sequence—that is, 140 contigs.

Das Bakterium Hämophilus had the honor of being the first organism to be totally sequenced.

The gaps between the contigs may be closed by more individualistic procedures. The easiest method is to re-screen the original set of clones with pairs of probes corresponding to sequences on the two sides of each gap. Clones that hybridize to both members of such a pair of probes presumably carry DNA that bridges the gap between two contigs. Such clones are then sequenced in full to close the gaps between contigs. However, many of the gaps between contigs are due to regions of DNA that are unstable when cloned, especially in a multicopy vector. Therefore, a second library in a different vector, often a single copy vector such as a lambda phage, is often used during the later stages of shotgun cloning. Pairs of end-of-contig probes are used to screen the new library for clones that hybridize to both probes and carry DNA that bridges the gap between the two contigs ( Fig. 9.05A ). A third approach, which avoids cloning altogether, is to run PCR reactions on whole genomic DNA using random pairs of PCR primers corresponding to contig ends. A PCR product will result only if the two contig ends are within a few kb of each other ( Fig. 9.05B ).

Figure 9.05 . Closing Gaps between Contigs

To identify gaps between contigs, probes or primers are made that correspond to the ends of the contigs (pink). In (A) a new library of clones (green) is screened with end-of-contig probes. Clones that hybridize to probes from two sides of a gap are isolated. In this example, a probe for the end of contig #3 (3b) and the beginning of contig #4 (4a) hybridize to the fragment shown. Therefore, the sequence of this clone should close the gap between contig #3 and #4. (B) The second approach uses PCR primers that correspond to the ends of contigs to amplify genomic DNA. If the primer pair is within a few kilobases of each other, a PCR product is made and can be sequenced.


Methoden

Kryptosporidie specimens

Four C. hominis specimens were used in whole genome sequencing in the study: specimens 30974 and 37999 of the IbA10G2 subtype and 30976 and 33537 of the IaA28R4 subtype. Specimen 30974 was collected from a patient from a cryptosporidiosis outbreak in July 2010 in Columbia, South Carolina associated with a splash pad that had problems with filtration and chlorination. Testing of filter backflush and stools from six patients all identified the presence of the C. hominis IbA10G2 subtype. Specimen 30976 was collected from a patient in a cryptosporidiosis outbreak in July 2010 in the St. Louis area in Illinois and Missouri associated with swimming pools and a water park. Testing of nine patient specimens identified the occurrence of C. hominis IaA28R4 in seven patients, IaA24R4 in one patient, and IdA15G1 in another patient. Specimen 33537 was collected from a patient from a cryptosporidiosis outbreak in July 2011 in Walsenburg, Colorado associated with a waterpark that had problems with the chlorinator. Testing of filter backflush and stools from five patients identified IaA28R4 in all. Specimen 37999 was collected from a sporadic cryptosporidiosis patient in Twin Falls, Idaho in September 2012. All stool specimens were collected fresh from symptomatic patients and stored in 2.5% potassium dichromate at 4°C prior to being used in Kryptosporidie oocyst isolation for whole genome sequencing within 6 months. Kryptosporidie species and subtypes were determined by PCR-RFLP analysis of the small subunit rRNA and sequence analysis of the 60 kDa glycoprotein (gp60) genes, respectively [17].

Oocyst isolation and whole genome amplification

Kryptosporidie oocysts were isolated from stool specimens by discontinuous sucrose and cesium chloride gradients as previously described [52]. They were further purified by immunomagnetic separation using the Dynabeads Anti-Kryptosporidie kit (Invitrogen, Carlsbad, CA). After treating the purified oocysts with 10% commercial bleach on ice for 10 min and five cycles of freezing and thawing, DNA was extracted from them by using the Qiagen DNeasy Blood & Tissue Kit (Qiagen, Valencia, CA). Whole genome amplification (WGA) of the 25–100 ng of extracted DNA was conducted by using the REPLI-g Midi Kit (Qiagen). The quality of the WGA products was verified by sequencing BamHI-digested WGA products cloned into a pUC19 vector (Fermantas, Pittsburgh, PA). The sequencing was done by using the ABI BigDye Terminator v3.1 Cycle Sequencing Kit on an ABI3130 Genetic Analyzer (Applied Biosystems, Foster City, CA).

454 and Illumina sequencing and de novo contig assembly

The WGA products from specimens 30974 and 33537 were sequenced with 454 technology on a GS-FLX Titanium System (Roche, Branford, CT) by using approximately 1 μg of DNA for library construction and following standard Roche library protocols, with an average insert size of 600 bp. One full PTP plate was used in the analysis of each specimen. The sequence reads from each run were assembled using Newbler in the GS De Novo Assembler (http://www.454.com/products/analysis-software/) with the default settings.

The WGA products from specimens 30976 and 37999 were used to generate Illumina TruSeq (v3) libraries (average insert size: 350 bp) and sequenced 100×100 bp paired-end on an Illumina Genome Analyzer IIx (Illumina, San Diego, CA). The sequence reads with a minimum quality of 20 were trimmed by using CLC Assembly Cell 4.1.0 (http://www.clcbio.com/products/clc-assembly-cell/). The data were then assembled with default parameters and a minimum contig length of 500 bp, with scaffolding using paired-end data.

Comparative genomic analyses

For comparisons of sequences at the genome level, contigs of each specimen were aligned with reference sequences of the near complete genome of the C. parvum IOWA isolate (version AAEE00000000.1) and the 1,422 contigs of the C. hominis TU5205 isolate (version NZ_AAEL00000000.1) using Nucmer, a tool in MUMmer 3.23 (http://mummer.sourceforge.net/) [53]. Multiple genome alignments were also constructed by using the progressive alginment algorithm of the Mauve 2.3.1 (http://asap.genetics.wisc.edu/software/mauve/) with default options [54]. In-house perl scripts were developed to calculate the average nucleotide identities. For the detection of SNPs, Fastqc 0.10.0 (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) was used for the QC analysis of Illumina sequence reads, and PRINSEQ 0.20.3 (http://prinseq.sourceforge.net/) [55] was used to remove low quality reads, with a min_qual_mean setting of 20 and min_len of 65. Reads were then aligned to reference sequences by using Bowtie 0.12.7 (http://bowtie-bio.sourceforge.net/index.shtml) [56]. The resulting SAM files were processed, sorted and duplicates were removed by using Picard 1.126 (http://broadinstitute.github.io/picard/). The mpileup in SAMtools (http://samtools.sourceforge.net/) was finally used to create the pileup file for SNP variant calls using the mpileup2snp in VarScan 2.3.7 (http://varscan.sourceforge.net/) [57]. Default parameters for VarScan were used except that min-avg-qual was set to 30.

PCR verification

As the comparative genomic analysis had identified some nucleotide sequences (AAEL01000413, AAEL01000728, and AAEL01000717) in the published C. hominis that had not been seen in the published C. parvum genome, primers were designed based on these sequences to verify the source of these sequences by PCR (Additional file 6: Table S1). Five specimens each of C. parvum und C. hominis were used in PCR analysis of each target. In addition, two C. andersoni specimens were used in confirmation of Kryptosporidie-origin of contig AAEL01000728. Each specimen was analyzed in duplicate nested PCR using 50 μl PCR mixture consisting of 1 μl (

100 ng) of extracted DNA or 2 μL of primary PCR products (in secondary PCR), 200 μM deoxynucleoside triphosphate, 1× PCR buffer (Applied Biosystems), 3.0 mM MgCl2, 5.0 U of Taq polymerase (Promega, Madison, WI), 100 nM primers, and 400 ng/μl of non-acetylated bovine serum albumin (Sigma-Adrich, St. Louis, MO). The primary and secondary PCR reactions were performed in a GeneAmp PCR 9700 thermocycler (Applied Biosystems) for 35 cycles of 94°C for 45 s, 55°C for 45 s, and 72°C for 60 s, with an initial denaturation (94°C for 5 min) and a final extension (72°C for 7 min). The secondary PCR products were sequenced in both directions using Sanger technology described above. Nucleotide sequences obtained were aligned with reference sequences downloaded from GenBank by using ClustalX (http://www.clustal.org/).

NCBI BioProject No.

Nucleotide sequences generated from the project, including all SRA data and assembled contigs, were submitted to the NCBI BioProject under the accession number PRJNA252787.

Ethik-Erklärung

The study was done on delinked residual diagnostic specimens. It was covered by Human Subjects Protocol No. 990115 “Use of residual human specimens for the determination of frequency of genotypes or sub-types of pathogenic parasites”, which was reviewed and approved by the Institutional Review Board of the Centers for Disease Control and Prevention (CDC). No personal identifiers were associated with the specimens at the time of submission for diagnostic service at CDC.


Danksagung

The authors thank Otto van Poeselaere, Sabine Van Leirberghe and Lucas N. Davey for stimulating discussions during the preparation of this manuscript. We acknowledge access to the Syngenta Musa 3'EST database, donated by Syngenta to Bioversity International within the framework of the Global Musa Genomics Consortium. We thank Bioversity International, Dr. Gerard Ngoh-Newilah of CARBAP, Djombe, Cameroon, Dr. Angela Kepler of Pacific-Wide Ecological Consulting, Hawaii, and the late Dr. Lois Engelberger of Pohnpei for providing samples of fruit. We thank the Ministry of Higher Education, Malaysia, for University of Malaya grants RG006-09BIO, PV109/2011A and FRGS grant FP005-2011A to JAH, GR and NZK. We would like to thank Wendy Chin Yi Wen from Plant Biotechnology Research Laboratory, University of Malaya for providing the embryogenic cell suspension. Finally the authors would like to thank Mathieu Rouard from Bioversity International, Montpellier for constructing the website to host the data generated here.


Electronic supplementary material is available online at https://doi.org/10.6084/m9.figshare.c.4853220.

Veröffentlicht von der Royal Society unter den Bedingungen der Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, die eine uneingeschränkte Nutzung gestattet, sofern der ursprüngliche Autor und die Quelle angegeben werden.

Verweise

2016 Challenges in microbial ecology: building predictive understanding of community function and dynamics . ISME J. 10, 2557-2568. (doi:10.1038/ismej.2016.45) Crossref, PubMed, ISI, Google Scholar

Knight R, Callewaert C, Marotz C, Hyde ER, Debelius JW, McDonald D, Sogin ML

. 2017 The microbiome and human biology . Annu. Rev. Genomics Hum. Genet. 18, 65-86. (doi:10.1146/annurev-genom-083115-022438) Crossref, PubMed, ISI, Google Scholar

Gilbert JA, Blaser MJ, Caporaso JG, Jansson JK, Lynch SV, Knight R

. 2018 Current understanding of the human microbiome . Nat. Med. 24, 392-400. (doi:10.1038/nm.4517) Crossref, PubMed, ISI, Google Scholar

2004 Community structure and metabolism through reconstruction of microbial genomes from the environment . Natur 428, 37-43. (doi:10.1038/nature02340) Crossref, PubMed, ISI, Google Scholar

. 2008 Colloquium paper: resistance, resilience, and redundancy in microbial communities . Proz. Natl Acad. Wissenschaft USA 105(Suppl. 1), 11 512-11 519. (doi:10.1073/pnas.0801925105). Crossref, ISI, Google Scholar

Fuhrman JA, Cram JA, Needham DM

. 2015 Marine microbial community dynamics and their ecological interpretation . Nat. Rev. Mikrobiol. 13, 133-146. (doi:10.1038/nrmicro3417) Crossref, PubMed, ISI, Google Scholar

2016 Thousands of microbial genomes shed light on interconnected biogeochemical processes in an aquifer system . Nat. Komm. 7, 13219. (doi:10.1038/ncomms13219) Crossref, PubMed, ISI, Google Scholar

Bardgett RD, Freeman C, Ostle NJ

. 2008 Microbial contributions to climate change through carbon cycle feedbacks . ISME J. 2, 805-814. (doi:10.1038/ismej.2008.58) Crossref, PubMed, ISI, Google Scholar

2004 Environmental genome shotgun sequencing of the Sargasso Sea . Wissenschaft 304, 66-74. (doi:10.1126/science.1093857) Crossref, PubMed, ISI, Google Scholar

Quince C, Walker AW, Simpson JT, Loman NJ, Segata N

. 2017 Shotgun metagenomics, from sampling to analysis . Nat. Biotechn. 35, 833-844. (doi:10.1038/nbt.3935) Crossref, PubMed, ISI, Google Scholar

Koskella B, Hall LJ, Metcalf CJE

. 2017 The microbiome beyond the horizon of ecological and evolutionary theory . Nat. Öko. Entwicklung 1, 1606-1615. (doi:10.1038/s41559-017-0340-2) Crossref, PubMed, ISI, Google Scholar

Hansen SK, Rainey PB, Haagensen JA, Molin S

. 2007 Evolution of species interactions in a biofilm community . Natur 445, 533-536. (doi:10.1038/nature05514) Crossref, PubMed, ISI, Google Scholar

Lawrence D, Fiegna F, Behrends V, Bundy JG, Phillimore AB, Bell T, Barraclough TG

. 2012 Species interactions alter evolutionary responses to a novel environment . PLoS Biol. 10, e1001330. (doi:10.1371/journal.pbio.1001330) Crossref, PubMed, ISI, Google Scholar

. 2018 It takes a village: microbial communities thrive through interactions and metabolic handoffs . mSystems 3, e00152-17. (doi:10.1128/mSystems.00152-17) Crossref, PubMed, ISI, Google Scholar

Robinson CD, Klein HS, Murphy KD, Parthasarathy R, Guillemin K, Bohannan BJM

. 2018 Experimental bacterial adaptation to the zebrafish gut reveals a primary role for immigration . PLoS Biol. 16, e2006893. (doi:10.1371/journal.pbio.2006893) Crossref, PubMed, ISI, Google Scholar

Marbouty M, Baudry L, Cournac A, Koszul R

. 2017 Scaffolding bacterial genomes and probing host-virus interactions in gut microbiome by proximity ligation (chromosome capture) assay . Wissenschaft Erw. 3, e1602105. (doi:10.1126/sciadv.1602105) Crossref, PubMed, ISI, Google Scholar

Truong DT, Tett A, Pasolli E, Huttenhower C, Segata N

. 2017 Microbial strain-level population structure and genetic diversity from metagenomes . Genom-Res. 27, 626-638. (doi:10.1101/gr.216242.116) Crossref, PubMed, ISI, Google Scholar

Garud NR, Good BH, Hallatschek O, Pollard KS

. 2019 Evolutionary dynamics of bacteria in the gut microbiome within and across hosts . PLoS Biol. 17, e3000102. (doi:10.1371/journal.pbio.3000102) Crossref, PubMed, Google Scholar

. 2019 Tracking microbial evolution in the human gut using Hi-C . Nat. Mikrobiol. 5, 343-353. (doi:10.1038/s41564-019-0625-0) Crossref, PubMed, ISI, Google Scholar

. 1980 Selfish genes, the phenotype paradigm and genome evolution . Natur 284, 601-603. (doi:10.1038/284601a0) Crossref, PubMed, ISI, Google Scholar

. 1980 Selfish DNA: the ultimate parasite . Natur 284, 604-607. (doi:10.1038/284604a0) Crossref, PubMed, ISI, Google Scholar

Bergstrom CT, Lipsitch M, Levin BR

. 2000 Natural selection, infectious transfer and the existence conditions for bacterial plasmids . Genetik 155, 1505-1519. PubMed, ISI, Google Scholar

. 2006 Genes in conflict: the biology of selfish genetic elements . Harvard, MA : Belknap Press . Crossref, Google Scholar

. 2003 Evolution experiments with microorganisms: the dynamics and genetic bases of adaptation . Nat. Rev. Genet. 4, 457-469. (doi:10.1038/nrg1088) Crossref, PubMed, ISI, Google Scholar

Rainey PB, Remigi P, Farr AD, Lind PA

. 2017 Darwin was right: where now for experimental evolution? Curr. Opin Genet. Abw. 47, 102-109. (doi:10.1016/j.gde.2017.09.003) Crossref, PubMed, ISI, Google Scholar

Maltez Thomas A, Prata Lima F, Maria Silva Moura L, Maria da Silva A, Dias-Neto E, Setubal JC

. 2018 Comparative metagenomics . Methoden Mol. Biol. 1704, 243-260. (doi:10.1007/978-1-4939-7463-4_8) Crossref, PubMed, Google Scholar

. 2011 Microbial diversity of cellulose hydrolysis . Curr. Opin Microbiol. 14, 259-263. (doi:10.1016/j.mib.2011.04.004) Crossref, PubMed, ISI, Google Scholar

. 2002 Enzymology and bioenergetics of respiratory nitrite ammonification . FEMS Mikrobiol. Rev. 26, 285-309. (doi:10.1111/j.1574-6976.2002.tb00616.x) Crossref, PubMed, ISI, Google Scholar

Goddard MR, Godfray HCJ, Burt A

. 2005 Sex increases the efficacy of natural selection in experimental yeast populations . Natur 434, 636-640. (doi:10.1038/nature03405) Crossref, PubMed, ISI, Google Scholar

McDonald MJ, Rice DP, Desai MM

. 2016 Sex speeds adaptation by altering the dynamics of molecular evolution . Natur 531, 233. (doi:10.1038/nature17143) Crossref, PubMed, ISI, Google Scholar

. 2011 Horizontal gene exchange in environmental microbiota . Vorderseite. Mikrobiol. 2, 158. (doi:10.3389/fmicb.2011.00158) Crossref, PubMed, ISI, Google Scholar

Colombi E, Straub C, Kunzel S, Templeton MD, McCann HC, Rainey PB

. 2017 Evolution of copper resistance in the kiwifruit pathogen Pseudomonas syringae pv. actinidiae through acquisition of integrative conjugative elements and plasmids . Umgebung. Mikrobiol. 19, 819-832. (doi:10.1111/1462-2920.13662) Crossref, PubMed, ISI, Google Scholar

Hall JPJ, Brockhurst MA, Harrison E

. 2017 Sampling the mobile gene pool: innovation via horizontal gene transfer in bacteria . Phil. Übers. R. Soc. B 372, 20160424. (doi:10.1098/rstb.2016.0424) Link, ISI, Google Scholar

. 2003 Prophages and bacterial genomics: what have we learned so far? Mol.-Nr. Mikrobiol. 49, 277-300. (doi:10.1046/j.1365-2958.2003.03580.x) Crossref, PubMed, ISI, Google Scholar

2015 CDD: NCBI's conserved domain database . Nukleinsäuren Res. 43, D222-D226. (doi:10.1093/nar/gku1221) Crossref, PubMed, ISI, Google Scholar

Seed KD, Lazinski DW, Calderwood SB, Camilli A

. 2013 A bacteriophage encodes its own CRISPR/Cas adaptive response to evade host innate immunity . Natur 494, 489-491. (doi:10.1038/nature11927) Crossref, PubMed, ISI, Google Scholar

. 2016 Horizontal gene transfer of chromosomal Type II toxin-antitoxin systems of Escherichia coli . FEMS Mikrobiol. Lette. 363, fnv238. (doi:10.1093/femsle/fnv238) Crossref, PubMed, ISI, Google Scholar

. 2017 Carriage of type II toxin-antitoxin systems by the growing group of IncX plasmids . Plasmid 91, 19-27. (doi:10.1016/j.plasmid.2017.02.006) Crossref, PubMed, ISI, Google Scholar

Singhania RR, Patel AK, Sukumaran RK, Larroche C, Pandey A

. 2013 Role and significance of beta-glucosidases in the hydrolysis of cellulose for bioethanol production . Bioressource. Techn. 127, 500-507. (doi:10.1016/j.biortech.2012.09.012) Crossref, PubMed, ISI, Google Scholar

2005 The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes . Nukleinsäuren Res. 33, 5691-5702. (doi:10.1093/nar/gki866) Crossref, PubMed, ISI, Google Scholar

. 2017 Convergence and divergence in a long-term experiment with bacteria . Bin. Nat. 190, S57-S68. (doi:10.1086/691209) Crossref, PubMed, ISI, Google Scholar

Chu HY, Sprouffske K, Wagner A

. 2018 Assessing the benefits of horizontal gene transfer by laboratory evolution and genome sequencing . BMC Evol. Biol. 18, 54. (doi:10.1186/s12862-018-1164-7) Crossref, PubMed, ISI, Google Scholar

Frazão N, Sousa A, Lässig M, Gordo I

. 2019 Horizontal gene transfer overrides mutation in Escherichia coli colonizing the mammalian gut . Proz. Natl Acad. Wissenschaft USA 116, 17 906-17 915. (doi:10.1073/pnas.1906958116) Crossref, ISI, Google Scholar

Zhao SJ, Lieberman TD, Poyet M, Kauffman KM, Gibbons SM, Groussin M, Xavier RJ, Alm EJ

. 2019 Adaptive evolution within gut microbiomes of healthy people . Cell Host Microbe 25, 656. (doi:10.1016/j.chom.2019.03.007) Crossref, PubMed, ISI, Google Scholar

. 1989 Reviving the superorganism . J. Theor. Biol. 136, 337-356. (doi:10.1016/S0022-5193(89)80169-9) Crossref, PubMed, ISI, Google Scholar

Swenson W, Wilson DS, Elias R

. 2000 Artificial ecosystem selection . Proz. Natl Acad. Wissenschaft USA 97, 9110-9114. (doi:10.1073/pnas.150237597) Crossref, PubMed, ISI, Google Scholar

. 2019 Simulations reveal challenges to artificial community selection and possible strategies for success . PLoS Biol. 17, e3000295. (doi:10.1371/journal.pbio.3000295) Crossref, PubMed, ISI, Google Scholar

Black AJ, Bourrat P, Rainey PB.

Im Druck. Ecological scaffolding and the evolution of individuality . Nat. Öko. Entwicklung (doi:10.1038/s41559-019-1086-9) ISI, Google Scholar

. 1934 The struggle for existence . Baltimore, MD : Williams & Wilkins . Crossref, Google Scholar

Rosenzweig RF, Sharp RR, Treves DS, Adams J

. 1994 Microbial evolution in a simple unstructured environment: genetic differentiation in Escherichia coli . Genetik 137, 903-917. PubMed, ISI, Google Scholar

Rainey PB, Buckling A, Kassen R, Travisano M

. 2000 The emergence and maintenance of diversity: insights from experimental bacterial populations . Trends Öko. Entwicklung 15, 243-247. (doi:10.1016/S0169-5347(00)01871-1) Crossref, PubMed, ISI, Google Scholar

. 2002 Functional redundancy in ecology and conservation . Oikos 98, 156-162. (doi:10.1034/j.1600-0706.2002.980116.x) Crossref, ISI, Google Scholar

2018 Function and functional redundancy in microbial systems . Nat. Öko. Entwicklung 2, 936-943. (doi:10.1038/s41559-018-0519-1) Crossref, PubMed, ISI, Google Scholar

Landsberger M, Gandon S, Meaden S, Rollie C, Chevallereau A, Buckling A, Westra ER, van Houte S

. 2018 Anti-CRISPR phages cooperate to overcome CRISPR-Cas immunity . Zelle 174, 908-916. (doi:10.1016/j.cell.2018.05.058) Crossref, PubMed, ISI, Google Scholar

Marbouty M, Cournac A, Flot JF, Marie-Nelly H, Mozziconacci J, Koszul R

. 2014 Metagenomic chromosome conformation capture (meta3C) unveils the diversity of chromosome organization in microorganisms . eLife 3, e03318. (doi:10.7554/eLife.03318) Crossref, PubMed, ISI, Google Scholar

. 2011 Microbial nitrogen cycling processes in oxygen minimum zones . Annu. Rev. Mar. Sci. 3, 317-345. (doi:10.1146/annurev-marine-120709-142814) Crossref, PubMed, ISI, Google Scholar

Givens DI, Adamson AH, Cobby JM

. 1988 The effect of ammoniation on the nutritive value of wheat, barley and oat straws. II. Digestibility and energy value measurements in vivo and their prediction from laboratory measurements . Anim. Feed Sci. Techn. 19, 173-184. (doi:10.1016/0377-8401(88)90065-X) Crossref, ISI, Google Scholar

. 2007 Biology's next revolution . Natur 445, 369. (doi:10.1038/445369a) Crossref, PubMed, ISI, Google Scholar

. 2009 Darwinian evolution in the light of genomics . Nukleinsäuren Res. 37, 1011-1034. (doi:10.1093/nar/gkp089) Crossref, PubMed, ISI, Google Scholar

. 2010 Horizontal gene transfer in evolution: facts and challenges . Proz. R. Soc. B 277, 819-827. (doi:10.1098/rspb.2009.1679) Link, ISI, Google Scholar

Ochman H, Lawrence JG, Groisman EA

. 2000 Lateral gene transfer and the nature of bacterial innovation . Natur 405, 299-304. (doi:10.1038/35012500) Crossref, PubMed, ISI, Google Scholar

. 2011 Egoistische genetische Elemente, genetische Konflikte und evolutionäre Innovation . Proz. Natl Acad. Wissenschaft USA 108(Suppl. 2)), 10 863-10 870. (doi:10.1073/pnas.1102343108) Crossref, ISI, Google Scholar

. 2013 Horizontal gene transfer and the evolution of bacterial and archaeal population structure . Trends Genet. 29, 170-175. (doi:10.1016/j.tig.2012.12.006) Crossref, PubMed, ISI, Google Scholar

Fullmer MS, Soucy SM, Gogarten JP

. 2015 The pan-genome as a shared genomic resource: mutual cheating, cooperation and the black queen hypothesis . Vorderseite. Mikrobiol. 6, ARTN 728. (doi:10.3389/fmicb.2015.00728) Crossref, ISI, Google Scholar

. 2018 Processes and patterns of interaction as units of selection: an introduction to ITSNTS thinking . Proz. Natl Acad. Wissenschaft USA 115, 4006-4014. (doi:10.1073/pnas.1722232115) Crossref, PubMed, ISI, Google Scholar

. 2011 FLASH: fast length adjustment of short reads to improve genome assemblies . Bioinformatik 27, 2957-2963. (doi:10.1093/bioinformatics/btr507) Crossref, PubMed, ISI, Google Scholar

. 2011 Quality control and preprocessing of metagenomic datasets . Bioinformatik 27, 863-864. (doi:10.1093/bioinformatics/btr026) Crossref, PubMed, ISI, Google Scholar

2016 The MG-RAST metagenomics database and portal in 2015 . Nukleinsäuren Res. 44, D590-D594. (doi:10.1093/nar/gkv1322) Crossref, PubMed, ISI, Google Scholar

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ

. 1990 Basic local alignment search tool . J.Mol. Biol. 215, 403-410. (doi:10.1016/S0022-2836(05)80360-2) Crossref, PubMed, ISI, Google Scholar

Li D, Liu CM, Luo R, Sadakane K, Lam TW

. 2015 MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph . Bioinformatik 31, 1674-1676. (doi:10.1093/bioinformatics/btv033) Crossref, PubMed, ISI, Google Scholar

Rice P, Longden I, Bleasby A

. 2000 EMBOSS: the European molecular biology open software suite . Trends Genet. 16, 276-277. (doi:10.1016/S0168-9525(00)02024-2) Crossref, PubMed, ISI, Google Scholar

Niu B, Zhu Z, Fu L, Wu S, Li W

. 2011 FR-HIT, a very fast program to recruit metagenomic reads to homologous reference genomes . Bioinformatik 27, 1704-1705. (doi:10.1093/bioinformatics/btr252) Crossref, PubMed, ISI, Google Scholar


Influenza Virus Genome Sequencing and Genetic Characterization

Influenza viruses are constantly changing, in fact all influenza viruses undergo genetic changes over time (for more information, see How the Flu Virus Can Change: &ldquoDrift&rdquo and &ldquoShift&rdquo). An influenza virus&rsquo genome consists of all genes that make up the virus. CDC conducts year-round surveillance of circulating influenza viruses to monitor changes to the genome (or parts of the genome) of these viruses. This work is performed as part of routine U.S. influenza surveillance and as part of CDC&rsquos role as a World Health Organization (WHO) Collaborating Center for Reference and Research on Influenza. The information CDC collects from studying genetic changes (also known as &ldquosubstitutions,&rdquo &ldquovariants&rdquo or &ldquomutations&rdquo) in influenza viruses plays an important public health role by helping to determine whether vaccines and antiviral drugs will work against currently-circulating influenza viruses, as well as helping to determine the potential for influenza viruses in animals to infect humans.

Genome sequencing reveals the sequence of the nucleotides in a gene, like alphabet letters in words. Nucleotides are organic molecules that form the structural unit building block of nucleic acids, such as RNA or DNA. All influenza viruses consist of single-stranded RNA as opposed to dual-stranded DNA. The RNA genes of influenza viruses are made up of chains of nucleotides that are bonded together and coded by the letters A, C, G and U, which stand for adenine, cytosine, guanine, and uracil, respectively. Comparing the composition of nucleotides in one virus gene with the order of nucleotides in a different virus gene can reveal variations between the two viruses.

Genetic variations are important because they can affect the structure of an influenza virus&rsquo surface proteins. Proteins are made of sequences of amino acids.

The substitution of one amino acid for another can affect properties of a virus, such as how well a virus transmits between people, and how susceptible the virus is to antiviral drugs or current vaccines.

Genome sequencing reveals the sequence of the nucleotides in a gene, like alphabet letters in words. Comparing the composition of nucleotides in one virus gene with the order of nucleotides in a different virus gene can reveal variations between the two viruses.

Genetic variations are important because they affect the structure of an influenza virus&rsquo surface proteins. Proteins are made of sequences of amino acids.

The substitution of one amino acid for another can affect properties of a virus, such as how well a virus transmits between people, and how susceptible the virus is to antiviral drugs or current vaccines.

Influenza A and B viruses &ndash the primary influenza viruses that infect people &ndash are RNA viruses that have eight gene segments. These genes contain &lsquoinstructions&rsquo for making new viruses, and it&rsquos these instructions that an influenza virus uses once it infects a human cell to trick the cell into producing more influenza viruses, thereby spreading infection.

Influenza genes consist of a sequence of molecules called Nukleotide that bond together in a chain-like shape. Nucleotides are designated by the letters A, C, G and U.

Genomsequenzierung is a process that determines the order, or sequence, of the nucleotides (i.e., A, C, G and U) in each of the genes present in the virus&rsquos genome. Full genome sequencing can reveal the approximately 13,500-letter sequence of all the genes of the virus&rsquo genome.

Each year CDC performs whole genome sequencing on about 7,000 influenza viruses from original clinical samples collected through virologic surveillance. An influenza A or B virus&rsquo genome contains eight gene segments that encode (i.e., determine the structure and features of) the virus&rsquo 12 proteins, including its two primary surface proteins: hemagglutinin (HA) and neuraminidase (NA). An influenza virus&rsquo surface proteins determine important properties of the virus, including how the virus responds to certain antiviral drugs, the virus&rsquo genetic similarity to current influenza vaccine viruses, and the potential for zoonotic (animal origin) influenza viruses to infect human hosts.

Genetic Characterization

CDC and other public health laboratories around the world have been sequencing the genes of influenza viruses since the 1980s. CDC contributes gene sequences to public databases, such as GenBank external icon and the Global Initiative on Sharing Avian Influenza Data (GISAID) external icon , for use by public health researchers. The resulting libraries of gene sequences allow CDC and other laboratories to compare the genes of currently circulating influenza viruses with the genes of older influenza viruses and viruses used in vaccines. This process of comparing genetic sequences is called genetic characterization. CDC uses genetic characterization for the following reasons:

  • To determine how closely &ldquorelated&rdquo or similar flu viruses are to one another genetically
  • To monitor how flu viruses are evolving
  • To identify genetic changes that affect the virus&rsquo properties. For example, to identify the specific changes that are associated with influenza viruses spreading more easily, causing more-severe disease, or developing resistance to antiviral drugs
  • To assess how well an influenza flu vaccine might protect against a particular influenza virus based on its genetic similarity to the virus
  • To monitor for genetic changes in influenza viruses circulating in animal populations that could enable them to infect humans.

The relative differences among a group of influenza viruses are shown by organizing them into a graphic called a &lsquophylogenetic tree.&rsquo Phylogenetic trees for influenza viruses are like family (genealogy) trees for people. These trees show how closely &lsquorelated&rsquo individual viruses are to one another. Viruses are grouped together based on whether their genes&rsquo nucleotides are identical or not. Phylogenetic trees of influenza viruses will usually display how similar the viruses&rsquo hemagglutinin (HA) or neuraminidase (NA) genes are to one another. Each sequence from a specific influenza virus has its own branch on the tree. The degree of genetic difference (number of nucleotide differences) between viruses is represented by the length of the horizontal lines (branches) in the phylogenetic tree. The further apart viruses are on the horizontal axis of a phylogenetic tree, the more genetically different the viruses are to one another.

Abbildung. A phylogenetic tree.

For example, after CDC sequences an influenza A(H3N2) virus collected through surveillance, the virus sequence is cataloged with other virus sequences that have a similar HA gene (H3), and a similar NA gene (N2). As part of this process, CDC compares the new virus sequence with the other virus sequences, and looks for differences among them. CDC then uses a phylogenetic tree to visually represent how genetically different the A(H3N2) viruses are from each other.

CDC performs genetic characterization of influenza viruses year round. This genetic data is used in conjunction with virus antigenic characterization data to help determine which vaccine viruses should be chosen for the upcoming Northern Hemisphere or Southern Hemisphere influenza vaccines. In the months leading up to the WHO vaccine consultation meetings in February and September, CDC collects influenza viruses through surveillance and compares the HA and NA gene sequences of current vaccine viruses against those of circulating flu viruses. This is one way to assess how closely related the circulating influenza viruses are to the viruses the seasonal flu vaccine was formulated to protect against. As viruses are collected and genetically characterized, differences can be revealed.

For example, sometimes over the course of a season, circulating viruses will change genetically, which causes them to become different from the corresponding vaccine virus. This is one indication that a different vaccine virus may need to be selected for the next flu season&rsquos vaccine, although other factors, including antigenic characterization findings, heavily influence vaccine decisions. The HA and NA surface proteins of influenza viruses are antigens, which means they are recognized by the immune system and are capable of triggering an immune response, including production of antibodies that can block infection. Antigenic characterization refers to the analysis of a virus&rsquos reaction with antibodies to help assess how it relates to another virus.

Methods of Flu Genome Sequencing

One influenza sample contains viele influenza virus particles that were grown in a test tube and that often have small genetic differences in comparison to one another among the whole population of sibling viruses.

Traditionally, scientists have used a sequencing technique called &ldquothe Sanger reaction&rdquo to monitor influenza evolution as part of virologic surveillance. Sanger sequencing identifies the predominant genetic sequence among the many influenza viruses found in an isolate. This means small variations in the population of viruses present in a sample are not reflected in the final result. Scientists often use the Sanger method to conduct partial genome sequencing of influenza viruses, while newer technologies (see next paragraph) are better suited for whole genome sequencing.

Over the past five years, CDC has been using &ldquoNext Generation Sequencing (NGS)&rdquo methodologies, which have greatly expanded the amount of information and detail that sequencing analysis can provide. NGS uses advanced molecular detection (AMD) to identify gene sequences from each virus in a sample. Therefore, NGS reveals the genetic variations among many different influenza virus particles in a single sample, and these methods also reveal the entire coding region of the genomes. This level of detail can directly benefit public health decision-making in important ways, but data must be carefully interpreted by highly-trained experts in the context of other available information. See AMD Projects: Improving Influenza Vaccines for more information about how NGS and AMD are revolutionizing flu genome mapping at CDC.