Information

Wie berechnen Hochdurchsatz-/NGS-Sequenzer Qualitätswerte?

Wie berechnen Hochdurchsatz-/NGS-Sequenzer Qualitätswerte?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich bin verwirrt darüber, wie Qualitätswerte tatsächlich von DNA-Sequenzern wie Illumina berechnet werden. Für jeden Basisaufruf wird ein gewisser Qualitätsprädiktorwert berechnet, basierend auf verschiedenen Eigenschaften der Sequenziermaschine, wie der Lichtintensität während des Lesens.

Wissen wir genau, wie diese Qualitätswerte berechnet werden? Wie viele Faktoren fließen genau in die Berechnung dieser QUAL-Werte ein?


Ich beschränke diese Antwort auf Illumina. Auch dann kenne ich die genauen Details der Rohdatenanalyse nicht (es handelt sich um eine proprietäre Software).

Grundsätzlich zeichnet Illumina die Sequenz basierend auf fotografischen Bildern auf. Jedes Nukleotid hat eine unterschiedliche Fluoreszenzmarkierung. In einem Zyklus wird ein Nukleotid gepumpt und nicht eingebaute Nukleotide abgewaschen (dies wird für alle Nukleotide wiederholt). Ein Laser regt den Fluorophor an und das emittierte Licht wird in Form eines Fotos festgehalten. Die Matrizen-DNA liegt in Form von Strangclustern (an einer bestimmten Stelle) vor, was eine einfache visuelle Identifizierung der Fluoreszenz ermöglicht.

Base-Calling erfolgt mittels Bildanalyse. Jedes Bild wird auf Intensitäten verschiedener Farben analysiert und daraus der Qualitätsfaktor berechnet. Die Qualitätsbewertung ist im Wesentlichen die logarithmische Wahrscheinlichkeit eines Auftretens eines Nukleotids an einer bestimmten Position (basierend auf seiner Farbintensität) im Vergleich zu anderen Nukleotiden.

Dies ist die einfachste Erklärung dafür, wie Illumina Base Calling durchführt. Es gibt verschiedene Arten von Fehlern und Verzerrungen und es gibt verschiedene statistische Ansätze, um sie zu korrigieren.

Weitere Informationen finden Sie in folgenden Referenzen:

  • Ledergerber, Christian und Christophe Dessimoz. "Base-Calling für Sequenzierungsplattformen der nächsten Generation." Briefings in Bioinformatik (2011): bbq077.
  • Illumina MiSeq Imaging und Base Calling-Kurs
  • Genomanalyse Wiki

Sequenzierungsqualitätsfaktoren

Sequencing Quality Scores messen die Wahrscheinlichkeit, dass eine Base falsch aufgerufen wird. Bei der Sequencing by Synthese (SBS)-Technologie wird jeder Base in einem Read ein Qualitätsscore durch einen phred-ähnlichen Algorithmus 1,2 zugewiesen, ähnlich dem, der ursprünglich für Sanger-Sequenzierungsexperimente entwickelt wurde.

Video zur Sequenzierungstechnologie
Video zur Sequenzierungstechnologie

Sehen Sie, wie Illumina SBS funktioniert.

Q-Score-Definition

Der Sequenzierungsqualitäts-Score einer gegebenen Base, Q, wird durch die folgende Gleichung definiert:

wobei e die geschätzte Wahrscheinlichkeit ist, dass der Basisaufruf falsch ist.

  • Höhere Q-Werte weisen auf eine geringere Fehlerwahrscheinlichkeit hin.
  • Niedrigere Q-Werte kann dazu führen, dass ein erheblicher Teil der Lesevorgänge unbrauchbar wird. Sie können auch zu vermehrten falsch-positiven Variantenaufrufen führen, was zu ungenauen Schlussfolgerungen führt.

Wie unten gezeigt, entspricht ein Qualitätsfaktor von 20 einer Fehlerrate von 1 zu 100 mit einer entsprechenden Anrufgenauigkeit von 99%.

Überblick über die SBS-Technologie

Die Illumina-Technologie ermöglicht eine massiv parallele Sequenzierung mit optimierter SBS-Chemie.

Beziehung zwischen Sequenzierungsqualitätsfaktor und Base-Call-Genauigkeit
Qualitätsfaktor Wahrscheinlichkeit eines falschen Basisrufs Genauigkeit von abgeleiteten Basisanrufen
10 (Q10) 1 von 10 90%
20 (Q20) 1 von 100 99%
30 (Q30) 1 von 1000 99.9%

Illumina-Sequenzierungsqualitätsfaktoren

Die Sequenzierungschemie von Illumina liefert eine hohe Genauigkeit, wobei die überwiegende Mehrheit der Basen Q30 und höher bewertet. Dieser Genauigkeitsgrad ist ideal für eine Reihe von Sequenzierungsanwendungen, einschließlich der klinischen Forschung.

Erfahren Sie, wie PhiX als In-Run-Kontrolle für die Überwachung der Laufqualität in Illumina NGS verwendet werden kann.

Auswahl eines NGS-Unternehmens

Suchen Sie ein erstklassiges Sequenzierungsunternehmen der nächsten Generation mit benutzerfreundlichen Bioinformatik-Tools und branchenführendem Support und Service.

Zusätzliche Informationen zu Qualitätsfaktoren

Ausführlichere Informationen zu Sequenzierungsqualitätswerten finden Sie in den folgenden technischen Hinweisen:

Anfängerleitfaden für NGS

Sie überlegen, NGS in Ihr Labor zu bringen, wissen aber nicht, wo Sie anfangen sollen? Diese Ressourcen behandeln Schlüsselthemen in NGS und sollen Ihnen bei der Planung Ihres ersten Experiments helfen.

Interessiert an Newslettern, Fallstudien und Informationen zu neuen Anwendungen? Geben Sie unten Ihre E-Mail-Adresse ein.

Verwandte Lösungen

Sequenzierung der nächsten Generation (NGS)

Entdecken Sie das breite Spektrum an Experimenten, die Sie mit der Sequenzierung der nächsten Generation durchführen können, und erfahren Sie, wie Illumina NGS funktioniert.

Vorteile der SBS-Technologie

Die SBS-Technologie von Illumina bietet eine bewährte Basisanrufgenauigkeit mit den wenigsten falsch positiven, falsch negativen und falschen Anrufen unter den führenden NGS-Plattformen.

Sequenzierungsplattformen

Vergleichen Sie Next-Generation-Sequencing (NGS)-Plattformen nach Anwendung und Spezifikation. Finden Sie Tools und Anleitungen, die Ihnen bei der Auswahl des richtigen Sequenzers helfen.

Verweise
  1. Ewing B, Hillier L, Wendl MC, Green P. (1998): Base-Calling von automatisierten Sequenzer-Traces mit phred. I. Genauigkeitsbewertung. Genom-Res. 8(3):175-185
  2. Ewing B, Green P. (1998): Base-Calling von automatisierten Sequenzer-Traces mit phred. II. Fehlerwahrscheinlichkeiten. Genom-Res. 8(3):186-194

Innovative Technologien

Unser Ziel bei Illumina ist es, innovative Technologien auf die Analyse genetischer Variation und Funktion anzuwenden und damit Studien zu ermöglichen, die noch vor wenigen Jahren undenkbar waren. Für uns ist es geschäftskritisch, innovative, flexible und skalierbare Lösungen zu liefern, um die Bedürfnisse unserer Kunden zu erfüllen. Als globales Unternehmen, das großen Wert auf kollaborative Interaktionen, schnelle Bereitstellung von Lösungen und höchste Qualität legt, sind wir bestrebt, diese Herausforderung zu meistern. Die innovativen Sequenzierungs- und Array-Technologien von Illumina treiben bahnbrechende Fortschritte in der Life-Science-Forschung, der translationalen und Verbrauchergenomik sowie der Molekulardiagnostik voran.

Nur für Forschungszwecke. Nicht zur Verwendung in diagnostischen Verfahren (außer wie ausdrücklich angegeben).


Genomik mit hohem Durchsatz: NGS und Arrays

Forscher nutzen die Leistungsfähigkeit von High-Throughput Next Generation Sequencing (NGS) und Microarray-Technologien, um groß angelegte, globale genetische Analysen durchzuführen. Diese Forschung konzentriert sich häufig auf die multifaktorielle genetische Entdeckung von Krankheitsrisikomarkern und kann die Suche nach Veränderungen in genetischen Varianten wie Einzelnukleotidpolymorphismen (SNPs), Indels, Spleißvarianten, Strukturvarianten und Methylierungsmarkern beinhalten.

Genomische Studien mit hohem Durchsatz mit Zehn- bis Hunderttausenden von Proben erfordern schnelle, kostengünstige Tools. Illumina bietet Hochdurchsatz-Sequenzierungs- und Array-Technologien mit beispiellosen Proben-zu-Analyse-Lösungen und beispiellosem kollaborativem Know-how, um diese Anforderungen zu erfüllen.

Illumina High-Throughput-Sequenzierungstechnologie

Illumina Sequencing by Synthesis (SBS) ist eine massiv parallele Sequenzierungstechnologie, die die Sequenzierfähigkeiten revolutioniert und die nächste Generation der Genomwissenschaften auf den Weg gebracht hat. Die neuesten Illumina-Sequenzer vereinen leistungsstarke Bildgebung mit modernsten Flusszellen, um den Durchsatz massiv zu steigern.

Ultra-High-Throughput-Sequenzer

Mit unübertroffen skalierbarem Durchsatz, enormer Flexibilität für ein breites Anwendungsspektrum und optimiertem Betrieb ist das NovaSeq 6000-System der bisher leistungsstärkste Illumina-Sequenzer mit hohem Durchsatz und perfekt positioniert, um Wissenschaftler bei der Durchführung groß angelegter Genomstudien zu unterstützen. Das System bietet eine Ausgabe von bis zu 6 Tb und 20 Milliarden Reads in < 2 Tagen.

Wissenschaftler diskutieren Hochdurchsatz-Sequenzierungsprojekte

Hochdurchsatz-NGS zur Identifizierung von Brustkrebszielen

Das Brustkrebsatlas-Projekt umfasst die Sequenzierung von mehr als einer Million einzelner Brustkrebszellen, um Forscher bei der Identifizierung potenzieller therapeutischer Ziele zu unterstützen.

Hochdurchsatzsequenzierung unterstützt das Wachstum des australischen Genomzentrums

Die Implementierung von NGS mit hoher Kapazität ermöglichte es dem Deakin Genomics Center, Projekte für alte und neue Arten, große und kleine Arten auszuweiten.

Wert eines panomics-basierten Wirkstoffforschungsansatzes

Eine große klinische Studie, die Sequenzierung mit Bildgebung, Multiomic-Technologien und Big Data integriert, deckt neue therapeutische Angriffspunkte für chronische Krankheiten auf.

Hochdurchsatz-Genomikansätze zur Priorisierung funktioneller genetischer Varianten

Jüngste Fortschritte bei den Sequenzierungstechnologien haben die Entwicklung genomischer Strategien ermöglicht, um GWAS-SNPs auf potenzielle funktionelle Relevanz zu untersuchen. Leistungsstarke Kombinationen aus experimentellen Hochdurchsatz-Assays, Einzelzellansätzen und Computeranalysen beschleunigen die Fähigkeit, Varianten mit Funktion und damit Genotyp mit Phänotyp zu verknüpfen.

Empfohlene Sequenzierungslösungen mit hohem Durchsatz

Automatisierung der Bibliotheksvorbereitung mit hohem Durchsatz

Für Labore, die große Mengen an NGS-Bibliotheken vorbereiten, sind Liquid-Handling-Roboter und andere Automatisierungslösungen eine gute Option.

Multiplex-Sequenzierung

Das Multiplexing von Proben ermöglicht die gleichzeitige Bündelung und Sequenzierung einer großen Anzahl von NGS-Bibliotheken während eines einzigen Laufs.

Produkte für die Sequenzierung im großen Maßstab

Einzelchargenlieferungen und andere Funktionen ermöglichen es klinischen Labors, die Häufigkeit und die Kosten der erneuten Validierung von Reagenzien und Protokollen zu reduzieren.

Einrichtung der Bioinformatik-Pipeline

Finden Sie Informationen und Ressourcen, um den Prozess der Einrichtung einer Informatikinfrastruktur und einer Datenanalysepipeline zu vereinfachen.

LIMS für NGS

Erfahren Sie, wie Sie von einem für NGS optimierten Laborinformationsmanagementsystem (LIMS) profitieren können und worauf Sie achten müssen.

Hören Sie von High-Throughput Genomics Labs

Etablierung und Skalierung einer effizienten Genotypisierungsanlage

Prenetics hat ein Hochdurchsatz-Genotypisierungslabor geschaffen, um seinen wachsenden Kundenstamm in Südostasien zu bedienen.

Polygenic Risk Scores könnten nützliche Werkzeuge im Werkzeugkasten des Arztes werden

Forscher diskutieren große GWAS-Studien, um krankheitsassoziierte DNA-Risiko-Loci zu identifizieren und PRSs für die klinische Validierung zu entwickeln.

Skalieren bis zur Genotypisierung von Tausenden von Proben

Ressourcenplanung und automatisierte Genotypisierungs-Workflows ermöglichten es GPBio, sofortige Effizienz- und Durchsatzsteigerungen zu erzielen.

Empfohlene High-Throughput Microarray-Produkte

Infinium Global Screening-Array

Ein Genotypisierungs-Array der nächsten Generation für Genetik im Populationsmaßstab, Varianten-Screening, Pharmakogenomik-Studien und präzisionsmedizinische Forschung.

Infinium XT

Eine umfassende Microarray-Lösung für die Genotypisierung im Produktionsmaßstab von bis zu 50.000 benutzerdefinierten Einzel- oder Mehrspeziesvarianten.

Illumina-Array-LIMS

Dieses hochmoderne LIMS ermöglicht die Hochdurchsatz-Mikroarray-Verarbeitung und Probenverfolgung durch fortschrittliche Automatisierung und präzise Robotersteuerung.

Verwandte Lösungen

Populationsgenomik

Nationale Programme zur Populationsgenomik zielen darauf ab, große, vielfältige Datensätze zu integrieren und klinische Informationen mit Genomdaten in großem Maßstab in einem lernenden Gesundheitssystem zu kombinieren.

Hochdurchsatz-Genotypisierung

Eine groß angelegte Genotypisierung mit Arrays kann Varianten identifizieren, die mit einem Krankheitsrisiko in großen Kohorten oder Populationen verbunden sind.

SBS-Technologie

Die Sequenzierungstechnologie von Illumina verwendet fluoreszenzmarkierte reversible Terminatoren, um Basen zu erkennen, wenn sie in wachsende DNA-Stränge eingebaut werden.

Möchten Sie Newsletter, Fallstudien und Informationen zur Genomik komplexer Krankheiten erhalten? Geben Sie bitte Ihre Email-Adresse ein.

Zusätzliche Ressourcen

Förderung der IBD-Erkennung mit integrativer Genomik

Dr. Carl Anderson diskutiert integrierte genomische Forschungsansätze in der Forschung zu entzündlichen Darmerkrankungen (IBD).

Förderung der IBD-Erkennung mit integrativer Genomik

Die funktionellen Auswirkungen genetischer Varianten

Tuuli Lappalainen, PhD, arbeitet daran, herauszufinden, wie genetische Unterschiede das Risiko einer Person für bestimmte Krankheiten beeinflussen können.

Die funktionellen Auswirkungen genetischer Varianten

Gemeinsame Vision für die Kraft des menschlichen WGS

Genomik-Führungskräfte teilen ihre Sichtweise auf die Auswirkungen von Hochdurchsatz- und Populationssequenzierung in der klinischen Forschung.

Chan Zuckerberg Biohub und das NovaSeq-System

Der Chan Zuckerberg Biohub verwendet das NovaSeq-System, um innovative Experimente in der Genomik durchzuführen.

Innovative Technologien

Unser Ziel bei Illumina ist es, innovative Technologien auf die Analyse genetischer Variation und Funktion anzuwenden und damit Studien zu ermöglichen, die noch vor wenigen Jahren undenkbar waren. Für uns ist es geschäftskritisch, innovative, flexible und skalierbare Lösungen zu liefern, um die Bedürfnisse unserer Kunden zu erfüllen. Als globales Unternehmen, das großen Wert auf kollaborative Interaktionen, schnelle Bereitstellung von Lösungen und höchste Qualität legt, sind wir bestrebt, diese Herausforderung zu meistern. Die innovativen Sequenzierungs- und Array-Technologien von Illumina treiben bahnbrechende Fortschritte in der Life-Science-Forschung, der translationalen Genomik und Verbrauchergenomik sowie der Molekulardiagnostik voran.

Nur für Forschungszwecke. Nicht zur Verwendung in diagnostischen Verfahren (außer wie ausdrücklich angegeben).


Sequenzierung der nächsten Generation (NGS)

Next Generation Sequencing (NGS) ist eine massiv parallele Sequenzierungstechnologie, die einen ultrahohen Durchsatz, Skalierbarkeit und Geschwindigkeit bietet. Die Technologie wird verwendet, um die Reihenfolge von Nukleotiden in ganzen Genomen oder Zielregionen von DNA oder RNA zu bestimmen. NGS hat die biologischen Wissenschaften revolutioniert und es Laboren ermöglicht, eine Vielzahl von Anwendungen durchzuführen und biologische Systeme auf einem nie zuvor möglichen Niveau zu untersuchen.

Die komplexen genomischen Fragen von heute erfordern eine Informationstiefe, die über die Kapazität herkömmlicher DNA-Sequenzierungstechnologien hinausgeht. NGS hat diese Lücke geschlossen und ist zu einem alltäglichen Werkzeug geworden, um diese Fragen zu beantworten.

Sequenzierung der nächsten Generation für Anfänger

Wir führen Sie durch die Grundlagen von NGS, mit Tutorials und Tipps für die Planung Ihres ersten Experiments.

Sehen Sie, was NGS für Sie tun kann

Die NGS-Technologie hat die Art der Fragen, die Wissenschaftler stellen und beantworten können, grundlegend verändert. Innovative Optionen zur Probenvorbereitung und Datenanalyse ermöglichen ein breites Anwendungsspektrum. NGS ermöglicht Labors beispielsweise:

  • Schnell ganze Genome sequenzieren
  • Zielregionen tief sequenzieren
  • Nutzen Sie RNA-Sequenzierung (RNA-Seq), um neue RNA-Varianten und Spleißstellen zu entdecken oder mRNAs für die Genexpressionsanalyse zu quantifizieren
  • Analysieren Sie epigenetische Faktoren wie genomweite DNA-Methylierung und DNA-Protein-Interaktionen
  • Sequenzieren Sie Krebsproben, um seltene somatische Varianten, Tumorsubklone und mehr zu untersuchen
  • Studieren Sie das menschliche Mikrobiom
  • Identifizieren Sie neue Krankheitserreger

Zugängliche Sequenzierung des gesamten Genoms

Unter Verwendung der kapillarelektrophoresischen Sanger-Sequenzierung dauerte das Human Genome Project über 10 Jahre und kostete fast 3 Milliarden US-Dollar.

Im Gegensatz dazu macht Next-Generation-Sequencing die groß angelegte Whole-Genom-Sequencing (WGS) für den durchschnittlichen Forscher zugänglich und praktikabel. Es ermöglicht Wissenschaftlern, das gesamte menschliche Genom in einem einzigen Sequenzierungsexperiment zu analysieren oder Tausende bis Zehntausende von Genomen in einem Jahr zu sequenzieren.

NGS-Datenanalysetools

Entdecken Sie benutzerfreundliche Tools, die die Datenanalyse jedem Wissenschaftler unabhängig von Bioinformatik-Erfahrung zugänglich machen.

Breiter Dynamikbereich für Expression Profiling

NGS-basierte RNA-Seq ist eine leistungsstarke Methode, die es Forschern ermöglicht, die Ineffizienz und die Kosten von Legacy-Technologien wie Microarrays zu überwinden. Die Messung der Microarray-Genexpression wird durch Rauschen am unteren Ende und Signalsättigung am oberen Ende begrenzt.

Im Gegensatz dazu quantifiziert das Next-Gen-Sequencing diskrete, digitale Sequenzierungs-Read-Counts und bietet einen breiteren Dynamikbereich. 1,2,3

Abstimmbare Auflösung für gezieltes NGS

Die gezielte Sequenzierung ermöglicht Ihnen die Sequenzierung einer Teilmenge von Genen oder spezifischen genomischen Regionen von Interesse, wodurch die Leistungsfähigkeit von NGS effizient und kostengünstig fokussiert wird. NGS ist hochgradig skalierbar, sodass Sie die Auflösung an die experimentellen Anforderungen anpassen können. Wählen Sie, ob Sie einen flachen Scan über mehrere Proben durchführen oder eine Sequenz in größerer Tiefe mit weniger Proben durchführen möchten, um seltene Varianten in einer bestimmten Region zu finden.

NGS für COVID-19

Die Sequenzierung der nächsten Generation ist einzigartig in einem Modell für die Überwachung und den Ausbruch von Infektionskrankheiten positioniert. Erfahren Sie, welche NGS-Methoden empfohlen werden, um SARS-CoV-2 und andere Atemwegserreger zu erkennen und zu charakterisieren, die Übertragung zu verfolgen, Koinfektionen zu untersuchen und die virale Evolution zu untersuchen.

Wie funktioniert Illumina NGS?

Die Illumina-Sequenzierung verwendet einen grundlegend anderen Ansatz als die klassische Sanger-Kettenabbruchmethode. Es nutzt die Technologie der Sequenzierung durch Synthese (SBS) – das Verfolgen der Zugabe markierter Nukleotide beim Kopieren der DNA-Kette – in massiv paralleler Weise.

Die Sequenzierung der nächsten Generation erzeugt Massen von DNA-Sequenzierungsdaten und ist sowohl kostengünstiger als auch weniger zeitaufwändig als die herkömmliche Sanger-Sequenzierung. 2 Illumina-Sequenzierungssysteme können je nach Gerätetyp und -konfiguration Datenausgaben im Bereich von 300 Kilobasen bis hin zu mehreren Terabasen in einem einzigen Lauf liefern.

Video zur Sequenzierungstechnologie

Ausführliche NGS-Einführung

Dieser detaillierte Überblick über die Illumina-Sequenzierung beschreibt die Entwicklung der Genomwissenschaft, wichtige Fortschritte in der Sequenzierungstechnologie, Schlüsselmethoden, die Grundlagen der Illumina-Sequenzierungschemie und mehr.

Was können Sie mit der Sequenzierung der nächsten Generation tun?

Sehen Sie, wie Wissenschaftler NGS nutzen, um bahnbrechende Entdeckungen zu machen.
Genetik der COVID-19-Anfälligkeit

Diese britische Studie verwendet NGS, um die Genome von schwer und leicht erkrankten COVID-19-Patienten zu vergleichen, um genetische Faktoren aufzudecken, die mit der Anfälligkeit verbunden sind.

Erkundung der Tumor-Mikroumgebung

Forscher verwenden Einzelzelltechniken, um Mikroumgebungen von Krebs zu untersuchen, Genexpressionsmuster aufzuklären und Einblicke in Arzneimittelresistenz und Metastasierung zu gewinnen.

Verwendung von NGS zur Untersuchung seltener Krankheiten

Whole-Exom- und Transcriptom-Sequenzierung erweisen sich als vorteilhaft bei der Aufdeckung von Mutationen und Signalwegen, die mit seltenen genetischen Erkrankungen verbunden sind.

Entwicklung von Illumina NGS

Zu den jüngsten Durchbrüchen der Sequenzierungstechnologie der nächsten Generation von Illumina gehören:

    : Das iSeq 100-System kombiniert einen komplementären Metall-Oxid-Halbleiter (CMOS)-Chip mit einem Einkanal-SBS, um hochpräzise Daten in einem kompakten System zu liefern. : Diese Technologie ermöglicht eine schnellere Sequenzierung als die ursprüngliche 4-Kanal-Version der SBS-Technologie bei der gleichen hohen Datengenauigkeit. : Diese Option bietet einen außergewöhnlichen Durchsatz für verschiedene Sequenzierungsanwendungen. : Erfahren Sie, wie das NovaSeq 6000-System eine abstimmbare Ausgabe von bis zu 6 Tb in . bietet

Geschichte der Illumina-Sequenzierung

Erfahren Sie, wie die SBS-Technologie von Illumina entstanden ist und sich im Laufe der Zeit weiterentwickelt hat.

Bringen Sie NGS in Ihr Labor

Die folgenden Ressourcen bieten Wissenschaftlern, die erwägen, ein Sequenziersystem der nächsten Generation zu kaufen, wertvolle Hinweise.

Laden Sie den Kaufleitfaden herunter

Experimentelle Überlegungen zu NGS

Erfahren Sie mehr über Leselänge, Abdeckung, Qualitätsbewertungen und andere experimentelle Überlegungen, die Ihnen bei der Planung Ihres Sequenzierungslaufs helfen.

Verwenden Sie unsere interaktiven Tools, um ein benutzerdefiniertes NGS-Protokoll zu erstellen oder die richtigen Produkte und Methoden für Ihr Projekt auszuwählen.

Schlüsselbegriffe in NGS

Nutzen Sie unser Sequencing-Glossar der nächsten Generation, um wichtige Begriffe und wichtige Konzepte bei der Planung Ihres Sequenzierungsprojekts zu klären.

Methodenleitfaden

Greifen Sie von einem Ort aus auf die benötigten Informationen zu – von BeadChips über die Bibliotheksvorbereitung für Genom-, Transkriptom- oder Epigenomstudien bis hin zu Sequenzerauswahl, Analyse und Support. Wählen Sie die besten Werkzeuge für Ihr Labor mit unserem umfassenden Leitfaden, der speziell für Forschungsanwendungen entwickelt wurde.

Genomik-Nachrichten

Illumina und Next Generation Genomic führen erweitertes NIPT in Thailand ein

Die Zusammenarbeit wird VeriSeq™ NIPT Solution v2 in Südostasien einführen

Das verbesserte Illumina Library Prep Kit ist die ideale Lösung für die Australian Genome Research Facility

Illumina gibt den dreizehnten Gewinner des Greater Good Grant für die Landwirtschaft bekannt

Dr. Bertram Brenig hilft mit Genomik-Stipendium, die Bienen zu retten

Möchten Sie Newsletter, Fallstudien und Informationen von Illumina basierend auf Ihrem Interessengebiet erhalten? Jetzt registrieren.

Verwandte Lösungen

Vorbereitung der NGS-Bibliothek

Schnelle, einfache NGS-Bibliotheksvorbereitungs- und Anreicherungsworkflows von Illumina, um Ihre Proben für die Sequenzierung vorzubereiten.

Sequenzierungsdienste

Greifen Sie auf schnelle, zuverlässige Sequenzierungsdienste der nächsten Generation zu, die hochwertige Daten liefern und umfassende wissenschaftliche Expertise bieten.

Illumina NGS- und Microarray-Schulung

Arbeiten Sie mit erfahrenen Illumina-Instruktoren zusammen und erhalten Sie praktische Schulungen. Wir bieten auch Online-Kurse, Webinare, Videos und Podcasts an.

Verweise
  1. Wang Z, Gerstein M, Snyder M. RNA-Seq: ein revolutionäres Werkzeug für die Transkriptomik. Nat. Rev Genet. 200910:57–63.
  2. Wilhelm BT, Landry JR. RNA-Seq – quantitative Messung der Expression durch massiv parallele RNA-Sequenzierung. Methoden. 200948:249–57.
  3. Zhao S, Fung-Leung WP, Bittner A und Ngo K, Liu X. Vergleich von RNA-Seq und Microarray im Transkriptom-Profiling von aktivierten T-Zellen. Plus eins. 2014169(1):e78644.

Innovative Technologien

Unser Ziel bei Illumina ist es, innovative Technologien auf die Analyse genetischer Variation und Funktion anzuwenden und damit Studien zu ermöglichen, die noch vor wenigen Jahren undenkbar waren. Für uns ist es geschäftskritisch, innovative, flexible und skalierbare Lösungen zu liefern, um die Bedürfnisse unserer Kunden zu erfüllen. Als globales Unternehmen, das großen Wert auf kollaborative Interaktionen, schnelle Bereitstellung von Lösungen und höchste Qualität legt, sind wir bestrebt, diese Herausforderung zu meistern. Die innovativen Sequenzierungs- und Array-Technologien von Illumina treiben bahnbrechende Fortschritte in der Life-Science-Forschung, der translationalen Genomik und Verbrauchergenomik sowie der Molekulardiagnostik voran.

Nur für Forschungszwecke. Nicht zur Verwendung in diagnostischen Verfahren (außer wie ausdrücklich angegeben).


Sequenzierung der nächsten Generation für Anfänger

Diese Ressourcen decken wichtige Themen der Next-Generation-Sequencing (NGS) für Anfänger ab. Wir führen Sie durch den Arbeitsablauf, die Tutorials und die Planung Ihres ersten Experiments.

Die weltweite Wirkung von NGS

Die Sequenzierung der nächsten Generation revolutioniert die Forschung und ermöglicht Experimente, die zuvor nicht möglich waren.

Die weltweite Wirkung von NGS

Vorteile der Sequenzierung der nächsten Generation

Vergleichen Sie NGS mit anderen Technologien und sehen Sie, ob es für Sie und Ihre Forschungsziele geeignet ist.

NGS vs. Sanger-Sequenzierung

Lernen Sie die wichtigsten Unterschiede zwischen den Technologien kennen und sehen Sie, wann NGS eine effektivere Option sein kann.

NGS vs. qPCR

Entdecken Sie, wie NGS im Vergleich zu qPCR eine höhere Erkennungsleistung bietet, was es zu einer nützlichen Methode zur Quantifizierung von Variationen macht.

NGS vs. Microarrays

Finden Sie heraus, warum die RNA-Sequenzierung mit NGS einen großen Dynamikbereich und eine hohe Sensitivität für den Nachweis neuer Transkripte bietet.

So funktioniert NGS

Der grundlegende Sequenzierungsprozess der nächsten Generation umfasst das Fragmentieren von DNA/RNA in mehrere Teile, das Hinzufügen von Adaptern, das Sequenzieren der Bibliotheken und das erneute Zusammensetzen zu einer genomischen Sequenz. Im Prinzip ähnelt das Konzept der Kapillarelektrophorese. Der entscheidende Unterschied besteht darin, dass NGS Millionen von Fragmenten massiv parallel sequenziert, was die Geschwindigkeit und Genauigkeit verbessert und gleichzeitig die Kosten für die Sequenzierung reduziert.

So funktioniert NGS

Ihr NGS-Workflow

Vorbereiten
Reihenfolge
Analysieren

Die Sequenzierung der nächsten Generation umfasst drei grundlegende Schritte: Bibliotheksvorbereitung, Sequenzierung und Datenanalyse. Finden Sie Ressourcen, die Ihnen bei der Vorbereitung auf jeden Schritt helfen, und sehen Sie sich einen beispielhaften Arbeitsablauf für die mikrobielle Gesamtgenomsequenzierung an, eine gängige NGS-Anwendung.

NGS-Tutorials für Anfänger

Der Einstieg in NGS kann einfacher sein, als Sie erwarten. Sehen Sie sich unsere kostenlosen Tutorials für jeden der wichtigsten Schritte im Workflow an. Möchten Sie eine personalisierte Schulung für Ihr Labor, die von Angesicht zu Angesicht oder virtuell durchgeführt wird? Auch das bieten wir an.

Planung eines NGS-Budgets

Die Kosten für NGS sind in den letzten Jahren dramatisch gesunken, sodass Labore jeder Größe die Sequenzierung in ihre Studien einführen können. Bei der Budgetplanung sind einige Faktoren zu berücksichtigen, z. B. die Laborausstattung und das Probenvolumen.

Erste Schritte mit NGS-Grundlagen

Beginnen wir mit einem detaillierten Überblick über die wichtigsten Schritte im Sequenzierungsworkflow der nächsten Generation.

Die Illumina-Community

Schließen Sie sich anderen Illumina-Kunden in der Illumina-Online-Community an. Arbeiten Sie mit Illumina-Moderatoren, Kunden und Entwicklern zusammen. Besprechen Sie Best Practices, beheben Sie Fehler und erfahren Sie, wie andere Illumina-Sequenzer, Bibliotheksvorbereitungskits und automatisierte Datenanalysen verwenden, um ihre Forschung voranzutreiben.

Zusätzliche Ressourcen

Auswahl eines NGS-Unternehmens

Suchen Sie ein erstklassiges Sequenzierungsunternehmen der nächsten Generation mit benutzerfreundlichen Bioinformatik-Tools und branchenführendem Support und Service.

Glossar der Next-Generation-Sequenzierung

Hier finden Sie Definitionen für gängige Begriffe und Illustrationen wichtiger Konzepte in NGS.

NGS Workflow-Beratung

Mit unseren experimentellen Designexperten können Sie schneller loslegen.* Wir helfen Ihnen bei der Entwicklung eines NGS-Workflows, der zu Ihnen passt.

Treten Sie der Illumina-Community bei

In unserem offenen Forum können Forscher zusammenkommen, um sich gegenseitig zu unterstützen, Fragen zu stellen und an großartiger Wissenschaft zusammenzuarbeiten.

Kontaktiere uns

*Nicht verfügbar in den Ländern Asiens und des Südpazifiks.

Innovative Technologien

Unser Ziel bei Illumina ist es, innovative Technologien auf die Analyse genetischer Variation und Funktion anzuwenden und damit Studien zu ermöglichen, die noch vor wenigen Jahren undenkbar waren. Für uns ist es geschäftskritisch, innovative, flexible und skalierbare Lösungen zu liefern, um die Bedürfnisse unserer Kunden zu erfüllen. Als globales Unternehmen, das großen Wert auf kollaborative Interaktionen, schnelle Bereitstellung von Lösungen und höchste Qualität legt, sind wir bestrebt, diese Herausforderung zu meistern. Die innovativen Sequenzierungs- und Array-Technologien von Illumina treiben bahnbrechende Fortschritte in der Life-Science-Forschung, der translationalen Genomik und Verbrauchergenomik sowie der Molekulardiagnostik voran.

Nur für Forschungszwecke. Nicht zur Verwendung in diagnostischen Verfahren (außer wie ausdrücklich angegeben).


Wie berechnen Hochdurchsatz-/NGS-Sequenzer Qualitätswerte? - Biologie

Die Gesamtleistung des Sequenzierungslaufs wird bewertet, indem festgestellt wird, ob der Sequenzierungslauf die Illumina-Spezifikationen für Qualitätsbewertungen und Datenausgabe erfüllt. Die tatsächliche Laufleistung variiert je nach Probentyp, Qualität und Cluster, die den Filter passieren. Die Spezifikationen basieren auf der Illumina PhiX-Steuerungsbibliothek bei unterstützten Clusterdichten.

Wo finde ich Gerätespezifikationen?

Folgen Sie den nachstehenden Links zu den Seiten mit den Gerätespezifikationen:

Der Sequencing Analysis Viewer (SAV) ist eine kostenlose Software zur Bewertung der Leistung von Sequenzierungsläufen und kann von der Illumina-Website heruntergeladen werden:

  • SAV v2.4.7 von SAV auf allen Instrumenten außer auf dem Instrument MiSeq und NextSeq1000/2000
    SAV v2.4.7 ist kompatibel für alle Anwendungen außerhalb des Instruments (Remote) unter Windows 7 oder höher
  • SAV v1.8.37 von SAV für die Anzeige von MiSeq auf dem Instrument

Sobald SAV installiert ist, öffnen Sie es und wählen Sie die Registerkarte mit den gewünschten Abfrageinformationen.

Wie kann ich feststellen, ob mein Lauf den Spezifikationen entspricht?

Unten ist ein Beispiel für einen PhiX-Validierungslauf (2 x 151 bp) auf dem MiSeq unter Verwendung von v2-Reagenzien. Die Spezifikationen für diesen Lauf sind wie folgt:

  • Gesamtdatenausgabe von 4,5–5,1 Gigabasen (Gb)
  • Mindestens 80% der aufgerufenen Basen mit einem Qualitätsscore von 30 oder höher (mindestens 80% ≥ Q30)

    Erfüllt die Gesamtqualität (Q30) die Spezifikation?

Um den Qualitätsfaktor zu bestimmen, überprüfen Sie die Registerkarte Analyse Q-Score-Verteilungsdiagramm und die Registerkarte Zusammenfassung, wie unten gezeigt.

Die Qualitätsspezifikation für einen MiSeq Paired-End-Lauf mit 151 Zyklen beträgt Q30 80 %. Der Lauf erfüllt diese Spezifikation, da der Prozentsatz ≥ Q30 >94% beträgt.

Um die Ausbeute des Laufs zu bestimmen, überprüfen Sie die Informationen auf der Registerkarte Zusammenfassung, wie unten gezeigt.

Die Ertragsspezifikation für einen Paired-End-Lauf mit 151 Zyklen beträgt >4,4 Gb. Der Lauf erfüllt diese Spezifikation, da die Gesamtausbeute 6,10 Gb beträgt.

Welche zusätzlichen Informationen erhalte ich von SAV?

Die folgenden Bilder stammen aus dem öffentlichen BaseSpace-Datensatz: „MiSeq: Nextera DNA Flex (Replikate von E. coli, B. cereus, und R. sphaeroides)“. Hinweis: Nextera DNA Flex wurde in Illumina DNA Prep umbenannt.

Registerkarte Analyse: Übersicht über die Laufmetriken.

  1. Das Fließzellendiagramm zeigt farbcodierte Metriken pro Kachel für die gesamte Fließzelle.
  2. Daten nach Zyklus zeigt verschiedene Metriken für jeden Zyklus des Laufs an. Wählen Sie die angezeigte Metrik, Spur, Oberfläche und Kanal mithilfe der Dropdown-Listen aus.
  3. Die Q-Score-Verteilung zeigt einen schnellen Überblick über die Qualität des Laufs. Das Q30 für den gesamten Lauf befindet sich oben rechts in diesem Feld.
  4. Data by Lane zeigt Diagramme von Metriken pro Lane.
  5. Q-Score-Heatmap zeigt eine Heatmap für den Q-Score nach Zyklus an.

Registerkarte „Bildgebung“: Zeigt Miniaturansichten des Laufs an, falls verfügbar.

  1. Schalten Sie hier um, welches Basis- oder Farbkanalbild angezeigt werden soll.
  2. Wenn Miniaturansichten für den Lauf gespeichert sind, werden sie hier angezeigt.

Registerkarte "Zusammenfassung": Bietet grundlegende Datenqualitätsmetriken, die pro Lane und pro Lesevorgang zusammengefasst sind.

  1. Die Ausführungszusammenfassung pro Lesevorgang, einschließlich der Qualität, wird hier gemeldet.
  2. Weitere Details pro Lesevorgang, einschließlich der genauen Dichte, Cluster Passing Filter (PF) und % ausgerichtet.

Registerkarte Indexierung: Gesamt- und Pro-Probe-%-Reads Wird identifiziert, wenn ein Probenblatt verwendet und Demultiplexing durchgeführt wurde.


Leistungsvergleich von Benchtop-Hochdurchsatz-Sequenzierungsplattformen

Drei Benchtop-Hochdurchsatz-Sequenzierungsinstrumente sind jetzt verfügbar. Die 454 GS Junior (Roche), MiSeq (Illumina) und Ion Torrent PGM (Life Technologies) haben Laserdrucker-Größe und bieten geringe Einrichtungs- und Betriebskosten. Jedes Instrument kann innerhalb von Tagen Daten generieren, die für einen Entwurf einer bakteriellen Genomsequenz erforderlich sind, was sie für die Identifizierung und Charakterisierung von Krankheitserregern im klinischen Umfeld attraktiv macht. Wir haben die Leistung dieser Instrumente verglichen, indem wir ein Isolat von Escherichia coli O104:H4, der 2011 in Deutschland zu einem Ausbruch einer Lebensmittelvergiftung führte. Der MiSeq hatte den höchsten Durchsatz pro Lauf (1,6 Gb/Lauf, 60 Mb/h) und die niedrigsten Fehlerraten. Der 454 GS Junior generierte die längsten Reads (bis zu 600 Basen) und die meisten zusammenhängenden Assemblies, hatte aber den niedrigsten Durchsatz (70 Mb/Lauf, 9 Mb/h). Im 100-bp-Modus ausgeführt, hatte das Ion Torrent PGM den höchsten Durchsatz (80–100 Mb/h). Im Gegensatz zum MiSeq erzeugten der Ion Torrent PGM und der 454 GS Junior beide homopolymer-assoziierte Indel-Fehler (1,5 bzw. 0,38 Fehler pro 100 Basen).


Warum muss ich meine Bibliothek quantifizieren?


Es gibt zwei Hauptgründe, warum Bibliotheken quantifiziert werden müssen.

  1. Die Chemie, die der Illumina-Sequenzierung zugrunde liegt, erfordert, dass eine optimale Menge an adaptorligierten DNA-Fragmenten in den Cluster-Erzeugungsschritt geladen wird, zum Beispiel 6–10 pM für das MiSeq®-Instrument (v3-Chemie).
  2. Wenn mehrere Bibliotheken in einem Lauf sequenziert werden, ist es wünschenswert, dass die Sequenzabdeckung für jede Bibliothek gleich ist, und daher sollte eine gleiche Menge jeder Bibliothek in den Cluster-Erzeugungsschritt verschoben werden.

Was passiert mit Ihrer Bibliothek während der Sequenzierung?

Um die Bedeutung einer genauen Bibliotheksquantifizierung vor der Sequenzierung vollständig zu verstehen, ist es zunächst notwendig, die Sequenzierungschemie und ihre Wechselwirkungen mit den zu sequenzierenden Proben zu verstehen.

In diesem Artikel konzentrieren wir uns auf die Chemie, die den beliebten (und marktführenden) Illumina-Sequenzern zugrunde liegt, obwohl die Bibliotheksquantifizierung ein wichtiger Schritt für die Sequenzierung auf jeder Plattform ist.

Brücken bauen & Ampere-Zähl-Cluster

Kernkomponenten der Sequenzierungstechnologie von Illumina sind ihre Flusszellen und ihre Fähigkeiten zur Cluster-Erzeugung. Die Sequenzer von Illumina basieren auf der optischen Erkennung von DNA-Clustern, die sich auf der Glasflusszelle bilden, ein Phänomen, das durch einen dichten Rasen von Primern ermöglicht wird, die im Flusszellenkanal vorimmobilisiert sind. Wenn Sie Ihre Bibliothek der Fließzelle hinzufügen, hybridisieren die einzelsträngigen, mit dem Adapter ligierten Fragmente an die immobilisierten Primer, die über die Fließzelle verteilt sind. In diesem Schritt wird die Genauigkeit Ihrer Bibliotheksquantifizierung auf die Probe gestellt.

Cluster generation then occurs: each hybridized molecule undergoes multiple rounds of amplification to produce up to 1,000 copies of the same molecule in the same location on the flow cell: a &ldquocluster&rdquo, whose diameter is 1 micron or less. For more details on cluster generation, visit Illumina.com.

The amount of DNA initially loaded onto the flow cell directly influences the density of the clusters that form. Too little DNA and the clusters are likely to sparsely populate the flow cell. Too much DNA and the clusters will be too close together, making it difficult to interpret the sequencing data due to poor resolution, and resequencing of libraries will be required (Figure 1). Illumina&rsquos recommended input ranges, which differ depending on the specific Illumina instrument, help to ensure that the clusters forming on the flow cell have sufficient resolution, without wasting valuable flow cell space.

Figure 1: Optimal cluster density enables efficient & accurate quantitation
The density of library clusters as they form on the flow cell prior to sequencing is a key factor in the success of a sequencing run. Low concen- tration libraries (Left) fail to make optimal use of the space, while high concentration libraries (Right) lead to densely packed clusters that are difficult to call. Optimal cluster density (Center) makes the best use of flow cell real estate, without over crowding. Representative optical data generated during sequencing depicts variation in cluster densities as shown in the insets.

A deeper dive into equivalent representation

When you pool libraries, you increase the value of each sequencing run by increasing the number of samples that can be sequenced in a single run. However, if libraries are combined in unequal concentrations, this leads to biased representation of certain libraries over oth- ers. In cases where libraries are significantly under-represented, these libraries will need to be resequenced, costing time and money. Over-rep- resentation of libraries can result in generation of more sequence data than required, and the subsequent discarding of sequence reads, wasting sequence capacity.

Figure 2 is an example of uneven library pooling resulting in uneven sequence coverage and the need to resequence. With 16 libraries in this pool, each library should theoretically have 6.25% of the sequence reads. However, this is not the case, and some of the libraries, such as libraries 5 and 15, would need to be resequenced.

FIGURE 2: Uneven pooling of libraries yields uneven sequence coverage
Inadequate or uneven pooling of libraries can result in suboptimal data, and even lead to the need for library resequencing, as seen with library #5.

Why do my library fragments need to be adaptor-ligated?

Optimal cluster density enables efficient & accurate quantitation The density of library clusters as they form on the flow cell prior to sequencing is a key factor in the success of a sequencing run. Low concen- tration libraries (Left) fail to make optimal use of the space, while high concentration libraries (Right) lead to densely packed clusters that are difficult to call. Optimal cluster density (Center) makes the best use of flow cell real estate, without over crowding. Representative optical data generated during sequencing depicts variation in cluster densities as shown in the insets. Sequences required downstream of library preparation, such as those for cluster generation and sequencing, must be added to the DNA fragments to be sequenced, and this is the primary goal of library preparation. In PCR-free library preparation workflows, all of the required sequences must be included in the adaptor sequence. In workflows including amplification, some of the sequences, including the sequences required for cluster generation (indicated by P5 and P7 in Figure 3,), can be added during PCR instead.

FIGURE 3: Adaptor ligation workflow
The stepwise addition of the sequences P5 and P7 and the barcode (BC) can be achieved during PCR amplification of the library.

Only fragments that have a P5 sequence at one end and a P7 sequence at the other are capable of participating successfully in cluster generation. Therefore, ideally, only fragments to which both of these sequences have been attached should be counted during a library quantitation step.

However, in addition to the desired fragments with an adaptor at both ends, libraries may also contain fragments that have no adaptors, one adaptor or adaptor-dimers. Fragments with no adaptors or one adaptor ligated will not form clusters. Adaptor-di- mers will efficiently cluster, but contain no DNA of interest (Figure 4).

FIGURE 4: Adaptors are the hallmark of productive molecules
Only library fragments containing both a P5 and a P7 adaptor will result in a flow-cell cluster. Other molecules are insufficient for cluster formation or contain no DNA of interest, so efforts should be made to exclude them from quantitation.


ERGEBNISSE

Our results show the effectiveness of combining quality scores with sequence alignment by applying LAST within two experiment settings: the first with synthetic data and the second with real data based on cross-species mapping.

Test with simulated DNA reads

In our first experiment, we employ simulated reads since we are able to know exactly where they should map to. We began by sampling 100 000 random 36-bp fragments from human chromosome 1 (hg19, both strands). To simulate real sequence differences, we made random substitutions at a low level (0.2, 0.5, 2 or 5%). These substitutions consisted of 60% transitions and 40% transversions: a realistic proportion (6). To keep this initial test simple, we did not introduce any insertions or deletions. Finally, we assigned 100 000 real quality score strings (those summarized in Figure 1 A) to the simulated reads, and randomly mutated each base according to the corresponding error probability.

We then aligned the reads to chromosome 1, and checked whether or not they mapped back to their original locations. The ‘real’ sequence differences were modeled by using suitable alignment score parameters for each level of divergence ( Table 1 ). We obtained alignments with score 120 (equivalent to 20 error-free matching bases), then calculated mapping probabilities, and kept alignments with mapping probability 0.99. Figure 2 shows the relationship between the number of correctly and incorrectly mapped reads, as the score threshold is varied between 216 (the maximum possible) and 120. As the score threshold approaches 120, falsely mapped reads increase dramatically: this is because the mapping probabilities become less reliable since they fail to account for alignments with scores 119. In all cases, however, mapping accuracy improves (i.e. we obtain more correctly mapped reads for a given number of incorrectly mapped ones) when we model both sequencer errors and ‘real’ substitutions. If we model only sequencer errors, there is the potential to do worse than traditional alignment, where only substitutions are modeled.

Table 1.

Alignment score parameters for DNA with various substitution rates

Substitution Rate (%)Match scoreMismatch cost a T ein Transition cost b TransversionT B
cost b
064.328094.32809
0.26264.3339123284.33441
0.56224.3429519244.34425
16194.3583816214.36106
26164.3908213184.39646
56124.5021210144.49125
10694.733877124.65864
15684.882816 c 9 c 4.92305 c

a Applies when there is no transition/transversion bias (i.e. one in three substitutions are transitions).

b For the case where 60% of substitutions are transitions.

c For the case where 45% of substitutions are transitions.

Mapping accuracy for 100 000 simulated 36-bp reads. The reads differ from the genome by a certain rate of ‘real’ substitutions (0.2, 0.5, 1 or 2%) plus sequencer errors. Each line shows the relationship between the number of correctly and incorrectly mapped reads as the alignment score cutoff is varied. Circles indicate a score cutoff of 150. Dotted lines show the accuracy when we model the substitutions but not the sequencer errors. Dashed lines show the accuracy when we model the sequencer errors but not the substitutions. Solid lines show the accuracy when we model both.

To check whether these conclusions hold for a different read length and quality score distribution, we repeated the test using simulated reads of size 51 ( Figure 3 ). The main conclusion still applies: mapping accuracy is improved by modeling both sequencer errors and substitutions. This time, however, traditional alignment performs worse relative to modeling sequencer errors only. The reason, presumably, is that the error probabilities used here are higher on average than those used for the 36-bp reads ( Figure 1 ): so it becomes more important to model sequencing errors.

Mapping accuracy for 100 000 simulated 51-bp reads. See legend of Figure 2 . Circles indicate a score cutoff of 180.

It might be argued that, since we used a particular mapping algorithm (with adaptive seeds), the conclusions may not apply to other mapping techniques. To address this concern, we repeated the experiment using LAST in a different mode, where it guarantees to find all alignments with up to two mismatches (and score 120). (Many alignments with more than two mismatches are also returned in this mode.) This resembles several popular mapping methods. The main conclusions are unchanged: mapping accuracy is improved by modeling both sequencer errors and substitutions, and in some cases modeling only sequencer errors is less accurate than traditional alignment ( Figure 4 ).

Mapping accuracy for 100 000 simulated 36-bp reads using a mapping procedure that guarantees to find all matches with up to two substitutions. This is identical to Figure 2 , except that a different mapping algorithm was used here.

The mapping algorithm does make a difference, though ( Figures 2 and ​ and4). 4 ). The default adaptive seed method gives only a few hundred false mappings for 60 000� 000 correctly mapped reads, but the two-mismatch guarantee method gives yet fewer false mappings – only a handful – for 50 000� 000 correctly mapped reads. On the other hand, it ultimately gets fewer correctly mapped reads. In our simulation, all of the reads actually come from the reference sequence, and the two-mismatch guarantee method will never miss the correct alignment if the read has at most two differences: this is why there are so few false mappings. Real data is less clean than this, and we would expect more false mappings (see below).

In a further test, we mapped the simulated reads using a simple match/mismatch scoring matrix while also modeling the sequencer errors. This means that we accurately modeled the level of divergence, but ignored the difference between transitions and transversions. This approach works almost, but not quite as well as when we model transitions and transversions (Supplementary Figure S2). This is worth knowing, because match/mismatch scoring schemes are simpler to implement and slightly faster than general score matrices (Supplementary Data).

Test by xeno-mapping real DNA reads

We wished to test our approach with real (not simulated) reads, but we need a case where we can at least estimate whether the mappings are correct. To accomplish this, we mapped reads of D. melanogaster DNA (those in Figure 1 A) to the genome of D. simulans, a closely related organism. This cross-species mapping exemplifies xeno-mapping and mapping to highly polymorphic genomes.

To estimate correctness, we first mapped the reads to the D. melanogaster genome, which can presumably be done much more accurately, and then used the D. melanogaster / D. simulans genome alignment from the UCSC database to cross-reference the mappings. The genome alignment no doubt has errors, but it should be much more accurate than short-read mapping because it can leverage the context provided by long sequences.

In order to construct a suitable alignment scoring scheme, we examined the divergence between D. melanogaster und D. simulans. In the UCSC ‘net’ alignments, 15% of aligned bases are mismatches, and 45% of these are transitions. There is about one gap per 101 aligned bases, and the average gap size is 6.67. These statistics suffice to construct a scoring scheme ( Table 1 , Supplementary Data).

In this test, mapping accuracy was greatly improved by modeling real sequence differences in addition to sequencing errors ( Figure 4 ). At a score cutoff of 150, we get 35 667 correctly mapped reads (66% of the 53 748 that could be mapped confidently to D. melanogaster) and 197 falsely mapped reads. If we model sequencing errors only, we get 26 569 correctly mapped reads (49%) and 194 falsely mapped reads.

If we model real sequence differences without gaps, the accuracy is only slightly lower than when we do allow gaps ( Figure 5 ). So it is not important to model gaps for this data set. Gaps are likely to be more important for longer reads, since a longer read is more likely to cross a gap, and it is also more likely that the alignment can be extended across the gap.

Estimated mapping accuracy for 100 000 real 36-bp reads from D. melanogaster, mapped to the D. simulans Genom. Circles indicate a score cutoff of 150. The dotted line shows the mapping accuracy when we model the sequencer errors but not the real differences. The solid line shows the accuracy when we model both. The dashed red line shows the accuracy when we model both but forbid insertions and deletions. Correctness was estimated by mapping the reads to the D. melanogaster genome (modeling sequencer errors only), and using the UCSC D. melanogaster / D. simulans pairwise genome alignment to cross-reference the mappings.

For completeness, we also tried mapping the reads to either or both Drosophila genomes in two-mismatch guarantee mode (Supplementary Figure S3). All combinations support the main conclusion that mapping accuracy increases significantly when we model real sequence differences in addition to sequencing errors. When we map to D. simulans in two-mismatch guarantee mode, the slight benefit of modeling gaps disappears, perhaps because this mode requires finding large (26 bp) gapless matches (see ‘Materials and Methods’ section). As expected, two-mismatch guarantee mode does not reduce false mappings as dramatically as it did for simulated data. Finally, two-mismatch guarantee mode gives fewer correctly mapped reads (as it did for simulated reads), perhaps because it requires seeds with 18 matches (see ‘Materials and Methods’ section), making it less sensitive in general than adaptive seeds.


Mapping qualities

Current high throughput sequencers produces reads that are short for example the HiSeq2000 produces millions of reads that are 50 and 100 bp long. To align such short reads with high speed and accuracy, many short read alignment programs have been developed, such as BWA. The major limitation is the length of the sequenced reads because many eukaryotic genomes are repetitive and therefore it is difficult to accurately map these reads. Because of this, alignment programs have mapping qualities for each read that is mapped to the reference genome. A mapping quality is basically the probability that a read is aligned in the wrong place (i.e. phred-scaled posterior probability that the mapping position of this read is incorrect). The probability is calculated as:

where q is the quality. For example a mapping quality of 40 = 10 to the power of -4, which is 0.0001, which means there is a 0.01 percent chance that the read is aligned incorrectly.

Base calling errors with respect to mapping qualities

Sequencers make base calling mistakes and this complicates matters. To illustrate how this affects the mapping qualities using BWA, I will use an example I came across in SEQanswers. First let’s examine mapping qualities when a read maps to a specific region without suboptimal hits:

Mapping the read to our reference, BWA returns a mapping quality of 37 (which is actually the highest mapping quality BWA returns).

Next let’s create an example with suboptimal hits. Below is a reference that contains five identical stretches of 28 mers and one 28 mer with a single mismatch (in red) compared to the other five:

>ref2
ACGTACGTACGTACGTA C GTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG
ACGTACGTACGTACGTAGGTACGTAGGG

Let’s map a read from the single mismatch stretch to this reference:

The mapping quality of the read in the second example is 16, which has a probability of $ 10^ <-16/10>= 0.025119 $ of mapping to the wrong place. Even though the read maps uniquely in the reference, its mapping quality is 16 and not 37. The BWA specific tags in the SAM file provides some nice additional information:

XT Type: Unique/Repeat/N/Mate-sw
X0 Number of best hits
X1 Number of suboptimal hits found by BWA

From the BWA tag information we can quickly deduce whether a read is aligned uniquely in this case the XT:A:U indicates that it was aligned uniquely. In addition, the X1:i:5 tag indicates that there were 5 suboptimal hits.

Mapping qualities when considering base calling errors

To model base calling errors we can use the Binomial distribution if I expect there to be 1 base calling error in 100 bps, I can calculate the probability of an error for a read of 25 nt as such using R

If we expect 1 base calling error in 100 bps, the probability of making two base calling errors in 25 bps is quite low. Using the formula from the SEQanswers post that calculates the posterior probability that the best alignment is actually correct:

In reality base calling is much more accurate than 1 error in 100 bases, which is a Phred quality score of 20. If we changed the base calling error rate to 1 in 1000 (Phred score of 30):

then the posterior probability that the best alignment is correct improves to 0.88879. Using a base calling error rate of 1 in 10000 (Phred score of 40):

improves the probability to 0.9876531, which is a

0.012 probability that the alignment is incorrect, which is around the same ball park to the BWA mapping quality of 16, which is a 0.025 probability that the alignment is incorrect.

Does BWA make use of base calling qualities?

When I included base calling qualities to the read

I still get the same mapping quality of 16 with BWA, indicating that mapping qualities are not used by BWA:

tag 0 artificial 1 16 25M * 0 0 ACGTACGTACGTACGTACGTACGTA . XT:A:U NM:i:0 X0:i:1 X1:i:5 XM:i:0 XO:i:0 XG:i:0 MD:Z:25

This was confirmed when I examined the BWA manual, which mentioned that “Base quality is NOT considered in evaluating hits.”


/>
This work is licensed under a Creative Commons
Attribution 4.0 International License.


Discussion and Conclusion

Although we only applied our pipeline to RNA-seq short reads in this experiment, it is also applicable to other quantitative high-throughput sequence analysis tasks, such as DNA-seq, Chip-seq, DNase-seq, Bis-seq, etc. For example, studies of allele-specific copy number variations can leverage our pipeline for DNA-seq data. The resulting read-origin annotations can be used to estimate the number of DNA copies in different parental haplotypes in later analysis steps.

Although we chose to use a diallel experiment to evaluate our new pipeline in the ‘methods and result’ sections, it is equally applicable to other multi-parental crosses. For example, our multi-alignment pipeline can be directly applied to recombinant inbred lines (RILs) [22] and backcrosses. For a multi-parental cross with n distinct inbred founders, we would generate n pseudogenomes and perform n separate alignments. These alignments can then be merged using n BAM files. In this scenario, each mapping that is saved to the output will have an n-bit flag set indicating which files the read was found in. This allows for cases where a mapping’s origin is shared/ambiguous between multiple founders. The latest version of Suspenders allows for a variable number of input alignments during the merging process.

Furthermore, we can incorporate additional filters into the pipeline to better determine the origin of mappings. In our experiment, we only used the Unique and Quality filters as informative filters. This resulted in 𢏅% of the mapped reads being handled by the Random filter. Adding an additional filter before the Random filter will help to reduce the amount of random choices made in the final output. One possible filter is a Pileup filter based on choosing among otherwise equal mappings the single mapping that has the most surrounding mappings supporting it. To do this, we first find all mapping sets that can be filtered by the Unique or Quality filters and use their chosen mappings to compute the read coverage at each base in the reference genome. Then, any mapping sets that could not be resolved using Unique or Quality would compare the pileup coverage of each potential mapping in the set and choose the mapping with the highest coverage. This will be particularly useful for reducing the number of reads that map to pseudogenes in RNA-seq. In cases where the pileups are not significantly different, more computation or simply using the Random filter may be necessary. Suspenders currently has a preliminary version of this filter included in the software package.

To summarize, we propose a new multi-alignment pipeline, which is generic enough to handle reads of various types of organisms from different high-throughput sequencing techniques. We demonstrated its effectiveness on RNA-seq data from a diallel cross and compared our pipeline with a single-reference pipeline. It is shown that our pipeline outperforms the traditional single-reference-based alignment approaches: not only are more reads aligned by our pipeline, but a higher percentage of them are assigned a correct origin.

The two key components of our pipeline, Lapels and Suspenders, are Python scripts that can be downloaded at https://code.google.com/p/lapels/ and https://code.google.com/p/suspenders/.


Schau das Video: ngs iontorrent (Kann 2022).


Bemerkungen:

  1. Lamont

    Meiner Meinung nach ist es eine interessante Frage, ich werde an einer Diskussion teilnehmen. Ich weiß, dass wir zusammen eine richtige Antwort geben können.

  2. Whitford

    Es tut mir leid, dass ich jetzt nicht an der Diskussion teilnehmen kann. Sehr wenig Informationen. Aber ich werde gerne diesem Thema folgen.

  3. Samukora

    Ich kann ihr nicht widersprechen.

  4. Olamide

    Wer sagt, es ist notwendig, die Fire Box zu schwingen und zu beobachten, geht dann aus

  5. Kulbart

    Es ist bemerkenswert, es ist ein sehr wertvoller Satz



Eine Nachricht schreiben