Information

So überprüfen Sie, ob eine fastq-Datei einzelne oder gepaarte Endlesevorgänge enthält

So überprüfen Sie, ob eine fastq-Datei einzelne oder gepaarte Endlesevorgänge enthält



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich versuche zu überprüfen, ob eine fastq-Datei einzelne oder gepaarte Endlesevorgänge enthält. Wie kann ich das mit einer fehlersicheren Methode erreichen?

Ich habe Wikipedia und MAQ überprüft, aber ich möchte wissen, ob es ein zuverlässiges Dokument gibt, das alle möglichen Varianten in der Sequenz-ID beschreibt, um auf einzelne/gepaarte Endlesevorgänge zu überprüfen.

Ich suche auch nach einer Bibliothek, besser in Python, um dies zu erreichen.

Vielen Dank


Inzwischen habe ich auf Biostars einige interessante Antworten auf diese Frage bekommen

Grundsätzlich habe ich folgendes gemacht:

  • Zuerst habe ich überprüft, ob Sequence Id eine gepaarte Endnotation enthält. Wie auf dieser Wikipedia-Seite beschrieben, gibt es für Illumina-Lesevorgänge zwei mögliche Notationen für einzelne/gepaarte Lesevorgänge:

    @HWUSI-EAS100R:6:73:941:1973#0/1

    Wenn die letzte Zahl ist/2bei einigen Lesevorgängen werden die Lesevorgänge gepaart; andernfalls können sie einseitig sein.

    Die zweite Notation lautet:

    @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

    Wenn die erste Zahl in der zweiten Gruppe ist2bei einigen Lesevorgängen werden die Lesevorgänge gepaart; andernfalls können sie einseitig sein;

  • Dann habe ich nach mehreren Dateien gesucht. Wenn ein Sample zwei fastq-Dateien hat, ist es wahrscheinlich, dass die Lesevorgänge gepaart sind. Es ist jedoch zu beachten, dass bei einer einzelnen Datei nicht ausgeschlossen werden kann, dass Paired-End-Reads in einer einzigen Datei verschachtelt werden können, auch wenn dies nicht üblich ist (meiner Meinung nach);

  • Die allgemeinste Methode besteht darin, jeden einzelnen Lesevorgang mit dem gesamten Lesesatz zu vergleichen. Wenn der erste Teil der Sequenz-ID (in diesem Fall das Feld beginnend mit@und endet vor dem#- in der ersten Notation - oder dem Whitespace - in der zweiten Notation) unter allen Reads (für jeden Read) eindeutig ist, ist es wahrscheinlich, dass die Reads einzelne Reads sind, andernfalls - wenn für jeden Read ein Duplikat gefunden werden kann - die Reads sind gepaart Ende. In diesem Fall kann dies auf *nix-Systemen mit dem folgenden Befehl erreicht werden (dank der biostars-Antworten):

    grep --no-filename @HWUSI-EAS100R:6:73:941:1973 *.fastq | Schnitt -d"-f1 | sort | uniq -c | sort -rgk 1,1 | Kopf

    Wenn das Ergebnis in den ersten Zeilen ein Ergebnis wie dieses zeigt:

    1 gelesen1_ID

    1 gelesen2_ID

    Es ist wahrscheinlich, dass es sich um ein einzelnes Ende handelt. Andernfalls:

    2 read1_ID

    2 read2_ID

    es ist gepaart Ende.

Ich überfliege die BioPython API-Dokumentation, aber ich kann nichts Nützliches finden, um dies zu tun.

Anregungen und Korrekturen sind willkommen.

Vielen Dank


Dies ist eine ergänzende Antwort zu dem, was @gc5 bereitgestellt hat.

für Fälle, die "die zweite Notation" verwenden, die wie folgt aussieht:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG' ^ |_was wir extrahieren wollen

Der folgende Code durchläuft alle Dateien iterativ und erzeugt eine Ausgabe pro Datei:

grep -P "^@" *.fastq | grep -oP "sd+" | sortieren | uniq -c

oder wenn du hast.fastq.gzDateien:

zgrep -e "^@" *.fastq.gz | grep -oP "sd+" | sortieren | uniq -c

Wenn Sie Single-End haben, sehen Sie nur Einsen und wenn Sie Pair-End haben, sehen Sie Einsen und Zweien. Auch als Gesundheitscheck können Sie sehen, wie viele von jedem Sie haben:

zgrep --max-count=10000 -e "^@" *.fastq.gz | grep -oP "sd+" | sortieren | uniq -c
6333652 1 6333652 2

Notiz die ich hinzugefügt habe--max-count=10000zum letzten. Dies ist besonders nützlich, wenn Sie gepaarte Enden in separaten Dateien haben, da Sie alle Einsen aus einem und alle Zweien aus dem anderen erhalten. Dies wird nur durch die ersten 10'000 Zeilen gehen, was diesen Einzeiler viel schneller macht.


So überprüfen Sie, ob eine fastq-Datei einzelne oder gepaarte Endlesevorgänge enthält - Biologie

Die Sequenzierungstechnologie von Illumina verwendet Cluster-Generierung und Sequenzierung durch Synthese (SBS)-Chemie, um je nach Sequenzierungsplattform Millionen oder Milliarden von Clustern auf einer Fließzelle zu sequenzieren. Während der SBS-Chemie werden für jeden Cluster Basenaufrufe durchgeführt und für jeden Sequenzierungszyklus von der Echtzeitanalyse-Software (RTA) auf dem Gerät gespeichert. RTA speichert die Base-Call-Daten in Form von individuellen Base-Call-(oder BCL-)Dateien. Nach Abschluss der Sequenzierung müssen die Basisaufrufe in den BCL-Dateien in Sequenzdaten umgewandelt werden. Dieser Vorgang wird als BCL-zu-FASTQ-Konvertierung bezeichnet.

Eine FASTQ-Datei ist eine Textdatei, die die Sequenzdaten der Cluster enthält, die den Filter einer Fließzelle passieren (weitere Informationen zu Clustern, die den Filter passieren, finden Sie im Abschnitt „Zusätzliche Informationen“ dieses Bulletins). Wenn Samples gemultiplext wurden, ist der erste Schritt bei der FASTQ-Dateigenerierung Demultiplexen. Demultiplexing weist einem Sample Cluster basierend auf der Indexsequenz(en) des Clusters zu. Nach dem Demultiplexen werden die assemblierten Sequenzen pro Sample in FASTQ-Dateien geschrieben. Wenn Proben nicht gemultiplext wurden, findet der Demultiplexierungsschritt nicht statt, und für jede Fließzellenspur werden alle Cluster einer einzelnen Probe zugeordnet.

Für einen Single-Read-Lauf wird für jede Probe pro Fließzellenspur eine Read 1 (R1) FASTQ-Datei erstellt. Bei einem Paired-End-Lauf wird für jede Probe für jede Spur eine R1- und eine Read 2 (R2) FASTQ-Datei erstellt. FASTQ-Dateien werden komprimiert und mit der Erweiterung erstellt *.fastq.gz.

Wie sieht eine FASTQ-Datei aus?

Für jeden Cluster, der den Filter passiert, wird eine einzelne Sequenz in die R1-FASTQ-Datei der entsprechenden Probe geschrieben, und für einen Paired-End-Lauf wird auch eine einzelne Sequenz in die R2 FASTQ-Datei der Probe geschrieben. Jeder Eintrag in einer FASTQ-Datei besteht aus 4 Zeilen:

  1. Eine Sequenzkennung mit Informationen zum Sequenzierungslauf und zum Cluster. Der genaue Inhalt dieser Zeile hängt von der verwendeten BCL-zu-FASTQ-Konvertierungssoftware ab.
  2. Die Sequenz (die Basis ruft A, C, T, G und N auf).
  3. Ein Trennzeichen, das einfach ein Pluszeichen (+) ist.
  4. Die Basiswerte für die Anrufqualität. Diese sind mit Phred +33 codiert, wobei ASCII-Zeichen verwendet werden, um die numerischen Qualitätsbewertungen darzustellen.

Hier ist ein Beispiel für einen einzelnen Eintrag in einer R1 FASTQ-Datei:

Ausführlichere Informationen zum FASTQ-Sequenzdateiformat finden Sie hier.

So zeigen Sie eine FASTQ-Datei an

FASTQ-Dateien können bis zu Millionen von Einträgen enthalten und mehrere Megabyte oder Gigabyte groß sein, was sie oft zu groß macht, um sie in einem normalen Texteditor zu öffnen. Im Allgemeinen ist es nicht erforderlich, FASTQ-Dateien anzuzeigen, da es sich um Zwischenausgabedateien handelt, die als Eingabe für Werkzeuge verwendet werden, die nachgelagerte Analysen durchführen, z.

Wenn Sie eine FASTQ-Datei zu Fehlerbehebungszwecken oder aus Neugier anzeigen müssen, benötigen Sie entweder einen Texteditor, der mit sehr großen Dateien umgehen kann, oder Zugriff auf ein Unix- oder Linux-System, auf dem große Dateien über die Befehlszeile angezeigt werden können.

So generieren Sie FASTQ-Dateien

Die FASTQ-Dateigenerierung ist der erste Schritt für alle Analyse-Workflows, die von MiSeq Reporter auf MiSeq und Local Run Manager auf MiniSeq verwendet werden. Wenn die Analyse abgeschlossen ist, befinden sich die FASTQ-Dateien im <run-Ordner>DataIntensitiesBaseCalls auf dem MiSeq und im <output-Ordner>Alignment_#<subfolder>Fastq auf dem MiniSeq.

Bei allen auf BaseSpace Sequence Hub hochgeladenen Läufen erfolgt die FASTQ-Dateigenerierung automatisch, nachdem der Lauf vollständig hochgeladen wurde, und die FASTQ-Dateien werden als Eingabe für die verschiedenen Analyse-Apps auf BaseSpace Sequence Hub verwendet. Auf BaseSpace Sequence Hub finden Sie Ihre FASTQ-Dateien in den Projekten, die Ihrem Lauf zugeordnet sind.

Die Konvertierungssoftware bcl2fastq kann verwendet werden, um FASTQ-Dateien aus Daten zu generieren, die auf allen aktuellen Illumina-Sequenzierungssystemen generiert wurden.

Informationen zu den verschiedenen Einstellungen, die während der FASTQ-Dateigenerierung angewendet werden können, finden Sie in den Software-Benutzerhandbüchern unten.


Jetzt kommen wir in die eigentliche Vorverarbeitung. Wir werden fastq-mcf verwenden, um den Adapter aus unseren Lesevorgängen zu trimmen und eine Qualitätsfilterung durchzuführen. Wir müssen den Adapter trimmen, denn wenn ein Fragment kurz genug ist, werden wir den ganzen Weg durch das Fragment und in den Adapter sequenzieren. Offensichtlich wird die Adaptersequenz nicht im Genom gefunden und kann die korrekte Ausrichtung des Reads verhindern. Um das Trimmen durchzuführen, müssen wir eine Adapterdatei generieren.

Der erste Schritt besteht darin, die Adaptersequenz abzurufen. Wir können dies dem Handbuch entnehmen, aber Sequenzen aus einem PDF können seltsame Zeichen aufnehmen, daher sind wir besser dran, die Adaptersequenzen aus dem Primer Sample Sheet zu beziehen.

Wir können das Musterblatt mit curl herunterladen und anzeigen:

Wir wollen die Adaptersequenzen aus dem Musterblatt:

Jetzt müssen wir die Adapterdatei erstellen, die im FASTA-Format vorliegen muss.

Navigieren Sie zu scratch/bioinf_intro/myinfo

Klicken Sie auf das Jupyter-Menü "Datei" und wählen Sie "Öffnen".

Wenn sich das neue Browserfenster/-tab öffnet, klicken Sie auf den „Dateien“-Tab, falls dieser noch nicht aktiv ist.

Klicken Sie auf das „Home“-Symbol, um zum Verzeichnis der obersten Ebene zu gelangen, und klicken Sie dann auf „myinfo“

Wählen Sie im Menü „Neu“ die Option „Textdatei“.

Fügen Sie in dieser Textdatei die Adapterzeilen von oben ein.

Wir möchten auch das umgekehrte Komplement des Adapters einschließen, falls die sequenzierte Adapterkontamination die umgekehrte Vervollständigung des Gegebenen ist. Der einfachste Weg, dies zu tun, besteht darin, https://www.bioinformatics.org/sms/rev_comp.html zu verwenden, um das umgekehrte Komplement zu generieren und es dann etwa „Adapter_RC“ zu nennen.

Jetzt räumen Sie auf, indem Sie sicherstellen, dass …

Jede Sequenz steht in einer eigenen Zeile

Jede Sequenz hat einen Namen in der Zeile davor

Vor dem Sequenznamen steht ein „>“

Alle Kommas und Leerzeichen müssen entfernt werden, und nicht-sequenzielle Zeichen müssen aus den Sequenzzeilen entfernt werden. Nun sollte es so aussehen:

Klicken Sie auf „untitled.txt“, um den Dateinamen in „neb_e7600_adapters.fasta“ zu ändern.


Paired-End- vs. Single-Read-Sequenzierung

Verstehen Sie die Hauptunterschiede zwischen diesen Sequenzierungslesetypen

Was ist Paired-End-Sequenzierung?

Paired-End-Sequenzierung ermöglicht es Benutzern, beide Enden eines Fragments zu sequenzieren und hochwertige, ausrichtbare Sequenzdaten zu generieren. Paired-End-Sequenzierung erleichtert den Nachweis von genomischen Umlagerungen und repetitiven Sequenzelementen sowie von Genfusionen und neuen Transkripten.

Neben der doppelten Anzahl von Reads bei gleichem Zeit- und Arbeitsaufwand bei der Bibliotheksvorbereitung ermöglichen als Read-Paare ausgerichtete Sequenzen ein genaueres Read-Alignment und die Möglichkeit, Insertions-Deletion-(Indel-)Varianten zu erkennen, was mit Single-Read nicht möglich ist Daten. 1 Alle Next-Generation-Sequencing (NGS)-Systeme von Illumina sind in der Lage, Paired-End-Sequenzierung durchzuführen.

Was ist Paired-End-Sequenzierung?

Highlights der Paired-End-Sequenzierung

  • Einfache Paired-End-Bibliotheken: Einfacher Arbeitsablauf ermöglicht die Generierung einzigartiger Bereiche von Beilagengrößen
  • Effiziente Probennutzung: Erfordert die gleiche DNA-Menge wie Single-Read-Genom-DNA- oder cDNA-Sequenzierung
  • Breites Anwendungsspektrum: Erfordert keine Methylierung der DNA oder Restriktionsverdau kann für die Bisulfit-Sequenzierung verwendet werden
  • Einfache Datenanalyse: Ermöglicht hochwertige Sequenzbaugruppen mit Short-Insert-Bibliotheken. Eine einfache Modifikation des Standard-Single-Read-Bibliotheksherstellungsverfahrens erleichtert das Lesen sowohl der Vorwärts- als auch der Rückwärts-Matrizenstränge jedes Clusters während eines Paired-End-Reads. Beide Lesevorgänge enthalten Positionsinformationen über große Entfernungen, die eine hochpräzise Ausrichtung der Lesevorgänge ermöglichen.
Einführung in die Illumina-Sequenzierung

Diese Übersicht beschreibt die wichtigsten Fortschritte in der Sequenzierungstechnologie, wichtige Methoden, die Grundlagen der Illumina-Sequenzierungschemie und mehr.

Paired-End-DNA-Sequenzierung

Paired-End-DNA-Sequenzierungs-Reads bieten ein qualitativ hochwertiges Alignment über DNA-Regionen mit repetitiven Sequenzen und produzieren lange Contigs für de novo Sequenzierung durch Auffüllen von Lücken in der Konsensussequenz. Paired-End-DNA-Sequenzierung erkennt auch häufige DNA-Umlagerungen wie Insertionen, Deletionen und Inversionen.

Methoden zur DNA-Sequenzierung

Die DNA-Sequenzierung kann durch eine Vielzahl von Methoden auf kleine, zielgerichtete Regionen oder das gesamte Genom angewendet werden.

Sequenzierungsleselänge

Die Wahl der richtigen Sequenzierungsleselänge hängt von Ihrem Probentyp, Ihrer Anwendung und Ihren Abdeckungsanforderungen ab. Erfahren Sie, wie Sie die richtige Leselänge für Ihren Sequenzierungslauf berechnen.

Paired-End-RNA-Sequenzierung

Paired-End-RNA-Sequenzierung (RNA-Seq) ermöglicht Entdeckungsanwendungen wie den Nachweis von Genfusionen bei Krebs und die Charakterisierung neuer Spleißisoformen. 2

Verwenden Sie für Paired-End-RNA-Seq die folgenden Kits mit einem alternativen Fragmentierungsprotokoll, gefolgt von der standardmäßigen Generierung und Sequenzierung von Illumina-Paired-End-Clustern.

Für die Vorbereitung der mRNA-Seq-Bibliothek verwenden Sie:
Für die Präparation der gestrandeten Gesamt-RNA-Bibliothek verwenden Sie:
RNA-Seq-Übersicht

Diese Methode bietet eine hochauflösende Ansicht der kodierenden und nichtkodierenden Regionen des Transkriptoms für ein tieferes Verständnis der Biologie.

NGS enthüllt die mysteriöse Welt der Mikroben

Forscher verwenden 16sRNA, um die Genome von Mikroben zu untersuchen und unser Verständnis der menschlichen Gesundheit, Krankheit und mikrobiellen Evolution zu verbessern.

Single-Read-Sequenzierung

Bei der Single-Read-Sequenzierung wird die DNA nur an einem Ende sequenziert und ist die einfachste Methode zur Verwendung der Illumina-Sequenzierung. Diese Lösung liefert schnell und kostengünstig große Mengen an hochwertigen Daten. Single-Read-Sequenzierung kann eine gute Wahl für bestimmte Methoden wie Small RNA-Seq oder Chromatin Immunopräzipitations-Sequenzierung (ChIP-Seq) sein.

Bibliotheksvorbereitung

Innovative, umfassende Lösungen zur Bibliotheksvorbereitung sind ein wichtiger Bestandteil des Sequenzierungsworkflows von Illumina.

Möchten Sie Newsletter, Fallstudien und Informationen von Illumina basierend auf Ihrem Interessengebiet erhalten? Jetzt registrieren.

Zusätzliche Ressourcen

Video zur Sequenzierungstechnologie

Sehen Sie die SBS-Technologie in Aktion.

Video zur Sequenzierungstechnologie

Auswahltool für die Sequenzierungsplattform

Vergleichen Sie die Geschwindigkeit und den Durchsatz von Illumina-Sequenzierungssystemen, um das beste Gerät für Ihr Labor zu finden.

Verweise
  1. Nakazato T, Ohta T, Bono H. Experimentelles Design-basiertes Functional Mining und Charakterisierung von Hochdurchsatz-Sequenzierungsdaten im Sequenzlesearchiv. Plus eins. 20138(10):e77910.
  2. Wang Z, Gerstein M, Snyder M. RNA-Seq: ein revolutionäres Werkzeug für die Transkriptomik. Nat. Rev Genet. 200910:57–63.

Innovative Technologien

Unser Ziel bei Illumina ist es, innovative Technologien auf die Analyse genetischer Variation und Funktion anzuwenden und damit Studien zu ermöglichen, die noch vor wenigen Jahren undenkbar waren. Für uns ist es geschäftskritisch, innovative, flexible und skalierbare Lösungen zu liefern, um die Bedürfnisse unserer Kunden zu erfüllen. Als globales Unternehmen, das großen Wert auf kollaborative Interaktionen, schnelle Bereitstellung von Lösungen und höchste Qualität legt, sind wir bestrebt, diese Herausforderung zu meistern. Die innovativen Sequenzierungs- und Array-Technologien von Illumina treiben bahnbrechende Fortschritte in der Life-Science-Forschung, der translationalen Genomik und Verbrauchergenomik sowie der Molekulardiagnostik voran.

Nur für Forschungszwecke. Nicht zur Verwendung in diagnostischen Verfahren (außer wie ausdrücklich angegeben).


So überprüfen Sie, ob eine fastq-Datei einzelne oder gepaarte Endlesevorgänge enthält - Biologie

NGmerge: Paired-End-Reads zusammenführen und Sequenzierungsadapter entfernen

Gaspar JM. BMC Bioinformatik. 2018 Dez 2019(1):536. [PubMed] [BMC] [PDF]

NGmerge arbeitet mit Paired-End-Sequenzlesevorgängen mit hohem Durchsatz in zwei verschiedenen Modi (Abb. 1).

Im Standard-Stitch-Modus kombiniert NGmerge Paired-End-Reads, die sich überlappen, zu einem einzelnen Read, der die volle Länge des ursprünglichen DNA-Fragments umfasst (Abb. 1A). Die Enden der zusammengeführten Lesevorgänge werden durch die 5'-Enden der ursprünglichen Lesevorgänge definiert. Lesevorgänge, bei denen der Stitching-Prozess fehlschlägt (aufgrund fehlender Überlappung oder übermäßiger Sequenzierungsfehler), werden in sekundäre Ausgabedateien platziert, wenn der Benutzer sie benötigt.

Der alternative Adapterentfernungsmodus gibt die ursprünglichen Lesevorgänge als Paare zurück, wobei die 3'-Überhänge derjenigen Lesevorgänge entfernt werden, deren gültige genähte Ausrichtung diese Eigenschaft aufweist (Fig. 1B). Reads, deren Ausrichtungen keine solchen Überhänge aufweisen (oder überhaupt nicht ausgerichtet sind), werden ebenfalls unverändert in die Ausgabedateien ausgegeben.

Abbildung 1. Analysemodi von NGmerge. Die Diagramme zeigen die Paired-End-Reads (R1, R2), die aus der Sequenzierung von DNA-Fragmenten (weiße Kästchen) mit Sequenzierungsadaptern (graue Kästchen) an beiden Enden abgeleitet wurden.

  • sample_R1.fastq.gz , sample_R2.fastq.gz (Paired-End-Sequenzdateien für ein Sample)
  • NGmerge (heruntergeladen und kompiliert wie unten beschrieben)

Um zusammengefügte Lesevorgänge zu erzeugen (Abb. 1A): sample_merged.fastq.gz

Um Lesevorgänge mit entfernten Adaptern zu erzeugen (Abb. 1B): sample_noadapters_1.fastq.gz und sample_noadapters_2.fastq.gz

Die Software kann von GitHub heruntergeladen werden. (und schon bist du da! herzlichen glückwunsch!)

Für die Kompilierung mit GCC wird ein Makefile bereitgestellt, und sowohl zlib als auch OpenMP werden ebenfalls benötigt. Das Programm wurde nach der Kompilierung mit GCC 6.3.0, zlib 1.2.8 und OpenMP 4.0 getestet.

Führen Sie zum Kompilieren make in dem Ordner aus, in den die Software heruntergeladen wurde. Das ausführbare NGmerge sollte erzeugt werden.

In jedem Analysemodus (Abb. 1) wertet NGmerge alle möglichen lückenlosen Ausrichtungen eines Lesepaares aus, um eine optimale zu finden. Die Bestimmungen, welche Ausrichtungen berücksichtigt werden und welche Ausrichtung (falls vorhanden) sowohl gültig als auch optimal ist, werden gemäß mehreren Parametern durchgeführt: -m, -p, -d, -e und -s.

NGmerge beginnt mit dem Ausrichten eines Lesepaars (R1, R2), sodass der minimale Überlappungsparameter ( -m , Standard 20bp) erreicht wird. Es überprüft dann jede mögliche Ausrichtung der Reads, bis sie sich ohne 3'-Überhänge überlappen (Fig. 2A). Wenn die Option -d ausgewählt ist (oder im Adapterentfernungsmodus [ -a , der automatisch -d setzt]), wertet NGmerge zusätzlich Schwalbenschwanz-Ausrichtungen (mit 3' Überhängen) bis zur minimalen Länge aus, die durch den Parameter -e ( Abb. 2B).

Abbildung 2. Von NGmerge berücksichtigte Ausrichtungen. EIN: Die Standardausrichtungen reichen von solchen mit der minimalen Überlappungslänge (festgelegt durch -m ) bis hin zu vollständigen Überlappungen ohne Überhänge. B: Wenn die Option -d ausgewählt ist, wertet NGmerge auch Schwalbenschwanz-Ausrichtungen aus.

Für jede Ausrichtung berechnet NGmerge die Fraktionsfehlanpassung (die Anzahl der Fehlanpassungen zwischen den R1- und R2-Lesevorgängen dividiert durch die Überlappungslänge). Ausrichtungen mit berechneten Werten, die nicht höher als der durch den Parameter -p festgelegte Schwellenwert (Standard 0,10) sind, werden als gültig angesehen. Wenn mehrere gültige Ausrichtungen gefunden werden, wird diejenige mit der geringsten Bruchteil-Fehlanpassung als optimale Ausrichtung ausgewählt. In seltenen Fällen, in denen mehrere Alignments identische Bruchteil-Mismatches aufweisen, wird standardmäßig das längste bevorzugt (sofern -s nicht gesetzt ist). Bei all diesen Berechnungen werden mehrdeutige Basen (Ns) weder als Übereinstimmungen noch als Nichtübereinstimmungen betrachtet.

Weitere Beschreibungen dieser Parameter finden Sie weiter unten.

NGmerge analysiert nicht ausgerichtete Paired-End-Reads im FASTQ-Format. Die Eingabedateien können gzip-komprimiert werden. Mehrere Sätze von Eingabedateien können durch Kommas getrennt (oder durch Leerzeichen getrennt in Anführungszeichen) angegeben werden.

Die Eingabedateien müssen die Lesevorgänge in derselben Reihenfolge auflisten. Das Programm erfordert, dass die Header der gepaarten Lesevorgänge mindestens bis zum ersten Leerzeichen übereinstimmen.

Eine Eingabedatei mit verschachtelten Lesevorgängen kann analysiert werden, indem keine -2-Datei angegeben wird. Es ist auch möglich, von stdin mit - zu lesen, z.B. -1 - .

Da die zusammengeführten Lesevorgänge durch die 5'-Enden der Ausrichtungen der gepaarten Lesevorgänge definiert sind (Fig. 1A), sollte man beim Qualitätstrimmen der Lesevorgänge an diesen Enden vorsichtig sein. Wenn Sie beispielsweise ein Programm wie qualTrim verwenden, sollten Sie -3 angeben, um sicherzustellen, dass das Qualitätstrimmen nur an den 3'-Enden erfolgt, bevor Sie NGmerge verwenden.

Die primäre Ausgabedatei im Stichmodus ist die Datei der zusammengeführten Lesevorgänge im FASTQ-Format. Mit -o - kann auf stdout geschrieben werden (siehe auch -y , unten).

Wenn angegeben, werden alle Lesevorgänge, bei denen die Zusammenführung fehlgeschlagen ist, in die Ausgabedateien geschrieben, wie sie in den ursprünglichen Eingaben erschienen.

Standardmäßig werden alle FASTQ-Ausgabedateien genau dann gzip-komprimiert, wenn die Eingabedateien dies sind (bei mehreren Sätzen von Eingabedateien werden die Ausgaben komprimiert, wenn einer der ersten Sätze von Eingaben dies ist). Die Angabe von -z garantiert, dass die Ausgaben gzip-komprimiert sind, während -y garantiert, dass dies nicht der Fall ist, unabhängig von den Formaten der Eingaben. Beachten Sie, dass bei allen gzip-komprimierten Ausgaben bei Bedarf automatisch '.gz' an den Dateinamen angehängt wird.

Im Stichmodus gilt dies nur für die optionale Ausgabe von -f (oben). Anstelle von zwei Ausgaben wird eine einzelne verschachtelte Ausgabe erzeugt (und es wird kein '.fastq'-Suffix an den Dateinamen angehängt).

Diese Protokolldatei listet für jedes Lesepaar in der/den Eingabedatei(en) Folgendes auf:

Lesen Header lesen, ohne @
OverlapLen Gesamtlänge der Leseüberlappung, einschließlich Ns NA, wenn die Lesevorgänge nicht zusammengeführt wurden (und die restlichen Spalten leer bleiben)
GenähtLen Gesamtlänge des zusammengeführten Lesevorgangs
Nichtübereinstimmung Der Anteil fehlgepaarter Basen (Anzahl der Fehlpaarungen geteilt durch die Überlappungslänge [ohne Ns]) muss kleiner oder gleich dem -p-Wert sein (siehe unten)

Diese Protokolldatei listet Folgendes für jedes Lesepaar auf, dessen optimales gültiges Alignment 3'-Überhänge hat:

Lesen Header lesen, ohne @
Adapter_R1 3' Überhang von R1 gelesen - wenn kein Überhang
Adapter_R2 3' Überhang von R2 gelesen - wenn kein Überhang

Die Spalten sind mit "Adapter" gekennzeichnet, da diese zusätzlichen Sequenzen Adapter sein sollten, wenn die Reads nicht an ihren 5'-Enden getrimmt wurden. Wenn die in den 'Adapter'-Spalten angezeigten Sequenzen nicht konsistent sind, können sie falsch positiv sein, und man sollte erwägen, -p zu verringern oder -e zu erhöhen.

Für jedes erfolgreich zusammengeführte Lesepaar listet diese Protokolldatei die Ausrichtungen der Lesesequenzen und Qualitätsbewertungen zusammen mit den resultierenden zusammengeführten Sequenz- und Qualitätsbewertungen auf. Zum Beispiel:

Dies ist die minimale Überlappungslänge (in bp) für gültige Alignments eines Lesepaares (siehe Fig. 2A). Beachten Sie, dass mehrdeutige Basen (Ns) nicht auf diese Mindestlänge angerechnet werden.

Dieser Parameter legt fest, wie streng die Bewertung eines Alignments ist. Der Wert muss im Intervall [0, 1) liegen, wobei niedrigere Werte einer erhöhten Stringenz entsprechen. Die Angabe von -p 0 bedeutet, dass nur perfekte Ausrichtungen (ohne Nichtübereinstimmungen) gültig sind. Der Standardwert von 0,10 bedeutet, dass ein gültiges Alignment höchstens 10 % Nichtübereinstimmungen aufweisen kann (berechnet als Anzahl der Nichtübereinstimmungen geteilt durch die Überlappungslänge [ohne Ns] ).

Wenn diese Option ausgewählt ist, werden Ausrichtungen, bei denen sich das 3'-Ende eines Reads über das 5'-Ende seines Paares hinaus erstreckt, bis zu einer minimalen Länge ausgewertet (siehe Fig. 2B). Standardmäßig werden solche Ausrichtungen nicht einmal berücksichtigt. Da der zusammengeführte Lesevorgang durch die 5'-Enden der ursprünglichen Lesevorgänge definiert wird, werden die 3'-Überhänge automatisch entfernt. Diese Überhänge, die normalerweise Adapter sind, können in eine separate Protokolldatei gedruckt werden (siehe -c , oben).

Dies ist die minimale Überlappungslänge (in bp) für Ausrichtungen mit 3'-Überhängen (siehe Fig. 2B). Dieser Wert sollte auf die Länge des absolut kürzesten DNA-Fragments eingestellt werden, das möglicherweise sequenziert wurde. Die Verwendung eines zu niedrigen Werts kann zu falsch positiven Ergebnissen führen, insbesondere wenn die Lesevorgänge sich wiederholende Sequenzen enthalten.

Bei mehreren gültigen Alignments mit identischen Fraktions-Mismatch-Scores wählt NGmerge standardmäßig den längsten zusammengefügten Read aus. Mit -s wird stattdessen der kürzeste zusammengefügte Lesevorgang bevorzugt.

Optionen für Qualitätsfaktorprofile

Standardmäßig verwendet NGmerge fest codierte Profile bei der Bestimmung der Qualitätswerte überlappender Basen. Es gibt separate Profile für Fälle, in denen die R1-Basis und die R2-Basis übereinstimmen, und für Fälle, in denen sie nicht übereinstimmen. Wer diese Profile nicht nutzen möchte, hat zwei alternative Möglichkeiten:

Mit dieser Option verwendet NGmerge die Qualitätsbewertungsprofile in der bereitgestellten Datei. Die Datei muss zwei Matrizen von durch Kommas oder Tabulatoren getrennten Werten auflisten, die den Kopfzeilen #match und #mismatch folgen. Man sollte der Vorlage der angegebenen qual_profile.txt-Datei folgen, die die hartcodierten Profile von NGmerge mit dem Qualitätsfaktorbereich von [0, 40] nachahmt.

Mit dieser Option verwendet NGmerge eine Methode ähnlich der des Programms fastq-join. In Fällen, in denen die R1-Basis und die R2-Basis übereinstimmen, wird der höhere Qualitätswert für die zusammengeführte Basis verwendet. Wenn sie nicht übereinstimmen, wird der Qualitätsfaktor der zusammengeführten Basis als Differenz der beiden Qualitätswerte berechnet.

Diese Option muss angegeben werden, damit NGmerge im Modus zum Entfernen des Adapters ausgeführt wird. Wie angegeben, setzt es automatisch die Option -d, um nach verzahnten Ausrichtungen zu suchen.

Die Formatierung der Eingabedateien ist oben beschrieben.

Im Adapterentfernungsmodus werden alle Lesevorgänge in die Ausgabedateien gedruckt. Die einzigen Modifikationen sind das Abschneiden der 3'-Überhänge von Reads, deren Ausrichtungen solche Überhänge aufweisen.

Mit dieser Option wird anstelle von zwei Ausgaben eine einzelne verschachtelte Ausgabe erzeugt (und es wird kein '.fastq'-Suffix an den Dateinamen angehängt).

Diese Optionen sind oben beschrieben.

Diese Protokolldatei ist oben beschrieben.

Im Adapterentfernungsmodus werden die folgenden Dateien kann nicht produziert werden:

Diese Parameter sind oben beschrieben.

Wie bereits erwähnt, wird die Option -d automatisch im Adapterentfernungsmodus gesetzt.

Um die Rechenzeit zu reduzieren, kann man NGmerge über diese Option über mehrere Kerne hinweg ausführen. Beachten Sie, dass die Komprimierung und Dekomprimierung von gzip nicht parallelisiert ist, sodass die Recheneinsparungen nicht linear sind.

Diese beiden Parameter legen den Bereich der Qualitätsbewertungen für die FASTQ-Eingabedateien fest. Die Standardwerte entsprechen dem Sanger-Format mit Qualitätswerten im Bereich [0, 40], die ASCII-Werte umfassen [33, 73].

Anstatt vollständige Ausrichtungen zu drucken, listet die mit -j angegebene Protokolldatei die Details der Nichtübereinstimmungen auf: den gelesenen Header, die Position und den Basis- und Qualitätsfaktor sowohl für die R1- als auch für die R2-Lesevorgänge. Dies ist nützlich, um separate Fehlerraten für Übereinstimmungen und Nichtübereinstimmungen zu berechnen.

  • NGmerge kann mehrere Ausgabedateien, die stdout sind, nicht gzip-komprimieren. Folgendes führt beispielsweise zu einem Fehler:
    • -o - -a ohne -i
    • -f - ohne -a und ohne -i


    So sortieren Sie fastq-Dateien, um Paired-End-Reads mit BWA auszurichten.

    Ich versuche, Paired-End-Reads mit BWA auszurichten, aber da die fastq-Dateien nicht sortiert sind, beschwert es sich, dass "gepaarte Reads unterschiedliche Namen haben". So: "M01628:49:000000000-D06TG:1:1102:25364:18377", "M01628:49:000000000-D06TG:1:1101:16377:1698"

    Gibt es ein praktisches Tool zum Sortieren oder muss ich dafür ein Skript erstellen?

    Ein Lesebeispiel sieht so aus:

    Ja, ich habe mir bereits die Top-Suchergebnisse angesehen, bevor ich die Frage gestellt habe. Leider wurde es nicht richtig sortiert und deshalb habe ich mich gefragt, ob es dafür ein Tool oder eine alternative Methode gibt.

    Sind Ihre Reads in verschachtelten Fastq- oder Split-Fastq-Dateien? Wenn die Lesevorgänge verschachtelt sind, gibt es einige Antworten bei Google, die Ihre Dateien für Sie entschachteln. Wenn die Lesevorgänge bereits in eine mate1- und mate2-Datei aufgeteilt sind, können Sie mit ein wenig Python oder Perl die Dateien mit Zugriff auf genügend RAM problemlos richtig sortieren. Es ist wahrscheinlich nicht die effizienteste Methode, aber wenn Sie etwas wollen, das Sie sehr schnell schreiben können und das Sie nur verwenden müssen, um Ihre Ergebnisse zu erhalten, wird dies den Zweck erfüllen.

    Erstellen Sie eine Liste von Lesevorgängen mit BioPython SeqRecords

    Sortieren Sie die Listen nach Lese-IDs 3a) Durchlaufen Sie beide Listen und ziehen Sie 1 Lesevorgang aus jeder Liste. 3b) Vergleichen Sie die gelesenen IDs (vergessen Sie nicht die /1 und /2 oder die eindeutige Kennung für die mate1 und mate2 Reads) 3c) Wenn eine Übereinstimmung gefunden wird, schreiben Sie die mate1 Read in Ihre sortierte mate1 Datei und die mate2 read to Ihre sortierte mate2-Datei. (Es ist besser, mate1_paired- und mate2_paired-Listen zu verwenden, die Sie als Puffer verwenden. Schreiben Sie dann jedes Mal in Ihre Datei, wenn Sie 10k oder 50k Lesevorgänge in den Puffern erhalten, die Sie nach dem Schreiben leeren und erneut mit dem Füllen beginnen. Gehen Sie zurück zu Schritt 3a. 3d) Wenn keine Übereinstimmung gefunden wird, nehmen Sie die niedrigere Lese-ID und hängen Sie sie an den Singleton-Lese-ID-Puffer an, um in die Singleton-Lesedatei zu schreiben. 3e) Ziehen Sie einen neuen Lesevorgang aus der Leseliste, von dem der Singleton-Lesevorgang stammt, und wiederholen Sie die Schritte 3b-3e, bis eine Übereinstimmung gefunden wird

    Wenn Sie fertig sind, haben Sie die Dateien mate1_sorted.fq und mate2_sorted.fq, die jetzt perfekt aufeinander abgestimmt sein sollten. Sie haben auch eine singleton.fq-Datei, die Lesevorgänge enthält, die ihr Paar irgendwann zwischen der Sequenzierung und Ihrem Mapping-Schritt verloren haben.

    Verwenden Sie BWA jedoch nicht zum Mapping von Lesevorgängen, es sei denn, Sie haben keine andere Wahl. Der Entwickler ist bekannt für seine Arbeit am Short-Read-Mapping, das Programm selbst gibt Ihnen nie das, was Sie wirklich wollen. Das Parsen von BWA-Daten ist eines der mühsamsten Dinge, die ich mit NGS-Daten zu tun hatte. Ich empfehle dringend, es nur zu verwenden, wenn die von Ihnen verwendeten Tools bereits so eingerichtet sind, dass sie direkt mit der Ausgabe von BWA arbeiten. Sehen Sie sich andernfalls in BBMAP nach Ihren Anforderungen für die Zuordnung von Kurzlesevorgängen um. Sie werden sich in die Flexibilität der Ein- und Ausgabeoptionen und -formate verlieben. Die Statistiken, die Sie im Rahmen des Laufs generieren können, sind unglaublich und es macht einfach, was Sie wollen.


    Trimmomatik

    Trimomatic ist ein beliebtes Tool zum Trimmen von Adaptersequenzen aus Illumina-Reads. Das Trimmomatic-Handbuch beschreibt, wie diese Anwendung installiert, ausgeführt und alle erforderlichen und optionalen Befehlszeilenparameter beschrieben werden. Wenn Sie Trimomatic zum Trimmen von Adaptersequenzen aus Illumina-Lesevorgängen verwenden möchten, kann ein minimaler Befehl, der nur das Adaptertrimmen durchführt, wie folgt aussehen:

    • Die meisten Sequenzierungsläufe verwenden Paired-End-Lesevorgänge, daher geben wir “PE” in der Befehlszeile an.
    • Um die Anwendung zu beschleunigen, geben wir die Anzahl der zu verwendenden Threads bis zur maximalen Anzahl verfügbarer Prozessor-Threads an.
    • In einem Paired-End-Lauf gibt es immer zwei FASTQ-Dateien: eine Datei für die Vorwärts-Lesevorgänge und eine Datei für die Rückwärts-Lesevorgänge. Wir geben beide Dateien in der Parameterliste an.
    • Für jede gelesene Datei geben wir den Namen einer gepaarten Ausgabedatei und einer ungepaarten Ausgabedatei an.
    • Die Adaptersequenz(en) ist/sind in einer FASTA-formatierten Datei enthalten. Der Parameter ILLUMINACLIP gibt den Namen dieser Datei an. Dieser Parameter erfordert außerdem drei zusätzliche Felder: SeedMismatches, palindromeClipThreshold, simpleClipThreshold. Weitere Informationen zum Festlegen dieser drei Felder finden Sie im Handbuch.

    In unserem Beispiel würde die Datei “adapters.fasta” mit dem Nextera XT Library Prep Kit so aussehen:

    Dies ist eine standardmäßige FASTA-formatierte Datei. Der erste Datensatz enthält das rechte Caretzeichen gefolgt von einer beliebigen Zeichenfolge. Der zweite Datensatz enthält die Adaptersequenz. Diese Datei kann mehrere Adaptersequenzen enthalten, indem ein Multi-FASTA-Dateiformat verwendet wird. Trimmmatic-Ausgabedateien zeigen, welche Lesevorgänge (falls vorhanden) getrimmt wurden.


    Es sind nur zwei geringfügige Änderungen erforderlich, um fastq-mcf auf gepaarten Daten auszuführen. Wir müssen ihm mitteilen, dass es auch die Read-2-Datei lädt und auch, wie die getrimmte Ausgabe aus dieser Datei aufgerufen werden soll.

    1. neb_adapters.fasta
    2. r1.8A_pilot.fq.gz
    3. r2.8A_pilot.fq.gz : NEU für gepaarte Daten
    4. -q 20
    5. -x 0,5
    6. -o r1.8A_pilot.trim.fastq.gz
    7. -o r2.8A_pilot.trim.fastq.gz : NEU für gepaarte Daten

    Hinweis: Da wir nun die umgekehrten Reads mit einbeziehen, wird nun eine Kontamination mit dem Universaladapter beobachtet


    Darencard / Extract_fastq_bam.md

    Manchmal werden FASTQ-Daten an einer Referenz ausgerichtet und als BAM-Datei gespeichert, anstelle der normalen FASTQ-Lesedateien. Dies ist in Ordnung, da es möglich ist, rohe FASTQ-Dateien basierend auf der BAM-Datei neu zu erstellen. Im Folgenden wird dieser Prozess skizziert. Die nützlichen Software samtools und bedtools werden beide benötigt.

    Aus jedem Bam müssen wir Folgendes extrahieren:

    1. liest das richtig als Paare ab
    2. Lesevorgänge, die nicht richtig als Paare zugeordnet wurden (beide wurden nicht zugeordnet, oder einer wurde nicht zugeordnet)

    Für #1 funktioniert der folgende Befehl. Dies wurde dieser Webseite entnommen.

    Die Filter -f und -F verwenden Flags in Spalte 2 der BAM-Datei. Diese sind nicht immer intuitiv und ich werde sie hier nicht näher beschreiben, aber Sie können dieses praktische Tool verwenden, um es besser zu verstehen. Beachten Sie auch, dass das Flag -u eine unkomprimierte BAM-Ausgabe anstelle einer standardmäßigen komprimierten BAM-Ausgabe erstellt, sodass die Dateien größer werden. Dies hilft beim schnelleren Lesen in späteren Schritten, aber es ist nicht notwendig, dies einzuschließen, wenn Sie Speicherplatz sparen möchten. samtools ist so oder so super schnell.

    Das Auflösen von #2 ist komplizierter, da es drei Möglichkeiten gibt, wie ein Read möglicherweise nicht als richtiges Paar abgebildet wurde. A. Der erste Lesevorgang wurde zugeordnet, der gepaarte Lesevorgang jedoch nicht. B. Der erste Lesevorgang wurde nicht zugeordnet, der gepaarte Lesevorgang jedoch. C. Keiner der beiden gepaarten Lesevorgänge wurde überhaupt zugeordnet. Auch hier werden Flags verwendet, um die ursprüngliche BAM-Datei zu filtern. Diese Informationen wurden auf dieser Webseite gefunden.

    Wie zu erwarten, müssen Sie dann die drei Dateien zusammenführen, die mindestens ein nicht zugeordnetes Paar enthalten.

    Als nächstes müssen diese BAM-Dateien umsortiert werden, damit sie nach Lese-ID statt nach Speicherort in der Referenz geordnet sind.

    Zu diesem Zeitpunkt sollten Sie überprüfen, ob Sie die richtige Anzahl von Lesevorgängen und keine Redundanz haben. Sie können die ursprüngliche BAM-Datei zusammenfassen, um eine Vorstellung davon zu bekommen, wo Sie angefangen haben.

    Beachten Sie die Gesamtzahl der Eingabelesevorgänge in der ersten Zeile. Sie möchten sicher sein, dass die Anzahl der nicht zugeordneten und zugeordneten Lesevorgänge diese Anzahl ergibt. Mit den folgenden Befehlen lässt sich dies leicht überprüfen.

    Note that one paired read is counted as two reads here. If you sum these two numbers, they should equal the number you noted above, as they do here.

    If all is good, you can now extract the FASTQ reads into two paired read files, as follows.

    And then it also makes sense to combine both the first and paired reads together from the mapped and unmapped files.

    These two files should now have the same number of reads that are exactly as you would have received them if they had come directly from the sequencer as FASTQ.

    Please also note that all of the commands above can be piped together in bash using | , which will save on disk space and time. So it is best to combine commands where possible.


    NextSeq 500

    The NextSeq 500 is different from the other Illumina sequencers in two important ways that impact the FASTQ files it generates.

    The NextSeq 500 has 4 lanes. Each lane gets the same sample or pool, but they are imaged by different cameras. Therefore, the data is tagged with lane numbers 1 to 4. However, the data in each file is for the same sample and represents distinct set of fragments for the sample. We generally keep these files separate, but not always.

    The NextSeq 500 sequences the second read of a dual-indexed library in the reverse direction from the other sequencers. We reverse complement the second barcode in the file name, but not in the FASTQ deflines.

    So for example, a barcode pair TAAGGCGA and TAGATCGC would be sequenced as TAAGGCGA and GCGATCTA . The defline for a read would contain TAAGGCGA-GCGATCTA but we would rename the FASTQ file to TAAGGCGATAGATCGC .