Information

Ist der Sequenzierungsfehler eine Funktion des gelesenen Nukleotids?

Ist der Sequenzierungsfehler eine Funktion des gelesenen Nukleotids?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Wenn ich bei Google Scholar nachschaue, kann ich sehen, dass für Illumina (um nur ein Beispiel zu betrachten) die Sequenzierungsfehlerrate in der Größenordnung von 0,001-0,01 pro Nukleotid liegt.

Wenn wir über Sequenzierungsfehler sprechen, betrachten wir nur Fehlpaarungen (Substitution eines Nukleotids durch ein anderes). Wenn man das "wahre" Nukleotid an einer bestimmten Position kennt, wird es während einer Fehlpaarung genauso wahrscheinlich gelesen wie jedes andere spezifische Nukleotid oder gibt es Verzerrungen? Wenn zum Beispiel das wahre NukleotidEIN, ist es eher als a . zu findeng(da beide Purine sind) als aToder einC? Ist es wahrscheinlicher, dass einige Nukleotide falsch gelesen werden als andere?

Ich hoffe, dass die Antwort nicht zu sehr von den Sequenzierungstechniken abhängt.


Leider hängt es von den Sequenzierungstechniken ab.

Beispielsweise wird bei der Illumina-Sequenzierung jedes Sequenzfragment amplifiziert (um ein stärkeres Signal zu erhalten) und bildet einen Cluster auf dem Microarray. Jeder Cluster wird durch Zyklen sequenziert von:

  1. Hinzufügen von fluoreszierenden Terminatornukleotiden. Diese Nukleotide sind so modifiziert, dass sie eine hemmende/terminierende Gruppe enthalten und verhindert, dass weitere Nukleotide hinzugefügt werden. Theoretisch wird in diesem Schritt nur ein Nukleotid in jedes DNA-Fragment eingebaut.
  2. Abwaschen überschüssiger Nukleotide.
  3. Einfangen des eingebauten Nukleotids unter Verwendung von bildgebenden Verfahren und Bestimmen, welche Base eingebaut wurde (basierend auf der Fluoreszenzfarbe).
  4. Abspalten des Terminators von den hinzugefügten Nukleotiden, damit die Reaktion fortgesetzt werden kann.

Bild von Metzker, 2010.

Auf diese Weise wird jedes Fragment synthetisiert, ein Nukleotid nach dem anderen, und jedes eingebaute Nukleotid wird erkannt. Der erste Schritt ist jedoch nicht fehlerfrei: Manchmal wird mehr als ein Nukleotid in ein bestimmtes DNA-Fragment eingebaut oder es werden keine Nukleotide eingebaut. Schließlich werden die DNA-Fragmente in einem Cluster (alle enthalten die gleiche Sequenz) nicht mehr synchron ("phasing") und das Fluoreszenzsignal wird weniger klar, mit einer Mischung verschiedener Farben. Dies ist die Hauptursache für Sequenzierungsfehler bei Illumina-Maschinen und auch der Grund, warum Illumina-Reads relativ kurz sind (~300 bp).

Um Ihre Frage zu beantworten, können in diesem Beispiel Nukleotide fälschlicherweise als nahegelegene Nukleotide in dieser Sequenz gelesen werden. Die Fehler variieren mit anderen Sequenzierungsmethoden und wie diese Methoden funktionieren.

Der Artikel, den ich oben verlinkt habe, erklärt verschiedene Sequenzierungsmethoden genauer. (Leider befindet es sich hinter einer Paywall, sodass einige es möglicherweise nicht sehen können.)


Einführung

Nukleotide sind die biologischen Moleküle, die als Bausteine ​​von Nukleinsäuren wie DNA und RNA dienen. Sie sind für alle Funktionen einer lebenden Zelle unentbehrlich. Nicht nur das, sie sind auch für die Übertragung von Informationen an neue Zellen oder die nächste Generation lebender Organismen unerlässlich.

Nukleotide verbinden sich, um Dinukleotide, Trinukleotide usw. zu bilden, was zur Bildung von Polymeren führt, die als Polynukleotide bekannt sind. Diese Polynukleotide verbinden sich dann zu komplexen Nukleinsäuren wie DNA und RNA. In diesem Abschnitt werden wir verschiedene Aspekte von Nukleotiden, ihre Struktur, Lage in lebenden Körpern, chemische Anordnungen und die von ihnen ausgeübten Funktionen diskutieren. Wir werden auch einige Nukleotide im Detail besprechen, die wichtige Funktionen in unserem Körper erfüllen.


  • Die beiden DNA-Stränge sind von Natur aus antiparallel, das heißt, das 3&prime-Ende des einen Strangs liegt dem 5&prime-Ende des anderen Strangs gegenüber.
  • Die Nukleotide, die DNA umfassen, enthalten eine stickstoffhaltige Base, einen Desoxyribose-Zucker und eine Phosphatgruppe, die kovalent mit anderen Nukleotiden verbunden sind, um Phosphodiesterbindungen zu bilden.
  • Nukleotidbasen können als Purine (die eine Doppelringstruktur enthalten) oder Pyrimidine (die eine Einzelringstruktur enthalten) klassifiziert werden.
  • Adenin (Purin) und Thymin (Pyrimidin) sind komplementäre Basenpaare, ebenso Guanin (Purin) und Cytosin (Pyrimidin).
  • DNA-Sequenzierung ist der Prozess der Bestimmung der genauen Reihenfolge von Nukleotiden innerhalb eines DNA-Moleküls.
  • Desoxyribose: ein Derivat des Pentosezuckers Ribose, in dem das 2&prime Hydroxyl (-OH) zu einem Wasserstoff (H) reduziert ist ein Bestandteil der Nukleotide, die Desoxyribonukleinsäure oder DNA umfassen
  • Wasserstoffverbindung: Eine schwache Bindung, bei der ein bereits kovalent an ein Sauerstoff- oder Stickstoffatom in einem Molekül gebundenes Wasserstoffatom von einem elektronegativen Atom (normalerweise Stickstoff oder Sauerstoff) desselben oder eines anderen Moleküls angezogen wird.
  • Nukleotid: das Monomer, das DNA- oder RNA-Moleküle umfasst, besteht aus einer stickstoffhaltigen heterocyclischen Base, die ein Purin oder Pyrimidin sein kann, einem Pentosezucker mit fünf Kohlenstoffatomen und einer Phosphatgruppe

Die monomeren Bausteine ​​der DNA sind Desoxyribomononukleotide (normalerweise nur als Nukleotide bezeichnet), und DNA wird aus linearen Ketten oder Polymeren dieser Nukleotide gebildet. Die bei der DNA-Synthese verwendeten Komponenten des Nukleotids sind eine stickstoffhaltige Base, eine Desoxyribose und eine Phosphatgruppe. Das Nukleotid wird in Abhängigkeit davon benannt, welche stickstoffhaltige Base vorhanden ist. Die stickstoffhaltige Base kann ein Purin sein, wie Adenin (A) und Guanin (G), gekennzeichnet durch Doppelringstrukturen, oder ein Pyrimidin, wie Cytosin (C) und Thymin (T), gekennzeichnet durch Einzelringstrukturen. In Polynukleotiden (den linearen Polymeren von Nukleotiden) sind die Nukleotide miteinander durch kovalente Bindungen verbunden, die als Phosphodiesterbindungen oder Phosphodiesterbindungen bekannt sind.

Abbildung (PageIndex<1>): Nukleotidstruktur: Jedes Nukleotid besteht aus einem Zucker, einer Phosphatgruppe und einer stickstoffhaltigen Base. Der Zucker ist in der DNA Desoxyribose und in der RNA Ribose. In ihrer Mononukleotidform können Nukleotide ein, zwei oder drei daran gebundene Phosphate aufweisen. In Polynukleotidketten miteinander verknüpft, weisen die Nukleotide immer nur ein Phosphat auf. Ein Molekül mit nur einer stickstoffhaltigen Base und einem Zucker wird als Nukleosid bezeichnet. Sobald mindestens ein Phosphat kovalent gebunden ist, wird es als Nukleotid bezeichnet.

James Watson und Francis Crick, mit etwas Hilfe von Rosalind Franklin und Maurice Wilkins, wird zugeschrieben, die Struktur der DNA herauszufinden. Watson und Crick schlugen vor, dass die DNA aus zwei Polynukleotidsträngen besteht, die umeinander verdreht sind, um eine rechtsgängige Helix zu bilden.

Die beiden Polynukleotidstränge sind von Natur aus antiparallel. Das heißt, sie laufen in entgegengesetzte Richtungen.

Die Zucker und Phosphate der Nukleotide bilden das Rückgrat der Struktur, während die stickstoffhaltigen Basenpaare zum Inneren des Moleküls zeigen.

Die Verdrillung der beiden Stränge umeinander führt zur Bildung von gleichförmig beabstandeten großen und kleinen Furchen, die von den Zucker-Phosphat-Rückgraten der beiden Stränge begrenzt werden.

Abbildung (PageIndex<1>): Drei Darstellungen der DNA-Doppelhelixstruktur.: A ist ein raumfüllendes Modell der DNA, bei dem jedes Atom als Kugel dargestellt wird. Die beiden antiparallelen Polynukleotidstränge sind unterschiedlich gefärbt, um zu veranschaulichen, wie sie sich umeinander winden. B ist ein Cartoon-Modell der DNA, bei dem die Zucker-Phosphat-Rückgrate als violette Stränge und die stickstoffhaltigen Basen als farbcodierte Ringe dargestellt werden. C ist ein weiteres Spacefill-Modell, bei dem die Zucker-Phosphat-Atome violett und alle stickstoffhaltigen Basisatome grün gefärbt sind. Die großen und kleinen Furchen, die sich um das gesamte Molekül wickeln, sind als Zwischenräume zwischen den Zucker-Phosphat-Rückgraten erkennbar.

Der Durchmesser der DNA-Doppelhelix beträgt 2 nm und ist durchgehend einheitlich. Nur die Paarung zwischen Purin und Pyrimidin kann den einheitlichen Durchmesser erklären. Das heißt, an jedem Punkt des DNA-Moleküls sind die beiden Zuckerphosphat-Rückgrate immer durch drei Ringe getrennt, zwei von einem Purin und einer von einem Pyrimidin.

Die beiden Stränge werden durch Basenpaarung zwischen stickstoffhaltigen Basen des einen Strangs und stickstoffhaltigen Basen des anderen Strangs zusammengehalten. Eine Basenpaarung findet zwischen einem Purin und einem durch Wasserstoffbrücken stabilisierten Pyrimidin statt: A paart mit T über zwei Wasserstoffbrücken und G paart mit C über drei Wasserstoffbrücken.

Die inneren Basenpaare rotieren gegeneinander, sind aber auch übereinander gestapelt, wenn das Molekül auf seiner Längsachse nach oben oder unten betrachtet wird.

Jedes Basenpaar ist vom vorherigen Basenpaar um eine Höhe von 0,34 nm getrennt, und jede 360-Grad-Umdrehung der Helix bewegt sich 3,4 nm entlang der Längsachse des Moleküls. Daher sind pro Helixwindung zehn Basenpaare vorhanden.

Abbildung (PageIndex<1>): DNA-Struktur: DNA hat (a) eine Doppelhelixstruktur und (b) Phosphodiesterbindungen. Die (c) großen und kleinen Furchen sind Bindungsstellen für DNA-bindende Proteine ​​während Prozessen wie der Transkription (das Kopieren von RNA von DNA) und der Replikation.

DNA-Sequenzierung ist der Prozess der Bestimmung der genauen Reihenfolge von Nukleotiden innerhalb eines DNA-Moleküls. Schnelle DNA-Sequenzierungsverfahren haben die biologische und medizinische Forschung und Entdeckung stark beschleunigt. Die Kenntnis von DNA-Sequenzen ist für die biologische Grundlagenforschung und in zahlreichen Anwendungsgebieten wie Diagnostik, Biotechnologie, Forensische Biologie und biologische Systematik unverzichtbar geworden. Die schnelle Sequenzierung, die mit moderner Technologie erreicht wird, war entscheidend für die Gewinnung vollständiger DNA-Sequenzen oder Genome zahlreicher Arten und Arten von Leben, einschließlich des menschlichen Genoms und der Genome anderer Tier-, Pflanzen- und Mikrobenarten.


Die Plus/Minus-Technik

Während es Sanger und seinem Team gelungen war, einen erheblichen Teil der f1-DNA zu sequenzieren, hatten sie ihre gesamte Sequenz noch nicht abgeschlossen. Außerdem war ihre Methode zeitaufwendig und mühsam. Begierig darauf, eine schnellere Technik zu finden, die es ihm ermöglichen würde, größere DNA-Sequenzen zu bestimmen, suchte Sanger weiterhin nach neuen Wegen, um das Problem anzugehen.

1975 veröffentlichten Sanger und sein Assistent Coulson eine Arbeit (Sanger, Coulson, 1975), in der sie einen radikal anderen Ansatz skizzierten als zuvor. Das Neue an ihrer Technik war, dass sie nicht darauf angewiesen war, eine Sequenz zusammenzusetzen, die auf der Untersuchung der Überlappungen in kleinen DNA-Fragmenten beruhte. Darüber hinaus ermöglichte es das direkte visuelle Scannen einer Sequenz. Sanger und Coulson hatten die Methode nicht über Nacht entwickelt. Vielmehr entstand es allmählich als Ergebnis einiger Experimente, die im April 1973 gestartet wurden und die darauf abzielten, die Wirkung verschiedener Polymerasen und die Effizienz verschiedener Fraktionierungstechniken zu testen (Sanger, Dowding, 1996, Garcia-Sancho, 2010).

Diese Notizen stammen aus Experiment D80. Es war eines von Sangers ersten Experimenten, bei dem er begann, die Möglichkeit des Kopierens mit allen vier Desoxytriphosphaten zu testen. Sangers DNA-Labornotizbuch, 1972. Quelle: Wellcome Library, Akte SA//BIO, P/1/42.

In dieser Notiz zeichnet Sanger den Beginn eines „ziemlich ehrgeizigen Experiments“ auf. Ziel des Experiments mit der Bezeichnung D93 war es, einen Weg zu finden, mit einem Restriktionsenzym gespaltene DNA-Fragmente durch Zugabe aller vier Nukleotide der DNA zu verlängern, die dann mittels Ionophorese auf Gelen aufgetrennt und deren Sequenzen analysiert werden sollten. Die Ergebnisse dieses Experiments waren ziemlich vielversprechend. Sanger würde die in diesem Experiment verwendete Methode mit Hilfe von Coulson und Barrell weiter verfeinern. Das Experiment legte den Grundstein für die Plus- und Minusmethode. Sangers DNA-Labornotizbuch, 1973-1974. Quelle: Wellcome Library, Akte SA//BIO, P/1/43.

Die Technik, die schließlich als „Plus/Minus“-System bezeichnet wurde, bestand aus einer Reihe verschiedener Schritte. Zunächst wurde ein Primer synthetisiert. Dies war eine komplementäre Kopie einer kurzen Länge der zu untersuchenden DNA-Probe. Nach der Herstellung wurde der Primer an eine spezifische komplementäre Region auf einer einzelsträngigen DNA-Matrize gebunden, um einen Ausgangspunkt für die DNA-Synthese bereitzustellen. Die kombinierten Stränge wurden dann mit Polymerase I (von Escherichia-coli), so dass es radioaktiv markierte Nukleotide an das 3'-Ende des Primers anfügen konnte. Dieser Prozess lieferte eine zufällige Auswahl synthetisierter DNA-Fragmente unterschiedlicher Länge. Jedes wurde gereinigt, um überschüssige Nukleotide zu entfernen.

Nach der Reinigung wurden die Proben auf zwei Behandlungen aufgeteilt. Die erste Behandlung, die als "Minus"-System bekannt ist, stützte sich auf die von Wu und Kaiser entwickelte Kopiermethode. In diesem Fall wurde die Probe in einem Reagenzglas mit DNA-Polymerase I (von Escherichia coli) zusammen mit nur drei von vier DNA-Nukleotiden (A, C, G oder T). Bei diesem Inkubationsprozess wurde bewusst ein Nukleotid vorenthalten. Dies machte sich den natürlichen biologischen Prozess zunutze, bei dem die Polymerase so lange eine DNA-Kette synthetisiert, bis sie auf ein fehlendes Nukleotid stößt. In dem Fall, in dem beispielsweise Adenin fehlt, synthetisiert die Polymerase eine Reihe von Nukleotiden und stoppt kurz vor diesem Nukleotid. Durch Weglassen eines bestimmten Nukleotids nacheinander konnte das Team DNA-Produkte mit spezifischen Nukleotid-Endungen erhalten.

Im Gegensatz zum „Minus“-System, das auf der Entfernung eines bestimmten Nukleotids beruhte, beruhte die zweite Behandlung beim „Plus“-System auf der Zugabe eines Nukleotids während des Inkubationsprozesses. Das von Paul Englund zwischen 1971 und 1972 entwickelte „Plus“-System nutzte eine andere Polymerase, T4. Dies wurde aus dem T4-Bakteriophagen gewonnen. Unter normalen Umständen fungiert diese Polymerase als Synthesereagenz. Es beginnt jedoch, einen DNA-Strang von seinem 3'-Ende herabzustufen, wenn es auf ein zusätzliches Nukleotid trifft. Wie beim „Minus“-System produzierte das „Plus“-System DNA-Fragmente mit spezifischen Nukleotid-Endungen.

Coulson's Note Recording Tests mit T4-Polymerase. Quelle: Wellcome Library, Coulson papers, file: PP/COU, Notebook 'Plus and minus sequencing, T4 polymerase Preparations', 1976.

Beide Systeme beruhten auf der Vorbereitung von vier Reagenzglasreaktionen mit den zwei verschiedenen Polymerasetypen. Nach der Behandlung wurden die Primer von der Matrize getrennt. Dies lieferte acht verschiedene DNA-Stränge. Vier davon stammten von der Matrize, bekannt als Minusstränge, und vier kamen vom Primer, bekannt als Plusstränge. Das Endergebnis war eine Reihe überlappender Fragmente mit jedem der Nukleotidenden (A, C, G, T).

Jedes DNA-Fragment wurde dann nebeneinander in getrennten Bahnen auf Acrylamidgel bereit für die Ionophorese platziert. Nach dem Anlegen einer elektrischen Ladung wandern die DNA-Fragmente von oben nach unten im Gel, wobei sich die größeren Fragmente langsamer bewegen als die kleineren. Dabei wirkte das Gel wie ein Sieb, das dabei half, die Fragmente nach ihrer Größe auszusortieren. Nachdem dies abgeschlossen war, wurde das Gel eine Zeit lang, normalerweise über Nacht, mit einem Röntgenfilm überzogen und dann entwickelt, um ein Autoradiogramm zu erstellen, das die Position der radioaktiv markierten Nukleotide in den Fragmenten aufzeigte. Das endgültige Bild zeigte eine Reihe dunkler Bänder in einem Leiterlinienmuster, das die Überlappung der Fragmente hervorhob (Hutchison, 2007, Finch, 2008).

Die Verwendung von Acrylamidgel für die Sequenzanalyse markierte eine signifikante Veränderung. Zuvor hatte Sanger solche Arbeiten typischerweise mit zweidimensionaler Papierchromatographie durchgeführt. Dies war jedoch zeitaufwändig, da viele Bänder herausgeschnitten wurden. Einer der Reize bei der Verwendung des Acrylamidgelsystems war, dass es ein eindimensionales Ablesen einer Sequenz ermöglichte. Die Entscheidung, Gele zur DNA-Fraktionierung zu verwenden, war Sanger zunächst als verrückte Idee erschienen. Während Gele üblicherweise verwendet wurden, um intakte Proteine ​​sowie DNA und DNA-Fragmente zu trennen, wurden sie noch nie zuvor verwendet, um einzelne Nukleinsäuren zu trennen (Sanger, 1992).

Dies zeigt John Donelson, der maßgeblich an der Entwicklung des Acrylamid-Gel-Systems für das Plus- und Minus-System beteiligt war. Bildnachweis: John Donelson.

Zu Beginn der Entwicklung der Plus- und Minus-Methode haben Sanger und Coulson die Fraktionierung weitgehend mit Homochromatographie durchgeführt. Sie wandten sich jedoch bald an Donelson, um bei dem Prozess zu helfen, den er mit einem auf Acrylamidgel basierenden System durchführte, das er für einige andere Experimente entwickelte. Dieses System schien zunächst wenig erfolgsversprechend, da sich die ersten Ergebnisse nur geringfügig besser erwiesen als die der Homochromatographie. Durch die Einführung größerer Gele wurden einige Fortschritte erzielt. Dies erzeugte schärfere Banden in Autoradiographien. Trotzdem blieben die Kinderkrankheiten bestehen. Bei mehreren Gelegenheiten liefen die größeren Fragmente schneller als die kleineren. Das hat die Sequenz komplett durcheinander gebracht. Darüber hinaus erhielten sie beim Testen des Systems mit DNA, die mit der Ribosubstitutionsmethode synthetisiert wurde, für die bereits eine Sequenz bekannt war, immer wieder invertierte Sequenzen. Dies führten sie auf eine Sekundärstruktur in der DNA-Matrize zurück. Nach vielen Versuchen und Irrtümern wurde das Problem schließlich durch Zugabe von 8 M Harnstoff, einer Chemikalie, und Anlegen einer Hochspannung gelöst, deren Kombination das Gel heiß werden ließ. Nach all diesen Veränderungen kam das Team zu deutlich klareren Ergebnissen als mit der Papierchromatographie (Sanger, 1992, Sanger, Dowding, 1996).

Die Kombination der Plus- und Minus-Methode in Verbindung mit dem auf Acrylamidgel basierenden Fraktionierungssystem war ein großer Fortschritt. Nun konnte eine Sequenz direkt aus einem Autoradiogramm gelesen werden. Dazu wurde das Bild von unten nach oben gescannt, wobei festgestellt wurde, wo die dunklen Banden, das Produkt der Radioaktivität, auftraten. All dies war mit bloßem Auge möglich. Sanger hielt diesen neuen Ansatz für eine der besten Ideen, die er je hatte. Die neue Methode ermöglichte es den Forschern nicht nur, eine DNA-Sequenz direkt zu scannen, sondern auch viel längere Strecken als je zuvor zu bestimmen, 50 Nukleotide auf einmal. Es markierte auch eine Abkehr von der Verwendung von Degradation zu einem Kopierverfahren. (Sanger, 1988 Finch, 2008).


Ist der Sequenzierungsfehler eine Funktion des gelesenen Nukleotids? - Biologie

Der Bereich der Nukleotidsequenzen vom Startcodon (ATG) bis zum Stopcodon wird als Open Reading Frame bezeichnet.

Das Finden von Genen in Organismen, insbesondere Prokaryoten, beginnt mit der Suche nach einem offenen Leserahmen (ORF). Ein ORF ist eine DNA-Sequenz, die mit dem Startcodon &ldquoATG&rdquo (nicht immer) beginnt und mit einem der drei Terminationscodons (TAA, TAG, TGA) endet. Je nach Ausgangspunkt gibt es sechs Möglichkeiten (drei am Vorwärtsstrang und drei am komplementären Strang) jede Nukleotidsequenz entsprechend dem genetischen Code in eine Aminosäuresequenz zu übersetzen. Diese werden als Leserahmen bezeichnet.

Während die eukaryotische Genfindung eine ganz andere Aufgabe ist, da die eukaryotischen Gene nicht kontinuierlich sind und durch dazwischenliegende nichtkodierende Sequenzen, die &lsquointrons&rsquo genannt werden, unterbrochen werden. Außerdem ist die Organisation der genetischen Information bei Eukaryoten und Prokaryoten unterschiedlich

Was ist Coding Sequence (CDS)? Was ist der Unterschied zum ORF?

Die Coding Sequence (CDS) ist die eigentliche DNA-Region, die in Proteine ​​übersetzt wird. Während der ORF auch Introns enthalten kann, bezieht sich das CDS auf diejenigen Nukleotide (verkettete Exons), die in Codons unterteilt werden können, die tatsächlich von der ribosomalen Translationsmaschinerie in Aminosäuren übersetzt werden. Bei Prokaryoten sind ORF und CDS gleich.


Ist der Sequenzierungsfehler eine Funktion des gelesenen Nukleotids? - Biologie

DNA-Sequenzierungsreaktionen verwenden alle einen Primer, um die DNA-Synthese zu initiieren. Dieser Primer bestimmt den Startpunkt der gelesenen Sequenz und die Richtung der Sequenzierungsreaktion.

Die meisten DNA-Sequenzierungsreaktionen verwenden Didesoxynukleotide (ddNTP), um die DNA-Synthese an bestimmten Nukleotiden zu stoppen. Wenn beispielsweise das ddCTP rechts in einen wachsenden DNA-Strang eingebaut wird, würde das Fehlen einer freien 3. OH-Gruppe die Addition des nächsten Nukleotids verhindern und die Kette würde enden.

Bei der automatisierten Sequenzierung verwenden wir an jedem der vier Didesoxynukleotide (ddA, ddC, ddG und ddT) einen anderen Fluoreszenzmarker. Somit können wir die terminale Base in jedem DNA-Fragment bestimmen.

Die beiden folgenden Animationen veranschaulichen, wie DNA-Synthese und Didesoxytermination verwendet werden, um DNA zu sequenzieren.

Eine Quicktime-Animation, wie Didesoxynukleotide in Sequenzierungsreaktionen in die DNA eingebaut werden.

Eine Shockwave-Animation der Didesoxy-Sequenzierung aus Cold Spring Harbor. http://www.dnalc.org/ddnalc/resources/sangerseq.html

Eine Shockwave-Animation einer automatisierten Thermozyklus-Sequenzierung von Cold Spring Harbor. http://www.dnalc.org/ddnalc/resources/cycseq.html

Beispiele für Gele aus der automatisierten Sequenzierung (links) und der manuellen Sequenzierung (rechts).

Die automatisierte Sequenzierung verwendet einen anderen Fluoreszenzfarbstoff, der an jedes ddNTP gebunden ist.

Bei der manuellen Sequenzierung wird radioaktiv markiertes dATP (35-S oder 33-P) verwendet, um die DNA zu markieren. Die Probe wird dann in vier Röhrchen aufgeteilt, von denen jedes ein einzelnes ddNTP enthält. Die Proben werden dann einer Acrylamid-Gelelektrophorese unterzogen, gefolgt von einer Autoradiographie.


Hintergrund

Next Generation Sequencing (NGS)-Technologien ermöglichen eine kostengünstige, zuverlässige und Hochdurchsatz-Sequenzierung von DNA und ermöglichen die umfassende Katalogisierung genetischer Variationen in menschlichen Genomen. Die Einzelnukleotidvariation ist eine der häufigsten genetischen Variationen beim Menschen. Die Einzelnukleotidvarianten können weiter als Keimbahn-SNVs interpretiert werden, d. h. als Einzelnukleotidpolymorphismen (SNPs), in normalen Zellen oder als somatische SNVs in Krebs-/Tumorzellen. Bis heute wurde eine Vielzahl von Rechenmethoden entwickelt, um Keimbahn- oder somatische SNVs aus NGS-Lesedaten abzurufen, und eine typische Pileline basierend auf NGS umfasst: (ich) Sequenzlesequalitätskontrolle (z. B. Korrektur von Lesefehlern und Entfernung von Duplikaten) (ii) Align-Sequenz-Reads von einer oder mehreren Proben auf das Genom mit führenden Alignern (z. B. [1–4]) (iii) Neuausrichtung von Lesevorgängen um Indels herum, um Indel-Aufrufe zu erleichtern (NS) Varianten mit probabilistischen Methoden (z. B. Bayes-Modell) aufrufen und (v) bewerten die statistische Signifikanz der aufgerufenen Varianten und berichten über die Ergebnisse. Beachten Sie, dass einige Methoden zusammen mit SNVs auch indels aufrufen.

Für NGS wurde eine Reihe von Einzelstichproben-SNV-Anrufern entwickelt, und repräsentative Anrufer sind MAQ [5], SOAPsnp [6], SAMtools [7], SNVMix [8], GATK [9] und FaSD [10]. Das MAQ-, SOAPsnp- und FaSD-Modell-Allel zählt an jedem Standort als Binomialverteilung, während SNVMix eine gemischte Binomialverteilung verwendet. Alle vier Aufrufer identifizieren SNVs durch Berechnen von Bayes-basierten Posterior-Wahrscheinlichkeiten. Sowohl SAMtools als auch GATK verwenden Bayes'sche Wahrscheinlichkeit und unterstützen die Verarbeitung gepoolter Daten. Es sollte beachtet werden, dass diese SNV-Caller tatsächlich verwendet werden können, um jede einzelne genetische Variation in einem Individuum zu identifizieren, einschließlich sowohl Keimbahn- als auch somatischer Varianten, obwohl sie ursprünglich auf SNPs abzielen. Darüber hinaus rufen einige dieser Tools keine Indels auf. Siehe [11] für weitere Details zum Stand der Forschung zu Genotypisierung und Einzelproben-SNV-Calling.

Im Vergleich zum Keimbahn-SNV-Calling ist das somatische SNV-Calling schwieriger, da es darauf abzielt, Allele zu identifizieren, die im Tumor vorkommen, aber nicht in der Keimbahn des Wirts vorkommen. Mit anderen Worten müssen wir an den variantenhaltigen Stellen zusätzlich Keimbahnpolymorphismen von somatischen unterscheiden. Ein Ansatz [8] besteht darin, zuerst SNVs im Tumor mit herkömmlichen SNP-Callern aufzurufen und dann die vorhergesagten SNVs mit öffentlichen SNP-Datenbanken zu vergleichen, z. dbSNP [12]. Leider wird dieser Ansatz durch die beträchtliche Anzahl neuer SNVs in Frage gestellt, die bei Individuen gefunden werden, z. [13] berichteten, dass 10 ∼ 50 % der SNVs pro Individuum neue Ereignisse sind. In diesem Fall würden Keimbahnmutationen, die nicht in öffentlichen Datenbanken katalogisiert sind, fälschlicherweise als somatische Mutationen identifiziert.

Ein zuverlässigerer Ansatz zum Nachweis somatischer Mutationen besteht darin, Varianten sowohl in einer Tumorprobe als auch in ihrer passenden normalen Probe zu nennen. Ansätze, die von bestehenden somatischen SNV-Anrufern verwendet werden, können in zwei Kategorien eingeteilt werden: einfache Subtraktion und gemeinsame Stichprobenanalyse. Der einfache Subtraktionsansatz genotypisiert die normalen und die Tumorproben separat an jeder Stelle und klassifiziert die Stelle dann als somatisch, wenn der Genotyp in der normalen eine homozygote Referenz ist und der Genotyp im Tumor alternative Allele zur Referenzbasis enthält. Dies deutet auch darauf hin, dass Anrufer, die auf einfacher Subtraktion basieren, gut etablierte Single-Sample-SNV-Anrufer wie SAMtools und GATK direkt verwenden können. Dieser einfache Subtraktionsansatz kann eine vernünftige Vorhersage für Probenpaare mit hoher somatischer Allelfrequenz und Datenreinheit liefern. Es wurde jedoch beobachtet, dass somatische Mutationen in klinischen Proben mit geringer Häufigkeit vorkommen [14]. In diesem Fall kann jede Tendenz, Keimbahnmutationen mit somatischen zu verwechseln, möglicherweise die Entdeckung somatischer SNVs kontaminieren. Andererseits gibt es Variationen der somatischen Allelfrequenzen von Stelle zu Stelle oder von Probe zu Probe, die oft durch eine wesentliche Beimischung von normalen Zellen in der Tumorprobe, Variationen der Kopienzahl und Tumorheterogenität verursacht werden. In diesem Zusammenhang wird erwartet, dass eine gemeinsame Analyse beider Proben die Leistung weiter verbessern kann, indem gleichzeitige Tests auf Allele in beiden Proben erleichtert und eine umfassendere Darstellung von Tumorverunreinigungen und verrauschten Daten ermöglicht wird. Mehrere somatische SNV-Caller wurden basierend auf gemeinsamer Probenanalyse entwickelt, darunter VarScan2 [15], SomaticSniper [16], JointSNVMix2 (JSM2) [17], Strelka [18], MuTect [19] und FaSD-somatic [20]. Obwohl im Kern ein einfacher Subtraktionsansatz verwendet wurde, leistete VarScan2 Pionierarbeit bei der gemeinsamen Auswertung der statistischen Signifikanz von Allelfrequenzinformationen in tumornormalen Proben. SomaticSniper, JSM2, Strelka, MuTect und FaSD-somatic verwenden alle Bayes-Modelle, um gemeinsam das Tumor-Normal-Paar zu analysieren und dabei verschiedene spezifische Verfahren oder Formeln anzuwenden. Darüber hinaus bietet VarScan2 im Gegensatz zu anderen somatischen Anrufern, die sich nur auf SNV-Anrufe konzentrieren, zusätzliche Unterstützung für somatische Indel-Anrufe.

In diesem Beitrag stellen wir SNVSniffer vor, eine integrierte Lösung zur schnellen und effizienten Identifizierung von Keimbahn- und somatischen SNVs/Indels. Dieser Algorithmus beruht auf der Genotyp-Inferenz unter Verwendung von Bayes'schen Wahrscheinlichkeitsmodellen, um SNVs zu identifizieren, und untersuchte einen Ansatz mit multiplem Ungapped Alignment (MUA) zum Aufrufen von Indels. Für das Aufrufen von Keimbahnvarianten modellieren wir an jedem Standort seinen Allel-Zählvektor, um einer multinomialen bedingten Verteilung zu folgen, und wählen dann den wahrscheinlichsten Genotyp aus, indem wir Bayes'sche posterior-Wahrscheinlichkeiten berechnen. Für das Calling somatischer Varianten verwenden wir gepaarte tumornormale Proben von identischen Individuen und betrachten den Allel-Count-Vektor im Normalen an jeder passenden Stelle als eine Mischung aus Referenzbasen, diploiden Keimbahnvarianten oder künstlichen Basen (z. B. aus Sequenzierungszyklen oder Alignment-Prozess) und der Allel-Count-Vektor im Tumor eine Mischung aus Basen von normalen Zellen und somatischen Varianten neben künstlichen Basen. Darüber hinaus untersuchen wir einen hybriden somatischen SNV-Calling-Ansatz, indem wir eine Subtraktionsanalyse mit einer gemeinsamen Stichprobenanalyse kombinieren, wobei die gemeinsame Stichprobenanalyse den gemeinsamen Allelzahlvektor aus dem Tumor-Normal-Paar modelliert, um einer gemeinsamen Multinormalverteilung zu folgen. Zum Leistungsvergleich haben wir die Benchmarks SMASH [21] und GCAT [22] für das Aufrufen von Keimbahnvarianten verwendet und synthetische Tumoren aus simulierten Daten, virtuelle Tumoren [19] aus realen Sequenzierungsdaten und echte Maus- und Humantumore für somatische Variante aufrufen. Durch unsere Bewertungen in Bezug auf das Aufrufen von Keimbahnvarianten zeigt SNVSniffer eine äußerst wettbewerbsfähige Genauigkeit und eine höhere Geschwindigkeit als die leistungsstärksten FaSD-, GATK- und SAMtools-Algorithmen. In Bezug auf das Aufrufen von somatischen Varianten erreicht unser Algorithmus eine vergleichbare oder sogar bessere Genauigkeit im Vergleich zu den führenden Algorithmen VarScan2, SomaticSniper, JSM2 und MuTect und zeigt gleichzeitig eine sehr wettbewerbsfähige Geschwindigkeit.


Nicht adaptive Erklärungen der schnellen Evolution

Der Umsatz der funktionellen Sequenz und allelische Veränderungen im Genrepertoire müssen die reproduktive Fitness nicht verbessern. Stattdessen waren viele Veränderungen schädlich, wurden aber nicht durch negative Selektion entfernt (überprüft in [10, 57]). Insbesondere Allele, die nur einen geringen negativen Einfluss auf die Fitness haben (kleiner negativer Selektionskoeffizient, S) wird nur dann eine hohe Wahrscheinlichkeit haben, von einer Art entfernt zu werden, wenn ihre effektive Populationsgröße (n e) ist groß (Abb. 6). Umgekehrt, wenn n e klein ist, wie es beim modernen Menschen der Fall ist, dann zeigen schwach schädliche Varianten eine größere Chance, erhalten zu bleiben. Dies impliziert, dass viele Varianten, die Gene stören oder löschen, insbesondere solche mit nur geringfügigen Veränderungen des Organismus-Phänotyps, trotz ihrer Schädlichkeit behoben wurden.

Variation der Selektionseffizienz. Aufreinigende Selektion ist für Allele mit kleinem Selektionskoeffizienten zunehmend ineffizient S innerhalb von Arten mit relativ kleinen effektiven Populationsgrößen n e, was zu einer zunehmenden Akkumulation schädlicher Veränderungen führt. Die Grafik zeigt die Wahrscheinlichkeit der Fixierung einer neuen Variante relativ zum neutralen Erwartungswert (Y-Achse) als Funktion von n e S zum S = −10 −5 (modifiziert von [10]). Bei größeren Werten, wie z n e = 10 5 , ist die Fixierungswahrscheinlichkeit relativ zum neutralen Erwartungswert mit ca. 7% gering. Dennoch ist in einer Population mit einer zehnfach kleineren n e diese Wahrscheinlichkeit steigt auf 81%

Die schnelle Evolution könnte auch überdurchschnittliche Mutationsraten widerspiegeln. Sequenzen mit hohem CpG-Dinukleotidgehalt, einschließlich proteinkodierender Sequenz, entwickeln sich aufgrund einer hohen Mutationsrate von der methylierten Form von CpG zu TpG und CpA in Keimbahngenomen besonders schnell [58,59,60]. Auch Sequenzen, die in den stark rekombinierenden Regionen des Genoms liegen, entwickeln sich besonders schnell, wobei ein Mausgen aufgrund dieses Phänomens der verzerrten Genkonversion eine 100-fache Zunahme erfährt [61, 62]. Funktionelle Regionen des nicht-kodierenden Genoms können auch aufgrund von DNA-gebundenen Faktoren, die die Verdrängung der fehleranfälligen Polymerase-α-Sequenz während der Replikation blockieren, schnell mutieren [63]. Die Identifizierung von Sequenzen unter positiver Selektion aufgrund von Anpassung wird somit komplexer, da nicht nur das klassische neutrale Modell, sondern auch Modelle, die diesen Mutationsbias berücksichtigen, abgelehnt werden müssen.


Was ist eine Mutation?

Eine Mutation bezeichnet eine dauerhafte und vererbbare Veränderung der Nukleotidsequenz des Genoms. Mutationen können aufgrund von Fehlern der DNA-Replikation oder externer Faktoren, die als Mutagene bekannt sind, entstehen. Die drei Formen von Mutationen sind Punktmutationen, Frameshift-Mutationen und Chromosomenmutationen.

Punktmutationen

Punktmutationen sind einzelne Nukleotid-Substitutionen. Die drei Arten von Punktmutationen sind Missense-, Nonsense- und stille Mutationen. Missense-Mutation verändert ein einzelnes Codon des Gens, wodurch die Aminosäure in der Polypeptidkette verändert wird. Obwohl Unsinn Mutationen die Codonsequenz verändern, verändern sie nicht die Aminosäuresequenz. Stille Mutationen ein einzelnes Codon in ein anderes Codon umwandeln, das dieselbe Aminosäure darstellt. Punktmutationen werden durch Fehler in der DNA-Replikation und durch Mutagene verursacht. Verschiedene Arten von Punktmutationen werden in gezeigt Abbildung 1.

Abbildung 1: Punktmutationen

Frameshift-Mutationen

Frameshift-Mutationen sind Insertionen oder Deletionen einzelner oder mehrerer Nukleotide aus dem Genom. Insertionen, Deletionen und Duplikationen sind die drei Arten von Frameshift-Mutationen. Einfügungen are the addition of one or several nucleotides to the sequence while deletions are the removal of several nucleotides from the sequence. Duplications are the repeating of several nucleotides. Frameshift mutations are also caused by errors in the DNA replication and by mutagens.

Chromosomale Mutationen

Chromosomal mutations are alterations of segments of chromosomes. The types chromosomal mutations are translocations, gene duplications, intra-chromosomal deletions, inversions, and loss of heterozygosity. Translocations are the interchanges of parts of chromosomes between nonhomologous chromosomes. In gene duplication, multiple copies of a particular allele may appear, increasing the gene dosage. The removals of segments of chromosomes are known as intra-chromosomal deletions.Inversions change the orientation of a chromosome segment. Heterozygosity of a gene can be lost due to the loss of an allele in one chromosome by deletion or genetic recombination. Chromosomal mutations are mainly caused by external mutagens and due to mechanical damages to DNA.


This process involves a mixture of techniques: bacterial cloning or PCR template purification labelling of DNA fragments using the chain termination method with energy transfer, dye-labelled dideoxynucleotides and a DNA polymerase capillary electrophoresis and fluorescence detection that provides four-colour plots to reveal the DNA sequence.

A quality measure for a sequenced genome. A finished-grade genome, commonly referred to as a finished genome, is of higher quality than a draft-grade genome, with more base coverage and fewer errors and gaps (for example,the human genome reference contains 2.85 Gb, covers 99% of the genome with 341 gaps, and has an error rate of 1 in every 100,000 bp).

This recombinant DNA molecule is made up of a known region, usually a vector or adaptor sequence to which a universal primer can bind, and the target sequence, which is typically an unknown portion to be sequenced.

Assays that use next-generation sequencing technologies. They include methods for determining the sequence content and abundance of mRNAs, non-coding RNAs and small RNAs (collectively called RNA–seq) and methods for measuring genome-wide profiles of immunoprecipitated DNA–protein complexes (ChIP–seq), methylation sites (methyl–seq) and DNase I hypersensitivity sites (DNase–seq).

This Review mostly describes technology platforms that are associated with a respective company, but the Polonator G.007 instrument, which is manufactured and distributed by Danaher Motions (a Dover Company), is an open source platform with freely available software and protocols. Users manufacture their own reagents based on published reports or by collaborating with George Church and colleagues or other technology developers.

A fragment library is prepared by randomly shearing genomic DNA into small sizes of <1kb, and requires less DNA than would be needed for a mate-pair library.

A genomic library is prepared by circularizing sheared DNA that has been selected for a given size, such as 2 kb, therefore bringing the ends that were previously distant from one another into close proximity. Cutting these circles into linear DNA fragments creates mate-pair templates.

This occurs with step-wise addition methods when growing primers move out of synchronicity for any given cycle. Lagging strands (for example, n − 1 from the expected cycle) result from incomplete extension, and leading strands (for example, n + 1) result from the addition of multiple nucleotides or probes in a population of identical templates.

Dark nucleotides or probes

A nucleotide or probe that does not contain a fluorescent label. It can be generated from its cleavage and carry-over from the previous cycle or be hydrolysed vor Ort from its dye-labelled counterpart in the current cycle.

Total internal reflection fluorescence

A total internal reflection fluorescence imaging device produces an evanescent wave that is, a near-field stationary excitation wave — with an intensity that decreases exponentially away from the surface. This wave propagates across a boundary surface, such as a glass slide, resulting in the excitation of fluorescent molecules near (<200 nm) or at the surface and the subsequent collection of their emission signals by a detector.

Libraries of mutant DNA polymerases

Large numbers of genetically engineered DNA polymerases can be created by either site-directed or random mutagenesis, which leads to one or more amino acid substitutions, insertions and/or deletions in the polymerase. The goal of this approach is to incorporate modified nucleotides more efficiently during the sequencing reaction.

These are only useful for single-molecule techniques and are produced by sequencing the same template molecule more than once. The data are then aligned to produce a 'consensus read', reducing stochastic errors that may occur in a given sequence read.

An oligonucleotide sequence in which one interrogation base is associated with a particular dye (for example,A in the first position corresponds to a green dye). An example of a one-base degenerate probe set is '1-probes', which indicates that the first nucleotide is the interrogation base. The remaining bases consist of either degenerate (four possible bases) or universal bases.

An oligonucleotide sequence in which two interrogation bases are associated with a particular dye (for example, AA, CC, GG and TT are coded with a blue dye). '1,2-probes' indicates that the first and second nucleotides are the interrogation bases. The remaining bases consist of either degenerate or universal bases.

A nucleotide substitution will have two colour calls, one from the 5′ position and one from the 3′ position of the dinucleotide sequence. When compared with a reference genome, base substitution in the target sequence is encoded by two specific, adjacent colours. In Figure 3b, the sequence 'CCT' is encoded as blue-yellow ('CC' = blue 'CT' = yellow), but substituting the middle 'C' for 'A' would result in two colour changes to green-red. Any other colour sequence can be discarded as an error.

With two-base-encoded probes, the fluorescent signal or colour obtained during imaging is associated with four dinucleotide sequences having a 5′- and 3′-base. Colour space is the sequence of overlapping dinucleotides that codes four simultaneous nucleotide sequences. Alignment with a reference genome is the most accurate method for translating colour space into a single nucleotide sequence.

Zero-mode waveguide detectors

This nanostructure device is 100 nm in diameter, which is smaller than the 532 nm and 643 nm laser wavelengths used in the Pacific Biosciences platform. Light cannot propagate through these small waveguides, hence the term zero-mode. These aluminium-clad waveguides are designed to produce an evanescent wave (see the 'total internal reflection fluorescence' glossary term) that substantially reduces the observation volume at the surface of the polymerase reaction down to the zeptolitre range (10 −21 l). This provides an advantage for the polymerization reaction, which can be performed at higher dye-labelled nucleotide concentrations.

Fluorescence resonance energy transfer

This is generally a system that consists of two fluorescent dyes, one being a donor dye (a bluer fluorophore) and the other an acceptor dye (a redder fluorophore). When the two dye molecules are brought into close proximity (usually ≤30 nm), the energy from the excited donor dye is transferred to the acceptor dye, increasing its emission intensity signal.

All sequence variants other than single-nucleotide variants, including block substitutions, insertions or deletions, inversions, segmental duplications and copy-number differences.

A project aimed at discovering rare sequence variants with minor allele frequencies of 1% in normal genomes derived from HapMap samples.

A project aimed at developing and validating cost-effective, high-throughput technologies for resequencing all of the protein-coding regions of the human genome.

The study of communities of mixed microbial genomes that reside in animals, plants and environmental niches. Samples are collected and analysed without the need to culture isolated microbes in the laboratory. The Human Microbiome Project aims to characterize a reference set of microbial genomes from different habitats within the human body, including nasal, oral, skin, gastrointestinal and urogenital regions, and to determine how changes in the human microbiome affect health and disease.

A project aimed at discovering single-nucleotide variants and structural variants that are associated with major cancers, such as brain cancer (glioblastoma multiforme), lung cancer (squamous carcinoma) and ovarian cancer (serous cystadenocarcinoma).

A project aimed at providing open access to human genome sequences from volunteers and to develop tools for interpreting this information and correlating it with related personal medical information.


Schau das Video: PacBio Sequencing How it Works (Kann 2022).