Information

Wie konvertiert man mtDNA-Sequenzen im FASTA- in das FSTAT-Format?

Wie konvertiert man mtDNA-Sequenzen im FASTA- in das FSTAT-Format?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe Sequenzdaten der Kontrollregion von einer Haipopulation und möchte diese von FASTA in FSTAT umwandeln, um die effektive Populationsgröße von Weibchen zu berechnen. Die Software, die ich verwenden möchte, akzeptiert nur FSTAT- oder Genepop-Dateien.

Ist es möglich, FASTA in FSTAT oder sogar Genepop zu konvertieren?


Schauen Sie sich PGDSpider an. Die Tabelle der Ein- und Ausgaben zeigt an, dass sie unter anderem die Konvertierung zwischen den Formaten FASTA und FSTAT unterstützt.


Wenn Sie etwas schnelles und schmutziges wollen, können Sie die FASTA schnell mit samtools faidx indizieren und dann die Längenspalte durch R (andere Sprachen sind verfügbar) in die Befehlszeile eingeben.

Dadurch wird eine statistische Zusammenfassung ausgegeben und ein PDF im aktuellen Verzeichnis namens Rplots.pdf erstellt, das ein Histogramm enthält.

Statistiken für Nanoporen-Reads sind aufgrund des großen Bereichs von Read-Längen, die in einem einzigen Durchlauf vorhanden sein können, schwierig. Ich habe festgestellt, dass die beste Möglichkeit zur Anzeige von Längen darin besteht, eine logarithmische Skala sowohl auf der x-Achse (Länge) als auch auf der y-Achse (sequenzierte Basen oder Zählungen, je nach Präferenz) zu verwenden.

Ich habe dafür meine eigenen Skripte geschrieben: eines zum Generieren der Leselängen und eines zum Zeichnen der Längenverteilung auf verschiedene Weise. Das Skript, das Leselängen generiert, spuckt auch grundlegende zusammenfassende Längenstatistiken zum Standardfehler aus:

Hier sind ein paar der erstellten Grafiken:

Die Skripte, um diese zu generieren, finden Sie hier:

Die Verwendung von Biopython und Matplotlib scheint in der Tat der richtige Weg zu sein. Es läuft wirklich nur auf drei Codezeilen hinaus, um dieses Diagramm zu erhalten:

Natürlich möchten Sie vielleicht ein längeres Skript erstellen, das von der Befehlszeile aus aufgerufen werden kann, mit ein paar Optionen. Gerne können Sie meine nutzen:

Es gibt mehrere mögliche Ansätze. Zum Beispiel:

    im Biopython-Tutorial aus dem Ruby-basierten Biopieces-Framework
  • verschiedene Lösungen, um die Sequenzlänge zu erhalten, einschließlich bioawk und EMBOSS infoseq

Welche davon mit einer 10-GB-Datei "schnell und effizient" sind. das ist im voraus schwer zu sagen. Möglicherweise müssen Sie einige von ihnen testen und vergleichen.

bioawk könnte für diese Art von Aufgabe einigermaßen effizient sein.

Das -c fastx weist das Programm an, die Daten als fastq oder fasta zu parsen. Dies ermöglicht den Zugriff auf die verschiedenen Teile der Datensätze als $name , $seq (und $qual im Fall des fastq-Formats) im awk-Code (bioawk basiert auf awk, sodass Sie alle Sprachfunktionen verwenden können, die Sie von awk wünschen). .

Zwischen den einfachen Anführungszeichen steht eine Reihe von <condition> <<action>>Blöcken.

Der erste hat keinen <condition>-Teil, was bedeutet, dass er für jeden Datensatz ausgeführt wird. Hier aktualisiert es die Längenzählungen in einer Tabelle, die ich "histo" genannt habe. length ist eine vordefinierte Funktion in awk.

Im zweiten Block bedeutet die Bedingung END, dass er ausgeführt werden soll, nachdem alle Eingaben verarbeitet wurden. Der Aktionsteil besteht darin, die aufgezeichneten Längenwerte zu durchlaufen und zusammen mit der zugehörigen Zählung auszudrucken.

Die Ausgabe wird an sort -n weitergeleitet, um die Ergebnisse numerisch zu sortieren.

Auf meiner Workstation dauerte die Ausführung des obigen Codes für eine 1,2-GByte-Fasta-Datei 20 Sekunden.


In der Molekularbiologie arbeiten wir oft mit Sequenzen

  • DNA Sequenzen verwenden 4 Buchstaben, um die Nukleotide in einem der beiden Stränge darzustellen
  • Protein Sequenzen verwenden 20 Buchstaben, um die Aminosäuren darzustellen, von Amino zu carboxyl Terminal
  • Andere Sequenzen werden manchmal verwendet:
    • RNA,
    • DNA mit mehrdeutigen Nukleotiden,
    • Aminosäuresequenzen mit halt Codons

    Wie konvertiert man mtDNA-Sequenzen im FASTA- in das FSTAT-Format? - Biologie


    Chromatogramme anzeigen, bearbeiten und konvertieren. Schneiden Sie Enden mit geringer Qualität automatisch ab.

    DNA Chromatogram Explorer Lite ist ein Windows Explorer-Klon, der der DNA-Sequenzanalyse und -manipulation gewidmet ist. Sie können die Chromatogramme anzeigen, während Sie mit dem integrierten Datei-Explorer Ordner durchsuchen. Mit einem einzigen Klick können Sie die minderwertigen Basen am Ende Ihrer Proben zuschneiden.

    Die Lite-Version von Chromatogram Explorer ist Freeware.

    Starten Sie den DNA Chromatogram Explorer und navigieren Sie zu Ihren DNA-Probendateien (Chromatogrammen).

    Alle Chromatogramme in diesem Ordner werden im rechten Bereich angezeigt (siehe Bild unten). SCF- und ABI (ABI, AB, AB1, AB!) Chromatogrammdateien werden unterstützt. Enden von geringer Qualität werden in dunkelgrauer Farbe angezeigt. Um Nicht-Chromatogramm-Dateien (FASTA, SEQ, TXT) anzuzeigen, doppelklicken Sie darauf.

    Drücken Sie 'Konvertieren' oder 'Alle konvertieren' und Ihre Datei wird als SCF oder FASTA (je nach Wunsch) gespeichert.

    Mit dem DNA Chromatogram Explorer können Sie die Enden aller Chromatogramme in einem Ordner mit geringer Qualität automatisch trimmen. Bitte sehen Sie sich dieses kurze Tutorial an.


    DNA Chromatogram Explorer wird in einem kleinen Paket zusammen mit anderen kostenlosen molekularbiologischen Werkzeugen geliefert.

    Sie benötigen keine Administratorrechte, um dieses Paket zu "installieren".

      das paket
  • Doppelklicken Sie darauf, um es zu entpacken
  • Geben Sie den Zielordner an (wo er entpackt werden soll)
  • Gehen Sie zum Zielordner und doppelklicken Sie auf das Programm, das Sie verwenden möchten
  • DNA Chromatogram Explorer installiert null Dateien in Ihrem System. Daher müssen Sie es nicht deinstallieren. Um den DNA Chromatogram Explorer zu deinstallieren, löschen Sie ihn einfach.


    Dieses Software-Tool ist sehr klein, sodass Sie es einfach auf eine Diskette oder einen USB-Flash-Stick kopieren und mitnehmen oder per E-Mail an Ihre Kollegen senden können.

    DNA Chromatogram Explorer kann auf jeder Windows-Version von Windows 98 bis Windows 7 und auch auf Mac über Parallels oder Bootcamp ausgeführt werden. Es installiert keine zusätzlichen Bibliotheken, Updates, DLL, Java oder Registrierungsschlüssel in Ihrem System.

    Zeigen Sie den Inhalt des Beispiels an, während Sie Ihre Ordner durchsuchen

    Hervorheben von Regionen mit geringer Qualität

    Manuelles Trimmen von minderwertigem Ende

    Enden mit geringer Qualität automatisch zuschneiden (Batch)

    Konvertieren zwischen verschiedenen Formaten

    FASTA-, SEQ-, TXT-Beispiele anzeigen

    SCF-, ABI-, AB-, AB!-, AB1-Beispiele anzeigen

    Eigenschaften und Statistiken des Beispiels anzeigen

    Basen aus Chromatogrammen extrahieren (in Zwischenablage kopieren)

    Dateioperationen ausführen (Beispiele kopieren/löschen/verschieben)

    Alle Chromatogrammdateien in einem Ordner anzeigen

    Konvertieren Sie alle Samples in einem Ordner

    Doppelklicken Sie auf eine Datei, um sie zu öffnen

    Ihr Feedback ist uns wichtig!

    Ähnliche Bioinformatik-Tools in diesem Paket enthalten

    DNA Chromatogram Explorer ist ein Windows Explorer-Klon, der der DNA-Sequenzanalyse und -manipulation gewidmet ist. Sie können die Chromatogramme anzeigen, während Sie mit dem integrierten Datei-Explorer Ordner durchsuchen. Mit einem einzigen Klick können Sie die minderwertigen Basen am Ende Ihrer Proben zuschneiden.

    Everything to Fasta Converter konvertiert die angegebenen Samples (SCF, ABI, FASTA, multiFasta, GBK, multiGBK, SEQ, TXT) in das FASTA-Format. Ab Version 3.0 werden auch Protein-FASTA-Dateien unterstützt.


    MATERIALEN UND METHODEN

    HaploGrep 2 ist eine Webanwendung, die über eine REST-API mit dem Webserver kommuniziert. Somit werden alle rechenintensiven Aufgaben direkt auf dem Server ausgeführt. Die Haplogruppenklassifikation selbst basiert auf vorberechneten phylogenetischen Gewichten, die dem Vorkommen pro Position im Phylotree entsprechen und die Mutationsstabilität einer Variante widerspiegeln. Im aktualisierten Klassifikationsalgorithmus werden die Gewichte nun nichtlinear von 1 bis 10 skaliert (siehe Zusatztabelle S1). Somit wird das seltene Auftreten von Varianten in Phylotree die Klassifizierung in diese Haplogruppen nicht mehr so ​​stark beeinflussen wie in der vorherigen Version. Nach dem Import der Daten wird die Haplogruppenklassifizierung automatisch gestartet. Optimierungen innerhalb des Codes führten zu einer 20-fachen Geschwindigkeitssteigerung im Vergleich zu HaploGrep 1. Durch das Speichern nur der 50 höchstrangigen Haplogruppen pro Sample konnte der Speicherverbrauch deutlich reduziert werden.

    Darüber hinaus wurden neue Unähnlichkeitsmetriken für die mtDNA-Haplogruppenklassifikation eingeführt. Neben der bereits implementierten Kulczynski-Distanz ( 1) wurden der Jaccard-Index, die Hamming-Distanz und die Kimura-2-Parameter-Distanz berücksichtigt ( 24) (zum Leistungsvergleich siehe Zusatztabelle S2 und 3). Weitere wesentliche Verbesserungen waren eine Überprüfung auf künstliche Rekombination (25) und eine Überprüfung auf systematische Artefakte sowie auf seltene oder potenzielle Phantommutationen (26). Um künstliche Rekombination zu erkennen, wenden wir zwei verschiedene Strategien an: die erste Strategie, vorgeschlagen von Kong et al. ( 27), zählt die verbleibenden Varianten, die nicht der resultierenden besten Haplogruppe zugeordnet wurden, und testet, ob diese Varianten einer anderen Haplogruppe zugeordnet werden können. Für diesen Schritt werden Mutations-Hotspots ausgeschlossen (z. B. 315.1C oder 16519). Die zweite Rekombinationsstrategie setzt Vorkenntnisse über die spezifische Platzierung der Fragmente der Polymerase-Kettenreaktionsprodukte (Amplikons) voraus. Mit diesen Informationen kann eine Prüfung durchgeführt werden, die die Profile relativ zu den Fragmentbereichen vergleicht. Die benutzerdefinierten Fragmente werden generiert und die Profile entsprechend aufgeteilt. Wenn der Abstand beider Haplogruppenfragmente fünf phylogenetische Knoten überschreitet, wird die Probe als potenziell kontaminiert aufgeführt.


    Einige Genomatix-Tools, z.B. Gene2Promoter oder GPD ermöglichen die Extraktion von Sequenzen. Genomatix verwendet die folgende Syntax, um Sequenzinformationen mit Anmerkungen zu versehen: Jedes Informationselement wird durch ein Schlüsselwort gekennzeichnet, gefolgt von einem "=" und dem Wert. Diese Informationselemente werden durch ein Pipe-Symbol "|" getrennt.
    Die Schlüsselwörter sind die folgenden:

    loc Die Genomatix Locus-ID, bestehend aus der Zeichenfolge "GXL_", gefolgt von einer Zahl.
    sym Die Gensymbol. Dies kann eine (durch Kommas getrennte) Liste sein.
    Genide Die NCBI-Gen-ID. Dies kann eine (durch Kommas getrennte) Liste sein.
    acc EIN eindeutige Kennung für die Folge. Z.B. für Genomatix-Promotorregionen ist die Genomatix-Promotor-ID in diesem Feld aufgeführt.
    Steuer ID Der Organismus Taxon-ID
    spez Die Organismusname
    chr Die Chromosom innerhalb des Organismus.
    ctg Die NCBI contig innerhalb des Chromosoms.
    str Strand, (+) für Sense, (-) für Antisense-Strang.
    Anfang Startposition der Sequenz (relativ zum Contig).
    Ende Endposition der Sequenz (relativ zum Contig).
    len Länge der Sequenz in Basenpaaren.
    tss A (durch Kommas getrennte Liste von) UTR-Start/TSS-Position(en). Bei mehreren TSS/UTR-Starts bedeutet dies, dass sich mehrere Transkripte den gleichen Promotor teilen (z.B. wenn es sich um Spleißvarianten handelt). Die Positionen beziehen sich auf die Promotorregion.
    Sonde A (durch Kommas getrennte Liste von) Affymetrix-Sonden-ID(s).
    unigen A (durch Kommas getrennte Liste von) UniGene-Cluster-ID(s).
    Stammgruppe Eine Kennung (eine Zahl) für die Homologiegruppe (nur für Promotorsequenzen verfügbar). Orthologisch verwandte Sequenzen haben in diesem Feld denselben Wert.
    Abschlussball Wenn die Sequenz eine Promotorregion ist, ist die Promoter-Set wird hier bezeichnet.
    eldorado Die ElDorado-Version aus der die Sequenz extrahiert wurde.
    Beschreibung Die Genbeschreibung. Wenn mehrere Gene (d. h. NCBI-Gen-IDs) mit der Sequenz verbunden sind, werden die Beschreibungen für alle Gene aufgelistet, getrennt durch """
    Komm EIN Kommentar Feld, das für zusätzliche Anmerkungen verwendet wird. Bei Promotorsequenzen enthält dieses Feld Informationen über die mit dem Promotor assoziierten Transkripte. Für jedes Transkript werden die Genomatix Transcript Id, die Zugangsnummer, die TSS-Position und die Qualität aufgelistet, getrennt durch "/". Für Genomatix CompGen-Promotoren werden keine Transkripte zugewiesen, in diesem Fall wird die Zeichenfolge "CompGen-Promotor" bezeichnet.

    Diese Syntax wird derzeit nur für Sequenzen in den Formaten FASTA und GenBank verwendet.

    Beispiel (eine Promotorsequenz im GenBank-Format):


    Abstrakt

    Ähnlichkeit ist einer der Schlüsselprozesse der DNA-Sequenzanalyse in der Computerbiologie und Bioinformatik. In fast allen Forschungen, die evolutionäre Beziehungen, Genfunktionsanalysen, Proteinstrukturvorhersage und Sequenzabrufe untersuchen, ist es notwendig, Ähnlichkeitsberechnungen durchzuführen. Eine Hauptaufgabe bei Alignment-freien DNA-Sequenzähnlichkeitsberechnungen besteht darin, neue mathematische Deskriptoren für DNA-Sequenzen zu entwickeln. In diesem Artikel stellen wir einen neuartigen Ansatz für DNA-Sequenzähnlichkeitsanalysestudien unter Verwendung von Ähnlichkeitsberechnungen von Texturbildern vor. Texturanalyseverfahren, die eine Untermenge der digitalen Bildverarbeitungsverfahren darstellen, werden hier unter der Annahme verwendet, dass diese Berechnungen an Alignment-freie DNA-Sequenzähnlichkeitsanalyseverfahren angepasst werden können. Graustufentexturen wurden durch die den Nukleotiden in den DNA-Sequenzen zugewiesenen Werte erzeugt. Ähnlichkeitsberechnungen zwischen diesen Texturen wurden unter Verwendung histogrammbasierter Texturanalysen basierend auf Statistiken erster Ordnung durchgeführt. Wir erhielten Texturmerkmale für 3 verschiedene DNA-Datensätze unterschiedlicher Länge und berechneten die Ähnlichkeitsmatrizen. Die durch unsere Methode aufgedeckten phylogenetischen Beziehungen zeigen, dass unsere Bäume den Ergebnissen der MEGA-Software ähnlich sind, die auf dem Sequenz-Alignment basiert. Unsere Ergebnisse zeigen, dass Texturanalysemetriken verwendet werden können, um DNA-Sequenzen zu charakterisieren.


    Wie konvertiert man mtDNA-Sequenzen im FASTA- in das FSTAT-Format? - Biologie

    RepeatMasker ist ein Programm, das DNA-Sequenzen auf eingestreute Wiederholungen und DNA-Sequenzen geringer Komplexität durchsucht. Die Ausgabe des Programms ist eine detaillierte Annotation der Wiederholungen, die in der Abfragesequenz vorhanden sind, sowie eine modifizierte Version der Abfragesequenz, in der alle annotierten Wiederholungen maskiert wurden (Standard: durch Ns ersetzt). Im Durchschnitt werden derzeit fast 50 % einer menschlichen genomischen DNA-Sequenz durch das Programm maskiert. Sequenzvergleiche in RepeatMasker werden vom Programm cross_match durchgeführt, einer effizienten Implementierung des Smith-Waterman-Gotoh-Algorithmus, der von Phil Green entwickelt wurde.

    Eingabeformat:

    Sequenzen können als Dateien eingefügt oder hochgeladen werden, beides im Fasta-Format. Mehrere Fasta-Formatsequenzen können gleichzeitig eingefügt oder in einer Datei enthalten sein. Das Fasta-Format sieht so aus:

    Das Übermittlungsformular enthält ein Textfeld für den vollständigen Pfadnamen der Datei, die die Sequenzdaten auf dem lokalen System enthält (d. h. auf dem der Netscape-Browser läuft). Durch Drücken der Schaltfläche "Durchsuchen. "-Schaltfläche können Sie ein Dateiauswahlfeld verwenden, um die Datei auszuwählen, ohne den Pfad eingeben zu müssen. Wenn der Browser auf einem MacIntosh ausgeführt wird, funktioniert die Schaltfläche zum Durchsuchen, aber der Dateiname kann nicht eingegeben werden. Sowohl auf dem PC als auch auf dem Mac muss die Sequenzdatei als "nur Text" gespeichert werden.

    Größenbeschränkungen

    Ausgabe-/Rückgabeformat

    Das Programm gibt für jede Abfrage drei oder vier Ausgabedateien zurück. Eine enthält die eingereichte(n) Sequenz(en), in der alle erkannten eingestreuten oder einfachen Wiederholungen maskiert wurden. In den maskierten Bereichen wird jede Base durch ein N ersetzt, so dass die zurückgegebene Sequenz die gleiche Länge wie das Original hat. Eine Tabelle mit Anmerkungen zu den maskierten Sequenzen sowie eine Tabelle mit einer Zusammenfassung des Wiederholungsinhalts der Abfragesequenz werden auf Ihrem Bildschirm angezeigt. Optional wird auch eine Datei mit Ausrichtungen der Abfrage mit den passenden Wiederholungen zurückgegeben.

    Im Rückgabeformat "html" (Standard, wenn der Browser auf einem Mac oder PC läuft) wird die gesamte Ausgabe in einer Datei an Ihren Bildschirm zurückgegeben. Im Rückgabeformat "tar file" können die maskierte(n) Sequenz(en) und Alignments als komprimierte Dateien gespeichert werden. Das Rückgabeformat "links" gibt Links zu diesen Ausgabedateien in einem Textformat zurück (sie sehen im Browser schlecht aus, sind aber in Ordnung, wenn sie auf Ihrem Computer gespeichert werden).

    Optionen

    Ausrichtungen anzeigen
    Wenn diese Option aktiviert ist, werden Ausrichtungen in einer Datei (mit der Endung .aln) oder auf dem Bildschirm zurückgegeben. Ausrichtungen werden in der Reihenfolge ihres Auftretens in der Abfragesequenz angezeigt.

    Nicht einfach maskieren. /Nur Maske einfach.
    Regionen geringer Komplexität, wie einfache Tandem-Repeats, Polypurin- und AT-reiche Regionen können bei Datenbanksuchen zu falschen Übereinstimmungen führen. Standardmäßig werden sie zusammen mit den eingestreuten Wiederholungen maskiert.
    Mit der Option "Nicht maskieren einfach. " nur eingestreute Wiederholungen werden maskiert. Dies kann beispielsweise bevorzugt sein, wenn die maskierte Sequenz einem Genvorhersageprogramm zugeführt wird.
    Alternativ mit der Option "Nur maskieren einfach. " kann man nur diese Regionen geringer Komplexität maskieren, z.B. wenn Sie nur daran interessiert sind, polymorphe einfache Wiederholungen in einer Sequenz schnell zu finden.

    Nur Alus maskieren
    Durch Aktivieren dieser Option begrenzen Sie die Maskierung und Annotation auf (primate) Alu-Wiederholungen. 7SL-RNA (die Vorfahrensequenz von Alus), SVA (die mehrere Alu-Sequenzen und ein Fragment von LTR5 enthält) und LTR5 werden ebenfalls maskiert. Diese Option funktioniert nur für Primaten-DNA.

    Maske mit X.
    Wenn diese Option aktiviert ist, werden die Wiederholungssequenzen durch Xs anstelle von Ns ersetzt. Dies ermöglicht es, die maskierten Bereiche von möglicherweise vorhandenen mehrdeutigen Basen oder anderen Abschnitten von Ns in der ursprünglichen Sequenz zu unterscheiden. Wenn jedoch BLAST-Suchen (und möglicherweise andere Programme) ausgeführt werden, werden Xs aus der Abfrage gelöscht und die zurückgegebenen BLAST-Übereinstimmungen haben Positionsnummern, die nicht unbedingt denen der ursprünglichen Sequenz entsprechen.

    Spalten mit fester Breite
    Seit April 1999 werden die Spaltenbreiten in der Annotationstabelle an die maximale Länge aller in einer Spalte vorkommenden Zeichenfolgen angepasst, wodurch lange Sequenznamen vollständig ausgeschrieben werden können. Zuvor wurde eine Tabelle mit fester Spaltenbreite zurückgegeben, die immer noch durch Aktivieren dieser Optionsschaltfläche abgerufen werden kann.

    Andere Optionen

    Sie können weniger häufig verwendete Optionen im UNIX-Befehlszeilenstil eingeben, wie zum Beispiel: was dazu führt, dass das Programm nur Wiederholungen mit einer Abweichung von weniger als 20 % annotiert und maskiert, die Ausrichtungen in der Ausrichtung der Wiederholungskonsensussequenzen zurückgibt und Matrizen verwendet, die optimal sind für eine 45% GC-Hintergrund-Nukleotidverteilung.

    Mit der Option -div Sie können die Maskierung und Annotation auf eine Teilmenge von weniger divergierten (jüngeren) Wiederholungen beschränken, indem Sie ein maximales Divergenzniveau der Wiederholungskopie zu ihrer Konsensussequenz wählen. Diese Option kann verwendet werden, um die Maskierung auf diejenigen Wiederholungen zu beschränken, die entweder für Primaten oder eine andere Säugetierordnung spezifisch sind, zur Verwendung beim anschließenden Vergleich von orthologen Säugetierorten. Im Durchschnitt divergierten die eingestreuten Wiederholungen beim Menschen um 18 % (

    35% bei Mäusen) von ihrem Konsens ab, da sich die Säugetierordnungen getrennt haben. Beachten Sie, dass diese Methode ziemlich grob ist, vor allem, da der Bereich der Verschlechterung von Wiederholungen des gleichen Alters groß ist, können viele geteilte Wiederholungen demaskiert werden und umgekehrt.

    Neutrale Mutationsmuster unterscheiden sich signifikant in Abhängigkeit von der GC-Reichweite eines Locus und wir haben optimale Scoring-Matrizen für die Ausrichtung auf Konsensussequenzen in einer Reihe von Hintergrund-GC-Leveln berechnet. Normalerweise berechnet RepeatMasker den Prozentsatz der Sequenz bestehend aus Gs und Cs und verwendet die entsprechenden Matrizen. Das Programm verwendet jedoch standardmäßig 'durchschnittliche' 43 % GC-Matrizen, wenn die Abfrage kürzer als 2000 bp ist oder eine Batchdatei analysiert wird. Kurze Sequenzen teilen mit geringerer Wahrscheinlichkeit die GC-Ebene des Locus. Zum Beispiel sind CpG-Inseln und Exons GC-reicher als die umgebende DNA, während ein LINE1-Element normalerweise AT-reicher ist als der Hintergrund. In einer Batch-Datei analysiert RepeatMasker alle Sequenzen zusammen mit denselben Matrizen. Der prozentuale GC in allen kombinierten Sequenzen kann für einige Sequenzeinträge unangemessen sein, die Matrizen mit hohem GC-Niveau in AT-reichen Sequenzen verwenden (und umgekehrt), kann zu einer falschen Maskierung führen.
    Dieses Verhalten kann auf zwei Arten überschrieben werden:
    Mit der Option -gc Sie können den GC-Level auf einen bestimmten Prozentsatz einstellen, z.B. '-gc 37' lässt das Programm Matrizen verwenden, die für 37% GC-Hintergrund geeignet sind. Dies kann beispielsweise nützlich sein, wenn Sie eine Batchdatei mit ESTs von einem einzelnen Locus mit einem bekannten GC-Level haben.
    Alternativ kann die -gccal Option zwingt RepeatMasker, den tatsächlichen GC-Level einer kurzen Sequenz oder den durchschnittlichen GC-Level eines Stapels von Sequenzen zu verwenden. Letztere Sequenzen können beispielsweise Contigs oder Reads in einem Sequenzierungsprojekt sein.

    RepeatMasker fragmentiert transparent große Sequenzen in Fragmente von 60 kb mit 2 kb Überlappung. Die -frag Option ermöglicht es, die Größe dieser Fragmente zu ändern. Die Fragmentierung wurde implementiert, um eine unbegrenzte Größe von Sequenzen und Sequenzchargen zu ermöglichen. Es kann auch den Wiederholungsnachweis verbessern, wenn eine genomische Sequenz DNA-Regionen mit signifikant unterschiedlichen GC-Niveaus (Isochoren) enthält. Sätze von Bewertungsmatrizen werden basierend auf dem GC-Niveau eines Fragments ausgewählt. Der einzige sichtbare Effekt der Fragmentierung ist in den Alignment-Dateien, wo Alignments an den Kanten der Fragmente dupliziert und/oder abgeschnitten werden können.

    Ausrichtungen werden in der Ausrichtung der Abfragesequenz angezeigt. Die Option -inv gibt Ausrichtungen in der Ausrichtung der Wiederholungen zurück.

    Bei der Suche nach allen Wiederholungen schneidet RepeatMasker vorübergehend die meisten Elemente in voller Länge aus, junge LINE1 3'-Enden und nahezu perfekte einfache Wiederholungen werden gelöscht (sowohl in menschlichen als auch in Nagetiereinstellungen), um alle möglichen zugrunde liegenden älteren Wiederholungen aufzudecken, in denen diese Elemente eingefügt oder erweitert wurden. Die Option -Kein Schnitt überspringt den obigen Löschschritt im Standardverfahren. RepeatMasker ist im Allgemeinen sensibler, einschließlich des Löschschritts.

    Wenn die Option -xklein verwendet wird, wird eine Sequenz in der .masked-Datei zurückgegeben, in der Wiederholungsbereiche in Kleinbuchstaben und sich nicht wiederholende Bereiche in Großbuchstaben geschrieben sind.

    Die Option -klein bewirkt, dass die gesamte maskierte Sequenz in Kleinbuchstaben zurückgegeben wird, wobei Wiederholungen durch 'x's ersetzt werden (oder 'x's, wenn sie mit -x kombiniert werden).

    DNA-Quelle

    Eingestreute Wiederholungen sind spezifisch für eine (Gruppe von) Spezies, abhängig von der Aktivitätszeit des transponierbaren Quellelements. Etwa die Hälfte der in der menschlichen DNA identifizierten Repeats sind spezifisch für Primaten, d. h. sie wurden nach der eukaryontischen Bestrahlung vor etwa 100 Millionen Jahren amplifiziert. Die meisten Wiederholungen, die in Maus-DNA identifiziert werden können, sind aufgrund höherer Aktivität und schnellerer Mutationsraten in der Nagetierlinie spezifisch für Nagetiere. RepeatMasker verfügt über separate Protokolle, die für die Analyse von Nagetier- und Primatengenomen optimiert sind. Eingestreute Wiederholungen bei anderen Säugetieren sind noch nicht so gut katalogisiert. Unter diesen werden Artiodactyl-Abfragen am besten von RepeatMasker behandelt, aber es sind auch für andere Aufträge spezifische Wiederholungen vorhanden.

    Die Anzahl der verschiedenen Wiederholungs-Konsensussequenzen, mit denen Anfragen verschiedener Spezies verglichen werden, gibt einen Eindruck davon, wie weit die verschiedenen Bibliotheken entwickelt sind: Beachten Sie, dass die Mehrheit der Sequenzen, mit denen Nagetier- und insbesondere andere Säugetieranfragen verglichen werden, Wiederholungen sind, die im menschlichen Genom identifiziert wurden und vermutlich älter als die Säugetierstrahlung.

    Während die Säugetierbibliotheken stark manipulierte und erweiterte Versionen von Repbase-Bibliotheken darstellen, wurden die Nicht-Säugetierbibliotheken mit sehr begrenzter Kuration extrahiert. Die Bibliotheken von Wirbeltieren (Huhn, Xenopus usw.) und Gräsern (Mais, Reis) sind besonders fötal. Für diese beiden werden keine Übersichtstabellen zurückgegeben.

    Geschwindigkeit und Sensibilität

    Im Durchschnitt wird mit den Standardeinstellungen ein menschliches Cosmid von 10 kb in etwa 30-40 Sekunden analysiert, wenn zu diesem Zeitpunkt niemand den Server verwendet.
    Bei längeren Sequenzen steigt die benötigte Zeit ziemlich linear mit der Sequenzlänge. Sequenzen, die kürzer als 10 kb sind, werden unverhältnismäßig schneller analysiert. Dies liegt zum Teil am Programm, z.B. eine Batch-Datei von 200 menschlichen Sequenzen von 400 bp (insgesamt 80 kb) wird innerhalb von 2 Minuten analysiert, aber wir haben auch ein Warteschlangensystem für Sequenzen mit mehr als 10 kb implementiert, wodurch die Anforderung mit niedrigerer Priorität je länger die Abfragesequenz ist. Die Geschwindigkeit hängt ferner etwas vom Wiederholungsgehalt der Sequenzwiederholung ab. Dichte Regionen, insbesondere Alu-reiche Regionen, werden schneller analysiert.

    Das Programm kann in drei Geschwindigkeits- oder Empfindlichkeitsstufen ausgeführt werden. Der einzige Unterschied zwischen diesen Einstellungen ist die minimale Übereinstimmung oder Wortlänge im anfänglichen (nicht ganz) Hashing-Schritt des cross_match-Programms (siehe die cross_match/phrap-Dokumentation). Die Einstellung "langsam" dauert etwa dreimal länger und findet und maskiert 0-5% mehr sich wiederholende DNA-Sequenzen als die Standardeinstellung. Die "Schnell"-Einstellungen verpassen 5-10% der standardmäßig maskierten Sequenzen, sind aber 3 bis 6 Mal schneller. Auch in den empfindlicheren Einstellungen können die Ausrichtungen mehr oder etwas genauer sein.

    Bei den empfindlichen Einstellungen findet RepeatMasker derzeit durchschnittlich 47% der menschlichen genomischen DNA, die von eingestreuten Wiederholungen abgeleitet sind. RepeatMasker ist im Vergleich zu anderen Programmen sehr empfindlich, obwohl der Vergleich zu einigen aufgrund der Verwendung viel kleinerer Datenbanken verzerrt ist.

    Selektivität und Übereinstimmungen mit Kodierungssequenzen

    Die Cutoff-Smith-Waterman-Werte für das Maskieren eingestreuter Wiederholungen sind konservativ, da das Maskieren eines kurzen potenziell interessanten Bereichs im Allgemeinen schädlicher ist als das Nichtmaskieren einer Reihe von schwer zu findenden Übereinstimmungen. Wenn es irgendwelche falschen Übereinstimmungen gibt, neigen sie dazu, Werte nahe dem Cutoff zu haben, der bei den meisten Wiederholungen 225, bei der LINE1-Suche mit geringer Komplexität 300 und bei den sehr alten MIR-, LINE2- und MER5-Sequenzen 180 beträgt.
    Wir testeten das Auftreten von falschen Übereinstimmungen in randomisierter und in invertierter (aber nicht komplementierter) DNA. Um eine Vielzahl von Bedingungen zu überprüfen, wurden vier DNA-Fragmente von 150 bis 400 kb analysiert, die einen GC-Gehalt von 36% bis 54% hatten. Um Samen für Smith-Waterman-Alignments beizubehalten, wurde eine Randomisierung auf der Wortebene von 10 bp durchgeführt. Beachten Sie, dass die invertierten Sequenzen die geringe Komplexität und die einfachen Wiederholungsmuster der ursprünglichen Sequenzen beibehalten. Selbst bei sensiblen Einstellungen, bei denen falsche Übereinstimmungen am wahrscheinlichsten sind, meldete diese Version von RepeatMasker überhaupt keine (falschen) Übereinstimmungen zu eingestreuten Wiederholungen in den randomisierten oder invertierten Sequenzen. Bei den randomisierten Abfragen wurden keine einfachen Wiederholungen berichtet.

    RepeatMasker lieferte nur eine einzige wahrscheinlich falsche Übereinstimmung (71 bp), wenn eine Charge von 4440 kodierenden Regionen in menschlichen mRNAs (7.200.000 bp) bei empfindlichen Einstellungen analysiert wurde. Die kodierenden Regionen wurden anhand von Annotationen aus der GenBank gesammelt, auf das Vorhandensein von vollständigen ORFs und Initiatormethioninen gefiltert und mehr oder weniger redundant gemacht. Wenn jede kodierende Region einzeln mit der Option -gccal analysiert wurde, wurden 5 Übereinstimmungen (414 bp, 0,006%) fälschlicherweise maskiert (156 bp bei Standardgeschwindigkeit, 76 bp bei Schnelleinstellungen). Bei dieser Analyse wurde jede Sequenz mit Matrizen analysiert, die auf der Grundlage des tatsächlichen GC-Niveaus ausgewählt wurden, selbst für sehr kurze Sequenzen, während bei der Batch-Analyse der kodierenden Regionen die "durchschnittlichen" 43% GC-Matrizen verwendet wurden.

    RepeatMasker wird am häufigsten verwendet, um falsche Übereinstimmungen bei Datenbanksuchen zu vermeiden. Im Allgemeinen wird dieser Schritt dringend empfohlen, bevor BLASTN- oder BLASTX-Äquivalentsuchen mit Säugetier-DNA-Sequenzen durchgeführt werden.

    Die häufigste Sorge ist natürlich, ob RepeatMasker jemals Codierungsbereiche maskiert.
    Wir fanden heraus, dass falsche Übereinstimmungen in kodierenden Regionen äußerst selten sind, identifizierten jedoch 38 echte Fragmente von eingestreuten Wiederholungen (4214 bp) in den (annotierten) kodierenden Regionen der 4440 menschlichen mRNAs (7,2 Mb), die analysiert wurden (ohne annotierte kodierende Sequenzen von LINE1-Elementen). und endogene Retroviren). Wir verifizierten Übereinstimmungen mit niedrigeren Werten, indem wir die Übersetzungsprodukte mit nahe homologen oder redundanten Einträgen in der Datenbank verglichen (die wiederholt übereinstimmenden Regionen fehlten immer genau). In den meisten dieser Fälle scheinen die Sequenzen falsch annotiert zu sein oder entweder künstlich oder natürlich defekte mRNAs darzustellen (z. B. alternativ gespleißte Exons, die aus einem kleinen Fragment einer Wiederholung bestehen). Echte Überlappungen von eingestreuten Wiederholungen mit kodierenden Sequenzen beinhalten normalerweise terminale Regionen der ORFs. Da die vom transponierbaren Element abgeleitete Region für das Protein in dieser (Gruppe von) Spezies einzigartig ist, stört die Maskierung die Datenbanksuchen nicht.

    Einige warnende Anmerkungen sind jedoch erforderlich. Zunächst werden einige aktive zelluläre Gene von transponierbaren Elementen abgeleitet. Zum Beispiel habe ich 7 Beispiele für menschliche Gene identifiziert, die von (DNA-Transposon-)Transposasen abgeleitet sind. Diese Gene werden durch ein (verwandtes) DNA-Transposon in der Wiederholungsdatenbank teilweise maskiert. EST- und cDNA-Übereinstimmungen außerhalb der maskierten Region sollten Sie alarmieren.

    Beachten Sie auch, dass RepeatMasker nach kleinen RNA-Pseudogenen sucht und daher auch die aktiven kleinen RNA-Gene maskiert (ich denke, die tRNA-Liste ist vollständig, ich habe aufgehört, snRNAs hinzuzufügen, es sei denn, ich fand einen Hinweis darauf, dass sie viele Pseudogene erzeugt haben). Die Anzahl der Übereinstimmungen mit kleinen RNAs sind in der Übersichtstabelle aufgeführt (nahezu) genaue Übereinstimmungen sind möglicherweise aktive Gene, obwohl verwandte aktive Gene, die nicht in der Datenbank enthalten sind, abweichende Übereinstimmungen aufweisen können.

    Eine letzte Warnung bezieht sich auf die Tatsache, dass 3'-UTRs von Transkripten in eingestreuten Wiederholungen ungefähr so ​​dicht sind wie intergenische Regionen. Somit sind viele ESTs vollständig als repetitive DNA maskiert. Ich empfehle, dass Sie, wenn Sie eine genomische Sequenz mit der EST-Datenbank vergleichen oder ESTs als Abfrage bei Nukleotidsuchen verwenden, auch mit der unmaskierten Sequenz suchen Übereinstimmungen und vermeiden Sie die meisten Hintergrundinformationen. Leider beträgt die maximale Wortlänge, die im NCBI BLASTN-Programm verwendet werden kann, 18 (anscheinend aufgrund von Speicherbeschränkungen).

    Verwendung in Verbindung mit Genvorhersageprogrammen

    Die Vorhersage von Genen aus einer maskierten Sequenz ist mit mehreren Problemen konfrontiert. Erstens sollte man Bereiche geringer Komplexität nicht maskieren, z.B. um eine Maskierung von Trinukleotid-Wiederholungen in kodierenden Regionen zu vermeiden. Aber selbst wenn nur eingestreute Repeats maskiert sind, können Genvorhersageprogramme Exons nicht richtig identifizieren. Wie oben erwähnt, können manchmal Schwanzenden von kodierenden Regionen von transponierbaren Elementen stammen. Selbst wenn keine kodierenden Regionen maskiert wurden, können Spleißstellen kompromittiert werden, z. die Polypyrimidin-Region, die Teil der Akzeptor-Spleißstelle ist, kann in einer Wiederholung enthalten sein.

    Daher empfehle ich generell, ein Genvorhersageprogramm auf unmaskierter DNA (auch) durchzuführen und die vorhergesagten Gene und Exons mit der Ausgabe von RepeatMasker zu vergleichen. Einige Genvorhersageprogramme erlauben es Ihnen, bestimmte Exons aus den Vorhersagen herauszuzwingen (z. B. sind oft die alten ORFs von LINE1-Elementen und endogene Retroviren in den Genen enthalten). An mehreren Standorten wird auch daran gearbeitet, RepeatMasker in Genvorhersageprogramme zu integrieren, in denen Übereinstimmungen mit Wiederholungen zusammen mit den anderen verwendeten Parametern gewichtet werden.

    Andere Verwendungen

    Viele Leute maskieren Wiederholungen, bevor sie Primer oder Oligosonden aus Sequenzdaten entwerfen. Mir wurde oft gesagt, dass Primer/Sonden, die aus Regionen entwickelt wurden, die von RepeatMasker demaskiert wurden, eine viel bessere Erfolgsrate haben. Ein warnender Hinweis hier ist, dass unmaskierte Regionen nicht unbedingt einzigartig im Genom sind (z. B. sind viele Wiederholungen in niedrigerer Kopie noch nicht in der Datenbank enthalten) und Experimente sollten durchgeführt werden, als ob keine Filterung gegen Wiederholungen durchgeführt worden wäre.
    Die Alignments können beim Designen von Primern aus vollständig maskierten Sequenzen helfen. Regionen, die stark vom Konsens abweichen, neigen weniger zu Fehlverhalten als andere.

    RepeatMasker wird manchmal beim Zusammenbau großer genomischer Sequenzen verwendet. Dieses Verfahren ist wahrscheinlich in sehr Alu-reichen Regionen in dieser Situation am nützlichsten. Ich empfehle, nur die Alus zu maskieren und die Maskierung möglicherweise auf diejenigen Alus zu beschränken, die weniger als 15% divergieren (-div 15).

    So lesen Sie die Ergebnisse

    Die Anmerkungsdatei enthält die Ausgabezeilen von cross_match. Es listet alle besten Übereinstimmungen (über einer festgelegten Mindestpunktzahl) zwischen der Abfragesequenz und einer der Sequenzen in der Wiederholungsdatenbank oder mit DNA geringer Komplexität auf. The term "best matches" reflects that a match is not shown if its domain is over 80% contained within the domain of a higher scoring match, where the "domain" of a match is the region in the query sequence that is defined by the alignment start and stop. These domains have been masked in the returned masked sequence file. In the output, matches are ordered by query name, and for each query by position of the start of the alignment.

    This is a sequence in which a Tigger1 DNA transposon has integrated into a MER7 DNA transposon copy. Subsequently two Alus integrated in the Tigger1 sequence. The simple repeat is derived from the poly A of the Alu element. The first line is interpreted like this:


    An asterisk (*) in the final column (no example shown) indicates that there is a higher-scoring match whose domain partly (<80%) includes the domain of this match.

    Note that the SW score and divergence numbers for the three Tigger1 lines are identical. This is because the information is derived from a single alignment (the Alus were deleted from the query before the alignment with the Tigger element was performed). The program makes educated guesses about many fragments if they are derived from the same element (e.g. it knows that the MER7A fragments represent one insert). In a next version I can identify each element with a unique ID, if interest exists (this could help to represent repeats cleaner in graphic displays).

    Alignments

    Alignments are shown in order of appearance in the query sequence. These alignments may be most generally useful for designing PCR primers in a region full of repeats. It is possible to get primers that work in a whole genome, when the 3' end of it lies in a region of (even a common) repeat that is very different from the consensus. Alignments are shown in the orientation of the query sequence unless the option -inv is typed in in the option box.

    Here is an example of an alignment of a MIR spanning an Alu element deleted in an earlier step:

    In cross_match alignments the mismatches are indicated, where "-" indicates an insertion/deletion, "i" a transition (G<->A, C<->T) and "v" a transversion (all other substitutions). The position of the deleted Alu in the query is indicated with an "X".
    The lines in the annotation table describing this match appear as:

    Discrepancies between alignments and annotation

    Most discrepancies between alignments and annotation result from adjustments made to produce more legible annotation. This annotation also tends to be closer to the biological reality than the raw cross_match output. For example, adjustments often are necessary when a repeat is fragmented through deletions, insertions, or an inversion. Many subfamilies of repeats closely resemble each other, and when a repeat is fragmented these fragments can be assigned different subfamily names in the raw output. The program often can decide if fragments are derived from the same integrated transposable element and which subfamily name is appropriate (subsequently given to all fragments). This can result in discrepancies in the repeat name and matching positions in the consensus sequence (subfamily consensus sequences differ in length).

    Some other discrepancies are specific to LINE elements. These repeats do not appear as complete elements in the consensus database. This is mostly a result of the contrast in conservation over the length of its sequence during its evolution in the mammalian genome the

    3 kb ORF2 region of LINE1 has been very conserved, whereas the untranslated regions and ORF1 to a lesser degree have evolved very fast. Thus the 3' end or 5' end of an ancient LINE1 does not even remotely resemble that of the currently active LINE1, whereas the coding region for reverse transcriptase is closely related. Thus, many subfamilies have been defined for both the 5' and 3' UTRs (25 and 50, resp.) of LINE1 elements in human DNA, whereas only three ORF2 entries are present in the database. It is not only hard to extend all subfamilies from the beginning to the end, but it also appears that different 3' ends may have been associated with the same 3' ends, and vice versa. On top of that, including 50 full length (6.2-8 kb) LINE1 elements in the database would make the program very slow. LINE1 elements therefore are presented in the database in 3 (or more) pieces, and the program tries to put these pieces together as well as possible. As a result both the names of the repeats and position numbering in the consensus sequence are generally different in the alignments than in the output file. The LINE2 elements are likewise broken up in the databases, in 3' UTRs for different subfamilies and one ORF2 region.

    The 3' UTR of LINE1 subfamilies ranges from 500 bp to over 2000 bp (in L1MC/D3), and the length of the 5' UTR is even more variable, even between subfamilies that show strong similarity in the 3' UTR. To allow the LINE1 fragments to be put together, all position numbers in older LINE1 subfamilies are adjusted to the position of ORF2 (the conserved part of LINE1) in a complete L1PA2 element. Since some older elements have much longer 5' UTRs or ORF1-ORF2 linker regions than L1PA2, this sometimes results in the assignment of negative position numbers for the 5' end of LINEs.

    Finally, you may find large discrepancies in position numbering if an element includes tandem repeat units. For example, MER109 contains multiple

    300 bp repeat units this can lead to overlapping matches. In the output such matches are fused.

    The summary (.tbl) file

    The four main classes mentioned in this table are well defined (see my 1996 review in COGD) and form a good basis for a summary or visual presentation of the repeats in a locus. Among the subclasses, some uncertainty of classification remains it is especially hard to predict if an LTR is derived from an endogenous retrovirus or a non-autonomous LTR element. Also, not all subclasses are listed and the total for the classes is often higher than the sum of the sub classes. Note that the "MER" subclasses and the different MER interspersed repeats are not necessarily related to each other. The term MER (MEdium Reiterated repeats) was introduced for purely administrative purposes to give the beast a name. I named the MER1, MER2, and MER4 groups after the first member of each group that was identified as an interspersed repeat.

    The program tries very hard to find out which repeat fragments were derived from the same insertion event of a transposable element. The estimated number of events still tend to be an overestimate.

    The 'bases masked' number is calculated from the total number of Xs in the masked sequences (before these are changed to Ns or lower case letters). The other numbers are derived from the annotation (.out) file. Discrepancies between the 'bases masked' number and the sum of 'total interspersed repeats', small RNA, satellites and low complexity are generally very small. They are mostly accounted for by unmasked regions between flanking identical simple repeats, annotated as one stretch if fewer than 10 bases separate them, and fragments of repeats shorter than 10 bp which are not annotated but are masked.

    Low-complexity DNA and simple repeats

    Finding polymorphic simple repeats

    Although RepeatMasker does a good job in masking simple repeats to avoid spurious matches in database searches, it is not written to find and indicate all possibly polymorphic simple repeat sequences. Only di- to pentameric and some hexameric repeats are scanned for and simple repeats shorter than 20 bp are ignored. Combining the "Only mask simple.." button option with a "div" option (e.g. -div 10) will produce a list of simple repeats that are 90% or more perfect. However, this list may not be not complete e.g. two perfect 40 bp long (CA)n repeats interrupted by 10 Ts are aligned in one piece and may be reported as having > 10% divergence from the consensus. Of course most hexameric and longer unit repeats won't be reported either. A site dedicated to identifying polymorphic tandem repeats can be found at UTSW .

    Reference repeat databases

    The interspersed repeat databases screened by RepeatMasker are based on the repeat databases (Repbase Update) copyrighted by the Genetic Information Research Institute (G.I.R.I.). The Repbase Update database contains annotation of most repeats with respect to divergence level, affiliation, etc. The nomenclature of the interspersed repeats in the output of RepeatMasker is nearly identical to that of the reference database which in most cases corresponds to that in the literature.

    Scoring matrices

    We have calculated statistically optimal scoring matrices for the alignment of neutrally diverging (non-selected) sequences in human DNA to their original sequence. These matrices have been in use since the May 1998 release. The matrices were derived from alignments of DNA transposon fossils to their consensus sequences (Arian Smit, Arnie Kas & Phil Green, in preparation. ). A series of different matrices are used dependent on the divergence level (14-25%) of the repeats and the background GC level (35-53%, neutral mutation patterns differ significantly in different isochores).

    These matrices are (close to) optimal for human genomic sequences longer than 10 kb, for which length the GC level usually is representative of the isochore in which the sequence lives. However, the GC level of small fragments can diverge a lot from the surrounding (e.g. a fragment spanning a CpG island, a GC rich exon or an AT-rich LINE1 element) and RepeatMasker defaults to using matrices derived for a 43% GC background when a sequence is shorter than 2000 bp or when a batch file is submitted. When the appropriate background GC level is known, this can be entered with the -gc option.

    Referenz

    We haven't published a paper on RepeatMasker yet, unless you call this expanding help file a publication. We'd appreciate it if you could refer to the web site in your publications (A.F.A. Smit, R. Hubley & P. Green RepeatMasker at http://repeatmasker.org).

    Literatur

    OVERVIEW
    Smit, A.F.A. (1996) Origin of interspersed repeats in the human genome. Curr. Opin. Genet. Devel. 6 (6), 743-749.
    Smit, A.F.A. (1996) Structure and evolution of mammalian interspersed repeats. PhD dissertation, USC. (lots of otherwise unpublished information here, available under order number 9636751 at the UMI web site)

    SINE/Alu
    Schmid, C. W. (1996). Alu: structure, origin, evolution, significance, and function of one-tenth of human DNA. Prog Nucleic Acids Res Mol Biol 53, 283-319.
    Jurka, J. (1996) Origin and evolution of Alu repetitive elements. In " The impact of short interspersed elements (SINEs) on the host genome. Maraia, R.J., editor. Springer Verlag.
    Batzer, M. A., Deininger, P. L., Hellmann Blumberg, U., Jurka, J., Labuda, D., Rubin, C. M., Schmid, C. W., Zietkiewicz, E., and Zuckerkandl, E. (1996). Standardized nomenclature for Alu repeats. J Mol Evol 42, 3-6.

    SINE/MIR & LINE/L2
    Smit, A. F. A., and Riggs, A. D. (1995). MIRs are classic, tRNA-derived SINEs that amplified before the mammalian radiation. Nucleic Acids Res 23, 98-102.

    LINE/L1
    Smit, A. F. A., Toth, G., Riggs, A. D., Jurka, J., Ancestral mammalian-wide subfamilies of LINE-1 repetitive sequences. J Mol Biol 246, 401-417.

    LTR/MaLR
    Smit, A. F. A. (1993). Identification of a new, abundant superfamily of mammalian LTR-transposons. Nucleic Acids Res 21, 1863-72.

    LTR/Retroviral
    Wilkinson, D. A., Mager, D. L., and Leong, J. C. (1994). Endogenous Human Retroviruses. In The Retroviridae, J. A. Levy, ed. (New York: Plenum Press), pp. 465-535.

    DNA/all types
    Smit, A. F. A., and Riggs, A. D. (1996). Tiggers and other DNA transposon fossils in the human genome. Proc Natl Acad Sci USA 93, 1443-8.

    Improvements and new features

    June 1997

    The database of human/mammalian-wide repeats was expanded 2.5 fold. Among the new additions are the (long) internal sequences of endogenous retroviruses.

    Databases of repeats from other species than primates, rodents or artiodactyls can now be screened, although the program is not optimized to do so and the quality of the databases is not at the same level.

    Through optimization of the cross_match searches, the program more sensitive and selective, especially with regard to detection of low complexity sequences and old LINE1 elements.

    The RepeatMasker output is now processed by a second script to create annotation ready for database submission. Some of the more obvious improvements in the output are (i) overlapping matches are generally resolved, (ii) LINE1 fragments are annotated with position numbers as in a full L1 element, and (iii) when an Alu or LINE1 is fragmented information from both or all fragments is used to assign a subfamily name.

    Alignments are shown without interruption by other cross_match output and in the order of appearance in the query sequence.

    A summary table has been added which shows, among other things, the repeat composition of the query sequence.

    September 1997

    - major expansion of the rodent libraries and significant update of the human libraries as well, especially in LINE1 elements.
    - scripts modified to accommodate new entries in databases
    - simple repeats masking optimized by including pentamers and using a more stringent matrix
    - several bugs fixed (e.g. sequences without repeats are now counted)
    - table now displays the parameters used

    June 1998

    - the program is more robust and accepts most 'almost but not quite fasta' format files
    - large sequences are analyzed in fragments of 100 kb to reduce the memory requirements of the program. Similarly files with very many sequence entries are divided up. You shouldn't notice any of this in the output files.
    - matrices are used that are optimal for the divergence level of the repeats to which the query is compared and the background nucleotide composition.
    - another big update of the human repeat databases.
    - the small RNA sequences have been corrected and expanded (all tRNAs should be there now)
    - the summary table now lists the amount of small RNA (pseudo)genes, simple repeats and low complexity DNA identified
    - close to perfect simple repeats, full-length shorter interspersed repeats and young LINE1 3' ends are temporarily excised from the sequence (in both human and rodent analysis) to allow better detection of any underlying repeats.
    - the "Skip simple, low complexity region masking" really skips all simple repeats now
    - alignments are shown in the orientation of the query sequence
    - among many bugs fixed is one involving sequence names including a number between parentheses

    December 1998

    This version uses the 1998 cross_match release. The difference for RepeatMasker is mainly in the complexity adjusted length of the matches that function as kernels for Smith Waterman alignments and the matrix dependent adjustment of the score for complexity of the alignment.

    The full description ('>') lines are now retained in the masked file.

    The .out file table is returned with flexible length columns allowing the full length of long query sequence names to be displayed. Optionally, the old fixed width table can still be obtained.

    Simple repeat and satellite masking has been improved again their annotation has changed a bit, most notably they are now all listed in the orientation of the query sequence

    Several new options are available:
    - A mRNA/EST option prevents false masking due to inappropriate matrix choice and low complexity matches to LINE1 elements in short GC rich regions like coding regions.
    - You can limit the masking to Alus when masking primate DNA
    - You can limit the masking to younger repeats by setting a maximum allowed divergence to the consensus sequence
    - The sequences identified as repeats can be returned in lower case (rest in capitals) rather than masked out by Ns or Xs.
    - You can set the background GC level (determining which matrices are used) overriding the program's calculations.

    Among bugs fixed since May 1998 are those responsible for distorted output for sequences with names ending in .seq and for sequences without a header line. Also, sequence files from PCs and Mac with hidden carriage returns are handled appropriately.

    April 1999

    All the command line options are now available on the web site.

    The default return format of the annotation file is changed, hopefully in a way that does not interfere with any type of parsing the width of the columns is now adjusted to the longest entry in that column, allowing query names to be spelled out in full, and usually leading to narrower tables.

    Arabidopsis, Drosophila, and grass repeat libraries were added other repeat libraries were updated.

    Three measures were taken to eliminate the (few) false positives:
    - Use of the actual average GC level of sequences in a batch file may sometimes lead to false masking (or failure to mask) in sequences that diverge largely from the average. Thus, by default, all batch files are now analyzed with the innocuous 43% matrices.
    - one entry, responsible for 90% of false masking in GC rich regions, is deleted from the 'tough L1' library.
    - the matrix used for identification of the most diverged sequences in very GC rich regions, based on too little data and too much extrapolation, was 'too easy' on the mismatches and has been adjusted.
    Thanks to these measures the 'mrna' option is not necessary and has been removed.

    A bug is fixed that led to (wildly) improper annotation for some sequences fully consisting of repeats (all bases masked). A series of lesser bugs were taken care of. New bugs were introduced, probably.

    For further information and to obtain a local copy go to the RepeatMasker Download Page.

    Institute for Systems Biology
    This server is made possible by funding from the National Human Genome Research Institute (NHGRI grant # RO1 HG002939).


    Voraussetzungen

    To use TopHat, you will need the following programs in your WEG:

    • bowtie2 and bowtie2-align (or bowtie)
    • bowtie2-inspect (or bowtie-inspect)
    • bowtie2-build (or bowtie-build)
    • samtools

    Because TopHat outputs and handles alignments in BAM format, you will need to download and install the SAM tools. You may want to take a look at the Getting started guide for more detailed installation instructions, including installation of SAM tools and Boost.

    You will also need Python version 2.6 or higher.


    How do you convert mtDNA sequences in FASTA to FSTAT format? - Biologie

    For the latest version, navigate to:

    Exploratory phylodynamics of early EBOV epidemic in Sierra Leone

    In this practical, we will re-analyse whole-genome EBOV sequences collected over the course of the 2013-2015 Ebola virus epidemic in Western Africa. The data and analysis were first described here:

    Details of the original analysis of these data can be found here

    In the course of this practical you will learn how to

    • load and view EBOV sequence data
    • estimate a phylogeny using neighbour-joining and maximum likelihood algorithms
    • root a phylogeny using root-to-tip regression and estimate a molecular clock
    • estimate time-scale phylogenies
    • conduct non-parametric phylodynamic analyses an estimate the effective population size over the course of the epidemic
    • extract and analyze 'meta-data' associated with each sequence such as the time of sampling and country of origin
    • carry out ancestral state estimation to infer the likely location of lineages over the history fo the epidemic.

    You will carry out this analysis on a random subset of the available sequences and your results will be unique. Make a note of the main results of your analysis:

    1. Estimate the reproduction number in Siera Leone in mid-2014
    2. Estimate when the epidemic peaked
    3. Estimate when the epidemic originated in humans
    4. Estimate the country or origin of the epidemic

    For these analyses, we'll use the ape package for manipulating sequence and tree data, the phangorn package for estimating phylogenies and doing ancestral state estimation, the treedater package for estimating a molecular clock, and the skygrowth package for phylodynamic analysis.

    All of these packages are on CRAN and can be installed using install.packages(. ) except for skygrowth which must be installed from github.

    If necessary, install the packages using

    Now we load the package as follows:

    Install and load skygrowth with the following:

    Loading and exploring the data

    The original analysis by Dudas et al. was based on 1610 whole EBOV genomes. We will do a fast exploratory analysis of a random subsample of these sequences.

    Let's load the multiple sequence alignment and inspect it:

    Now we will create a unique sub-sample of these sequences. Since your results will be based on a different sample of sequences, your results will likely differ from what is presented here. You can try re-running your analysis with different subsamples and options.

    Choose a 'seed' for random number generation distinct from the 2014 value used here (for example, your CID number). Make a note of this number. Your results will be reproducible with this seed.

    It's always a good idea to visually check your alignment, which is easily done using an external tool like seaview. If you like, you can also do this from within R using packages such as msaR . Note installation and visualization will take some time so you may skip this step.

    This should open a browser window where you will something like the following:

    Let's compute genetic and evolutionary distances between sequences. This computes the raw number of character differences between each pair of sequences:

    Note the option pairwise.deletion=TRUE , which causes missing data to be handled on a pairwise basis as opposed to masking sites across the entire alignment. Let's make a histogram:

    There is a lot of variation in distances, with some pairs differing by less than two characters. This is due to the short time frame over which the epidemic spread and over which samples were collected.

    Evolutionary distances and a neighbour-joining tree

    First, we will compute an evolutionary distance matrix for phylogenetic analysis. We will use the F84 nucleotide substition model, which is similar to the HKY model that several published studies have found to work well for EBOV. This is different than computing the raw number of differences between sequences that we looked in the last section. The evolutionary model accounts for differential rates of substitution between different characters and also accounts for reverse-mutations and saturation.

    Using the pairwise.deletion option tells the distance calculation to ignore sites that are missing in one or both sequences when comparing two sequences, but sites which may be missing in other sequences are still used.

    Now computing a neighbor-joining tree is simple with the following command:

    Note that there is Nein significance to the location of the root of this tree, and branch lengths show distances in units of substitions per site. We can plot an unrooted version with a scale bar:

    Maximum likelihood phylogeny

    First we convert the sequence data into a format recognized by phangorn :

    Then set the initial conditions for optimization:

    This tells the package to start from the neighbour-joining tree and estimate 4 categories of rate variation with an HKY substitution model and to estimate the proportion of sites in the alignment which are invariant.

    Now we can optimize the tree topology and substitution model parameters. These options specify which parameters should be optimized

    • optNni specifies that the tree topology will be optimized using nearest-neighbor interchange seearch
    • optBf specifies that the base frequencies (A,C,T or G) will be estimated
    • optQ specifies that the substitution rate parameters will be estimated
    • optGamma specifies that Gamma parameters for rate variation between sites will be estimated
    • optInv specifies that the proportion of sites which are invariant will be estimated

    Notiz: This optimization can take a couple of minutes.

    Let's see to what extent the optimized tree has higher likelihood than the initial neighbor-joining tree:

    In the original analysis by Dudas et al., a more complex substitution model was used which accounted for differences in codon positions as well as in the non-coding regions.

    To fit a molecular clock, we must use information about the time of each sample. Let's load the date of sampling for sequence. Note that the label for each sequence includes metadata regarding the province and country of origin and the time of sampling.

    We load the sample times in numeric format using the following command:

    Note the distribution of samples through time:

    Most samples were collected in the latter half of 2014 when peak incidence occurred.

    Now we can construct a time-scaled phylogenetic tree so that branches are in units of years and nodes correspond to TMRCAs. Let's start by placing the root of the tree on a branch that is likely to have the MRCA of the sample. One way to do this is to use the rtt command, which uses root-to-tip regression this selects the root position to maximise the variance in evolutionary distance explained by the tree.

    Lets do our own root-to-tip regression using the rerooted tree. You should find an almost linear trend between when evolutionary divergence and time that the sample was taken. This will also give us a rough estimate of the molecular clock rate.

    Does this look approximately linear? The slope of a linear regression line will have units of substitutions per site per unit time and can serve as a fast estimator for the molecular clock rate.

    The molecular clock rate is the slope:

    Estimates based on the state-of-the-art Bayesian methods place the rate at around .00124 substitions per site per year.

    Estimating times of common ancestry

    To estimate a tree with branch lengths in units of time (and TMRCAs), we will use the recently-developed treedater R package which is based on

    The treedater algorithm requires as input a tree with branches in units of substitutions, the sample times for each tree tip, and the length of the sequences used to estimate the tree. This package can estimate the root position if given an unrooted phylogeny, or we can re-use the estimated root position found with rtt . We use treedater like this:

    Note that this provides an estimate of the clock rate, the variation in clock rates, and the time of common ancestry. Does your estimated TMRCA correspond to when this epidemic originated in humans? The first documented case in humans from this epidemic was in early December 2013.

    We can do an improved root-to-tip regression which also shows estimated dates at the interior of the tree using this command:

    By default treedater does not provide confidence intervals for estimated dates and rates, but we can do this quickly using a parametric bootstrap procedure. Notiz: This will take a couple minutes to run.

    Does this confidence interval overlap with the earliest cases of EBOV in humans? This would be around 2013.95 in decimal format.

    Nonparametric phylodynamic estimation

    We will reconstruct the historical dynamics of effective population size, Ne(t), using the nonparametric skygrowth technique. Einzelheiten finden Sie unter

    This 'effective' size may correspond approximately to the number of infected hosts (although this assumption must be checked carefully ), and the growth rate of effective size can be used to estimate reproduction numbers.

    Because geographic structure can confound the relationship between Ne(t) and epidemic size, we will work with a subtree drawing only on lineages sampled from the best sampled country, Sierra Leone. The set of lineages with geocode 'SLE' can be found using

    Now we want to make a new tree where all lineages but these are 'pruned':

    Now we can estimate Ne(t) using Bayesian MCMC. HINWEIS This will take a couple minutes. While you wait, have a look at this figure and these data which show how many cases were reported to the WHO over time and in each country.

    Let's plot on the calendar time axis. According to WHO records, the peak number of cases in Sierra Leone (maximum number of cases per week) occurred on October 31, 2014. We include a vertical red line showing this time point.

    Does your estimated time of peak Ne match that date?

    We can also use these methods to get a rough idea of how the reproduction number changed through time, because the epidemic growth rate will sometimes be similar to the growth rate of Ne. If we assume that the EBOV infections last 21 days on average (including incubation and clinical phases) than we can say that hosts are removed at the annualized rate of approximately 365/21. Then we can visualize R(t) using this command:

    How does R(t) change through time? What was R(t) around the time the epidemic was growing rapidly in Sierra Leone (around 2014.5). Note that estimates may be very noisy and have large confidence intervals early on before rapid growth in Sierra Leone set in. How does this estimate of R(t) compare to other published values based on the early epidemic?

    Ancestral state estimation

    Here we will use parsimony to reconstruct the likely location of lineages using the rooted time-scaled phylogeny. The country of origin (Liberia, Guinea, and Sierra Leone) can be found in the 4th position of each taxon label:

    We can extract these geocodes using the strsplit command:

    We can tabulate how many sequences come from each country (Guinea, Liberia, and Siera Leone):

    Now we must put the geocodes in a phyDat format used in the phangorn package:

    Compute the ancestral states using

    And we can plot the states using the following:

    What country do you find at the root of the tree? The West African epidemic is though to have originated near Gueckedou, a town in Southern Guinea which is quite close to the borders of both Sierra Leone and Liberia. The proximity of the original outbreak to three international border is though to have compounded the epidemic. By the Summer of 2014 Ebola was circulating in all three countries.


    Schau das Video: Difference between FASTA and FASTQ file formats. How to make a fasta formatted file. (August 2022).