Information

Kommt die Zeichenfolge „… CATCAT… “ in der DNA von Felis catus vor?

Kommt die Zeichenfolge „… CATCAT… “ in der DNA von Felis catus vor?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

In Hofstadters Gödel, Escher, Bach: Ein ewiger goldener Zopf (GEB) erscheint folgende Behauptung:

… in der Art Felis catus, hat eine tiefe Sondierung gezeigt, dass es tatsächlich möglich ist, den Phänotyp direkt vom Genotyp abzulesen. Der Leser wird diese bemerkenswerte Tatsache vielleicht besser verstehen, wenn er den folgenden typischen Abschnitt der DNA von Felis catus:

… KATKATKATKATKATKATKAT… (OP-Hinweis: abgeschnitten, weil du es bekommst)

Ist das wahr? Eine flüchtige Suche nach der DNA von Felis catus gibt mir diese Arbeit von Lopez, Cevario und O'Brien aus dem Jahr 1996 und die angegebene Sequenz erscheint nicht - es gibt einige Fälle von "CAT", aber nicht genug wiederholt, um es so bemerkenswert zu machen, wie es in GEB behauptet wird.

Ich kenne nicht genug Biologie, um die Richtigkeit dieser Behauptung zu beurteilen. Einige Punkte, die ich in Betracht ziehe, sind:

  • GEB ist voller Wortspiele. Der Ton dieses Teils des Textes klingt für mich jedoch nicht danach.
  • GEB wurde um 1978 geschrieben/veröffentlicht. Das von mir verlinkte Papier - das laut Google von etwa 236 anderen zitiert wurde - wurde 1996, weit nach GEBs Zeit, veröffentlicht. Wenn mein Eindruck, dass die Arbeit von Lopez et al. bedeutsam ist, weil es das erste Mal ist Felis catus sequenziert wurde, dann kann Hofstadter nichts davon wissen, als er GEB schrieb. Andererseits weiß ich nicht genug Biologie, um in der Arbeit von Lopez et al. einige Nuancen zu haben, die ich vermisse (d.
  • GEB verfügt über Referenznotizen und Bibliographie und es wird keine Referenz zitiert, um diese Behauptung zu untermauern. GEB versucht jedoch nicht, eine strenge wissenschaftliche Arbeit zu sein, und die Referenzen werden nur dann mehr genannt, wenn Hofstadter andere Werke direkt zitiert, während die Bibliographie eine Liste von Lektüren ist, die der Leser in Bezug auf die Hauptthese des Buches überprüfen möchte .

Sind Katzen also Rekursionen ohne Basisfälle?


Die Felis catus Genom wurde seit 1996 ziemlich viel veröffentlicht, kommentiert und aktualisiert, einschließlich von so genannten intergenischen Regionen, die im Grunde genommen Gerüste und andere Strukturen sind, zusammen mit vielleicht einigen nicht identifizierten Genen, Pseudogenen, regulatorischen Sequenzen usw. Im Grunde genommen so ziemlich das gesamte Die DNA-Sequenz ist jetzt verfügbar, nicht nur die Gensequenz des mitochondrialen Genoms, die in dem von Ihnen zitierten Artikel von 1996 veröffentlicht wurde. Mitochondrien sind die Kraftwerke der Zelle, aber nur eine Organelle, die zufällig ihre eigene DNA enthält; sie sind von der chromosomalen DNA im Zellkern getrennt. All dies ist kostenlos (wenn Sie wissen, wo Sie suchen müssen) im National Center for Biotechnology Information (NCBI) erhältlich, das Teil der National Library of Medicine (NLM) der National Institutes of Health (NIH) in den Vereinigten Staaten ist. Andere Sites sind ebenfalls verfügbar, wie Ensembl, ein gemeinsames Projekt zwischen dem European Bioinformatics Institute (EMBL-EBI), das Teil des European Molecular Biology Laboratory (EMBL) ist, und dem Wellcome Trust Sanger Institute (WTSI). Beide Institute befinden sich auf dem Wellcome Trust Genome Campus in Großbritannien.

Also zum Genom. Genomische Sequenzen können auf verschiedene Weise durchsucht werden, je nachdem, wonach Sie suchen, aber die gebräuchlichste Methode ist die Verwendung von BLAST, dem Basic Local Alignment and Search Tool. Wie der Name schon sagt, verwendet es Sequenzen als Eingabe und sucht nacheinander, um die Ergebnisse mithilfe bestimmter Algorithmen, die der Benutzer definieren und optimieren kann, bestmöglich abzugleichen. Die BLAST-Webschnittstelle zum Katzengenom ist da. Sie müssen sich hier um keine der anderen Optionen kümmern, mit Ausnahme des Felds "Abfragesequenz eingeben". Das FASTA-Format verwendet nur die aus einem Buchstaben bestehenden Abkürzungen für Nukleotide (AGCT), die alle aneinandergereiht sind.

Das Genom, das wir suchen, stammt von einer Abessinierkatze namens Cinnamon:

Zimt, die Katze, die als endgültiges genetisches Modell für alle Katzen im Katzengenomprojekt ausgewählt wurde. Bild mit freundlicher Genehmigung des College of Veterinary Medicine der University of Missouri.

Zu Beginn habe ich eingetipptCATCATCATCATund zu meiner Überraschung bekam ich über 200 Treffer zurück, die jedes Chromosom der Katze abdecken. Also habe ich die Länge des Eingangs auf 8 . verdoppeltKATZEs, und erhielt die gleiche Ergebnismenge zurück. Leider 12KATZEs waren zu viele (und wirklich, es ist zu viele), also arbeitete ich rückwärts.

Die endgültigen Ergebnisse sind hier (sorry, Link läuft am 13.10.16 ab. Um sich zu regenerieren, gehen Sie zum BLAST-Link oben und geben Sie einCATCATCATCATCATCATCATCATCATCAT). Anscheinend ist die Volksweisheit falsch, und Felis catus Chromosomen enthalten wirklich 10KATZEs jeder, einer mehr, als für seine 9 Leben benötigt wird. Warum das so ist, ist noch nicht bekannt, aber vermutlich arbeiten Wissenschaftler daran.


Während Matts Antwort vollkommen richtig ist, ist es wichtig zu beachten, dass die Sequenz $(CAT)_n$ in der DNA nicht auf Katzen beschränkt ist und Sie erwarten würden, sie überall zu finden.

Zum Beispiel das Durchsuchen des menschlichen Genoms nach dem gleichen 3-Tandem-RepeatKATZESequenz führt auch zu vielen Treffern.

Dies liegt daran, dass Sie im Wesentlichen nach kurzen Tandem-Wiederholungen auf dem DNA-Strang suchen. Diese Wiederholungen können in jedem Organismus vorkommen, und daher beim Finden vonKATZETeilstrings in der DNA der Katze können amüsant sein, sie sind nichts Besonderes für Katzen (oder andere Tiere) und sind nur das Ergebnis eines Artefakts der Benennung der Basen, die zufällig mit dem Namen des Tieres übereinstimmen.


Um die anderen Antworten zu ergänzen, berechnen wir die Wahrscheinlichkeit, dass CATCATCATCAT in einer zufälligen DNA-Sequenz auftritt.

Die Länge der Katzen-DNA beträgt 2,7 Gibasen (Quelle) und es gibt 4 mögliche Basen. Für 1 CAT gibt es 3 Basen, was die erwartete Anzahl von Vorkommen in 2,7 Gb ergibt als $frac{2,7 cdot 10^9}{4^3} approx 42,188,000$

Wiederholen der Berechnung für längere Sequenzen ergibt:

  • 1 CAT: 42 188 000 Vorkommen
  • 2 CAT: 659 180 Vorkommen
  • 3 CAT: 10 300 Vorkommen
  • 4 CAT: 160 Vorkommen
  • 5 CAT: 2 Vorkommen
  • 6 CAT: 0 Vorkommen

Es gibt also tatsächlich viel mehr KATZEN in Katzen, als man durch reinen Zufall erwarten könnte.


Es gibt hier also schon ein paar gute Antworten, aber anscheinend hat niemand einen interessanten Teil Ihrer Frage angesprochen: GEB wurde 1978 veröffentlicht und das Genom von Felis catus wurde erst viele Jahre später sequenziert… also woher wusste er das?

Die Antwort von jpa zeigt, dass Sie nur etwa fünf CATs erwarten würden - nicht zehn, und die Chance, zehn zu bekommen, ist astronomisch gering. Ich erweiterte seine Tabelle, um die deprimierend geringe Chance zu zeigen, durch perfekten Zufall zehn zu bekommen:

5 CAT: 2,5 pro Felis catus-Genom erwartet 6 CAT: 0,04 erwartet 7 CAT: 0,00061 8 CAT: 9,54 e-6 9 CAT: 1,49 e-7 10 CAT: 2,32 e-9

Das bedeutet, dass Sie erwarten würden, 10 CATs ungefähr 0,00000000232 Mal pro zufälligem Genom zu finden. Wie um alles in der Welt ist das Genom von Felis catus mit zehn KATZEN darin gelandet? Und woher wusste Hofstadter, dass es so viele CATs geben würde?

Wie sich herausstellte, wird diese wiederholte Sequenz von wenigen Basenpaaren als "kurze Tandemwiederholung" oder "Mikrosatellit" bezeichnet. Dies ist der Fall, wenn eine Sequenz mit 2–5 Basenpaaren mehrere Male wiederholt wird, normalerweise zwischen 5 und 50 Mal.

Um es an dieser Stelle noch einmal zusammenzufassen: Wir wissen, dass die Wahrscheinlichkeit, diese 10-CAT-Sequenz zu erhalten, etwas wahrscheinlicher ist, aber da wir nur auf das Felix catus-Genom beschränkt sind, ist uns definitiv keine 10xCAT-Sequenz garantiert. Wie also hat Hofstadter es so formuliert, als ob es eine Tatsache wäre?

Wie sich herausstellt, ist eine kritische Eigenschaft von STRs oder kurzen Tandem-Wiederholungen, dass Mutationen in diesen Bereichen viel häufiger vorkommen, und sie repräsentieren einen großen Teil der genetischen Variation zwischen einzelnen Mitgliedern einer Art. Diese Entdeckung wurde mit dem Aufkommen der DNA-Sequenzierung gemacht, die nur wenige Jahre vor der Veröffentlichung des Buches begann. Daher können wir bei einer großen Population nicht-identischer Katzen (die wir haben) mit Sicherheit sagen, dass die Wahrscheinlichkeit für eine 10xCAT-Sequenz extrem hoch ist.

Hofstadters Genie kombiniert perfekt Mathematik (nur 2,32e-9 erwartete Sequenzen pro Genom) mit Biologie (Mikrosatelliten erhöhen die Chance, diese Sequenz zu finden) mit forensischer Genetik (in einer Population derselben Art weisen Individuen wahrscheinlich viele STR-bezogene Unterschiede auf .) All dies zusammengenommen gab Hofstadter, was er brauchte, um selbstbewusst zu sagen: Ja, CATCATCATCATCATCATCATCATCATCAT existiert mit ziemlicher Sicherheit in der Felis catus-DNA. Solche Kleinigkeiten sind der Grund, warum Gödel, Escher, Bach mein Lieblingsbuch aller Zeiten ist.


Schau das Video: CatCat - Aurinkotanssija (Kann 2022).