Information

Bewertungssequenz gegen Positionsgewichtungsmatrix

Bewertungssequenz gegen Positionsgewichtungsmatrix



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe eine Gewichtsmatrix der Länge 20 x 15 (Aminosäuren x Sequenzpositionen). Jedes Element meiner Gewichtsmatrix ist eine relative Wahrscheinlichkeit

Wenn ich eine Sequenz habe, die "AAPGTGASMHSGLLW" sagt, wie würde ich sie gegen die Matrix bewerten? Ich habe versucht, das Produkt der Wahrscheinlichkeiten entsprechend der Matrix zu nehmen, aber am Ende habe ich eine wirklich kleine Zahl

Irgendwelche Ideen?

Bearbeiten:

Betrachten Sie die einfache Matrix:

1 2 3 4 A 0,3 0,90 0,5 0,0001 B 0,2 0,05 0,4 0,2 C 0,5 0,05 0,1 0,8

Die beste Übereinstimmung ist mit einer Punktzahl von:

CAAC = 0,5 * 0,9 * 0,5 * 0,8 = 0,18

Wenn Sie den ersten Buchstaben in ein B anstelle von C ändern

Sie erhalten ein Spiel mit einer Punktzahl von:

BAAC = 0,2 * 0,9 * 0,5 * 0,8 = 0,072

Was für eine so kleine Änderung ein riesiger Unterschied ist… Dies ist bei meiner größeren Matrix noch schlimmer, da der Score leicht durch kleine Wahrscheinlichkeiten beeinflusst wird


Die Wahrscheinlichkeiten sind richtig. Sie müssen das Produkt nehmen (im Log-Bereich entspricht dies der Summe). Der Grund, warum die Wahrscheinlichkeit gering erscheint, ist, dass Sie vielleicht denken, dass die Punktzahl nahe 1 liegen sollte. Dies ist jedoch nicht der Fall. Um eine Punktzahl von 1 zu erhalten, muss die PWM an allen Positionen 1/0/0/0 haben und eine perfekte Übereinstimmung erzielen.

Womit sollten Sie also vergleichen? Normalerweise vergleichen die Leute dies mit einer Hintergrundverteilung, wobei die einfachste gleichmäßig ist, sodass die PWM überall 0,25 beträgt. In Ihrem Beispiel beträgt die Punktzahl in diesem Fall 0,25^4 = ~0,004 und das sollten Sie zufällig erwarten.

Aus diesem Grund betrachten die Leute normalerweise das Verhältnis zwischen der Punktzahl der PWM im Verhältnis zur Punktzahl für das Hintergrundmodell (und nehmen normalerweise den log2 davon), was in Ihrem Fall 0,18/0,004 = ~46 beträgt, also die Sequenz, die Sie erhalten haben ist 46-mal mehr, als Sie zufällig erwarten würden! Und für Ihr zweites Beispiel 0,072/0,004 = ~18-mal mehr als erwartet, das ist also immer noch hoch.

Konzeptionell vergleichen Sie zwei probabilistische Modelle, Ihre PWM und eine Hintergrund-PWM, und vergleichen die Wahrscheinlichkeit, Ihre beobachtete Sequenz entsprechend jedem von ihnen zu erhalten. Dies ist ein allgemein üblicher Ansatz für den Vergleich probabilistischer Modelle, auch wenn sie komplizierter sind.


Laut [dieser Seite][1] sollten Sie die Summe und nicht das Produkt nehmen:

Sobald ein Profil aus einer Reihe von funktionell verwandten Sites abgeleitet wurde, kann das Profil verwendet werden, um eine Abfragesequenz auf das Vorhandensein potenzieller Sites zu scannen. Normalerweise lässt man ein Fenster über die Länge der Matrix entlang der Sequenz laufen und summiert die Koeffizienten aus der Matrix, die jedem Nukleotid in jeder Position auf der Fenstersequenz entspricht. Formal wird die Bewertung einer Matrix M für eine Stelle s der Länge l (s = s1,… , sl und sk ist einer von {A, C, G, T}) berechnet als

$m_s=sumlimits_{j=1}^lM_{s_{lj}}$

Ich empfehle Ihnen dringend, den Rest der Seite zu lesen, der Autor Roderic Guigó ist eine Autorität auf diesem Gebiet.


Schau das Video: Paused Panorama Fabric Mod Overview (August 2022).