Información

¿El número total de mutaciones en diferentes ramas del árbol genético es independiente o no?

¿El número total de mutaciones en diferentes ramas del árbol genético es independiente o no?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estaba leyendo el artículo de Tajima de 1989 sobre su prueba de neutralidad.

Tajima, Fumio. "Método estadístico para probar la hipótesis de la mutación neutra por polimorfismo de ADN". Genetics 123.3 (1989): 585-595.

Aquí está la pregunta: Supongamos que tenemos tres secuencias etiquetadas $ C, D, E $, y su genealogía sigue a $ { {CD } E } $ (es decir, $ C $ y $ D $ se fusionan primero antes de fusionarse con $ E $). Sea $ B $ el antepasado común más reciente de $ C $ y $ D $.

Ahora, deje que la variable aleatoria $ k_ {ij} $ sea el número de diferencias de nucleótidos entre la secuencia $ i $ y la secuencia $ j $, entonces Tajima muestra que $ k_ {BC} $ y $ k_ {BD} $ tienen un valor distinto de cero covarianza.

Pero, ¿no son las mutaciones en la rama $ BC $ independientes de las mutaciones en la rama $ BD $? Estaba pensando que el número total de mutaciones en la marca $ BC $ y $ BD $ son dos variables independientes distribuidas de forma idéntica, por lo que $ k_ {BC} $ y $ k_ {BD} $ son independientes, entonces, ¿por qué tienen una no covarianza cero?

============ Actualización =============

Ahora tengo algunas ideas básicas, pero no he encontrado la respuesta completa.

La definición de Tajima de $ k_ {ij} $ no es independiente del tamaño de la muestra ni por un tiempo de coalescencia fijo. (Véase su artículo de 1983: Tajima, Fumio. "Relación evolutiva de las secuencias de ADN en poblaciones finitas". Genetics 105.2 (1983): 437-460.)

Por ejemplo, en un tamaño de muestra de 3, si elige 2 individuos y condiciona que los dos se fusionen primero, su tiempo de fusión será el siguiente: begin {align *} mathbb {P} (t = T) = p ( T) = frac {3} {2N} e ^ {- frac {3} {2N} T} end {align *} Ahora condicionando en un tiempo de coalescencia fijo $ t $, el número de mutaciones bajo los sitios infinitos El modelo en cada rama, ya sea de $ B $ a $ C $ o de $ B $ a $ D $, seguirá una distribución de Poisson con el parámetro $ mu t $, donde $ mu $ es la tasa de mutación por secuencia por generación. Sea esta variable aleatoria de Poisson $ xi_t $ en la rama $ BC $ y $ eta_t $ en la rama $ BD $. Entonces begin {align *} k_ {BC} = sum_ {t = 0} ^ { infty} xi_tp (t) k_ {BD} = sum_ {t = 0} ^ { infty} eta_tp (t) end {align *} Si solo consideramos la suma parcial de la serie anterior, begin {align *} k_ {BC} ^ {(n)} = sum_ {t = 0} ^ {n} xi_tp (t) k_ {BD} ^ {(m)} = sum_ {t = 0} ^ {n} eta_tp (t) end {align *} luego $ k_ {BC} ^ {(n) } $ y $ k_ {BD} ^ {(n)} $ claramente tienen una covarianza cero, porque $ xi_t $ y $ eta_t $ son variables de Poisson independientes, por lo tanto begin {align *} mathbb {E} (k_ {BC} ^ {(n)} k_ {BD} ^ {(n)}) & = mathbb {E} ( sum_ {t = 0} ^ {n} xi_tp (t) sum_ {t = 0 } ^ {n} eta_tp (t)) = sum_ {i = 0} ^ {n} sum_ {j = 0} ^ np (i) p (j) mathbb {E} ( xi_i eta_j) = sum_ {i = 0} ^ {n} sum_ {j = 0} ^ np (i) p (j) mathbb {E} xi_i mathbb {E} eta_j & = mathbb {E } k_ {BC} ^ {(n)} mathbb {E} k_ {BD} ^ {(n)}, end {align *} por lo que su covarianza es cero.

Pero como $ n to + infty $, cómo $ k_ {BC} ^ {(n)} k_ {BD} ^ {(n)} $ converge a $ k_ {BC} k_ {BD} $ es cuestionable. No convergerá uniformemente a $ k_ {BC} k_ {BD} $ porque, de lo contrario, primero podemos calcular la expectativa y luego tomar el límite, lo que nos da una covarianza cero. Tajima no nos mostró explícitamente cómo calculó la covarianza sumando tres series infinitas (Línea 7, pág. 448, artículo de 1983). Intenté trabajar directamente en esa serie pero fallé en la última suma. Sin embargo, su resultado es correcto, espero que alguien pueda dar alguna pista sobre por qué existe una correlación inherente entre estas variables aleatorias aparentemente independientes.

======= Actualización: se ha publicado una explicación simple ==============


Aquí hay una respuesta simple a mi pregunta. La razón por la que dos números de mutaciones totales acumuladas en dos ramas divergentes no son independientes entre sí es porque experimentan la misma cantidad de tiempo de coalescencia.

Mientras que los procesos de mutación estacionaria de Poisson están Independientemente entre sí, siempre que ocurran en diferentes ramas de una genealogía, es probable que produzcan un número similar de mutaciones si dos de estos procesos ocurren juntos durante el mismo período de tiempo. Por lo tanto, la parte distinta de cero de la covarianza entre $ k_ {BC} $ y $ k_ {BD} $ no proviene de los propios procesos de mutación, sino del tiempo de coalescencia compartido $ T $.


Ver el vídeo: What happens when your DNA is damaged? - Monica Menesini (Agosto 2022).