Información

Módulo de análisis Ka / Ks (dN / dS) para Python?

Módulo de análisis Ka / Ks (dN / dS) para Python?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

De este artículo de wiki:

En genética, la Relación Ka / Ks (o ω, dN / dS), es la relación entre el número de sustituciones no sinónimas por sitio no sinónimo (Ka) y el número de sustituciones sinónimas por sitio sinónimo (Ks), que se puede utilizar como indicador de la acción de presión selectiva en un gen que codifica una proteína.

Pregunta:

¿Hay módulos / paquetes disponibles en Pitón por hacer análisis de Ka / Ks? Deseo llevar a cabo un análisis de Ka / Ks de gen completo y luego tal vez un análisis de Ka / Ks de "nivel de codón" (es decir, dentro del gen a través de una ventana deslizante).


¿Conoce BioPython?

Aquí, en otro sitio web, alguien ya hizo esta pregunta y Brad Chapman proporcionó una respuesta bastante agradable. Él da funciones ya escritas para realizar este tipo de análisis (personalmente no he probado los códigos).

En Perl hay Bio :: Align :: DNAStatistics. Puede adaptarlo a Python.

Esto también puede resultar útil.

Creo que se te ofrecen muchas posibilidades. Puede revisar algunos otros haciendo una búsqueda en Google con las palabras clavesinónimo,no sinónimoyBioPython.


aBSREL (adaptivo Brancho-Site Random miefectos Likelihood) es una versión mejorada de los modelos de "sucursales" de uso común, que se utilizan para probar si se ha producido una selección positiva en una proporción de sucursales. Como tal, aBSREL modela heterogeneidad tanto a nivel de sitio como a nivel de rama. aBSREL, sin embargo, no prueba la selección en sitios específicos. En cambio, aBSREL probará, para cada rama (o rama de interés) en la filogenia, si una proporción de sitios ha evolucionado bajo selección positiva.

aBSREL se diferencia de otras implementaciones de modelos de sucursales al inferir el número óptimo de clases para cada sucursal. Por ejemplo, el enfoque anterior de sucursales de HyPhy (BS-REL) asumía tres clases de tarifas para cada sucursal y asignaba cada sitio, con cierta probabilidad, a una de estas clases. aBSREL, por el contrario, reconoce que diferentes ramas pueden presentar patrones evolutivos más o menos complejos y, por lo tanto, pueden ser mejor modeladas por más o menos clases. Específicamente, aBSREL usa AICC (muestra pequeña AIC) para inferir el número óptimo de clases de tarifas para cada rama.

Una vez que aBSREL se ajusta al modelo adaptativo completo, se realiza la prueba de razón de verosimilitud en cada rama y se compara el modelo completo con un modelo nulo donde no se permite que las ramas tengan clases de tasa de.

aBSREL se puede ejecutar en dos modos:

  • Pruebe una hipótesis específica a priori seleccionar un conjunto de ramas "en primer plano" para probar la selección positiva.
  • Realice un análisis exploratorio en el que se analicen todas las ramas para una selección positiva. En este escenario, los valores p en cada rama deben corregirse para múltiples pruebas (usando la corrección de Holm-Bonferroni). Debido a múltiples pruebas, el enfoque exploratorio tiene un poder mucho menor en comparación con el otro enfoque.

los Bayesian GRAMORaphical METROEl método odel (BGM) es una herramienta para detectar interacciones coevolutivas entre posiciones de aminoácidos en una proteína. Este método es similar al método de "sustituciones correlacionadas" descrito por Shindyalov et al. 1994, en el que los eventos de sustitución de aminoácidos se asignan a las ramas del árbol filogenético. BGM usa un método similar a SLAC, donde los eventos de sustitución de aminoácidos se mapean en el árbol a partir de la reconstrucción ancestral bajo máxima probabilidad conjunta para un modelo dado de tasas de sustitución de codones.

Una vez que se han mapeado las sustituciones de aminoácidos, se requiere que el usuario especifique un criterio de filtrado para reducir el número de sitios de codones en la alineación que se va a analizar. Este es un paso importante porque el número de modelos gráficos (redes) aumenta más rápido que exponencialmente con el número de variables. No desea tener muchos más sitios de codones que secuencias (observaciones) en la alineación. Además, dado que el análisis de BGM se basa esencialmente en una serie de pruebas en tablas de contingencia 2x2 (que comprenden la presencia / ausencia de sustituciones en las ramas), generalmente debe evitar incluir sitios de codones donde solo se mapeó una sola sustitución de aminoácidos en el árbol.

Un modelo gráfico bayesiano (red bayesiana) es un marco probabilístico del campo de la inteligencia artificial que permite a una máquina generar una representación de un sistema complejo que se compone de un número desconocido de dependencias condicionales (asociaciones estadísticas) entre un gran número de variables. Estas dependencias comprenden el estructura de red. Este enfoque es útil porque estas asociaciones se evalúan en el contexto completo de la distribución de probabilidad conjunta; por ejemplo, no es necesario filtrar asociaciones significativas para ajustar las comparaciones múltiples.

BGM utiliza un método Monte Carlo de cadena de Markov para generar una muestra aleatoria de estructuras de red a partir de la distribución posterior. Debido a que el espacio de todas las estructuras de red posibles es demasiado extenso, utilizamos un método MCMC descrito por Friedman y Koller, que colapsa este enorme espacio agrupando estructuras en subconjuntos definidos por una jerarquía de nodos. Esto da como resultado un espacio más compacto donde la distribución posterior tiene mejores propiedades de convergencia.


Fondo

A través de los genomas tumorales, la distribución de mutaciones somáticas sinónimas (SSM) es heterogénea y comúnmente se piensa que refleja las diferencias en la transcripción, el tiempo de replicación, el estado de la cromatina o la tasa de reparación del ADN [1, 2, 3, 4, 5]. Las mutaciones sinónimas que inactivan los supresores de tumores [6, 7] pueden seleccionarse positivamente. Esto contrasta con las observaciones dentro de las poblaciones de mamíferos en las que algunas mutaciones sinónimas se encuentran típicamente bajo selección negativa [8,9,10,11] y causan enfermedades [12,13,14,15]. Se desconoce si esta selección negativa común en mutaciones sinónimas también ocurre dentro de los tumores. Si es así, entonces la suposición común de que la tasa sinónima local es una estimación no sesgada de la tasa de mutación local requeriría una reevaluación. Esto es importante, ya que la identificación de las mutaciones impulsoras se hace comúnmente por referencia a la tasa local sinónima como un medio para excluir la posibilidad de una tasa de mutación localmente alta [2].

Estimaciones recientes sugieren que entre el 25% y el 45% [16], 30% [17],

El 60% [18] o el 77% [19] de las mutaciones puntuales exónicas, incluidas las mutaciones sinónimas, conducen a la interrupción del empalme. Las mutaciones que afectan el empalme tienden a ser inmediatamente en el sitio de empalme o dentro de aproximadamente 70 pb de un extremo de exón [20] donde los potenciadores de empalme exónico están especialmente enriquecidos [21] y evolutivamente restringidos [8, 9, 22, 23]. Como las mutaciones sinónimas pueden interrumpir el empalme, y lo hacen comúnmente, planteamos la hipótesis de que las mutaciones sinónimas también estarán bajo selección purificadora en los sitios relacionados con el empalme en los tumores. De acuerdo con esta hipótesis, una proporción significativa de mutaciones somáticas en los extremos exónicos dan como resultado la retención de intrones [24] y los cánceres se asocian con mayores tasas de empalme alternativo [25, 26], aunque esto se debe en parte a cambios en el perfil de ribosoma proteínas de unión [27]. Aquí, entonces, buscamos probar la hipótesis de que las mutaciones sinónimas que afectan el empalme están sujetas a una selección purificadora generalizada en los tumores.


Resultados y discusión

De-novo conjunto de transcriptomas del Lolium-Festuca complejo

Nos enfocamos en generar ensamblajes de transcriptomas para cuatro especies dentro del Lolium-Festuca complejo. Las lecturas se corrigieron con la herramienta ALLPATHS-LG [30] y se ensamblaron con el software Trinity [31] para producir conjuntos de transcriptomas que variaban en número de transcripciones entre 52,166 y 72,133 después del filtrado de calidad para transcripciones de soporte de baja lectura (Tabla 1). La distribución de la longitud de la transcripción es muy similar entre las cuatro especies (Figura 1) y, en todos los casos, una gran parte del conjunto está contenida en transcripciones que tienen más de 1000 pb de longitud. Hemos adoptado varios enfoques para evaluar la calidad de cada ensamblaje y determinar qué tan comparables son los cuatro ensamblajes. Primero, identificamos qué transcripciones de tres especies estrechamente relacionadas (B.distaquión, O. sativa y T. aestivum) comparten la mayor similitud de secuencia con las transcripciones de los cuatro Lolium-Festuca especies complejas. Luego determinamos cuánta superposición había entre la transcripción de nuestros ensamblajes de novo y la transcripción de las especies relacionadas. Una alta proporción de las transcripciones se puede alinear completamente (100%) o casi completamente (80%) con las transcripciones de las especies relacionadas (Tabla 2). El mayor número de aciertos se encontró en el conjunto de genes del trigo, el pariente más cercano en esta comparación. En segundo lugar, utilizamos la tubería CEGMA [32] para evaluar la integridad de nuestros ensamblajes. Esta es una herramienta que evalúa la presencia y cobertura de un conjunto de 248 genes eucariotas centrales extremadamente conservados (CEG). La herramienta se utiliza habitualmente para evaluar conjuntos genómicos, sin embargo, también se ha utilizado para evaluar conjuntos de transcriptomas [33, 34]. El porcentaje de CEG completos osciló entre 88,71 y 95,56, y el porcentaje de CEG parcialmente completos osciló entre 94,76 y 97,58 (Tabla 3). El número promedio de ortólogos por CEG y el% de CEG detectados que tenían más de 1 ortólogo fueron similares en las cuatro especies. Nuestros resultados apuntan a conjuntos de transcriptomas que reflejan una parte representativa de la complejidad del transcriptoma y son comparables entre las cuatro especies.

Gráfico de distribución de tallas. Un gráfico de barras verticales de la distribución de la longitud de los fragmentos de ensamblaje del transcriptoma en las especies analizadas. El eje X representa los contenedores de rango de longitud, el eje Y es la cantidad de transcripciones presentes en cada contenedor.

Predijimos secuencias de codificación de proteínas de nuestros conjuntos de transcriptomas utilizando Transdecoder [31], y el número de proteínas predichas osciló entre 30.182 y 39.981. Luego, observamos el porcentaje de proteínas predichas a partir de transcripciones completas, es decir, tener presentes las UTR de 3 'y 5'; sus números oscilaron entre 10.680 y 16.850. Se han asignado dominios pfam para entre el 54,82 y el 60,23% de las proteínas de cada especie. Se predijo que alrededor del 4% de las proteínas tenían péptidos señal y alrededor del 15% tenían hélices transmembrana. El número de transcripciones con asignación de términos GO estuvo entre 54,8% y 60,8% (Tabla 4). Se proporciona un informe de anotación funcional para cada especie en Archivo adicional 1: Tabla S1, Archivo adicional 2: Tabla S2, Archivo adicional 3: Tabla S3 y Archivo adicional 4: Tabla S4.

Análisis comparativo de familias de genes

Una forma de comprender las diferencias entre las especies relacionadas a una escala de todo el genoma es comparar y encontrar contrastes en todo el complemento genético de cada especie. Los mejores golpes BLAST recíprocos entre genes dentro de una sola especie sugieren que los genes son parálogos. Los mejores éxitos BLAST recíprocos entre genes de diferentes especies sugieren que los genes son ortólogos, y esta estrategia se utiliza ampliamente para generar pares ortólogos [35]. Utilizamos OrthoMCL [36] con el fin de calcular clusters ortólogos para todas nuestras proteínas predichas de las cuatro especies. Filtramos proteínas para el péptido más largo predicho a partir de una única transcripción representativa por locus, con el fin de evitar sesgos en la creación de los grupos ortólogos. Generamos 15.930 grupos, asignando 57.822 (76,59%) a grupos de tamaños de 2 a 176 proteínas. El número de proteínas contenidas en todos los grupos para cada especie varió entre 14.161 y 14.835.

La mayoría de las proteínas se encuentran en grupos que contienen genes de al menos dos especies, con 8.644 familias de genes compartidas entre las cuatro especies (Figura 2). El número de grupos únicos (específicos de especies) es relativamente bajo, lo que no es sorprendente si se considera que las especies analizadas están separadas por distancias evolutivas muy pequeñas. L. multiflorum y L. m. Westerwoldicum tienen la menor cantidad de proteínas específicas de especie y muchas secuencias de proteínas que se comparten solo entre estas dos. Una vez más, esto no es sorprendente porque L. m. Westerwoldicum es una "especie" derivada de L. multiflorum mediante la cría selectiva por anualidad [37]. De las familias de genes identificadas como únicas, dos proteínas predichas de F. pratensis muestran una alta identidad de secuencia con un homólogo de VRN2 ZCCT2-A2 de T. urartu [B8X8J1]. El VRN2 tiene un papel importante en la vía de vernalización / floración, al evitar la floración de la planta a menos que haya experimentado un período de temperaturas frías y / o días cortos [38]. Si hay un período frío, el VRN2 se regula a la baja y permite la expresión del gen FT1, que promueve la floración [39,40]. F. pratensis es una especie perenne con predominantemente un fuerte requisito de vernalización [41]. Todas las demás especies analizadas son de tipo semestral o anual y tienen facultativa (L. multiflorum) o ningún requisito de vernalización (L. m. Westerwoldicum y L. temulentum [42]). Se tomaron muestras de RNA-seq de plantas no vernalizadas y, por lo tanto, no es sorprendente que se haya identificado VRN2 en el ensamblaje de transcrtipomas de F. pratensis. los Lolium las especies sin un requisito de vernalización no tienen la transcripción VRN2 presente en sus ensamblajes. Una alineación explosiva de los identificados Festuca La proteína contra los otros transcriptomas no reveló impactos significativos. Ninguna de las lecturas originales de las otras especies se alinea con la transcripción de VRN2 predicha, lo que confirma que la transcripción de VRN2 no está presente en los conjuntos de datos de RNA-seq de especies no perennes. Sabemos por otros estudios que VRN2 se expresa en una L. perenne que tiene un fuerte requisito de vernalización [43]. Se ha demostrado que la ausencia de expresión de VRN2 permite la inducción de FT y la floración en los cereales estrechamente relacionados [44,45]. La pérdida de función de VRN2 en el trigo da como resultado plantas que no requieren vernalización para florecer, y es el locus genético responsable de distinguir los tipos de trigo de primavera e invierno [46]. Nuestros resultados sugieren que VRN2 es un gen clave para diferenciar las especies que requieren vernalización y no vernalización dentro de la Lolium-Festuca complejo. Otras proteínas identificadas como especies únicas incluían proteínas de resistencia a enfermedades para F. pratensis, Transportador ABC C para L. multiflorum, parte de un complejo de ubiquitina ligasa para L. m. Westerwoldicum y ubiquin para L. temulentum (Cuadro 5).

Distribución de grupos ortólogos. El diagrama de Venn muestra la distribución de grupos ortólogos compartidos y divergentes de un análisis OrthoMCL de Lolium-Festuca proteomas complejos, basados ​​en un conjunto de datos no redundantes. Los números en cada división muestran la cantidad de grupos para cada combinación.

Análisis de clusters con similitud de secuencia alta y baja

La identidad media de las secuencias en los grupos OrthoMCL indica el nivel de similitud entre las proteínas que pertenecen a ese grupo. La identidad de secuencia promedio combinada (denominada% id) de todas las familias de proteínas fue del 91,61%. 747 familias contenían proteínas altamente conservadas, y su% id era igual a 100. 2.056 familias tienen un% id inferior al 80%, constituyendo grupos menos conservados. Utilizando la base de datos DAVID [47] hemos analizado qué términos de anotación funcional están sobrerrepresentados en los grupos con diferentes niveles de identidad de secuencia porcentual. Los términos GO Biological Process, INTERPROSCAN y KEGG Pathway se han utilizado para la anotación. De las proteínas de los grupos que tienen una identidad del 100%, las secuencias 513 podrían coincidir en la base de datos DAVID. Se han agrupado en 45 grupos enriquecidos para los términos del proceso biológico GO. Las clases más abundantes de términos enriquecidos incluyen respuesta al estrés abiótico, ubiquitinación, metabolismo del fósforo, cadena de transporte de electrones, localización de proteínas, respuesta a estímulos orgánicos y hormonales, regulación positiva de la transcripción, metabolismo de carbohidratos, ciclo celular y ciclo celular meiótico. Los términos de la vía KEGG enriquecida incluían metabolismo de purina y pirimidina, metabolismo de piruvato, glucólisis / gluconeogénesis, fijación de carbono, biosíntesis de hormonas vegetales, terpenoides, esteroides y alcaloides, y ciclo del citrato. Los dominios INTERPRO enriquecidos se relacionaron con ubiquitina, proteína quinasas, GTPasas, ATPasas, manos EF y helicasas de ADN / ARN. Los genes responsables de términos como procesos metabólicos básicos relacionados con la biosíntesis y degradación, la actividad transcripcional y de traducción, la síntesis de proteínas y el destino y la transducción de señales se encuentran entre los más conservados en las plantas [48]. Lo mismo ocurre con los genes implicados en la maquinaria básica del ciclo celular [49].

Las familias con un% id bajo representan proteínas con una conservación de secuencia menos restringida, con posibles copias múltiples que permiten una selección más relajada. Para las familias que tienen menos del 80% de ID, hemos identificado 1,548 ID utilizando DAVID, que se agrupan en 90 grupos enriquecidos para los términos del Proceso Biológico de GO. Los grupos con las puntuaciones de enriquecimiento más altas consistieron en proteínas relacionadas con la fosforilación, vía de señalización de la proteína receptora ligada a enzimas, respuesta a la radiación, estímulo lumínico y abiótico, ubiquitinación de proteínas, proteolisis y procesos catabólicos de proteínas, respuesta a estímulos orgánicos y hormonales, transporte de iones, desarrollo de raíces , procesos metabólicos de nucleótidos y respuesta al estímulo hormonal. Se identificaron tres grupos de vías de KEGG enriquecidas, relacionadas con el metabolismo del metano, cianoaminoácido y glicina, serina y treonina, biosíntesis de fenilopropandoide y gluconeogénesis, biosíntesis de alcaloides y terpenoides. Se han enriquecido 64 grupos para dominios INTERPRO, con diez proteínas quinasas, transportadores ABC, ubiquitina, ATPasas, dedos de zinc, transportadores de iones sulfato, helicasas de ADN / ARN, manos EF, dominios similares a EGF y dominios PAS. La descripción completa de la anotación del proceso biológico GO está disponible en el archivo adicional 5: Tabla S5 y el archivo adicional 6: Tabla S6.

Análisis filogenético basado en familias de genes ortólogos

La taxonomía exacta de la Lolium-Festuca especies complejas es complicado e históricamente no completamente acordado, con preguntas sobre la relación entre diferentes Loliums así como el origen de la especie. El genero Festuca se considera ancestral del género Lolium, ya que incorpora muchas más especies y contiene poliploides naturales [4,13,50]. Existe evidencia tanto para (i) la evolución de Loliums de una perenne Festuca subgénero Schedonorus ancestro [51], y (ii) una forma ancestral común para ambos Lolium y Festuca [3,4]. Algunos informes están a favor de clasificar el género Lolium como parte de la Schedonorus [52,53]. En general, el Lolium El género se puede separar basándose en el comportamiento de autopolinización o polinización externa. Los análisis más recientes y completos de la Lolium-Festuca complejo informa la edad de la corona de la Lolium - Festuca complejo para ser 8,97 + - 1,5 Ma. También informa F. pratensis se originó en el suroeste de Asia hace alrededor de 2 millones de años, y el Loliums haberse diversificado por primera vez en la región del Mediterráneo oriental alrededor de 4,1 Ma [54].

En nuestro estudio realizamos el análisis filogenético utilizando los grupos ortólogos identificados por OrthoMCL. El resultado de la agrupación se filtró aún más para los genes ortólogos conservados como representante de cada especie, es decir, tener exactamente un representante en el grupo para cada una de las especies. 4022 grupos cumplieron este criterio. Usando estos grupos, inferimos árboles de genes (usando la herramienta PAML) que luego fueron agrupados usando la herramienta Phylip para inferir un árbol de consenso (Figura 3). Es importante señalar que los árboles de genes se calcularon basándose únicamente en las regiones de codificación de genes obtenidas únicamente a partir de secuencias de transcriptomas ensambladas. Los números en las ramas indican el número de veces que las especies se dividen en dos conjuntos (de 4022 grupos). Esto significa que la topología de rama tiene el mayor soporte o se ha representado con mayor frecuencia en los árboles de entrada. Sin embargo, encontramos que una alta proporción de los árboles originales tienen una topología diferente. Esto apunta a una relación filogenética diferente según el grupo de proteínas ortólogas analizadas. Estos hallazgos tienen sentido a la luz del hecho de que algunas de las especies del complejo son interfértiles. El hecho de que la introgresión de genes sea posible dentro del complejo se ha utilizado en los esfuerzos de mejoramiento así como en la investigación [55-57]. Los genomas de las especies de gramíneas modernas son el resultado de mecanismos evolutivos más complejos, y la evolución reticulada en el complejo se ha propuesto previamente [58]. El árbol de consenso (filogenia) corresponde fuertemente a la posible filogenia del Poaceae familia informada en [54].

Árbol de consenso de la regla de mayoría extendida. Un árbol filogenético de consenso, creado a partir de 4022 árboles individuales procedentes de grupos OrthoMCL con un representante por especie. Los números en las ramas indican el número de veces que las especies se han dividido en dos conjuntos.

Genes bajo presión de selección positiva en Lolium especies en comparación con F. pratensis

Podemos identificar dos tipos de cambios en las secuencias codificantes: sustituciones no sinónimas (dN), que conducen a cambios en la secuencia de aminoácidos, y sustituciones sinónimas (dS), que son neutrales para la secuencia de aminoácidos. La relación entre la tasa de sustitución no sinónima (Ka) y la tasa de sustitución sinónima (Ks) es un parámetro ampliamente utilizado para evaluar si existe alguna selección direccional que actúe sobre un gen codificador de proteínas. Una relación & lt 1 indica que la proteína está bajo selección purificadora, mientras que una relación & gt 1 es una buena indicación de presión de selección positiva [59,60]. En un clado tan estrechamente relacionado, se puede esperar que sólo una pequeña cantidad de genes sea responsable de las diferencias fenotípicas [61]. Realizamos una comparación por pares de conjuntos de datos de transcriptomas. Los genes ortólogos putativos se han clasificado de acuerdo con los mejores criterios de explosión bidireccional (ver Métodos), y para cada comparación seleccionamos pares de transcripciones con una relación Ka / Ks por encima de 1. Nos hemos centrado en comparar el F. pratensis con el resto de especies analizadas, ya que tiene varias características importantes desde el punto de vista agrícola, que incluyen una tolerancia superior al estrés biótico y abiótico, buena persistencia y perenneidad. La distribución de identidad de secuencia es muy uniforme entre la comparación por pares, con su pico alrededor del 95% (Figura 4). Enfocamos nuestro análisis hacia los genes involucrados en la resistencia al estrés, el ciclo celular y las proteínas relacionadas con el desarrollo, con los más relevantes identificados para cada comparación. La distribución general de la relación Ka / Ks de todas las comparaciones por pares es muy similar, y casi todos los pares de proteínas muestran signos de selección purificadora (Figura 5). La mediana de la razón fue muy consistente, entre 0.1741 para L. multiflorum y 0.1883 para L. perenne.

Distribución de identidad de secuencia de comparaciones por pares. El gráfico presenta una distribución de identidad de proteínas entre F. pratensis y el otro Lolium-Festuca especies complejas utilizadas en comparaciones BLAST por pares. Las gráficas de densidad del núcleo se utilizan aquí para ver la distribución de una identidad de secuencia. El eje X representa la identidad de secuencia (SqId) y el eje Y muestra la densidad del núcleo.

Distribución Ka / Ks. La figura presenta una comparación de F. pratensis contra L. temulentum, L.m. westerwoldicum, L. multiflorum y L. perenne. Las distribuciones de frecuencia de las tasas de Ka / Ks (eje x) que se muestran aquí se basan en alineaciones de proteínas y nucleótidos de genes ortólogos.

El número de pares ortólogos para los que se podían calcular Ka y Ks y estaba por encima de 1 era igual a: 210 para F. pratensis y L. multiflorum (Archivo adicional 7: Tabla S7), 177 para F. pratensis y L. m. Westerwoldicum (Archivo adicional 8: Tabla S8), 203 para F. pratensis y L. temulentum (Archivo adicional 9: Tabla S9), 124 para F. pratensis y L. perenne (Archivo adicional 10: Tabla S10). Todos los pares se han vinculado a sus anotaciones funcionales. Luego, hemos categorizado los pares de transcripciones que están bajo presión positiva en comparaciones múltiples, verificando cuántos Festuca los identificadores se comparten entre las comparaciones por pares (Figura 6). La mayoría de los pares han mostrado valores de Ka / Ks superiores a 1 en una sola comparación por pares. Sin embargo, hubo tres pares compartidos en cada comparación analizada y, por lo tanto, diferenciando los Festuca desde el Lolium especies. El primero fue un homólogo de A. thaliana la proteína ribosómica L4, una de las principales proteínas de unión al ARNr [62], y la segunda era una proteína 2 similar a UNC93, que es un componente integral de la membrana celular [63]. Además, en cada comparación por pares detectamos un homólogo de la proteína de resistencia a enfermedades RPM1, involucrada en la defensa de la planta contra P. syringae en A. thaliana [64]. Un homólogo de la proteína de resistencia a enfermedades RPP13 que confiere resistencia a Peronospora parasitica en A. thaliana [65] se ha identificado en L. perenne, L. multiflorum y L. temulentum comparaciones. Otras proteínas involucradas en la interacción planta-patógeno, RPP8 y RPH8A, se han encontrado en el L. multiflorum comparación. Los diferentes tipos de proteínas de caja F, que median las interacciones proteína-proteína, también fueron abundantes en todas las comparaciones por pares.

Organización de proteínas bajo selección positiva en Festuca para Loliums comparación. El diagrama muestra el número de proteínas bajo selección positiva entre Festuca y analizado Lolium especies.

Porque F. pratenesis y L. perenne son plantas perennes, y L. multiflorum, L. m. Westerwoldicum y L. temulentum tienen un ciclo de crecimiento semestral o anual, tipos de proteínas presentes en todo tipo de comparación excepto en F. pratensis - L.perenne han sido investigados de cerca. Un ejemplo de estas proteínas son las ciclinas, familia de proteínas conservadas responsables del control de la progresión del ciclo celular [66]. Ciclina T1-1, se ha identificado en todas las comparaciones excepto en la comparación con L. perenne. Otras ciclinas, T1-4 y T1-5, y la quinasa F-4 dependiente de ciclina se han identificado en comparaciones por pares con L. temulentum Las ligasas de ubiquitina E3 también se han identificado en todas las comparaciones, aparte de L. perenne - RNF128 en L. multiflorum, RFWD3 en L. m. Westerwoldicum y RNF25 en L. temulentum. Además, se han identificado múltiples factores de transcripción diversos en no - L. perenne comparaciones. Estas proteínas constituyen un grupo que vale la pena investigar sobre los antecedentes genéticos del rasgo de perenneidad / anualidad.

Al analizar los dominios de PFAM, las clases más abundantes en cada comparación fueron las repeticiones ricas en leucina, los dominios AAA y las repeticiones de tetratricopepdide. Los tres dominios de proteínas se pueden encontrar en proteínas involucradas en diversas funciones, como interacciones proteína-proteína, factores de transcripción, degradación de proteínas y transducción de señales. La lista completa de proteínas anotadas y dominios PFAM está disponible en el archivo adicional 11.

Aparte de las comparaciones por pares de Festuca para Lolium especies, también hemos realizado una comparación de L. multiflorum y L. m. Westerwoldicum, asumiendo que una gran cantidad de cambios a nivel molecular podrían haber sido causados ​​por la influencia humana [37]. Es una comparación interesante como L. m. Westerwoldicum fue desarrollado seleccionando L. multiflorum plantas por anualidad. Se ha identificado un número muy alto de pares ortólogos seleccionados positivamente (235) para estas dos especies (Archivo adicional 12: Tabla S11). Como la principal diferencia entre las especies es el hábito estrictamente anual de L. m. Westerwoldicum, además del metabolismo básico y la resistencia a enfermedades, también nos interesaban las proteínas relacionadas con el desarrollo y el ciclo de perenneidad-anualidad. Las anotaciones extraídas de los archivos de anotaciones creados anteriormente (Archivo adicional 1: Tabla S1, Archivo adicional 2: Tabla S2, Archivo adicional 3: Tabla S3 y Archivo adicional 4: Tabla S4) incluían múltiples ligasas de proteína ubiquitina, así como Ciclina-T1-1 . Se han identificado múltiples proteínas de resistencia a enfermedades: dos proteínas RGA2, 1 proteína RPM1 y una proteína RPP13. Entre las anotaciones del dominio pfam, hemos encontrado una relacionada con el control de la latencia de la semilla [PF14144.1] y dos genes con una subunidad compleja promotora de la anafase [PF12861.2]. También hemos identificado múltiples dominios asociados con el metabolismo del azúcar, como fructosa-1-6-bisfosfatasa [PF00316.15], transportador de salida de azúcar para el intercambio intercelular [PF03083.11], MFS / proteína de transporte de azúcar [PF13347.1] y azúcar transportador [PF00083.19]. Otra categoría interesante de dominios incluyó la proteína 19 inducida por sequía (Di19) [PF05605.7] y la proteína de resistencia al mildiú de amplio espectro de Arabidopsis [PF05659.6]. A pesar de la distancia filogenética extremadamente cercana, la cantidad y diversidad de proteínas bajo selección positiva putativa entre esas dos especies es muy alta, probablemente reflejando la intensa presión de selección aplicada durante la reproducción de L. m. Westerwoldicum de L. multiflorum.

Muchos de los términos enriquecidos identificados como seleccionados positivamente en este estudio comparten funciones comparables a las de análisis similares [61,67,68]. Los términos asociados con las proteínas quinasas, las proteínas fosftatasas, la regulación de la transcripción y las glicotransferasas están relacionados con la resistencia a las enfermedades [67], que son una de las proteínas críticas y de evolución más rápida en la evolución de las plantas. Los términos relacionados con la respuesta al estrés estuvieron presentes en casi todas las comparaciones, lo que no es sorprendente dado el trasfondo fenotípico de las plantas. El gen VRN2 se ha identificado como importante para determinar las variedades de trigo de primavera o de invierno [46]. A menudo hemos observado términos relacionados con el desarrollo de la estructura reproductiva. Las semillas y el tamaño de los frutos son una de las diferencias más claras entre las plantas silvestres y domesticadas. L. temulentum se considera una mala hierba imitadora del trigo y, como tal, ha sido domesticada involuntariamente junto con esa especie [69]. La cría de gramíneas perennes tiene una historia mucho más corta, y los primeros registros de la misma comenzaron hace unos 90 años [70]. Sin embargo, dada la intensidad de los programas de mejoramiento modernos y el hecho de que F. pratensis, L. multiflorum y L. m. Westerwoldicum Las plantas utilizadas en nuestro estudio son el resultado de un esfuerzo de mejoramiento dirigido, podría valer la pena investigar si algunas de las variaciones observadas podrían estar relacionadas con procesos similares a la domesticación.


Discusión

Modelado predictivo

En general, el modelo más predictivo generado en este estudio fue un modelo SVM (kernel lineal, C = 0.1, función de decisión "uno frente al resto") entrenado con el conjunto de datos DILIrank (−vLessConcern) y descriptores de estructura química ECFP4. A diferencia de los modelos no lineales como los generados mediante RF, el núcleo lineal utilizado por este modelo SVM aseguró una falta de interacción entre las variables de entrada, lo que puede haber facilitado las propiedades de generalización mejoradas del modelo. Este modelo ocupó el tercer y primer lugar para la validación cruzada (0,714 ± 0,058) y el conjunto de pruebas externas (0,759 ± 0,03), respectivamente, por precisión equilibrada, en un compendio de estudios que buscaban desarrollar modelos de clasificación para DILI, a pesar del conjunto de datos significativamente más pequeño. utilizado para el entrenamiento de modelos en este estudio (Tabla 3). Cabe señalar que los conjuntos de datos, las características y los esquemas de validación cruzada utilizados en estos estudios varían y, por lo tanto, las métricas de rendimiento difícilmente se pueden comparar directamente. Entre otros, se implementó un esquema LOCO-CV en el presente estudio para evitar predecir compuestos con alta similitud de Tanimoto con los datos de entrenamiento, que es más conservador que las divisiones aleatorias utilizadas por Kotsampasakou et al. [9] (Tabla 3) y traducido a una evaluación más rigurosa del desempeño del modelo interno.

Se identificaron dos tendencias clave relacionadas con la calidad de los datos de entrenamiento y el sesgo del modelo. En primer lugar, una gran proporción de modelos, independientemente del tipo de descriptor, mostró un rendimiento constante entre la validación cruzada y el conjunto de pruebas externas, pero luego observó una fuerte caída en el rendimiento en el conjunto de validación de la FDA (Figuras 1, S1 y S2) a pesar de mostrando una distribución de similitud química similar al conjunto de entrenamiento como se ve para el conjunto de prueba externo (Fig. 2b). Una explicación para esto es que ambos conjuntos de pruebas pueblan diferentes regiones del espacio químico y el modelo muestra un mejor desempeño en un área, o que si bien pueblan regiones similares del espacio químico, estos no se atribuyen claramente a una de las clases DILI y son intrínsecamente difíciles de identificar. predecir. Una explicación alternativa para la falta de generalización también podría atribuirse al hecho de que los compuestos en los datos de entrenamiento y el conjunto de pruebas externas se etiquetaron con mayor confianza y, por lo tanto, el modelo podría distinguir bien entre compuestos DILI positivos y DILI negativos. En contraste, los compuestos del conjunto de validación de la FDA, originalmente etiquetados como ambiguos debido a la falta de evidencia clara, podrían ser inherentemente más difíciles de predecir. Derivar etiquetas DILI precisas para compuestos es un proceso complejo dada la incertidumbre de la evaluación de la causalidad y la dificultad de tratar de incorporar factores de administración como la dosis y las poblaciones de pacientes. Además, fenómenos como el DILI idiosincrásico, que normalmente no pueden detectarse ni siquiera en estudios preclínicos y sólo se producen en subpoblaciones, dificultan aún más la tarea de etiquetar con precisión el DILI [3].

En segundo lugar, en todos los tipos de descriptores (ECFP4, descriptores moleculares de Mordred y objetivos de proteínas pronosticados), la precisión equilibrada en la validación cruzada y en el conjunto de pruebas externas disminuyó a medida que el conjunto de datos de entrenamiento se expandió desde el conjunto de datos de alta confianza (DILIrank (−vLessConcern)) a cualquiera de los conjuntos de datos de menor confianza: DILIrank o DILIrank (+ SIDER) (Figs. 1, S1 y S2). Esto indicó que la inclusión de compuestos de la clase vLessConcern de DILIrank, es decir, aquellos con menor evidencia anotada de riesgo de DILI, así como inactivos derivados de la extracción de texto de los prospectos de las etiquetas de los envases de los medicamentos comercializados (SIDER), perjudicó el rendimiento predictivo a pesar de aumentar el número. de muestras de formación. Si bien esto es coherente con estudios previos [9] que demostraron que la conservación cuidadosa de los datos puede mejorar el rendimiento, debe tenerse en cuenta que el tamaño de la muestra del conjunto de pruebas externas y, en particular, el conjunto de validación de la FDA (49 compuestos) fueron pequeños. Esto hace que sea difícil evaluar con precisión el rendimiento del modelo y, en consecuencia, también comparar modelos con confianza (Fig. 1).

Se necesitarían conjuntos de datos más grandes para permitir un muestreo de grano fino mejorado del espacio químico y el establecimiento de un dominio de aplicabilidad del modelo. En el presente estudio, la mala generalización del conjunto de validación de la FDA demostró que la relación entre la estructura química y la propensión a causar DILI es demasiado compleja para que el modelo aprenda del pequeño conjunto de datos de entrenamiento utilizado (compuestos 401). Sin embargo, debe tenerse en cuenta que incluso si se adquirieran conjuntos de datos más grandes y de mayor calidad, la predictividad del modelo aún sería limitada, ya que la información relevante que puede relacionarse con la manifestación de DILI, como la dosis o la influencia del metabolismo en la formación de profármacos hepatotóxicos, no se considerados en los descriptores utilizados en el presente estudio.

Dianas proteicas

A partir de los modelos que utilizaron objetivos proteicos predichos como características, extrajimos procesos biológicos mediante la incorporación de conocimientos previos sobre bioactividad utilizando PIDGIN y los contextos funcionales de proteínas basados ​​en mapas de rutas de múltiples bases de datos derivadas de MSigDB [25]. SVM y RF identificaron la biotransformación y el citocromo P450, dos vías importantes implicadas en el metabolismo y eliminación de fármacos y estrictamente relacionadas con DILI [42,43,44,45,46]. Además, se identifican el metabolismo del ácido araquidónico y la síntesis de prostaglandinas, que están fisiológicamente involucrados en el proceso de inflamación [49, 50] y en el mecanismo de acción y toxicidad de los AINE, una de las causas más comunes de DILI [51, 52]. Si bien se sabe que los procesos biológicos inferidos están asociados con DILI, esto no es cierto para muchas de las proteínas identificadas por su importancia característica (Tabla S2), como CLK1 y DYRK2. Dado que el análisis se basó en las probabilidades de unión a la diana, se puede plantear la hipótesis de que estas proteínas podrían estar fuera de las diana involucradas directa (o indirectamente) en la patogénesis de DILI.Por lo tanto, el flujo de trabajo descrito pudo derivar hipótesis funcionales sobre procesos biológicos a partir de anotaciones DILI compuestas, que posteriormente se pueden investigar experimentalmente.

Alertas estructurales

En este estudio, las alertas estructurales (SA) relacionadas con DILI se derivaron utilizando los algoritmos SARpy [27] y MoSS [26] utilizando el conjunto de datos DILIrank (−vLessConcern). Se encontró que tanto el SA derivado de MoSS como el de SARpy eran comparables a los revisados ​​por Liu et al. (2015) [29] en términos de precisión y cobertura. Cabe señalar que, en contraste con el SA de SARpy y MoSS que se derivaron explícitamente y posteriormente se probaron en el conjunto de datos utilizado en este estudio, el SA de Liu et al. (2015) se obtuvieron utilizando datos de diferentes fuentes, principalmente LiverTox [56].

De la SA significativa obtenida por SARpy, MoSS y Liu et al. (2015) se encontró que solo el derivado de hidracina (NN) se superponía entre todos ellos (Tabla 4) y esto obtuvo una precisión de 1. Sin embargo, una búsqueda en la base de datos de DrugBank [55] de los SA significativos mostró que todos los SA significativos derivados el uso de MoSS ocurrió en al menos 3 medicamentos aprobados, y los de SARpy y Liu et al. (2015) ocurrió en al menos 10 medicamentos aprobados (Tabla S4). Por ejemplo, el derivado de anilina (SARpy) y el derivado de carbamida (SARpy) estaban presentes en 422 y 80 medicamentos comercializados, respectivamente (Tabla S4). Desde el ángulo metodológico, ilustró que mientras que SA puede ser informativo sobre una mayor probabilidad de que un compuesto sea tóxico, la presencia de todas las alertas estructurales analizadas en este estudio en compuestos aprobados por DrugBank demostró que no son diagnósticos de DILI de forma aislada. La dosis de administración es una consideración clave a tener en cuenta cuando se desarrollan terapias y no se tiene en cuenta cuando simplemente se detecta la presencia de una alerta estructural. Por ejemplo, los derivados de la hidracina (compartidos entre SARpy, MoSS y Liu et al. (2015)) pueden aumentar la toxicidad muscular, neural, renal, hepática, sanguínea y esplénica [57]; sin embargo, está presente en p. Ej. procarbazina, que es un agente antineoplásico registrado que se utiliza en el tratamiento de la enfermedad de Hodgkin y es un fármaco huérfano para el glioma [58]. Este ejemplo demuestra que puede ser beneficioso aceptar un mayor riesgo de toxicidad a favor de prolongar la vida del paciente.

Los SA pueden desempeñar un papel de apoyo en el cribado inicial y el análisis exploratorio al señalar de forma temprana los compuestos potencialmente tóxicos [59, 60] y guiar la optimización principal por parte de los químicos medicinales [61]. Su principal ventaja es que son fáciles de entender e implementar [62]. Sin embargo, se debe tener cuidado al interpretar los resultados del análisis de frecuencia en el caso de criterios de valoración complejos, ya que es posible que los SA no capturen suficientemente los mecanismos biológicos subyacentes, lo que da como resultado tasas altas de falsos positivos y falsos negativos [63].


Conclusiones

Hemos generado un ensamblaje del genoma del mango, que es, según nuestro conocimiento, el primer recurso genómico disponible públicamente para los mangos. Esto proporciona información crucial para el estudio de la evolución no solo de los mangos, sino también de la familia Anacardiaceae. Y esto facilitará el establecimiento de programas de mejoramiento genómico para el mango. Estimamos que el genoma del mango sufrió un evento de duplicación del genoma completo (WGD) hace unos 33 millones de años. Curiosamente, los genes duplicados implicados en la fotosíntesis y el metabolismo de los lípidos se retienen preferentemente en el genoma del mango, lo que probablemente proporciona ventajas de adaptación a las marcadas disminuciones históricas de las concentraciones de dióxido de carbono atmosférico. El sesenta y ocho por ciento de las familias de genes se expandieron en el genoma del mango, entre ellos, los genes de sintasa de calcona (CHS) fueron ampliamente duplicados, que en su mayoría son el resultado de duplicaciones en tándem antes del WGD. Especial CHS Los genes mostraron una expresión universalmente más alta en las cáscaras entre las variedades de mango, que probablemente están involucradas en la biosíntesis de urushioles y fenoles relacionados, un grupo de fenoles específicos de Anacardiaceae que pueden inducir dermatitis de contacto. Dos grupos distintos de variedades de mango mediante resecuenciación del genoma, con variedades comerciales agrupadas con germoplasmas de India, que demuestran mezcla alélica. Aunque agrupadas con germoplasmas del sudeste asiático, las razas autóctonas del sur de China formaron clados distintos, algunos de los cuales mostraron mezcla.


Métodos

Preparación y secuenciación de muestras

ADN genómico de una almeja dura adulta Mercenaria mercenaria (obtenido de Qingdao, Shandong, China) se extrajo del músculo aductor para la secuenciación del genoma completo, utilizando un kit QIAGEN DNeasy (QIAGEN, Shanghai, China). Se construyó una biblioteca de secuencias de Illumina de extremo emparejado con un tamaño de inserto de 350 pb y una biblioteca de lectura enlazada de Genomics 10x y se secuenciaron con Illumina HiSeq X. Se construyó una biblioteca PacBio y se secuenció con una plataforma PacBio Sequel. Se eliminaron las lecturas de baja calidad y las lecturas contaminadas con el adaptador de secuenciación. Finalmente, se utilizó un total de 986,55 GB de datos limpios para ensamblar M. mercenaria genoma. Aislamiento de ARN y construcción de bibliotecas de ARN-seq para diferentes órganos (pie, aductor, masa visceral, gónada, manto y branquias) del mismo M. mercenaria individual se realizaron según Song (2016) [52] y se secuenciaron con Illumina HiSeq X, según las instrucciones del fabricante. Después del control de calidad, las lecturas limpias se ensamblaron utilizando Trinity y se prepararon para la anotación del genoma.

Tamaño, ensamblaje y evaluación del genoma de la almeja dura

Se utilizó Jellyfish (v2.0) [53] para estimar el tamaño del genoma basado en k-mer distribución utilizando lecturas de alta calidad de bibliotecas de tamaño de inserción corto.

Usando lecturas largas generadas por la plataforma PacBio Sequel, los contigs fueron ensamblados usando el software WTDBG v2.2 (https://github.com/ruanjue/wtdbg) con los siguientes parámetros: “--node-drop 0.20 --node-len 2304 --nodo-max 500 -s 0.05 -e 3 ”. Este ensamblaje fue pulido usando Quiver (smrtlink 6.0.1) con los parámetros predeterminados [54]. La heterocigosidad en el ensamblaje se eliminó mediante el software Purge Haplotigs (v1.0.4) [55]. Los contigs resultantes se conectaron a superandamios utilizando 10x Genomics de datos de lectura enlazada y software fragScaff (v140324) con los siguientes ajustes de parámetros: “-maxCore 200 -m 3000 -q 30 -C 5” [56]. Por el contrario, se utilizaron lecturas cortas de Illumina para corregir los errores restantes de pilon (v1.22) con los parámetros configurados de la siguiente manera: “-Xmx300G --diploid --threads 20” [57]. Finalmente, los datos de Hi-C se utilizaron para generar el ensamblaje a nivel cromosómico de M. mercenaria genoma con el software Lachesis (v201701) con parámetros predeterminados. Después de eso, Lachesis numeró los cromosomas sin clasificarlos en orden de tamaño descendente.

Para evaluar la precisión del ensamblaje, se asignaron lecturas breves de Illumina al M. mercenaria genoma usando BWA (v 0.7.8-r455) con ajustes de parámetros en: “-o 1 -i 15” [58]. La llamada de variantes se realizó con SAMTOOLS (SAMTOOLS, RRID: SCR 002105) [59]. La integridad del ensamblaje se evaluó sobre la base de ortólogos universales de copia única (BUSCO) (BUSCO, RRID: SCR 015008) [60] mediante la búsqueda contra el metazoo BUSCO (v4.0.1) [61].

Anotación del genoma

Se emplearon la comparación homóloga y la predicción de novo para anotar las secuencias repetidas en el M. mercenaria genoma. RepeatMasker y el RepeatProteinMask asociado (RepeatMasker, RRID: SCR 012954) [62] se utilizaron para la comparación homóloga para alinear con la base de datos Repbase [63]. Para la predicción ab initio, LTR_FINDER (LTR_FINDER, RRID: SCR 015247) [64], RepeatScout (RepeatScout, RRID: SCR 014653) [65] y RepeatModeler (RepeatModeler, RRID: SCR_015027) (v2.1) se utilizaron para construir un base de datos de candidatos de novo de elementos repetitivos. Usando esta base de datos, las secuencias repetidas fueron luego anotadas usando RepeatMasker. Las secuencias de repetición en tándem se predijeron de novo utilizando TRF (v 4.07b) [66].

Los genes se anotaron utilizando una combinación de predicción basada en homología, predicción de novo y predicción basada en transcriptoma. Para la anotación homóloga, las secuencias de proteínas de otros moluscos, incluido el mejillón Batymodiolus platifrons (Bpl, https://datadryad.org/stash/dataset/doi:10.5061/dryad.h9942), mejillón Modiolus philippinarum (Mph, https://datadryad.org/stash/dataset/doi:10.5061/dryad.h9942), vieira Mizuhopecten yessoensis (Mye, GCF_002113885.1_ASM211388v2), vieira Azumapecten farreri (Afa, http://mgb.ouc.edu.cn/cfbase/html/download.php), ostra perlada Pinctada fucata (Pfu, http://gigadb.org/dataset/100240), ostra oriental Crassostrea virginica (Cvi, GCF_002022765.2_C_virginica-3.0), caracol manzana Pomacea canaliculata (Pca, GCF_003073045.1), lapa Lottia gigantea (Lgi, GCF_000327385.1_Helro1), Pulpo Pulpo bimaculoides (Obi, GCF_001194135.1_Octopus_bimaculoides_v2_0) y lancelet Branchiostoma floridae (Bfl, GCF_000003815.1_Version_2), se alinearon contra M. mercenaria genoma usando TBLASTN (TBLASTN, RRID: SCR 011822) [67]. Los resultados generados con la herramienta básica de búsqueda de alineación local (BLAST) se combinaron a través del software Solar (v 0.9.6) [68]. Se utilizó GeneWise (GeneWise, RRID: SCR 015054) [69] para predecir la estructura genética exacta de la región genómica correspondiente en cada golpe BLAST. Las predicciones de homología se denominaron "conjunto de homología". Aproximadamente 50,4 GB de datos de RNA-seq de alta calidad se ensamblaron a través de Trinity (v2.0) [70], y las secuencias ensambladas se alinearon contra el M. mercenaria genoma para ensamblar la alineación empalmada [71]. Usando PASA (v2.0.2), las alineaciones efectivas se agruparon en función de la ubicación del mapeo del genoma y se ensamblaron en estructuras genéticas. Los modelos genéticos creados a través de PASA se denominaron PASA Trinity set (PASA-T-set). Usamos simultáneamente cinco herramientas en Augustus (Augustus, RRID: SCR 008417) [72], GeneID (v1.4) [73], GeneScan [74], GlimmerHMM (GlimmerHMM, RRID: SCR 002654) [75] y SNAP ( v 2013-02-16) [76] para la predicción ab initio, en la que Augustus, SNAP y GlimmerHMM fueron entrenados usando modelos de genes PASA-H-set. Además, las lecturas de RNA-seq se asignaron directamente al M. mercenaria genoma usando Tophat (Tophat, RRID: SCR 013035) [77]. Las lecturas mapeadas se ensamblaron en modelos de genes (conjunto de gemelos) utilizando gemelos (gemelos, RRID: SCR 014597) [78]. Todos los modelos de genes se integraron a través de EvidenceModeler (EVM) [71]. Los pesos para cada tipo de evidencia se establecieron como sigue: PASA-T-set & gt Homology-set & gt Gemelos-set & gt Augustus & gt GeneID = SNAP = GlimmerHMM = GeneScan. Para detectar regiones no traducidas (UTR) y variación de empalme alternativo, se utilizó PASA2 para actualizar el M. mercenaria genoma. Para lograr la anotación funcional, las secuencias de proteínas predichas se alinearon con las bases de datos públicas, incluidas SwissProt [79], la base de datos NR (de NCBI), InterPro [80] y la vía KEGG [81]. De estos, la herramienta InterproScan [82] y la base de datos InterPro se utilizaron para predecir la función de las proteínas en función de los dominios proteicos conservados y los sitios funcionales. La vía KEGG y las bases de datos SwissProt se utilizaron como fuente principal para mapear e identificar la mejor coincidencia para cada gen.

Reconstrucción filogenética y estimación de divergencias

Para asegurar la representatividad y confiabilidad del árbol filoestratigráfico, incluimos 11 especies, cuyos genomas están disponibles actualmente, de cada familia representativa en moluscos (Mytilidae, Pteriidae, Ostreidae, Pectinidae y Veneridae para bivalvos Aplysiidae, Planorbidae, Lottiidae y Peltospiridae para Gastropods Architeuthidae y Octopodidae para cefalópodos) y 7 especies de otros phyla para análisis posteriores. Por lo tanto, las secuencias de nucleótidos y proteínas de esas 18 especies (P. fucata C. virginica M. philippinarum A. farreri Ruditapes philippinarum (Rph) [83] Chrysomallon squamiferum (Csq): GCA_012295275.1 L. gigantea Biomphalaria glabrata (Bgl): GCA_000457365.1 ASM45736v1 Aplysia californica (Aca): GCF_000002075.1 Architeuthis dux (Adu) [84] O. bimaculoides Capitella teleta (Cte): GCA_000328365.1 Capca1 Helobdella robusta (Hro): GCA_000326865.1 Apis mellifera (Ame): GCF_003254395.2_Amel_HAv3.1 Drosophila melanogaster (Dme): GCF_000001215.4_Release_6_plus_ISO1_MT Homo sapiens (Hsa): GCF_000001405.38_GRCh38.p12 B. floridae Nematostella vectensis (Nve): GCA_000209225.1 ASM20922v1) se descargaron de bases de datos públicas (consulte también los ID de base de datos más arriba). La transcripción más larga se seleccionó de las transcripciones de corte y empalme alternativas para cada gen, y se eliminaron los genes con ≤ 30 aminoácidos. Las familias de genes se construyeron de acuerdo con la tubería OrthoMCL utilizando el parámetro de "-inflación 1,5" (OrthoMCL, RRID: SCR 007839) [85].

Las secuencias de codificación de proteínas de genes de copia única se alinearon utilizando la herramienta MUSCLE en los parámetros predeterminados [86]. El algoritmo de máxima verosimilitud (ML) en el software RAxML (v 8.0.19) con el modelo PROTGAMMAAUTO [87] se utilizó para analizar las relaciones filogenéticas de M. mercenaria. A continuación, se utilizó el programa MCMCtree del paquete PAML [88] para estimar el tiempo de divergencia de la siguiente manera: parámetro principal quemado = 100.000, número de muestra = 100.000 y frecuencia de muestra = 2. Las siguientes limitaciones de tiempo fueron utilizado para calibrar el árbol filogenético: Bfl-Has (522.9

358,9 Mya) del árbol temporal mínimo 532 Mya y máximo blando 549 Mya, para la primera aparición de moluscos [24] mínimo 550,25 Mya y blando máximo 636,1 Mya, para la primera aparición de Lophotrochozoa [89].

Evolución de la familia de genes y análisis de dominios

La dinámica evolutiva (expansión / contracción) de las familias de genes se analizó utilizando CAFÉ (v.2.1) [90] con un modelo estocástico de nacimiento y muerte. El parámetro global, λ, se estimó sobre la base del árbol filogenético y los conjuntos de datos de la agrupación de familias de genes, que representaron las tasas de nacimiento y muerte de todas las familias de genes e identificaron familias significativamente cambiadas (pag & lt 0.05 Método Viterbi en CAFÉ). Los análisis de enriquecimiento de las vías y los términos de la ontología genética (GO) se realizaron a través de EnrichPipeline [91] en pag & lt 0,05. Luego usamos el modelo oculto de Markov (HMM) para buscar los principales dominios funcionales relacionados con la apoptosis en 19 especies de metazoos [24] basados ​​en la base de datos Pfam. A continuación, se contó el número de genes con dominios relacionados con la apoptosis (se contó una vez un dominio con múltiples copias en una proteína). Se realizaron pruebas de chi-cuadrado para evaluar la sobrerrepresentación en el M. mercenaria genoma utilizando todos los genes anotados en cada especie como fondo [23].

Análisis de redes de coexpresión genética y perfiles de transcriptomas de diferentes órganos

Diez órganos adultos (testículo, ovario, manto, branquias, pie, intestino, hígado, estómago, aductor y hemolinfa) fueron disecados de almejas de la misma cohorte, con norte = 3 para hemolinfa y norte = 4 para otros tejidos / órganos. Se extrajo ARN de estas 39 muestras utilizando un protocolo descrito previamente [52]. Las bibliotecas de ARN-seq se construyeron utilizando el conjunto de mezcla maestra de preparación de bibliotecas de ARNm de NEBNext, según las instrucciones del fabricante, y se sometieron a secuenciación Illumina HiSeq X. Las lecturas de RNA-seq de alta calidad se mapearon en el genoma de referencia de M. mercenaria utilizando Hisat2 (v2.0.4) [92]. Se utilizó HTseq [93] para calcular el recuento de lecturas y, finalmente, los niveles de expresión génica en términos de FPKM se estimaron de acuerdo con la fórmula “FPKM = (número de lecturas en el gen × 10 9) / (número de todas las lecturas en genes × longitud del gen) ”. Los genes expresados ​​diferencialmente (DEG) se definieron utilizando DEseq (v1.28.1) [94] con un umbral de FDR & lt 0.05 y log2 (cambio de veces) & gt 2. Se construyeron redes de genes de coexpresión implementando DEG de órganos utilizando el paquete R WGCNA (v1.63) [95]. Los análisis de enriquecimiento de KEGG y GO de cada módulo en las redes se realizaron utilizando EnrichPipeline [91]. Cytoscape (v3.8.0) [96] se utilizó para la visualización de redes de coexpresión en los módulos seleccionados.

Perfiles transcriptómicos bajo múltiples tensiones ambientales

Para exposición aérea, adulto M. mercenaria fueron sometidos a aire en una incubadora termostática a 15 ° C y se encontró que la exposición aérea a 50% de humedad durante 16 días era semi-letal. Tomamos muestras de las 3 réplicas de almejas (cada réplica contiene 3 individuos) los días 0, 8 y 16. Para el desafío de salinidad, adultos M. mercenaria fueron sometidos a diferentes niveles de salinidad: 5, 15, 30 y 40 ppt durante 10 días. Se encontró que diez días eran semi-letales para la salinidad con un tratamiento de 5 ppt. Tomamos muestras de 3 réplicas de almejas vivas (cada réplica contiene 3 individuos) de cada tratamiento de salinidad. Para el estrés por calor e hipoxia, adulto M. mercenaria fueron sometidos a agua de mar calentada (35 ° C) y agua de mar normal (20 ° C) con OD (oxígeno disuelto) a 0.2, 2 y 6 mg / L, respectivamente (tratamiento 2 × 3). Tomamos muestras de 3 réplicas de almejas vivas (3 individuos en cada réplica) el día 3 (semiletal a 35 ° C y 0,2 mg / L de OD) de cada tratamiento. Para todo el muestreo anterior, los tejidos branquiales se disecaron con bisturís estériles para la extracción de ARN. La secuenciación de Illumina, la estimación de los niveles de expresión génica y la identificación de los DEG se realizaron como se describe anteriormente. Los análisis de enriquecimiento KEGG y GO de DEG se realizaron utilizando EnrichPipeline [91], y se utilizó una secuencia de comandos R para dibujar un mapa volcánico de DEG basado en los resultados del enriquecimiento.

Identificación de la familia de genes IAP

Se utilizaron secuencias de proteínas de referencia de IAP descargadas de las bases de datos NCBI y Uniprot para TBLASTN con valor e 1e-5 en la opción "-F F". Los aciertos BLAST de alta calidad que correspondían a proteínas de referencia se concatenaron mediante el software Solar (v0.9.6) [68]. La secuencia de cada proteína de referencia se extendió corriente arriba y corriente abajo en 2000 pb para representar una región codificante de proteína. Se utilizó el software GeneWise (v2.4.1) [69] para predecir la estructura genética exacta de la región genómica correspondiente de cada golpe BLAST. Utilizando este proceso, se identificaron las IAP candidatas, los dominios conservados y la anotación funcional de genes se identificaron mediante la búsqueda HMM contra la base de datos Pfam y BLASTP contra la base de datos no redundante (nr). Finalmente, los genes con dominios BIR anotados funcionalmente como IAP en la base de datos Nr se seleccionaron manualmente como productos finales identificados. Los miembros de la familia IAP se clasificaron en diferentes tipos según el número y la disposición de los dominios BIR y RING conservados, que son los dos dominios centrales implicados en la mediación de las interacciones proteína-proteína.Además, se utilizó el software mafft (v7.427) [97] para alinear secuencias de proteínas de IAP de 19 especies. Se utilizó el método N-J en el software TreeBest (v1.9.2) [98] para construir el árbol filogenético. A continuación, se utilizó el software TBtools (v0.665) para contar y visualizar la fase del intrón, la distribución en los cromosomas, el carácter de conservación del dominio y la dirección de transcripción de M. mercenaria IAP basados ​​en gff3. Finalmente, los Ka y K de los IAP en tándem de M. mercenaria se calcularon utilizando el software Calculator2.0 [99]

Para explorar el impacto de las ET en la expansión extensa de los genes IAP, calculamos la densidad de ET en la vecindad de los genes en el genoma de la almeja dura: 10 kb aguas arriba y aguas abajo de cada gen, por separado para genes IAP y genes no IAP. La significancia estadística fue evaluada por t prueba. Las densidades de TE se analizaron por separado para cada tipo de TE (ADN, LINE, LTR, SINE). Para determinar la dinámica evolutiva de la familia IAP, utilizamos el mismo método para identificar el número de miembros de la familia IAP en las 19 especies sometidas a análisis filogenético. Se utilizó el software Café (v2.1) [90] para analizar la ganancia y pérdida de IAP entre estas 19 especies. Además, las IAP de estas 19 especies se reclasificaron según los tipos.

Análisis filoestratigráfico

Determinamos el tiempo de origen de M. mercenaria IAP y DEG en módulos de órganos seleccionados. Después de que estos genes se obtuvieron de WGCNA, primero se buscaron usando BLASTP (mi-valor = 1e-10) contra proteínas anotadas de los genomas de 21 especies [100], siendo el primer phylostratum (PS1) el origen de la vida celular (es decir, los genes más antiguos) y el último phylostratum (PS13) el linaje de la almeja dura (genes más nuevos). Si se identificó un gen en cualquiera de las 21 especies, asumimos que el último ancestro común de ese M. mercenaria gen, así como las especies respectivas, ya poseían una copia de este gen.


Resultados

Probando phydms en dos genes diferentes

En las siguientes subsecciones, describimos aplicaciones de ejemplo de phydms a conjuntos de datos del mundo real. Específicamente, usamos phydms para comparar las mediciones de barrido mutacional profundo con la evolución de la secuencia natural de dos genes: hemaglutinina (HA) de influenza y β-lactamasa. Elegimos estos genes porque hay varios conjuntos de datos de escaneo mutacionales profundos publicados para cada uno.

El análisis con un ExpCM requiere tres piezas de datos de entrada: las preferencias de aminoácidos medidas experimentalmente, una alineación de secuencias de genes naturales y una topología de árbol filogenético. La topología del árbol se puede inferir de la alineación de la secuencia. Pero como la mayoría de los otros programas para análisis filogenéticos basados ​​en codones (Pond, Frost & amp Muse, 2005 Yang, 2007), phydms no está diseñado para inferir la topología del árbol. En cambio, proporciona formas sencillas de inferir la topología del árbol mediante RAxML (Stamatakis, 2014).

Para preparar los datos de entrada requeridos, seguimos el flujo de trabajo de la Fig. 2. Los experimentos de escaneo mutacional profundo en HA (Thyagarajan & amp Bloom, 2014 Doud & amp Bloom, 2016) informaron directamente las preferencias de aminoácidos. Sin embargo, los dos experimentos de escaneo mutacional profundo en β-lactamasa (Firnberg et al., 2014 Stiffler, Hekstra1 & amp Ranganathan, 2015) informaron proporciones de enriquecimiento para cada mutación en lugar de preferencias de aminoácidos. Existe una relación simple entre las proporciones de enriquecimiento y las preferencias de aminoácidos: las preferencias son las proporciones de enriquecimiento después de normalizar los valores para sumar uno en cada sitio, lo que permite una fácil conversión entre las dos representaciones de datos (Fig.2).

Figura 2: Flujo de trabajo para preparar datos de entrada para phydms.

También creamos alineaciones a nivel de codón de HA y β-secuencias de lactamasa usando phydms_prepalignment. Las alineaciones se recortaron para contener solo sitios para los que se midieron experimentalmente las preferencias de aminoácidos. La Tabla 1 resume la información básica sobre estas alineaciones.

Gene Estudios DMS Residuos de proteínas Residuos con datos DMS Secuencias alineadas
DECIR AH Doud y amp Bloom (2016), Thyagarajan y amp Bloom (2014) 565 564 34
β-lactamasa Stiffler, Hekstra1 & amp Ranganathan (2015), Firnberg et al. (2014) 285 263 50
Modelo ΔAIC Probabilidad de registro Numero de parámetros Valores paramétricos
ExpCM 0.0 −4877.7 6 β = 2.11, κ = 5.14, ω = 0.52
ExpCM, preferencias promediadas 2090.6 −5922.9 6 β = 0.68, κ = 5.36, ω = 0.22
YNGKP_M5 2113.5 −5928.4 12 αω = 0.30, βω = 1.42, κ = 4.68
YNGKP_M0 2219.6 −5982.5 11 κ = 4.61, ω = 0.20

Pruebe si el escaneo mutacional profundo es informativo sobre la selección natural

Una primera prueba simple es si el experimento de escaneo mutacional profundo proporciona alguna información que sea relevante para la selección natural en el gen en cuestión. Esto se puede determinar probando si un ExpCM que usa los datos experimentales supera a un modelo de sustitución que es independiente de las preferencias específicas del sitio medidas en los experimentos.

Para realizar tal prueba, usamos phydms_comprehensive para ajustar varios modelos de sustitución a la alineación de secuencias HA. Este programa genera automáticamente una topología de árbol filogenético a partir de la alineación utilizando RAxML (Stamatakis, 2014). Luego se ajusta a un ExpCM (en este caso informado por los datos de escaneo mutacional profundo en Doud & amp Bloom (2016)), así como a varios modelos de sustitución que no utilizan información experimental específica del sitio. El análisis se realizó ejecutando el siguiente comando en los datos de entrada en el archivo S2:

phydms_comprehensive results / HA_alignment.fasta HA_Doud_prefs.csv

La Tabla 2 enumera los cuatro modelos de sustitución probados: el ExpCM, un ExpCM con las preferencias de aminoácidos promediadas entre los sitios, y las variantes M0 y M5 de los modelos estándar de sustitución del estilo Goldman-Yang (Yang et al., 2000). (Debido a que estas variantes fueron descritas originalmente por Yang, Nielsen, Goldman y Krabbe-Pedersen, aquí se las denomina modelos YNGKP; tenga en cuenta que en otras publicaciones se utiliza a veces el acrónimo alternativo GY94). El ExpCM con preferencias promediadas es un control sensato porque el promediar elimina cualquier información experimental específica de sitios individuales en la proteína. Debido a que los modelos tienen diferentes números de parámetros libres, es mejor compararlos utilizando el Criterio de información de Akaike (AIC) (Posada & amp Buckley, 2004), que compara las probabilidades logarítmicas después de corregir el número de parámetros libres. La Tabla 2 muestra que el ExpCM tiene un AIC mucho más pequeño que los otros modelos (ΔAIC & gt2000 para todos los demás modelos). Por lo tanto, las preferencias de aminoácidos medidas experimentalmente contienen información sobre la selección natural en HA, ya que un modelo de sustitución informado por estas preferencias supera en gran medida a los modelos que no utilizan la información experimental.

Cambiar la escala de los datos de escaneo mutacional profundo a la rigurosidad de la selección natural

Incluso si un experimento de escaneo mutacional profundo mide la auténtica selección natural en un gen, no se espera que el rigor de la selección en el experimento coincida con el rigor de la selección en la naturaleza. Las diferencias en la rigurosidad de la selección se pueden capturar mediante el parámetro de rigurosidad ExpCM β. Si la selección en la naturaleza prefiere los mismos aminoácidos que la selección en el laboratorio pero con mayor rigor, β se ajustará a un valor & gt1. Por el contrario, si la selección en la naturaleza no prefiere las mutaciones favorecidas por el laboratorio con tanta rigurosidad como el escaneo mutacional profundo, β se ajustará a un valor & lt1. La Tabla 2 muestra que un ExpCM para HA informado por los experimentos en (Doud & amp Bloom, 2016) ha β = 2,11, lo que indica que la selección natural favorece los aminoácidos preferidos experimentalmente con mayor rigor que la selección en el laboratorio.

El efecto de este escalado de rigurosidad de las preferencias se puede visualizar usando phydms_logoplot como se muestra en la Fig. 3. El cambio de escala por el parámetro de rigurosidad óptima de 2.11 exagera la selección de aminoácidos preferidos experimentalmente. Por el contrario, si el análisis se hubiera ajustado a un parámetro de rigurosidad & lt1, esto habría aplanado las mediciones experimentales, y cuando β = 0 se pierde toda la información de los experimentos (Fig. 3). Debido a que la selección en el laboratorio probablemente nunca se pueda ajustar para que coincida exactamente con la de la naturaleza, el reajuste del rigor es un método valioso para estandarizar las mediciones en los experimentos.

Figura 3: Cambio de escala de las preferencias de aminoácidos para reflejar el rigor de la selección en la naturaleza.

Compare qué tan bien los diferentes experimentos capturan la selección natural

Las preferencias de aminoácidos por HA y β-lactamasa se han medido cada una mediante dos experimentos independientes. Para cada gen, ¿cuál de estos experimentos captura mejor la selección natural?

Podemos abordar esta pregunta comparando los ExpCM informados por cada experimento. Para β-lactamasa, esto significa comparar las preferencias medidas por Stiffler, Hekstra1 & amp Ranganathan (2015) con las medidas por Firnberg et al. (2014). Hicimos esto con phydms_comprehensive ejecutando el siguiente comando en los datos de entrada en el archivo S4:

phydms_comprehensive results / betaLactamase_alignment.fasta betaLactamase_Stiffler_prefs.txt betaLactamase_Firnberg_prefs.txt

La Tabla 3 muestra que un ExpCM informado por los datos de Stiffler, Hekstra1 & amp Ranganathan (2015) supera a un ExpCM informado por los datos de Firnberg et al. (2014), con un ΔAIC de 96,2. Por lo tanto, el primer experimento refleja mejor la selección natural en β-lactamasa. Sin embargo, ambos experimentos son informativos, ya que ambos superan en gran medida a los modelos tradicionales YNGKP.

Modelo ΔAIC Probabilidad de registro Numero de parámetros Valores paramétricos
ExpCM, preferencias más rígidas 0.0 −2581.3 6 β = 1.31, κ = 2.67, ω = 0.72
ExpCM, preferencias de Firnberg 96.2 −2629.4 6 β = 2.42, κ = 2.60, ω = 0.63
YNGKP_M5 739.2 −2944.9 12 αω = 0.30, βω = 0.49, κ = 3.02
YNGKP_M0 841.0 −2996.8 11 κ = 2.39, ω = 0.28

Hicimos una comparación similar de las dos exploraciones mutacionales profundas de HA. Como se resume en la Tabla 4 (y se detalla en el Archivo S5), el escaneo mutacional profundo de Doud & amp Bloom (2016) describe mejor la evolución natural que los experimentos de Thyagarajan & amp Bloom (2014) (ΔAIC de 44.2). Una vez más, ambos experimentos son claramente informativos, ya que ambos superan en gran medida a los modelos YNGKP.

Modelo ΔAIC Probabilidad de registro Numero de parámetros Valores paramétricos
ExpCM, preferencias de Doud 0.0 −4877.7 6 β = 2.11, κ = 5.14, ω = 0.52
ExpCM, preferencias de Thyagarajan 44.2 −4899.7 6 β = 1.72, κ = 4.94, ω = 0.55
YNGKP_M5 2113.5 −5928.4 12 αω = 0.30, βω = 1.42, κ = 4.68
YNGKP_M0 2219.6 −5982.5 11 κ = 4.61, ω = 0.20

Figura 4: Identificación de sitios de selección diversificada.

Identificar sitios de selección diversificada

En algunos casos, algunos sitios pueden evolucionar de manera diferente en la naturaleza de lo esperado a partir de los experimentos en el laboratorio. Por ejemplo, los sitios bajo selección diversificada para el cambio de aminoácidos experimentarán más sustituciones no sinónimas de las esperadas dadas las preferencias de aminoácidos medidas experimentalmente. Estos sitios se pueden identificar mediante la opción –omegabysite para ajustar un parámetro ωr que da la tasa relativa de sustituciones no sinónimas a sinónimos después de tener en cuenta las preferencias medidas experimentalmente para cada sitio r (Bloom, 2017). Si las preferencias capturan toda la selección de aminoácidos, entonces esperamos ωr = 1. Sitios con ωr & gt 1 están bajo selección diversificada para el cambio de aminoácidos, mientras que los sitios con ωr & lt 1 están bajo una selección de purificación adicional no medida en el laboratorio.

Probamos para diversificar la selección en HA ejecutando el siguiente comando en los datos en el archivo S6:

phydms HA_alignment.fasta HA_RAxML_tree.newick ExpCM_HA_Doud_prefs.csv resultados / –omegabysite

Los resultados se visualizan en la Fig. 4. Si bien la mayoría de los sitios están evolucionando con ωr no significativamente diferente de uno, algunos sitios muestran evidencia de ωr & gt 1. Como se describe en Bloom (2017), estos sitios pueden estar bajo una selección diversificada debido a la presión inmunitaria. En general, este análisis muestra cómo phydms puede identificar sitios que evolucionan de manera diferente en la naturaleza de lo esperado a partir de experimentos en el laboratorio.

Phydms tiene un rendimiento computacional superior a las alternativas existentes

Nuestro fundamento para desarrollar phydms fue permitir que los análisis descritos anteriormente se realizaran más fácilmente que con el software existente. Para validar el rendimiento computacional mejorado, comparamos phydms (versión 2.0.0) con programas alternativos que se han utilizado para ajustar un ExpCM. Las comparaciones utilizaron las secuencias HA descritas en la Tabla 1 con un ExpCM informado por el escaneo mutacional profundo en Doud & amp Bloom (2016), y se realizaron en un solo núcleo de una CPU Intel Xeon de 2.6 GHz.

La Tabla 5 muestra los resultados. Con la configuración predeterminada, phydms tardó 10 minutos en optimizar los parámetros del modelo y las longitudes de las ramas. Este tiempo de ejecución podría reducirse escalando las longitudes de las ramas con un solo parámetro en lugar de optimizarlas individualmente (opción de escala -brlen). Otro trabajo ha demostrado que cuando el árbol inicial es razonablemente preciso, esta aproximación puede mejorar el tiempo de ejecución y afectar solo ligeramente el ajuste del modelo ( Yang, 2000 Pond & amp Frost, 2005). Ajuste de los parámetros de frecuencia de nucleótidos ϕw (Opción –fitphi) en lugar de determinarlos empíricamente duplicó el tiempo de ejecución. La probabilidad logarítmica y los valores de los parámetros del modelo. β y ω eran casi idénticos para los tres de estos entornos. La optimización basada en gradientes es importante: el uso de phydms sin gradientes (opción –nograd) aumentó el tiempo de ejecución en más de 5 veces y, al mismo tiempo, produjo una menor probabilidad de registro.

Anteriormente se han utilizado dos programas alternativos para ajustar un ExpCM. Bloom (2014a) y Bloom (2014b) utilizaron un programa Python (phyloExpCM) para ejecutar HyPhy para optimizar un ExpCM similar a los que se utilizan aquí. Bloom (2017) usó una versión antigua de phydms para ajustar un ExpCM idéntico a los aquí usando las bibliotecas Bio ++ (Guéguen et al., 2013). Ejecutamos ambos programas en el conjunto de datos HA, usando phyloExpCM versión 0.3 con HyPhy versión 2.22 y phydms versión 1.3.0 con Bio ++. La Tabla 5 muestra que estos programas eran 100 veces más lentos y 200 veces más lentos que los phydms con la configuración predeterminada. Una pequeña parte del tiempo de ejecución más lento se debe a que estas implementaciones anteriores no pueden calcular la frecuencia empírica de nucleótidos. ϕw Sin embargo, los parámetros siguen siendo mucho más lentos que phydms incluso cuando estos parámetros se ajustan. Tenga en cuenta que la Tabla 5 puede sobrestimar la ventaja computacional de phydms sobre HyPhy en algunas situaciones, ya que el código HyPhy, pero no phydms, en principio se puede escribir para permitir el uso de múltiples núcleos. No fue posible adivinar las razones de las diferencias de rendimiento, ya que los programas difieren completamente en sus implementaciones. Pero, de manera tranquilizadora, todos los programas arrojaron parámetros de modelo similares β y ω a pesar de las implementaciones independientes de los cálculos de verosimilitud y la optimización.

Software Duración (min) Probabilidad de registro β ω
phydms, ramas de escala 7.8 −4877.9 2.11 0.52
phydms, configuración predeterminada 10.5 −4877.7 2.11 0.52
phydms, ajuste ϕ valores 23.2 −4876.5 2.11 0.53
phydms, sin gradiente 52.8 −4894.0 2.13 0.57
Bio ++ a través de phydms antiguos 962.6 −4880.6 2.09 0.53
HyPhy a través de phyloExpCM 2102.0 −4908.4 2.11 0.57

Los análisis anteriores utilizaron alineaciones relativamente pequeñas de 34 o 50 secuencias (Tabla 1). Para probar cómo cambió el rendimiento de phydms con el tamaño de la alineación, analizamos las alineaciones de HA que van desde 34 a 108 secuencias. Como se muestra en la Tabla 6, el tiempo de ejecución aumentó con el tamaño de la alineación, pero permaneció por debajo de una hora incluso para la alineación más grande. Los valores de los parámetros del modelo inferidos también permanecieron relativamente constantes a medida que aumentaba el tamaño de la alineación HA (Tabla 6).

Secuencias alineadas Duración (min) β ω
34 14.5 1.97 0.42
62 37.2 1.92 0.45
85 41.0 1.87 0.48
104 51.2 1.87 0.49

Contenido

El estadístico de Kolmogorov-Smirnov para una función de distribución acumulativa dada F(X) es

donde supX es el supremo del conjunto de distancias. Intuitivamente, la estadística toma la mayor diferencia absoluta entre las dos funciones de distribución en todas las X valores.

En la práctica, la estadística requiere una cantidad relativamente grande de puntos de datos (en comparación con otros criterios de bondad de ajuste, como la estadística de la prueba de Anderson-Darling) para rechazar correctamente la hipótesis nula.

La distribución de Kolmogorov es la distribución de la variable aleatoria

dónde B(t) es el puente browniano. La función de distribución acumulativa de K viene dado por [3]

que también se puede expresar mediante la función theta de Jacobi ϑ 01 (z = 0 τ = 2 ix 2 / π) < displaystyle vartheta _ <01> (z = 0 tau = 2ix ^ <2> / pi)> . Andrey Kolmogorov publicó tanto la forma del estadístico de la prueba de Kolmogorov-Smirnov como su distribución asintótica bajo la hipótesis nula, [4] mientras que Nikolai Smirnov publicó una tabla de la distribución. [5] Se dispone de relaciones de recurrencia para la distribución del estadístico de prueba en muestras finitas. [4]

Bajo la hipótesis nula de que la muestra proviene de la distribución hipotética F(X),

los bondad de ajuste La prueba o la prueba de Kolmogorov-Smirnov se pueden construir utilizando los valores críticos de la distribución de Kolmogorov. Esta prueba es asintóticamente válida cuando n → ∞ < displaystyle n to infty>. Rechaza la hipótesis nula en el nivel α < displaystyle alpha> si

dónde Kα se encuentra en

El poder asintótico de esta prueba es 1.

  • [7] y [8] para distribuciones nulas continuas con código en C y Java en. [7]
  • [9] para distribución nula puramente discreta, mixta o continua implementada en el paquete KSgeneral [10] del proyecto R para cálculo estadístico, que para una muestra dada también calcula el estadístico de prueba KS y su valor p. La implementación alternativa de C ++ está disponible en. [9]

Prueba con parámetros estimados Editar

Si la forma o los parámetros de F(X) se determinan a partir de los datos XI los valores críticos determinados de esta manera no son válidos. En tales casos, es posible que se requiera Monte Carlo u otros métodos, pero se han preparado tablas para algunos casos. Se han publicado detalles para las modificaciones requeridas a la estadística de prueba y para los valores críticos para la distribución normal y la distribución exponencial, [11] y publicaciones posteriores también incluyen la distribución de Gumbel. [12] La prueba de Lilliefors representa un caso especial de esto para la distribución normal. La transformación logarítmica puede ayudar a superar los casos en los que los datos de la prueba de Kolmogorov no parecen ajustarse al supuesto de que provienen de la distribución normal.

Utilizando parámetros estimados, surge la pregunta de qué método de estimación debería utilizarse. Por lo general, este sería el método de máxima verosimilitud, pero p. Ej. para la distribución normal, MLE tiene un gran error de sesgo en sigma.El uso de un ajuste de momento o la minimización de KS en su lugar tiene un gran impacto en los valores críticos y también algo en la potencia de prueba. Si necesitamos decidir para los datos de Student-T con gl = 2 a través de la prueba KS si los datos podrían ser normales o no, entonces una estimación de ML basada en H0 (los datos son normales, por lo que el uso de la desviación estándar para la escala) daría una distancia KS mucho mayor que un ajuste con KS mínimo. En este caso debemos rechazar H0, que suele ser el caso de MLE, porque la desviación estándar de la muestra puede ser muy grande para los datos T-2, pero con la minimización de KS podemos obtener todavía un KS demasiado bajo para rechazar H0. En el caso de Student-T, una prueba de KS modificada con una estimación de KS en lugar de MLE, hace que la prueba de KS sea un poco peor. Sin embargo, en otros casos, tal prueba KS modificada conduce a una potencia de prueba ligeramente mejor.

Distribución nula discreta y mixta Editar

De la continuidad a la derecha de F (x) < displaystyle F (x)>, se sigue que F (F - 1 (t)) ≥ t < displaystyle F (F ^ <-1> (t)) geq t> y F - 1 (F (x)) ≤ x < displaystyle F ^ <-1> (F (x)) leq x> y, por tanto, la distribución de D n < displaystyle D_> depende de la distribución nula F (x) < displaystyle F (x)>, es decir, ya no está libre de distribución como en el caso continuo. Por lo tanto, se ha desarrollado un método rápido y preciso para calcular la distribución exacta y asintótica de D n < displaystyle D_> cuando F (x) < displaystyle F (x)> es puramente discreto o mixto, [9] implementado en C ++ y en el paquete KSgeneral [10] del lenguaje R. Las funciones disc_ks_test (), mixed_ks_test () y cont_ks_test () calculan también la estadística de prueba KS y los valores p para distribuciones nulas puramente discretas, mixtas o continuas y tamaños de muestra arbitrarios. La prueba KS y sus valores p para distribuciones nulas discretas y tamaños de muestra pequeños también se calculan en [13] como parte del paquete dgof del lenguaje R. Los principales paquetes estadísticos entre los que SAS PROC NPAR1WAY, [14] Stata ksmirnov [15] implementan la prueba KS bajo el supuesto de que F (x) < displaystyle F (x)> es continua, lo cual es más conservador si la distribución nula es realmente no continuo (ver [16] [17] [18]).

La prueba de Kolmogorov-Smirnov también se puede utilizar para probar si dos distribuciones de probabilidad unidimensionales subyacentes difieren. En este caso, la estadística de Kolmogorov-Smirnov es

Para muestras grandes, la hipótesis nula se rechaza en el nivel α < displaystyle alpha> si

para que la condición se lea

Aquí, nuevamente, cuanto más grandes son los tamaños de muestra, más sensible es el límite mínimo: para una proporción determinada de tamaños de muestra (p. Ej., M = n < displaystyle m = n>), el límite mínimo se escala en el tamaño de cualquiera de las muestras según su raíz cuadrada inversa.

Tenga en cuenta que la prueba de dos muestras verifica si las dos muestras de datos provienen de la misma distribución. Esto no especifica cuál es esa distribución común (por ejemplo, si es normal o no). Nuevamente, se han publicado tablas de valores críticos. Una deficiencia de la prueba univariante de Kolmogorov-Smirnov es que no es muy potente porque está diseñada para ser sensible a todos los tipos posibles de diferencias entre dos funciones de distribución. Algunos argumentan [20] [21] que la prueba de Cucconi, propuesta originalmente para comparar simultáneamente ubicación y escala, puede ser mucho más poderosa que la prueba de Kolmogorov-Smirnov cuando se comparan dos funciones de distribución.

En 2021, Michael Naaman extendió la prueba de KS de una muestra y dos muestras al caso multivariado, incluidos los datos dependientes. [1]

Si bien la prueba de Kolmogorov-Smirnov se usa generalmente para probar si un determinado F(X) es la distribución de probabilidad subyacente de Fnorte(X), el procedimiento puede invertirse para dar límites de confianza en F(X) sí mismo. Si se elige un valor crítico de la estadística de prueba Dα tal que P (Dnorte & gt Dα) = α, luego una banda de ancho ±Dα alrededor Fnorte(X) contendrá por completo F(X) con probabilidad 1 - α.

Justel, Peña y Zamar (1997) propusieron una prueba de bondad de ajuste de Kolmogorov-Smirnov multivariante libre de distribución. [22] La prueba usa una estadística que se construye usando la transformación de Rosenblatt, y se desarrolla un algoritmo para calcularlo en el caso bivariado. También se presenta una prueba aproximada que se puede calcular fácilmente en cualquier dimensión.

El estadístico de la prueba de Kolmogorov-Smirnov debe modificarse si se va a aplicar una prueba similar a los datos multivariados. Esto no es sencillo porque la diferencia máxima entre dos funciones de distribución acumulativas conjuntas no es generalmente la misma que la diferencia máxima de cualquiera de las funciones de distribución complementarias. Por lo tanto, la diferencia máxima diferirá dependiendo de cuál de Pr (x & lt X ∧ y & lt Y) < displaystyle Pr (x & ltX land y & ltY)> o Pr (X & lt x ∧ Y & gt y) < displaystyle Pr (X & ltx land Y & gty)> o se utiliza cualquiera de los otros dos arreglos posibles. Se podría requerir que el resultado de la prueba utilizada no dependa de la elección que se haga.

Un enfoque para generalizar el estadístico de Kolmogorov-Smirnov a dimensiones superiores que cumple con la preocupación anterior es comparar las CDF de las dos muestras con todos los ordenamientos posibles y tomar el mayor del conjunto de estadísticos K-S resultantes. En D dimensiones, hay 2 D −1 tales ordenaciones. Una de estas variaciones se debe a Peacock [23] (ver también Gosset [24] para una versión en 3D) y otra a Fasano y Franceschini [25] (ver Lopes et al. Para una comparación y detalles computacionales). [26] Los valores críticos para el estadístico de prueba se pueden obtener mediante simulaciones, pero dependen de la estructura de dependencia en la distribución conjunta.

En una dimensión, la estadística de Kolmogorov-Smirnov es idéntica a la denominada discrepancia de estrellas D, por lo que otra extensión nativa de KS a dimensiones superiores sería simplemente utilizar D también para dimensiones superiores. Desafortunadamente, la discrepancia de estrellas es difícil de calcular en dimensiones altas.

En 2021 se descubrió la forma funcional del estadístico de prueba KS multivariante, lo que simplificó el problema de estimar las probabilidades de cola del estadístico de prueba KS multivariante, que es necesaria para la prueba estadística. Para el caso multivariado, si FI es el Iel marginal continuo de una distribución de probabilidad con k variables, entonces

por lo que la distribución límite no depende de las distribuciones marginales. [1]

La prueba de Kolmogorov-Smirnov (una o dos pruebas de muestra verifica la igualdad de distribuciones) se implementa en muchos programas de software:


Información del autor

Christian P. Kubicek y Andrei Steindorff contribuyeron igualmente a este trabajo.

Afiliaciones

Grupo de Microbiología y Genómica Aplicada, Área de Investigación de Tecnología Bioquímica, Instituto de Ingeniería Química, Ambiental y Biociencias (ICEBE), TU Wien, Viena, Austria

Christian P. Kubicek, Komal Chenthamara, Alexey G. Kopchinskiy e Irina S. Druzhinina

Christian P. Kubicek y Eva M. Kubicek

Departamento de Biologia Celular, Universidade de Brasília, Brasíla, DF, Brasil

Andrei S. Steindorff y Eliane Ferreira Noronha

Instituto Conjunto del Genoma del Departamento de Energía de EE. UU., Walnut Creek, CA, EE. UU.

Andrei S. Steindorff, Gelsomina Manganiello, Alan Kuo e Igor V. Grigoriev

Dipartimento di Agraria, Università degli Studi di Napoli „Federico II“, Nápoles, Portici, Italia

CNRS, Aix-Marseille Université, Marsella, Francia

Departamento de Ciencias Biológicas, Universidad King Abdulaziz, Jeddah, Arabia Saudita

Laboratorio clave provincial de Jiangsu para la utilización de residuos sólidos orgánicos, Universidad Agrícola de Nanjing, Nanjing, China

Jian Zhang, Feng Cai, Qirong Shen e Irina S. Druzhinina

Centro Hispano-Luso de Investigaciones Agrarias (CIALE), Departamento de Microbiología y Genética, Universidad de Salamanca, Campus de Villamayor, Calle Del Duero, Villamayor, España

Riccardo Baroncelli y el amplificador Giovanni Vannacci

Departamento de Agricultura, Alimentación y Medio Ambiente, Universidad de Pisa, Pisa, Italia

Departamento de Biología Vegetal y Microbiana, Universidad de California Berkeley, Berkeley, CA, EE. UU.


Ver el vídeo: КОМАНДНАЯ СТРОКА ЧЕРЕЗ PYTHON. OS (Mayo 2022).


Comentarios:

  1. Shaktigore

    notablemente, muy divertida opinión

  2. Uranus

    Es una pena que no pueda hablar en este momento, estoy muy ocupado. Volveré, definitivamente expresaré mi opinión sobre este tema.

  3. Cuartio

    Gracias. Lo leí con interés. Blog agregado a favoritos =)

  4. Bane

    En mi opinión, debes descansar con más frecuencia, te ganas mucho.

  5. Acis

    Internet se deletrea con una letra mayúscula dentro de una oración, si es así.Y los centésimas no están con un período, sino con una coma. Este es el estándar. Y así que no todo está mal, ¡muy bien!

  6. Waller

    dependiendo de la naturaleza del trabajo



Escribe un mensaje