Información

Predicción del sitio de proteína PTM

Predicción del sitio de proteína PTM


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Existe algún método de análisis in silico para predecir sitios de modificación postraduccional en una proteína determinada?


En realidad, hay muchos de estos sitios disponibles, he usado algunos de los que se enumeran a continuación. Además, hay una lista enorme de otros servicios disponibles en este campo de ExPASy, puede encontrarla aquí y el Centro de Análisis de Secuencia Biológica, que se puede encontrar aquí.


Incorporación de redes neuronales convolucionales y transformación de gráfico de secuencia para identificar sitios PTM de lisina de proteína de múltiples etiquetas

Un método computacional para identificar múltiples sitios de modificación postraduccional de Lisina con alto rendimiento.

Las características de aprendizaje se extraen mediante la transformación de gráficos a partir de secuencias de proteínas.

Optimización de hiperparámetros para redes neuronales convolucionales profundas.

En comparación con los métodos de última generación, nuestro método tuvo una mejora significativa en todas las métricas de medición.

Una base para futuras investigaciones que pueden mejorar las predicciones de la función de las proteínas mediante la transformación de gráficos y el aprendizaje profundo.


Anales de proteómica y bioinformática

Md. Mehedi Hasan 1 * y Mst. Shamima Khatun 2

1 Departamento de Biociencia y Bioinformática, Instituto de Tecnología de Kyushu, 680-4 Kawazu, Iizuka, Fukuoka 820-8502, Japón
2 Laboratorio de Bioinformática, Departamento de Estadística, Universidad de Rajshahi, Rajshahi, Bangladesh

*Dirección para la correspondencia: Md. Mehedi Hasan, Departamento de Biociencia y Bioinformática, Instituto de Tecnología de Kyushu, 680-4 Kawazu, Iizuka, Fukuoka 820-8502, Japón, Correo electrónico: [email protected]

Fechas: Enviado: 27 de febrero de 2018 Aprobado: 01 marzo 2018 Publicado: 02 marzo 2018

Cómo citar este artículo: Hasan MM, Khatun MS. Predicción de sitios de modificación postraduccional de proteínas: una descripción general. Ann Proteom Bioinform. 2018 2: 049-057. DOI: 10.29328 / journal.apb.1001005

Derechos de autor: & copy 2018 Hasan MM, et al. Este es un artículo de acceso abierto distribuido bajo la licencia de atribución de Creative Commons, que permite el uso, distribución y reproducción sin restricciones en cualquier medio, siempre que el trabajo original se cite correctamente.


Servidor NetPhos 3.1

Cajero automático, CKI, CKII, CaM-II, DNAPK, EGFR, GSK3, INSR, PKA, PKB, PKC, PKG, RSK, SRC, cdc2, cdk5 y p38MAPK.


NOTA: el servicio en línea en http://www.cbs.dtu.dk/services/NetPhosK está actualmente fuera de línea
para las predicciones específicas de quinasas, este servicio debería utilizarse en su lugar.

CITACIONES

Para la publicación de resultados, cite:

Predicción basada en secuencia y estructura de sitios de fosforilación de proteínas eucariotas.
Blom, N., Gammeltoft, S. y Brunak, S.
Revista de biología molecular: 294(5): 1351-1362, 1999.

Predicciones específicas de quinasa:

Predicción de la glicosilación y fosforilación postraduccional de proteínas de la secuencia de aminoácidos.
Blom N, Sicheritz-Ponten T, Gupta R, Gammeltoft S, Brunak S.
Proteómica: Jun4 (6): 1633-49, revisión 2004.


Métodos

Resumen de PTMselect

PTMselect determina el conjunto óptimo de proteasas para mejorar la cobertura global del descubrimiento de modificaciones de proteínas mediante análisis de MS mediante la simulación de digestiones paralelas con todas las combinaciones posibles de proteasas. Se pueden realizar cuatro tipos de optimizaciones con PTMselect:

Global descubrimiento de cobertura de sitio modificado para al menos una proteína: se considera que todos los sitios modificados tienen la misma importancia y PTMselect calcula la mejor configuración de digestión para obtener el mayor número de modificaciones.

Predicho descubrimiento de cobertura de sitio modificado para al menos una proteína: los sitios modificados con la mayor probabilidad de ser modificados reciben las puntuaciones más altas. PTMselect calcula la configuración de digestión para que coincida con el mayor número de sitios con una alta probabilidad de ser modificado.

Dirigido descubrimiento de sitio modificado para al menos una proteína: el usuario proporciona una lista de posiciones de modificación de la diana para cada proteína. PTMselect optimiza el descubrimiento del mayor número de sitios modificados en las listas o el número total de proteínas objetivo, es decir, las proteínas con al menos una modificación objetivo.

La última posibilidad es combinar global, predicho y dirigido optimización para cualquier número de proteínas y cualquier modificación.

PTMselect selecciona o rechaza los péptidos modificados de un entorno de digestión de acuerdo con sus longitudes. De hecho, un desajuste entre los en silico Siempre se observa la distribución del péptido tríptico y la longitud óptima del péptido para una espectrometría de masas exitosa 5. PTMselect realiza simulaciones con una longitud de péptido de 7 a 40 aminoácidos de forma predeterminada, lo que es una buena configuración inicial para el análisis de células humanas por MS en nuestra experiencia y en otras 5. Este rango puede ser ajustado por el usuario.

PTMselect usabilidad

PTMselect se ha desarrollado pensando en la facilidad de uso y la velocidad.

El tutorial básico de PTMselect (video complementario PhosphoSelect_Basic_Tutorial_and_Install_v3.mp4) muestra que PTMselect se puede instalar en minutos en MS Windows. La tarea principal del usuario es descargar los archivos de proteína Fasta, luego iniciar PTMselect e ingresar el número de digestiones paralelas para simular.

El tutorial avanzado de PTMselect (video complementario VideoTutorial2_TCRpathway_v3.mp4) muestra que la simulación de los mejores ajustes de digestión para la detección de las fosforilaciones que regulan una vía de señalización completa también es fácil. Todos los archivos de proteínas fasta se copian en el directorio fasta, y los archivos de fosfosito de destino son archivos de texto simples con las posiciones de los sitios de destino en la secuencia de proteínas. Los resultados se obtienen en segundos.

Los aminoácidos que llevan el PTM se pueden cambiar fácilmente. Se puede apuntar a un número ilimitado de aminoácidos, lo que permite la optimización simultánea de la detección de muchos sitios de modificación con múltiples modificaciones también.

Algoritmo de selección de PTM

Entrada PTMselect

PTMselect procesa secuencias de proteínas en formato FASTA (Fig. 1a). PTMselect puede cargar y procesar opcionalmente dos tipos adicionales de archivos:

Tablas de predicción con posiciones modificadas y sus puntuaciones de predicción. Estas tablas se pueden obtener de cualquier herramienta de predicción. PTMselect es compatible de forma predeterminada con PhosphoPICK 11. Para cada fosfosito de un péptido dado, PTMselect suma la "puntuación combinada" de fosfosito de PhosphoPICK para calcular la puntuación global prevista del péptido.

Listas de posiciones de sitios de modificación de destino. Estas listas son archivos de texto que contienen posiciones de sitios de modificación conocidos obligatorios para el proyecto del biólogo, por ejemplo, los fosfositos involucrados en una vía de señalización (Fig. 1c).

Digestión de proteínas in silico y filtrado de péptidos

PTMselect pide al usuario que ingrese el número máximo n de digestiones paralelas que desea simular. PTMselect comienza calculando todas las combinaciones de n proteasas a partir de una ([1], [2]. [1, 2], [1, 3] ..). Luego, para cada combinación, realiza en silico digestiones paralelas de la proteína. PTMselect utiliza por defecto 8 proteasas y CNBr. Esta lista se puede reducir o aumentar si es necesario. Luego elimina los péptidos sin sitios de modificación o fuera del rango de longitud del péptido.

Cálculo de puntuación

PTMselect calcula cinco puntuaciones: máxima, disociación por transferencia eléctrica (ETD), disociación inducida por colisión (CID), predicha coincidente y predicha no coincidente.

La puntuación máxima es el número total de sitios modificados en la proteína.

La puntuación ETD es el número total de sitios modificados en los péptidos después de la digestión y el filtrado. De hecho, cualquier sitio modificado lábil puede atribuirse sin ambigüedades por disociación por transferencia eléctrica 19,20.

La puntuación CID. Los sitios modificados lábiles no siempre pueden atribuirse de forma inequívoca cuando los péptidos modificados se analizan mediante disociación inducida por colisión 19,20 porque los espectros suelen estar dominados por grandes picos de pérdida neutrales que comprometen la identificación fiable específica del sitio 21. Es por eso que PTMselect da más peso a los péptidos mono modificados en el cálculo de la puntuación CID.

La puntuación CID de un péptido con n sitios modificados es:

La puntuación de toda la proteína con k péptidos modificados es:

La puntuación coincidente predicha es la suma de cada puntuación de sitio modificado individual predicha por un software de predicción para todos los péptidos seleccionados después de la digestión y el filtrado.

La puntuación no igualada predicha es la suma de cada puntuación de sitio modificado individual predicha por un software de predicción para todos los péptidos rechazados después de la digestión y el filtrado.

Salida de resultados

Las cinco puntuaciones de modificación (máxima, ETD, CID, coincidente y no coincidente predichas) para cada combinación de proteasa se exportan en una tabla. PTMselect también calcula el número de péptidos mono-modificados, el número de péptidos diana accesibles o no accesibles y las listas correspondientes de posiciones de sitios diana. Se genera un mapa gráfico que representa los péptidos modificados y las posiciones de los sitios de modificación para cada combinación de proteasa (Fig. 1d). Los detalles de los sitios modificados en cada secuencia de péptidos y en toda la secuencia de proteínas se exportan a un archivo de texto. PTMselect incluye un resumen capaz de procesar un número ilimitado de tablas de puntuación para calcular la suma de todas las puntuaciones. Cuando se utilizan sitios de modificación de destino, el resumen crea una tabla con un sitio de destino por columna. Por lo tanto, es muy fácil ver qué sitios de destino son identificables o no por un conjunto de proteasas.

Puntos de referencia de PTMselect

El tiempo de simulación depende del número de proteasas y del tamaño de la proteína (véase la figura complementaria S2). En una estación de trabajo Linux de 64 bits con un procesador CORE i7, el tiempo de simulación para 5 configuraciones de digestión de 14, es decir. la simulación de 2379 combinaciones de proteasas fue & lt6 seg para Lamin y & lt12 seg para Citron-quinasa.

Simulaciones de digestiones de proteasas paralelas

Secuencias de proteínas

Usamos seis secuencias de proteínas disponibles públicamente para evaluar PTMselect (ver Archivos complementarios). Se eligieron PD-1, p53, Huntingtin, Citron-kinase, Cortactin y Lamin por su alto nivel de fosforilación, rango de tamaño y relevancia biológica. Sus secuencias fasta se obtuvieron de la base de datos UniProt 22.

Simulaciones PTMselect para seis proteínas

Se simularon digestiones paralelas de proteasas para p53, PD-1, Huntingtin, Citron-kinase, Cortactin y Lamin utilizando la lista de proteasas predeterminada proporcionada con PTMselect (8 proteasas + CNBr). Se simularon hasta cinco digestiones paralelas con un tamaño de péptido en el rango de 7 a 40 aminoácidos (archivos suplementarios).

PTMselect análisis dirigido de la vía de señalización de TCR

Las secuencias rápidas de proteínas de la vía de señalización de TCR se descargaron de la base de datos UniProt 22. Las posiciones de fosfosito para las proteínas en esta vía se obtuvieron de la referencia 17 y del sitio web de PhosphoSitesPlus 23. Para cada proteína, se creó un archivo de texto que contiene las posiciones del sitio objetivo y se utilizó como entrada en PTMselect (Fig. 1a). Los archivos Fasta y los sitios de destino se procesaron juntos en PTMselect para producir una tabla de puntuación para cada proteína. En cada tabla de puntuación, se enumeraron los fosfositos objetivo identificables y no identificables por cualquier configuración de digestión. El resumen de PTMselect (Fig. 1a) calculó automáticamente una combinación de todas las tablas de puntuación en una tabla de resumen. A continuación, la tabla de resumen se ordenó por número de fosfositos diana identificables en orden decreciente, para identificar las mejores configuraciones de digestión para el análisis de MS de toda la vía de TCR (archivos suplementarios).

PTMselect predicción de múltiples PTM en un ejemplo de diafonía

Secuencia rápida de la proteína H3.1 (Mus musculus) se obtuvo de la base de datos UniProt 22. La metionina N-terminal se eliminó de la secuencia. Se simularon digestiones paralelas de proteasas para H3.1 utilizando la lista de proteasas predeterminada proporcionada con PTMselect (8 proteasas + CNBr). Para poder analizar la diafonía de la acetilación de K9 y K14 en el mismo péptido, establecimos el número de escisiones perdidas en 3 para Lys-C, Lys-N y tripsina. El número de escisiones omitidas para la quimotripsina fue 2, una para V8 y cero para Arg-C y Asp-N (Fig. Suplementaria S5). Para validar solo péptidos que contienen tanto K9 como K14 y que no terminan en K14 (consideramos que la acetilación de lisina induce una escisión perdida si se modifica la lisina) se utilizó una filtración de péptidos por expresión regular. La expresión regular "KSTGGK”Se utilizó para filtrar los péptidos. El punto después de KSTGGK implica que no solo la secuencia de KSTGGK está presente en los péptidos, sino también que los péptidos no terminan en K14.

Disponibilidad de código

PTMselect se desarrolló utilizando el lenguaje Julia 24 multiplataforma de alto rendimiento para computación numérica. Se puede acceder a los archivos en (https://sites.google.com/site/fredsoftwares/products/ptm-select). En los archivos complementarios se puede encontrar un manual para usar PTMselect para realizar búsquedas básicas y avanzadas de fosfositos. La herramienta de alineación de péptidos, PepAlign, y la herramienta de comparación de listas, nwCompare 25, que se utilizan para calcular la concordancia de PTM, están disponibles gratuitamente en (https://sites.google.com/site/fredsoftwares/products/pepalign) y (https: // sites .google.com / site / fredsoftwares / products / nwcompare-julia).


3 resultados

En este estudio, compilamos manualmente 199 pares de interferencia entre proteínas PTM de 82 pares de proteínas en 86 proteínas humanas (consulte los detalles en la Sección 2 y la Tabla complementaria S1). Al contar el número de eventos de interferencia de PTM en los que cada proteína está involucrada (Tabla complementaria S2), encontramos que algunas proteínas tienen mucho más que la mayoría (mediana de 4 eventos), especialmente CDC25C con 26 eventos, CDK1 con 22 eventos. y AKT1 con 16 eventos. Además, algunos pares de proteínas tienen más eventos de interferencia de PTM que otros (Tabla complementaria S3), p. Ej. 17 eventos de interferencia de PTM ocurren entre CDC25C y CDK1 como la mayoría. Además, presentamos la diafonía de PTM en una red de interacción de proteínas (Fig. Complementaria S1), y sorprendentemente encontramos que 47 de las 86 proteínas forman un sub-gráfico, lo que sugiere las funciones importantes de la diafonía de PTM en la señalización celular y red reguladora.

3.1 coevolución de la secuencia a nivel de residuo y de motivo

La coevolución de secuencia se utiliza ampliamente para estudiar la asociación funcional entre dos aminoácidos, ya que presenta una interdependencia de conservación entre especies en redes ecológicas complejas (de Juan et al., 2013). Aquí, exploramos la co-evolución de la secuencia de inter-proteína PTM cross-talk tanto a un nivel de residuo único como a un nivel de motivo de 7 mer.

Primero usamos el NHD para medir la frecuencia con la que dos residuos se conservan o mutan juntos en alrededor de 50 vertebrados. La Figura 1A muestra un ejemplo de AKT1 y prohibitina (PHB) en 20 vertebrados con un evento de interferencia entre S473 en AKT1 e Y114 en PHB. Como se describe en la Sección 2, solo se tienen en cuenta las especies compartidas por ambas proteínas, por lo que se descarta Carlito syrichta ya que falta para PHB. Para las 19 especies compartidas restantes, 17 especies tienen los mismos estados de conservación para ambos residuos de PTM (16 coconservados y 1 co-mutado), lo que da una puntuación de coevolución de residuos de 17/19 para este ejemplo. Las puntuaciones de coevolución de residuos se calcularon adicionalmente para 168 de los 199 pares de diafonía cruzada y 8574 de los 11 585 pares de control. Los restantes 31 pares de diafonía y 3011 de control no tienen esta característica porque una de las proteínas no tiene un MSA o el aminoácido del PTM de entrada no coincide con el MSA incluso si se permite uno o dos cambios de posición. Al comparar las muestras disponibles en estos dos conjuntos de datos, encontramos que los pares de PTM de diafonía cruzada tienen una coevolución de residuos significativamente mayor que la de los pares de PTM de control (media: 0,807 versus 0,704, P & lt 10 - 5 por prueba de permutación, Figura 1B).

Basándonos en los mismos datos de MSA, ampliamos la evolución conjunta de la secuencia desde el nivel de residuo hasta el nivel de motivo de secuencia. En el mismo ejemplo entre la proteína AKT1 y PHB (Fig. 2A), primero extrajimos los ± 3 aminoácidos que rodean los sitios PTM como un motivo de 7 unidades. Para S473 en AKT1, los dos residuos en la posición -1 y 0 en Dipodomys ordii eran diferentes de sus referencias humanas, por lo tanto, la conservación del motivo para esta especie es 5/7 = 0,714. Del mismo modo, podemos tener las puntuaciones de conservación de motivos para todas las especies compartidas en estas dos proteínas, formando dos vectores de conservación de motivos. Luego, la puntuación de coevolución de motivos se calcula tomando el producto escalar entre estos dos vectores de conservación de motivos con normalizado al número de especies comunes. De los mismos conjuntos de muestras que el nivel de residuo, es decir, 168 pares de diafonía y 8574 pares de control, vemos claramente que los pares de PTM de diafonía también tienen una coevolución de motivo significativamente mayor que la del grupo de control (media: 0,754 frente a 0,679, P & lt 10 - 5 mediante prueba de permutación, Fig. 2B). Juntos, los dos resultados sugieren que la evolución conjunta de la secuencia tanto a nivel de residuo de PTM como a nivel de motivo pueden ser buenos indicadores de la intercomunicación de PTM entre proteínas.

3.2 Co-modificación a través de diferentes especies y diferentes condiciones en humanos

La eficacia de utilizar la conservación de la secuencia de proteínas para analizar la importancia funcional de los PTM se debe posiblemente a que proporciona un estado de conservación de PTM aproximado en todas las especies. Por lo tanto, el estado de PTM verificado directa y experimentalmente en múltiples especies puede ser muy informativo para estudiar las funciones de PTM y sus interacciones (Beltrao et al., 2012 Landry et al., 2009). De hecho, en nuestro estudio anterior (Huang et al., 2015), hemos demostrado que la conservación conjunta de modificaciones entre tres especies tiene el vínculo potencial con la interacción funcional entre dos PTM dentro de una proteína y se puede utilizar para predecir la interferencia de PTM intraproteica. Aquí, aplicamos la co-modificación en Homo sapiens, Mus musculus y Rattus norvegicus para medir la co-conservación de la modificación. Igual que Huang et al. (2015), la co-modificación mide la proporción que los dos PTM conservan simultáneamente en los residuos de referencia en las tres especies. La Figura 3A muestra un ejemplo del estado de modificación de dos pares de PTM en las proteínas AKT1 y PHB en las tres especies. El par de intercomunicación entre S473 en AKT1 e Y114 en PHB tiene estados de co-modificación en humanos y ratones, dando una puntuación de co-modificación de 2/3, mientras que el par sin intercomunicación, S475 en AKT1 y S121 en PHB , tiene co-modificación solo en humanos, con una puntuación de 1/3. Aunque ambos pares de PTM tienen residuos totalmente coconservados en las tres especies, los niveles de co-modificación son diferentes y pueden implicar una dependencia funcional diferente. Aquí, para ser justos, eliminamos las 13 muestras de diafonía PTM cuyos uno o dos PTM no están incluidos en el conjunto de PTM humano en PhosphoSitePlus y, en consecuencia, tenemos 186 pares de diafonía y 11 585 pares de control para un análisis más detallado. Al comparar estos dos conjuntos de muestras, encontramos que la puntuación de la co-modificación entre especies es significativamente más alta en los pares de diafonía que en los pares de control (media: 0,507 frente a 0,429, P & lt 10 - 5 por prueba de permutación, Fig. 3B ).

Co-modificación a través del análisis de especies de PTM de diafonía. (A) Demostración de la co-modificación a través de especies con alineamientos de secuencia en humanos, ratones y ratas. (B) Comparación de la co-modificación entre las puntuaciones de las especies entre el conjunto de interferencias (positivo) y el conjunto de control (negativo)

Co-modificación a través del análisis de especies de PTM de diafonía. (A) Demostración de la co-modificación a través de especies con alineamientos de secuencia en humanos, ratones y ratas. (B) Comparación de la co-modificación entre las puntuaciones de las especies entre el conjunto de interferencias (positivo) y el conjunto de control (negativo)

Además del proceso evolutivo, la correlación del estado de modificación a través de diferentes condiciones en una especie también puede sugerir asociaciones funcionales. En un estudio anterior, propusimos un método de co-ocurrencia para explorar las conexiones funcionales entre los sitios PTM calculando su tendencia a modificarse simultáneamente en 88 condiciones diferentes en humanos (Li et al., 2017). Aquí, se utiliza el mismo conjunto de datos de fosforilación humana en todo el proteoma para medir la co-modificación en las condiciones para pares de PTM entre proteínas (consulte la Sección 2 para obtener más detalles). La Figura 4A muestra dos ejemplos de co-modificación en las 88 condiciones: una muestra de interferencia entre Y412 en la proteína FGR (tirosina-proteína quinasa Fgr) e Y281 en SLAF1 (molécula de activación linfocítica de señalización), y una muestra de control entre S132 en SHIP2 y Y281 en SLAF1. Su estado de fosforilación (rojo: encendido, azul: apagado) en 88 condiciones se muestra en el mapa de calor, donde podemos calcular las puntuaciones de co-modificación, es decir, −log10 (pag) en la prueba exacta de Fisher, para estos dos ejemplos y tienen 12,549 para la muestra de diafonía y 0,397 para la muestra de control. Como esta función solo está disponible para pares de fosforilación-fosforilación, solo tenemos puntuaciones de co-modificación para 87 de 199 interferencias y 3040 de 11 585 pares de PTM de control. Aún así, vemos que los pares de diafonía muestran una co-modificación claramente mayor en múltiples condiciones que la de los pares de control (media: 2.111 versus 1.044, P & lt 10 - 5 por prueba de permutación, Fig. 4B), lo que indica que el Los pares PTM de intercomunicación tienen muchas más posibilidades de rechazar la hipótesis nula de independencia que los pares PTM aleatorios. Juntos, los dos análisis anteriores revelan que la co-modificación a través de diferentes especies y diferentes condiciones pueden ser características predictivas para identificar pares de interferencias entre proteínas.

Co-modificación a través de análisis de diferentes condiciones de PTM de diafonía. (A) Demostración de la co-modificación en 88 condiciones para dos pares de PTM (todas las fosforilaciones se interrelacionan: Y412 en FGR e Y281 en el control SLAF1: S132 en SHIP2 e Y281 en SLAF1, lograron la puntuación de 12,549 y 0,017, respectivamente). La información específica de 88 condiciones se enumera en la Tabla complementaria S2. (B) Comparación de la co-modificación en diferentes puntuaciones de condiciones entre el conjunto de diafonía (positivo) y el conjunto de control (negativo)

Co-modificación a través de análisis de diferentes condiciones de PTM de diafonía. (A) Demostración de la co-modificación en 88 condiciones para dos pares de PTM (todas las fosforilaciones se interrelacionan: Y412 en FGR e Y281 en el control SLAF1: S132 en SHIP2 e Y281 en SLAF1, lograron la puntuación de 12,549 y 0,017, respectivamente). La información específica de 88 condiciones se enumera en la Tabla complementaria S2. (B) Comparación de la co-modificación en diferentes puntuaciones de condiciones entre el conjunto de diafonía (positivo) y el conjunto de control (negativo)

3.3 Predicción integradora de la intercomunicación PTM entre proteínas

Como se demostró anteriormente, los pares de intercomunicación PTM entre proteínas muestran correlaciones evolutivas tanto a nivel de secuencia como a nivel de modificación. Por lo tanto, nos preguntamos si estas cuatro propiedades pueden usarse para predecir el cruce de PTM entre proteínas. Primero, probamos el poder de discriminación de cada una de las cuatro características mediante validaciones cruzadas de 10 veces. Los valores del área bajo la curva (AUC) en la Figura 5A muestran que la coevolución de la secuencia en el residuo de PTM es la característica más discriminativa (AUC = 0.785), y también tiene una tasa de ausencia de llamadas relativamente baja, es decir, solo 31 de de 199 interferencias y 3011 de 11 585 pares de control no tienen las medidas de coevolución de residuos. Las siguientes características son la evolución conjunta del motivo de secuencia (168 muestras de diafonía, AUC = 0,685) y la co-modificación a través de las condiciones (87 muestras de diafonía, AUC = 0,654). Por el contrario, el rendimiento de la co-modificación entre especies fue relativamente deficiente (186 muestras de diafonía, AUC = 0,558), en parte debido a la falta de compleción de los datos de PTM en ratones y ratas. Luego, preguntamos además si la integración de estas cuatro características puede mejorar la predicción en comparación con el uso de una sola característica. Para ser justos, solo usamos las 76 muestras de diafonía y las 2593 muestras de control que tienen estas cuatro características para comparar los modelos de una sola característica y el modelo integrador. Como era de esperar, el rendimiento con cada característica individual por sí sola disminuye ligeramente en este conjunto de datos más pequeño en comparación con el uso de todas las muestras disponibles antes (consulte la característica única en las Fig. 5A y B). Sin embargo, la integración de tres características predictivas, es decir, la coevolución y la co-modificación de la secuencia entre condiciones, tiene el mejor rendimiento y aumenta el AUC a 0,814 desde 0,756 por una sola característica (es decir, coevolución de residuos). Debido al poder de predicción limitado de la co-modificación entre especies, esta característica no mejora el rendimiento en el modelo integrador al agregarlo. Por lo tanto, omitimos esta característica en el modelo integrativo.

La evaluación del rendimiento de la predicción de la diafonía PTM utilizando diferentes combinaciones de características se combina con una validación cruzada de 10 veces con una repetición de 100 veces para generar una curva ROC general. (A) La evaluación se realiza en todas las muestras disponibles para cada característica (combinación), el tamaño de las muestras de diafonía se presenta entre paréntesis. (B) La evaluación se realiza en 76 muestras de diafonía y 2593 de control con todas las funciones. Abreviaturas: coevolución de residuo de secuencia (Seq_residue), coevolución de motivo de secuencia (Seq_motif), co-modificación entre especies (PTM_species), co-modificación a través de diferentes condiciones (PTM_conditions), ambas co-evolución de secuencia (Seq both), ambas co-modificación (PTM ambos)

Evaluación del rendimiento de la predicción de la diafonía de PTM utilizando diferentes combinaciones de características, las combinaciones de validación cruzada de 10 veces con la repetición de 100 veces se combinan para generar una curva ROC general. (A) La evaluación se realiza en todas las muestras disponibles para cada característica (combinación), el tamaño de las muestras de diafonía se presenta entre paréntesis. (B) La evaluación se realiza en 76 muestras de diafonía y 2593 de control con todas las funciones. Abreviaturas: coevolución de residuo de secuencia (Seq_residue), coevolución de motivo de secuencia (Seq_motif), co-modificación entre especies (PTM_species), co-modificación a través de diferentes condiciones (PTM_conditions), ambas co-evolución de secuencia (Seq both), ambas co-modificación (PTM ambos)

Aunque la co-modificación entre condiciones contribuye mucho al modelo integrativo, una gran cantidad de muestras no tienen este atributo. Por lo tanto, también recomendamos el uso de solo ambas características de coevolución de secuencia para la mayoría de los candidatos a pares PTM. Además, la combinación de características de secuencia proporciona más de un tamaño de muestra de doble diafonía en comparación con el de la co-modificación entre las condiciones (168 frente a 76). Además, la Figura 5B sugiere que en este pequeño conjunto de muestras, la integración de la coevolución de residuos y motivos da un mejor rendimiento que cualquiera de ellos solo, aunque esta mejora es marginal y debe examinarse más ampliamente.

3.4 Influencia del sesgo de tipo PTM en el rendimiento de la predicción

Entre los 199 pares de interferencia entre proteínas PTM, 150 pares son eventos de interferencia entre dos sitios de fosforilación (Tabla 1). En otras palabras, el conjunto de interferencias compilado está sesgado hacia los tipos PTM de fosforilación-fosforilación. No está claro si el modelo de predicción se puede utilizar para los tipos de PTM que no están incluidos o subrepresentados en el conjunto de entrenamiento. Para probar la influencia de los tipos de PTM, entrenamos modelos MBRF con solo pares de diafonía de fosforilación-fosforilación (150 pares de conjuntos de diafonía y 7312 pares de control), y probamos el rendimiento de predicción en el resto de tipos de PTM (49 pares de diafonía y 4273 pares de control). La Figura 6 muestra que el conjunto de datos de fosforilación-fosforilación es predictivo para otros tipos de PTM (AUC = 0,777), aunque solo se encuentran disponibles dos características de coevolución de secuencia. Con un umbral de 0,65, la tasa de falsos positivos puede ser tan baja como el 9,7% y la tasa de verdaderos positivos es del 38,5%. Esta predicción es equivalente a una prueba independiente, lo que evidencia el poder de nuestro método en la predicción de interferencias de PTM entre proteínas y su solidez al sesgo de tipo PTM.

Evaluación de la solidez del modelo de predicción utilizando conjuntos de entrenamiento sesgados (conjunto de datos de fosforilación-fosforilación). Las curvas ROC del clasificador MBRF usando el conjunto de datos de fosforilación-fosforilación como conjunto de entrenamiento y el resto como conjunto de prueba. La tasa de falsos positivos y la tasa de verdaderos positivos se presentan entre paréntesis siguiendo el umbral correspondiente 0,35, 0,5 y 0,65

Evaluación de la solidez del modelo de predicción utilizando conjuntos de entrenamiento sesgados (conjunto de datos de fosforilación-fosforilación). Las curvas ROC del clasificador MBRF usando el conjunto de datos de fosforilación-fosforilación como conjunto de entrenamiento y el resto como conjunto de prueba. La tasa de falsos positivos y la tasa de verdaderos positivos se presentan entre paréntesis siguiendo el umbral correspondiente 0,35, 0,5 y 0,65

3.5 Servidor en línea PTM-X

Combinando nuestro método anterior de predicción intraproteica, proporcionamos un servidor web llamado PTM-X para la predicción de interferencias de PTM intra e interproteicas (http://bioinfo.bjmu.edu.cn/ptm-x/) . El modelo de predicción de MBRF en el sitio web se entrenó con todos los pares de control y diafonía humana, para dos tipos de combinaciones de características: (i) coevolución de secuencia de residuo y motivo y (ii) la adición de co-modificación a través de condiciones. Los usuarios pueden ingresar pares de PTM candidatos especificando el número de acceso de la proteína UniProt y las posiciones de PTM en las secuencias de proteínas. Luego, el servidor PTM-X dará un resultado de predicción final para cada par PTM utilizando las mismas combinaciones de funciones, mostrándolas en la web con un enlace de descarga a un archivo de texto (ver ejemplo en la Fig. S3 complementaria). Los pares PTM de entrada se pueden tomar como pares potenciales de intercomunicación si sus puntuaciones de predicción son superiores a un umbral determinado. Por lo general, un umbral estricto da una tasa de falsos positivos más baja pero de falsos negativos más altos, mientras que un umbral más indulgente se puede utilizar para obtener predicciones más sensibles. Proporcionamos una interfaz para facilitar este procedimiento, si los usuarios hacen clic en el puntaje de predicción en la página web, aparecerá la curva ROC de la validación cruzada de 10 veces y mostrará la tasa de falso positivo y verdadero positivo relacionado con el puntaje de predicción como un umbral seleccionado (Fig. suplementaria S3).


Recursos de la base de datos

La EM y otras técnicas experimentales han producido una gran cantidad de datos de anotación PTM (Figura 1), que se comparten a nivel mundial a través de bases de datos. Cada base de datos tiene sus propias características, con un enfoque diferente en cuanto al tipo de especie, desde virus hasta humanos. Debido a la complejidad y particularidad de los diferentes PTM, ninguna base de datos puede proporcionar un recurso completo y completo para el estudio del PTM [11]. Por ejemplo, algunas bases de datos contienen datos sobre un tipo específico de PTM, como PhosphoBase [12] y O-glycobase [13], mientras que otras contienen datos sobre una variedad de PTM, como UniProt [14] y HPRD [15]. Otras bases de datos de uso común [16–31] se muestran en la Tabla 1.


Predicción del sitio de proteína PTM - Biología

a Escuela de Salud Pública Saw Swee Hock, Universidad Nacional de Singapur, Singapur
Correo electrónico: [email protected]

b Centro de Genómica y Biología de Sistemas, Departamento de Biología, Universidad de Nueva York, Nueva York, NY 10003, EE. UU.

c Instituto de Biología Molecular y Celular, Agencia de Ciencia, Tecnología e Investigación, Singapur

Abstracto

Si bien la espectrometría de masas en tándem puede detectar modificaciones postraduccionales (PTM) en la escala del proteoma, los sitios de PTM informados a menudo están incompletos e incluyen falsos positivos. Los enfoques computacionales pueden complementar estos conjuntos de datos con predicciones adicionales, pero la mayoría de las herramientas disponibles utilizan modelos de predicción previamente entrenados para un solo tipo de PTM por los desarrolladores y sigue siendo una tarea difícil realizar predicciones por lotes a gran escala para múltiples PTM con un control de usuario flexible, incluido el elección de datos de entrenamiento. We developed an R package called PTMscape which predicts PTM sites across the proteome based on a unified and comprehensive set of descriptors of the physico-chemical microenvironment of modified sites, with additional downstream analysis modules to test enrichment of individual or pairs of PTMs in protein domains. PTMscape is flexible in the ability to process any major modifications, such as phosphorylation and ubiquitination, while achieving the sensitivity and specificity comparable to single-PTM methods and outperforming other multi-PTM tools. Applying this framework, we expanded proteome-wide coverage of five major PTMs affecting different residues by prediction, especially for lysine and arginine modifications. Using a combination of experimentally acquired sites (PSP) and newly predicted sites, we discovered that the crosstalk among multiple PTMs occur more frequently than by random chance in key protein domains such as histone, protein kinase, and RNA recognition motifs, spanning various biological processes such as RNA processing, DNA damage response, signal transduction, and regulation of cell cycle. These results provide a proteome-scale analysis of crosstalk among major PTMs and can be easily extended to other types of PTM.


Prediction of S-Sulfenylation Sites Using Statistical Moments Based Features via CHOU’S 5-Step Rule

Post-translation modification (PTM) of cysteine S-sulfenylation sites in protein is important in cellular biology. S-sulfenylation plays a significant role in protein functioning, cell signaling and transcriptional regulation. Cysteine, S-sulfenylation site prediction is crucial in order to interpret the S-sulfenylation molecular mechanisms. In this study, statistical moments based methodology is proposed for cysteine S-sulfenylation site predictions. The system proposed has achieved accuracy far better than current state-of-the-art methods using tenfold cross validations and independent tests. The outcomes from the proposed method revealed that using statistical moments based features could produce more efficient and effective results. For the accessibility of the scientific community, we have developed a GitHub repository for cysteine S-sulfenylation sites prediction system which is freely accessible at https://www.github.com/ahmad-umt/S-Sulfenylation.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


Introducción

Post translational modifications (PTMs) are alterations of the primary protein structure, including both new covalent links and cleavage events. Almost every protein in the cell undergoes modification during its lifetime [1] and more than 600 different amino acid modifications are catalogued in UniProtKB [2]. PTMs provide a way to expand the spectrum of protein functions as well as an additional layer for pathway regulation [3]. They are catalyzed by enzymes that identify a specific site in the substrate protein, with a plurality of PTM motifs residing in intrinsically disordered regions in order to facilitate enzyme accessibility [4]. Over the last few years, a deluge of methods have been proposed to predict PTM sites from sequence, for a recent review see e.g. [5]. The reasons for this popularity are broadly twofold. Given the paucity of experimental data for PTMs and their relevance for cellular regulation, there is a legitimate expectation that computational methods should fill in the experimental void. Computational methods can become hypothesis generators for an effective design of PTM experiments. Their implementation is straightforward due to the sequence specificity and peculiar physico-chemical properties of PTM motifs. This simplicity makes PTM prediction from sequence easily accessible to machine learning methods, but also presents several potential pitfalls [6]. In order to be useful for experimentalists, PTM predictors should provide good performance and be robust. Performance should be high enough to limit false positives to a minimum, while ensuring sufficient amount of correct predictions (true positives). Perhaps more importantly, the method should be robust enough to maintain performance across a range of different datasets, as it is often not clear which experimental conditions may introduce biases. On both accounts, PTM predictors may be problematic as they are rarely assessed by independent third parties. Indeed, their ability to identify new modification sites has been questioned [7] and effective results have been obtained only for a few PTM types [5]. The problem of validating machine learning methods has already been raised and best practices have been proposed [6]. Self-reported accuracy may be overestimated, with PTM predictors overfitting and not performing better than random when adopting the wrong training strategy [7]. Generalizing models for PTM site recognition is difficult as the number of experimental observations is low and many new types of motifs are still poorly characterized.

In this work, proline hydroxylation is taken as a case study to answer the question of how useful PTM predictors, especially those trained on small datasets, are to design experiments. Hydroxylation is one of the most abundant PTMs in the cell [8]. However, despite improvements in mass-spectrometry (MS) techniques, likely only a small fraction of all hydroxylated sites has so far been experimentally detected.

Proline hydroxylation (PH) is a PTM carried out by prolyl hydroxylases, catalyzing the addition of a hydroxyl group to the sidechain pyrrolidine ring at the gamma position. This modification is crucial for correct folding of the collagen triple-helix, which contains the conserved xPG motif. PH also plays a crucial role in signaling, in particular in oxygen sensing pathways, angiogenesis [9] and tumor cell proliferation [10, 11]. An example is HIF1α, the main target of the von Hippel-Lindau (pVHL) E3 ubiquitin ligase complex [12]. In normoxia, the prolyl hydroxylase domain-containing enzymes (PHDs) hydroxylate HIF1α, promoting its degradation through pVHL binding [13]. Under low oxygen concentration, the PHDs are inactivated and HIF-1α translocates into the nucleus to activate vascular proliferation and angiogenesis genes [14].

The first hydroxylation predictor [15] was trained to predict only collagen modifications. Several further PH predictors exist as web servers: HydPred [16], PredHydroxy [17], RF-Hydroxysite [18], iHyd-PseAAC [19] and iHyd-PseCp [20]. The latter has not been considered in our analysis as the server proved unstable, with frequent freezes. The stand-alone PH software OH-Pred [21], ModPred [4] and AMS3 [1] are also available. All are potential tools for large-scale analysis, taking only the protein sequence as input. Implementations include standard machine learning algorithms like Support Vector Machines, artificial Neural Networks and Random Forests, as well as alternative techniques like logistic regression and probabilistic classifiers. All methods were trained on SwissProt [22] annotation, with varying strategies to define positive and negative examples and different approaches to evaluate model quality. None of the PH predictors used a real independent dataset for validation, i.e. unaffected from SwissProt biases.

Here, we evaluate PH methods considering separately collagen and signalling examples as well as single proteins versus high throughput mass-spectrometry (MS) experiments. The majority of new hydroxylated prolines (Hyp) come from two MS recently published experiments, one on HeLa cells and another from a large experiment involving multiple tissues and samples [23–25]. These datasets are unseen for the PH predictors being tested, as they were not yet available in public databases when the predictors were trained. The number of MS hydroxylated sites is comparable to the entire SwissProt database and the new datasets allowed us to perform an unbiased blind test. A Naïve HMM predictor trained including MS data has also been implemented to simulate the effect of integrating new examples. The analysis presented here provides a starting point for a critical discussion on the problem of reliably predicting new PTMs.


Ver el vídeo: Histone Post Translational Modifications (Julio 2022).


Comentarios:

  1. Zoloshura

    A pesar de lo que la naturaleza del trabajo

  2. Tur

    Y por supuesto deseamos:

  3. Jullien

    Oh, esto es algo, recientemente escuché sobre esto en alguna parte. Tu opinión tiene razón de ser. Entiendes lo que escribes. Después de leer un poco, me gustaría saber más.

  4. Moogujinn

    Es una pena que no pueda hablar en este momento, estoy muy ocupado. Seré lanzado, definitivamente expresaré mi opinión.

  5. Gannon

    Concedido, algo muy bueno

  6. Winthrop

    Es notable, es una frase bastante valiosa

  7. Peredur

    Esta oración es simplemente incomparable :), me gusta)))



Escribe un mensaje