Información

Distribución multimodal para datos de expresión génica

Distribución multimodal para datos de expresión génica



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Por qué algunos genes tienen más de dos modos en su distribución de expresión? ¿Qué factores externos causarían esta anomalía?

Me refiero a la distribución de la expresión de un gen en diferentes muestras de tejido. Por ejemplo, si uno tuviera que descargar un montón de datos de NCBI GEO, y señalar un gen y trazar el nivel de expresión frente a la frecuencia de ese gen en todos esos conjuntos de datos, algunos genes tendrían más de 2 modos (2 niveles de expresión con muy alta frecuencia). Este es el único caso que me interesa: más de 2 modos, no bimodal. Entonces, ¿qué causaría más de dos modos?


Una situación trivial en la que esto puede suceder es cuando el tejido utilizado para los estudios de expresión es heterogéneo. Diferentes células expresan diferentes niveles del gen.

La bimodalidad se puede observar cuando el sistema realmente puede ocupar dos estados estables; es decir, un gen puede tener una expresión alta o baja. Cuando muestrea la población, obtendrás dos picos. La bistablidad (dos estados estables estables) es un fenómeno común en los sistemas biológicos y las retroalimentaciones positivas generalmente exhiben tal comportamiento. En los sistemas biestables también existe un estado estable inestable que se encuentra "entre" los dos estados estables (como una montaña que separa dos valles). Si el sistema está en estado inestable, puede caer a cualquiera de los dos estados estables. (Consulte este artículo para ver un ejemplo). Este concepto se puede extender a sistemas multiestables pero son un poco más complejos que los simples feedbacks. Sin embargo, teóricamente pueden existir (todavía no conozco un ejemplo biológico).

La bimodalidad / multimodalidad también se puede observar en ausencia de una biestabilidad determinista en el sistema. Esto sucede debido al ruido de expresión debido a la estocasticidad y se observa en caso de ráfagas de transcripción (ver aquí).


Gene2vec: representación distribuida de genes basada en la coexpresión

La descripción funcional existente de los genes es categórica, discreta y, en su mayoría, a través de un proceso manual. En este trabajo, exploramos la idea de incrustación de genes, representación distribuida de genes, en el espíritu de incrustación de palabras.

Resultados

A partir de una moda pura basada en datos, entrenamos una representación vectorial de 200 dimensiones de todos los genes humanos, utilizando patrones de coexpresión de genes en 984 conjuntos de datos de las bases de datos GEO. Estos vectores capturan la relación funcional de los genes en términos de recuperación de vías conocidas: el producto interno promedio (similitud) de los genes dentro de una vía es 1,52 veces mayor que el de los genes aleatorios. Usando t-SNE, produjimos un mapa de coexpresión de genes que muestra concentraciones locales de genes específicos de tejido. También ilustramos la utilidad de los vectores de genes incrustados, cargados de información rica sobre patrones de coexpresión de genes, en tareas como la predicción de la interacción gen-gen.

Conclusiones

Propusimos un método de aprendizaje automático que utiliza la coexpresión de genes en todo el transcriptoma para generar una representación distribuida de genes. Además, demostramos la utilidad de nuestra distribución al predecir la interacción gen-gen basada únicamente en los nombres de los genes. La representación distribuida de genes podría ser útil para más aplicaciones bioinformáticas.


Abstracto

Proponemos cuatro modelos generativos probabilísticos para modelar simultáneamente los niveles de expresión génica y las etiquetas de Ontología Genética (GO). A diferencia de los enfoques anteriores para el uso de etiquetas GO, el marco de modelado conjunto permite que las dos fuentes de información se complementen y refuercen entre sí. Adaptamos nuestros modelos a tres conjuntos de datos recopilados para estudiar procesos biológicos, específicamente el crecimiento de los vasos sanguíneos (angiogénesis) y los ciclos de las células mitóticas. Los modelos propuestos dan como resultado una agrupación conjunta de genes y anotaciones GO. Diferentes modelos agrupan genes basados ​​en etiquetas GO y su comportamiento durante todo el transcurso del tiempo, dentro de etapas biológicas o incluso puntos de tiempo individuales. Mostramos cómo se pueden utilizar estos modelos para la estimación de novo de los límites de las etapas biológicas. También evaluamos nuestros modelos sobre la precisión de la predicción de la etapa biológica de las muestras contenidas. Nuestros resultados sugieren que los modelos suelen funcionar mejor cuando se incluye la información de la etiqueta GO.


Contenido

Cuando los dos modos son desiguales, el modo más grande se conoce como modo mayor y el otro como modo menor. El valor menos frecuente entre los modos se conoce como antimodo. La diferencia entre los modos mayor y menor se conoce como amplitud. En series de tiempo, el modo principal se llama acrofase y el antimodo batifase. [ cita necesaria ]

Galtung introdujo un sistema de clasificación (AJUS) para distribuciones: [1]

  • A: distribución unimodal - pico en el medio
  • J: unimodal - pico en cualquier extremo
  • U: bimodal - picos en ambos extremos
  • S: bimodal o multimodal - múltiples picos

Desde entonces, esta clasificación se ha modificado ligeramente:

Bajo esta clasificación, las distribuciones bimodales se clasifican como tipo S o U.

Las distribuciones bimodales ocurren tanto en matemáticas como en ciencias naturales.

Distribuciones de probabilidad Editar

Las distribuciones bimodales importantes incluyen la distribución de arcoseno y la distribución beta. Otros incluyen la distribución U-cuadrática.

La relación de dos distribuciones normales también se distribuye bimodalmente. Dejar

dónde a y B son constantes y X y y se distribuyen como variables normales con una media de 0 y una desviación estándar de 1. R tiene una densidad conocida que se puede expresar como una función hipergeométrica confluente. [2]

La distribución del recíproco de un t La variable aleatoria distribuida es bimodal cuando los grados de libertad son más de uno. De manera similar, el recíproco de una variable distribuida normalmente también se distribuye bimodalmente.

A t La estadística generada a partir de un conjunto de datos extraídos de una distribución de Cauchy es bimodal. [3]

Ocurrencias en la naturaleza Editar

Ejemplos de variables con distribuciones bimodales incluyen el tiempo entre erupciones de ciertos géiseres, el color de las galaxias, el tamaño de las hormigas tejedoras obreras, la edad de incidencia del linfoma de Hodgkin, la velocidad de inactivación del fármaco isoniazida en adultos estadounidenses, la magnitud absoluta de novas, y los patrones de actividad circadiana de esos animales crepusculares que están activos tanto en el crepúsculo matutino como vespertino. En la ciencia pesquera, las distribuciones de tallas multimodales reflejan las diferentes clases de años y, por lo tanto, pueden usarse para la distribución por edades y las estimaciones de crecimiento de la población de peces. [4] Los sedimentos se distribuyen normalmente de forma bimodal. Al muestrear las galerías mineras que cruzan la roca huésped y las vetas mineralizadas, la distribución de las variables geoquímicas sería bimodal. Las distribuciones bimodales también se ven en el análisis de tráfico, donde el tráfico alcanza su punto máximo durante la hora pico de la mañana y luego nuevamente en la hora pico de la tarde. Este fenómeno también se observa en la distribución diaria del agua, ya que la demanda de agua, en forma de duchas, cocina y uso del baño, generalmente alcanza su punto máximo en los períodos matutino y vespertino.

Econometría Editar

En los modelos econométricos, los parámetros pueden estar distribuidos bimodalmente. [5]

Edición matemática

No es necesario que las mezclas con dos componentes distintos sean bimodales y las mezclas de dos componentes con densidades de componentes unimodales pueden tener más de dos modos. No existe una conexión inmediata entre el número de componentes en una mezcla y el número de modos de la densidad resultante.

Distribuciones particulares Editar

Las distribuciones bimodales, a pesar de su frecuente aparición en conjuntos de datos, sólo se han estudiado en raras ocasiones [ cita necesaria ]. Esto puede deberse a las dificultades para estimar sus parámetros con métodos frecuentistas o bayesianos. Entre los que se han estudiado se encuentran

  • Distribución exponencial bimodal. [6]
  • Distribución alfa-sesgada-normal. [7]
  • Distribución normal bimodal asimétrica asimétrica. [8]
  • Se ha ajustado una mezcla de distribuciones de Conway-Maxwell-Poisson a los datos de recuento bimodal. [9]

La bimodalidad también surge naturalmente en la distribución de la cúspide de la catástrofe.

Biología Editar

En biología se sabe que cinco factores contribuyen a distribuciones bimodales de tamaños de población [ cita necesaria ] :

  • la distribución inicial de tamaños individuales
  • la distribución de las tasas de crecimiento entre los individuos
  • el tamaño y la dependencia del tiempo de la tasa de crecimiento de cada individuo
  • tasas de mortalidad que pueden afectar a cada clase de tamaño de manera diferente
  • la metilación del ADN en el genoma humano y de ratón.

La distribución bimodal de tamaños de los trabajadores de la hormiga tejedora surge debido a la existencia de dos clases distintas de trabajadores, a saber, los trabajadores mayores y los trabajadores menores. [10]

La distribución de los efectos de aptitud de las mutaciones tanto para los genomas completos [11] [12] como para los genes individuales [13] también suele ser bimodal y la mayoría de las mutaciones son neutrales o letales y relativamente pocas tienen un efecto intermedio.

Una mezcla de dos distribuciones unimodales con diferentes medias no es necesariamente bimodal. La distribución combinada de alturas de hombres y mujeres se utiliza a veces como un ejemplo de distribución bimodal, pero de hecho la diferencia en las alturas medias de hombres y mujeres es demasiado pequeña en relación con sus desviaciones estándar para producir bimodalidad. [14]

Las distribuciones bimodales tienen la propiedad peculiar de que, a diferencia de las distribuciones unimodales, la media puede ser un estimador muestral más robusto que la mediana. [15] Este es claramente el caso cuando la distribución tiene forma de U como la distribución de arcoseno. Puede que no sea cierto cuando la distribución tiene una o más colas largas.

Momentos de mezclas Editar

dónde gramoI es una distribución de probabilidad y pag es el parámetro de mezcla.

Los momentos de F(X) son [16]

y SI y KI son la asimetría y la curtosis del I distribución.

No es raro encontrar situaciones en las que un investigador crea que los datos provienen de una mezcla de dos distribuciones normales. Debido a esto, esta mezcla se ha estudiado con cierto detalle. [17]

Una mezcla de dos distribuciones normales tiene cinco parámetros para estimar: las dos medias, las dos varianzas y el parámetro de mezcla. Una mezcla de dos distribuciones normales con desviaciones estándar iguales es bimodal solo si sus medias difieren en al menos el doble de la desviación estándar común. [14] Las estimaciones de los parámetros se simplifican si se puede suponer que las varianzas son iguales (el caso homoscedástico).

Si las medias de las dos distribuciones normales son iguales, entonces la distribución combinada es unimodal. Eisenberger derivó las condiciones para la unimodalidad de la distribución combinada. [18] Ray y Lindsay han identificado las condiciones necesarias y suficientes para que una mezcla de distribuciones normales sea bimodal. [19]

Una mezcla de dos distribuciones normales de masa aproximadamente iguales tiene una curtosis negativa ya que los dos modos a cada lado del centro de masa reducen efectivamente las colas de la distribución.

Una mezcla de dos distribuciones normales con una masa muy desigual tiene una curtosis positiva ya que la distribución más pequeña alarga la cola de la distribución normal más dominante.

Las mezclas de otras distribuciones requieren la estimación de parámetros adicionales.

Pruebas de unimodalidad Editar

dónde pag es el parámetro de mezcla y

y donde μ1 y μ2 son las medias de las dos distribuciones normales y σ1 y σ2 son sus desviaciones estándar.

El factor de separación (S) es

Si las varianzas son iguales, entonces S = 1. La densidad de la mezcla es unimodal si y solo si

  • Una condición suficiente para la unimodalidad es [21]
  • Si las dos distribuciones normales tienen desviaciones estándar iguales σ, < displaystyle sigma,> una condición suficiente para la unimodalidad es [21]

Las distribuciones bimodales son un ejemplo de uso común de cómo las estadísticas resumidas, como la media, la mediana y la desviación estándar, pueden ser engañosas cuando se utilizan en una distribución arbitraria. Por ejemplo, en la distribución de la Figura 1, la media y la mediana serían aproximadamente cero, aunque cero no es un valor típico. La desviación estándar también es mayor que la desviación de cada distribución normal.

Aunque se han sugerido varios, actualmente no existe una estadística resumida (o un conjunto de estadísticas) generalmente acordada para cuantificar los parámetros de una distribución bimodal general. Para una mezcla de dos distribuciones normales, generalmente se usan las medias y las desviaciones estándar junto con el parámetro de mezcla (el peso de la combinación), un total de cinco parámetros.

Ashman D Editar

Una estadística que puede resultar útil es la D de Ashman: [22]

dónde μ1, μ2 son los medios y σ1 σ2 son las desviaciones estándar.

Para una mezcla de dos distribuciones normales D & gt 2 es necesario para una separación limpia de las distribuciones.

A Editar de van der Eijk

Esta medida es un promedio ponderado del grado de concordancia de la distribución de frecuencias. [23] A varía de -1 (bimodalidad perfecta) a +1 (unimodalidad perfecta). Se define como

dónde U es la unimodalidad de la distribución, S el número de categorías que tienen frecuencias distintas de cero y K el número total de categorías.

El valor de U es 1 si la distribución tiene alguna de las tres características siguientes:

  • todas las respuestas están en una sola categoría
  • las respuestas se distribuyen uniformemente entre todas las categorías
  • las respuestas se distribuyen uniformemente entre dos o más categorías contiguas, con las otras categorías con cero respuestas

Con distribuciones distintas a estas, los datos deben dividirse en "capas". Dentro de una capa, las respuestas son iguales o nulas. No es necesario que las categorías sean contiguas. Un valor para A para cada capa (AI) se calcula y se determina un promedio ponderado para la distribución. Los pesos (wI) para cada capa es el número de respuestas en esa capa. En simbolos

Una distribución uniforme tiene A = 0: cuando todas las respuestas caen en una categoría A = +1.

Un problema teórico con este índice es que supone que los intervalos están igualmente espaciados. Esto puede limitar su aplicabilidad.

Separación bimodal Editar

Este índice asume que la distribución es una mezcla de dos distribuciones normales con medias (μ1 y μ2) y desviaciones estándar (σ1 y σ2): [24]

Coeficiente de bimodalidad Editar

Coeficiente de bimodalidad de Sarle B es [25]

dónde γ es la asimetría y κ es la curtosis. La curtosis se define aquí como el cuarto momento estandarizado alrededor de la media. El valor de B se encuentra entre 0 y 1. [26] La lógica detrás de este coeficiente es que una distribución bimodal con colas claras tendrá una curtosis muy baja, un carácter asimétrico o ambos, todo lo cual aumenta este coeficiente.

La fórmula para una muestra finita es [27]

dónde norte es el número de elementos de la muestra, gramo es la asimetría de la muestra y k es la muestra de exceso de curtosis.

El valor de B para la distribución uniforme es 5/9. Este es también su valor para la distribución exponencial. Los valores superiores a 5/9 pueden indicar una distribución bimodal o multimodal, aunque los valores correspondientes también pueden resultar en distribuciones unimodales muy sesgadas. [28] El valor máximo (1.0) se alcanza solo mediante una distribución de Bernoulli con solo dos valores distintos o la suma de dos funciones delta de Dirac diferentes (una distribución bi-delta).

Se desconoce la distribución de esta estadística. Está relacionado con una estadística propuesta anteriormente por Pearson: la diferencia entre la curtosis y el cuadrado de la asimetría (vide infra).

Amplitud de bimodalidad Editar

dónde A1 es la amplitud del pico más pequeño y Aun es la amplitud del antimodo.

AB es siempre & lt 1. Los valores más grandes indican picos más distintos.

Relación bimodal Editar

Esta es la proporción de los picos izquierdo y derecho. [24] Matemáticamente

dónde Al y Ar son las amplitudes de los picos izquierdo y derecho respectivamente.

Parámetro de bimodalidad Editar

Este parámetro (B) se debe a Wilcock. [29]

dónde Al y Ar son las amplitudes de los picos izquierdo y derecho respectivamente y PAGI es el logaritmo llevado a la base 2 de la proporción de la distribución en el i-ésimo intervalo. El valor máximo de la ΣP es 1 pero el valor de B puede ser mayor que esto.

Para utilizar este índice, se toman el logaritmo de los valores. A continuación, los datos se dividen en un intervalo de ancho Φ cuyo valor es log 2. El ancho de los picos se considera cuatro veces 1 / 4Φ centrado en sus valores máximos.

Índices de bimodalidad Editar

El índice de bimodalidad propuesto por Wang et al supone que la distribución es una suma de dos distribuciones normales con varianzas iguales pero medias diferentes. [30] Se define como sigue:

dónde μ1, μ2 son los medios y σ es la desviación estándar común.

dónde pag es el parámetro de mezcla.

Sturrock ha propuesto un índice de bimodalidad diferente. [31]

Este índice (B) Se define como

Cuando metro = 2 y γ se distribuye uniformemente, B se distribuye exponencialmente. [32]

Esta estadística es una forma de periodograma. Sufre los problemas habituales de estimación y fuga espectral comunes a esta forma de estadística.

índice de Michele y Accatino

De Michele y Accatino han propuesto otro índice de bimodalidad. [33] Su índice (B) es

dónde μ es la media aritmética de la muestra y

dónde metroI es el número de puntos de datos en el I th bin, XI es el centro de la I th bin y L es el número de contenedores.

Los autores sugirieron un valor de corte de 0,1 para B distinguir entre un bimodalB & gt 0.1) y unimodal (B & lt 0.1) distribución. No se ofreció ninguna justificación estadística para este valor.

Un índice adicional (B) ha sido propuesto por Sambrook Smith et al [34]

dónde pag1 y pag2 son la proporción contenida en el modo primario (el de mayor amplitud) y secundario (el de menor amplitud) y φ1 y φ2 son los φ-tamaños del modo primario y secundario. los φ-tamaño se define como menos una vez el logaritmo del tamaño de los datos tomados a la base 2. Esta transformación se usa comúnmente en el estudio de sedimentos.

Los autores recomendaron un valor de corte de 1,5, siendo B mayor que 1,5 para una distribución bimodal y menos de 1,5 para una distribución unimodal. No se proporcionó ninguna justificación estadística para este valor.

Índice de Chaudhuri y Agrawal

Chaudhuri y Agrawal han propuesto otro parámetro de bimodalidad.[35] Este parámetro requiere el conocimiento de las varianzas de las dos subpoblaciones que componen la distribución bimodal. Se define como

dónde norteI es el número de puntos de datos en el I th subpoblación, σI 2 es la varianza de la I th subpoblación, metro es el tamaño total de la muestra y σ 2 es la varianza de la muestra.

Es un promedio ponderado de la varianza. Los autores sugieren que este parámetro se puede utilizar como objetivo de optimización para dividir una muestra en dos subpoblaciones. No se dio ninguna justificación estadística para esta sugerencia.

Hay varias pruebas disponibles para determinar si un conjunto de datos se distribuye de forma bimodal (o multimodal).

Métodos gráficos Editar

En el estudio de los sedimentos, el tamaño de las partículas suele ser bimodal. Empíricamente, se ha encontrado útil graficar la frecuencia contra el logaritmo (tamaño) de las partículas. [36] [37] Esto generalmente da una clara separación de las partículas en una distribución bimodal. En aplicaciones geológicas, el logaritmo normalmente se lleva a la base 2. Los valores logarítmicos transformados se denominan unidades phi (Φ). Este sistema se conoce como escala Krumbein (o phi).

Un método alternativo es graficar el logaritmo del tamaño de partícula frente a la frecuencia acumulada. Este gráfico generalmente constará de dos líneas razonablemente rectas con una línea de conexión correspondiente al antimodo.

Los valores aproximados para varias estadísticas se pueden derivar de los diagramas gráficos. [36]

dónde Significar es la media, StdDev es la desviación estándar, Sesgar es la asimetría, Kurt es la curtosis y φX es el valor de la variante φ en el X el porcentaje de la distribución.

Distribución unimodal vs bimodal Editar

Pearson en 1894 fue el primero en idear un procedimiento para probar si una distribución podía resolverse en dos distribuciones normales. [38] Este método requería la solución de un polinomio de noveno orden. En un artículo posterior, Pearson informó que para cualquier asimetría de distribución 2 + 1 & lt curtosis. [26] Más tarde, Pearson demostró que [39]

dónde B2 es la curtosis y B1 es el cuadrado de la asimetría. La igualdad es válida solo para la distribución de Bernoulli de dos puntos o la suma de dos funciones delta de Dirac diferentes. Estos son los casos más extremos de bimodalidad posibles. La curtosis en ambos casos es 1. Dado que ambos son simétricos, su asimetría es 0 y la diferencia es 1.

Baker propuso una transformación para convertir una distribución bimodal en unimodal. [40]

Se han propuesto varias pruebas de unimodalidad versus bimodalidad: Haldane sugirió una basada en segundas diferencias centrales. [41] Larkin más tarde introdujo una prueba basada en la prueba F [42] Benett creó una basada en la prueba G de Fisher. [43] Tokeshi ha propuesto una cuarta prueba. [44] [45] Holzmann y Vollmer propusieron una prueba basada en una razón de verosimilitud. [20]

Se ha propuesto un método basado en la puntuación y las pruebas de Wald. [46] Este método puede distinguir entre distribuciones unimodales y bimodales cuando se conocen las distribuciones subyacentes.

Pruebas antimodo Editar

Se conocen las pruebas estadísticas para el antimodo. [47]

El método de Otsu se emplea comúnmente en gráficos por computadora para determinar la separación óptima entre dos distribuciones.

Pruebas generales Editar

Para probar si una distribución es diferente a unimodal, se han diseñado varias pruebas adicionales: la prueba de ancho de banda, [48] la prueba de inmersión, [49] la prueba de exceso de masa, [50] la prueba MAP, [51] la prueba de existencia de modo , [52] la prueba de runt, [53] [54] la prueba de span, [55] y la prueba de silla de montar.

Está disponible una implementación de la prueba dip para el lenguaje de programación R. [56] Los valores de p para los valores de la estadística de caída oscilan entre 0 y 1. Los valores de p inferiores a 0,05 indican multimodalidad significativa y los valores de p superiores a 0,05 pero inferiores a 0,10 sugieren multimodalidad con significación marginal. [57]

Prueba de Silverman Editar

Silverman introdujo un método de arranque para el número de modos. [48] ​​La prueba utiliza un ancho de banda fijo que reduce la potencia de la prueba y su interpretabilidad. Las densidades poco suavizadas pueden tener un número excesivo de modos cuyo recuento durante el arranque es inestable.

Prueba de Bajgier-Aggarwal Editar

Bajgier y Aggarwal han propuesto una prueba basada en la curtosis de la distribución. [58]

Casos especiales Editar

Hay pruebas adicionales disponibles para varios casos especiales:

Mezcla de dos distribuciones normales

Un estudio de una mezcla de datos de densidad de dos distribuciones normales encontró que la separación en las dos distribuciones normales era difícil a menos que las medias estuvieran separadas por 4-6 desviaciones estándar. [59]

En astronomía, el algoritmo Kernel Mean Matching se utiliza para decidir si un conjunto de datos pertenece a una única distribución normal oa una mezcla de dos distribuciones normales.

Esta distribución es bimodal para ciertos valores de sus parámetros. Se ha descrito una prueba para estos valores. [60]

Suponiendo que se sabe que la distribución es bimodal o que se ha demostrado que es bimodal mediante una o más de las pruebas anteriores, con frecuencia es deseable ajustar una curva a los datos. Esto puede resultar difícil.

Los métodos bayesianos pueden resultar útiles en casos difíciles.

Edición de software

Un paquete para R está disponible para probar la bimodalidad. [61] Este paquete asume que los datos se distribuyen como una suma de dos distribuciones normales. Si esta suposición no es correcta, es posible que los resultados no sean fiables. También incluye funciones para ajustar una suma de dos distribuciones normales a los datos.

Suponiendo que la distribución es una mezcla de dos distribuciones normales, se puede utilizar el algoritmo de maximización de expectativas para determinar los parámetros. Hay varios programas disponibles para esto, incluido Cluster, [62] y el paquete R nor1mix. [63]

El paquete mixtools disponible para R puede probar y estimar los parámetros de varias distribuciones diferentes. [64] Está disponible un paquete para una mezcla de dos distribuciones gamma de cola derecha. [sesenta y cinco]

Varios otros paquetes para R están disponibles para adaptarse a modelos de mezcla, estos incluyen flexmix, [66] mcclust, [67] agrmt, [68] y mixdist. [69]

El lenguaje de programación estadística SAS también puede adaptarse a una variedad de distribuciones mixtas con el procedimiento PROC FREQ.


ESTADO CELULAR MOLECULAR

El estado molecular de una célula inmunitaria se puede caracterizar por una combinación de modalidades del genoma, epigenoma, transcriptoma y proteoma (Figura 1a). Una aplicación común de la información multimodal es aislar células con un cierto estado usando una modalidad y luego examinar el estado celular de estas células aisladas en otra modalidad. Este proceso a veces se repite varias veces en diferentes modalidades. Por ejemplo, los marcadores de proteínas de superficie se han utilizado tradicionalmente para aislar o clasificar células en primer lugar mediante clasificación de células activadas por fluorescencia, seguido de análisis utilizando expresión génica, receptores inmunes, regiones de accesibilidad a la cromatina o combinaciones de estas modalidades. Una de las ventajas clave del análisis unicelular es diseccionar la heterogeneidad celular y molecular en un tejido o muestra, e incluso identificar subconjuntos dentro del mismo tipo de célula. La identificación de estados celulares mediante análisis multimodal se ha aplicado para analizar células inmunes en muestras sanas y enfermas, de infección por patógenos, autoinmunes y de cáncer.

Identificación del estado celular en muestras sanas

El análisis multimodal unicelular se puede usar para aislar subconjuntos de células y caracterizar sus firmas moleculares de muestras sanas, que luego se pueden usar como referencia de referencia al comparar con células inmunes de muestras de enfermedades. Por ejemplo, un estudio reciente exploró la composición de células T en tejidos linfoides y no linfoides de humanos y ratones sanos. 8 Al combinar la expresión génica unicelular con secuencias del receptor de células T (TCR), este estudio mostró firmas distintivas entre subconjuntos reguladores y de memoria en tejidos linfoides y no linfoides, y también subconjuntos similares de linfocitos T reguladores en humanos y ratones. Inesperadamente, este análisis integrado también reveló que los mismos clones de células T (es decir, con TCR idéntico) podrían identificarse en muestras linfoides y no linfoides, lo que sugiere la migración de células reguladoras entre órganos.

Las células individuales se pueden separar mediante la clasificación de células activadas por fluorescencia de alta pureza en pocillos, después de lo cual se extrae el ARNm o el ADN para análisis de células individuales. Este es el caso de los enfoques basados ​​en placas como Smart-seq2 o protocolos similares, como se revisó anteriormente. 9 Sin embargo, estos métodos son laboriosos y solo se pueden aplicar a un número de células pequeño. Hay nuevos métodos disponibles para aislar células individuales a alto rendimiento, por ejemplo, utilizando códigos de barras celulares e identificadores moleculares únicos [p. Ej. tecnología de microfluidos (cromo 10x) o nanoplacas (Rhapsody)]. 9 Estos métodos requieren la demultiplexación de células individuales que se realiza de forma bioinformática. Si bien estos enfoques se desarrollaron por primera vez para realizar la secuenciación de ARN unicelular (scRNA-seq), más recientemente también se han desarrollado para realizar análisis multimodales. Por ejemplo, la indexación celular de transcriptomas y epítopos por secuenciación (CITE-Seq) 10 y AbSeq 11 son dos tecnologías que pueden extraer simultáneamente proteína intracelular (de superficie) y expresión génica en la misma célula. Estas tecnologías se han utilizado para explorar poblaciones heterogéneas tanto en muestras sanas como enfermas. 10-12 Por ejemplo, CITE-Seq 10 se aplicó en combinación con cromo 10x para identificar las células mononucleares de la sangre del cordón umbilical e identificar con éxito las células asesinas naturales basadas en los marcadores de superficie CD16 y CD56, después de lo cual el análisis de expresión génica reveló firmas expresadas diferencialmente de asesino natural subtipos entre muestras sanas y enfermas, incluidos marcadores citotóxicos como GZMB, GZMK y PRF1.

Aunque tecnologías como CITE-Seq y AbSeq permiten mediciones simultáneas de la proteína de superficie y la expresión génica, la extracción tanto de la proteína intracelular como de la expresión génica dentro de la misma célula permanece en gran parte inexplorada. Esto se debe a que estas medidas requieren la permeabilización de la membrana celular, lo que puede provocar la muerte celular, lo que perjudica la posibilidad de utilizar los enfoques actuales para combinar la cuantificación de la expresión de proteínas intracelulares con otras modalidades, como scRNA-seq. Este obstáculo se ha abordado recientemente mediante la tinción y secuenciación intracelular (INs-seq), 13 que permite la medición tanto de la proteína intracelular como del ARNm. Se aplicó INs-seq a varios subconjuntos inmunes, incluidas las células dendríticas, las células mieloides y las células T. Para este último, la cuantificación intracelular de los factores de transcripción FOXP3, TCF7 e ID2 en combinación con los datos de scRNA-seq reveló módulos de genes asociados con estos factores de transcripción, por ejemplo, las células TCF7 + tenían módulos de genes asociados con fenotipo ingenuo (CCR7, VENDER y LEF1), mientras que las células ID2 + revelaron genes relacionados con la citotoxicidad (GNLY, GZMA / B, PRF1).

Identificación del estado celular en enfermedades.

La identificación de estados celulares mediante análisis multimodal puede conducir al descubrimiento de nuevos correlatos de enfermedad, parámetros clínicos y resultados. Por ejemplo, un estudio realizó un análisis proteómico y transcriptómico utilizando CITE-Seq y scRNA-seq de las células mononucleares de sangre periférica de individuos sanos vacunados con la vacuna contra la influenza o la fiebre amarilla. 14 Este análisis reveló una firma de referencia distintiva entre los respondedores altos y bajos después de la vacunación. Dentro de cada tipo de célula identificado por los datos de la proteína CITE-Seq, la expresión génica se utilizó para identificar diferencias significativas entre los respondedores bajos y altos dentro de los grupos de linfocitos y células dendríticas plasmocitoides, lo que sugiere que las personas que responden bien a las vacunas tienen un estado de activación distinto de las células en línea de base (es decir, antes de la vacunación).

El análisis multimodal unicelular también se ha utilizado para estudiar simultáneamente la expresión génica y la expansión clonal de células T y células B. Por ejemplo, la expresión génica y la secuenciación del receptor inmunitario de ambos subconjuntos se midieron simultáneamente a partir de células mononucleares de sangre periférica de pacientes con melanoma metastásico tratados con bloqueo de inmunocontrol anti-CTLA-4 y anti-PD-1. 15 Mediante el empleo de técnicas de aprendizaje automático, los autores de este estudio demostraron que el subconjunto clonalmente expandido de células T CD8 + periféricas se asoció con una respuesta al tratamiento a largo plazo. La expresión de genes unicelulares y el receptor inmunitario también se han aplicado para descubrir nuevos estados celulares en el cáncer, como el carcinoma hepatocelular, el cáncer colorrectal y el cáncer de pulmón, 16-18, así como en las células T que se infiltran en el tumor en el contexto de nuevas terapias de bloqueo de puntos de control inmunológico ( por ejemplo, en melanoma). 19

En el caso de infecciones virales, el análisis multimodal unicelular ha demostrado ser de gran utilidad en la identificación de linfocitos T y linfocitos B específicos del virus. Estas células se encuentran generalmente en cantidades bajas dentro del grupo de células circulantes y residentes, lo que plantea desafíos para su identificación y separación para análisis moleculares y fenotípicos. El análisis de una sola célula ha proporcionado un medio para caracterizar con precisión las poblaciones de células raras. 20 Varios equipos, incluido el nuestro, han aplicado análisis multimodales unicelulares para separar las células T CD8 + específicas del virus utilizando tetrámeros y luego utilizaron clasificación de índice y scRNA-seq (Smart-seq2) para identificar simultáneamente su expresión génica y TCR de longitud completa en personas infectadas con el virus de la hepatitis C. 21, 22 Estos análisis se utilizaron luego para identificar los subconjuntos activos y en reposo dentro de estas respuestas específicas de virus, junto con su expansión clonal. También se han utilizado aplicaciones similares para estudiar la infección crónica por VIH, por ejemplo, para demostrar la existencia de células T CD8 + específicas del VIH que reconocen epítopos dentro del HLA-II en lugar de las células T CD8 + de clase I 23 y específicas de la influenza, 24 para revelar la evolución de las firmas moleculares de las células T CD8 + específicas de la influenza en las diferentes etapas de la infección.

La importancia del análisis multimodal unicelular ha llevado a varios estudios recientes de la enfermedad por coronavirus 2019 (COVID-19). También se han realizado análisis unicelulares tanto del perfil de expresión génica como de la secuenciación del receptor inmunitario en líquidos de lavado broncoalveolar de pacientes con enfermedad leve o grave. 25 Este análisis reveló que los pacientes con enfermedad leve por COVID-19 se caracterizaban por células T CD8 + altamente expandidas por clonación, y que los macrófagos proinflamatorios derivados de monocitos eran abundantes en el líquido de lavado broncoalveolar de casos graves de COVID-19. También se ha investigado el uso de proteómica, expresión génica e información clonal. 26 Aquí, la proteína de superficie usando CITE-Seq, además de scRNA-seq y el receptor de células B y la información de TCR, se usó para investigar las células mononucleares de sangre periférica de pacientes con COVID-19. Estos autores demostraron que un fenotipo previo al agotamiento en las células T activadas por HLA-DR + CD38 + y una firma antiinflamatoria en los monocitos se asocian con una enfermedad progresiva, mientras que un análisis del receptor de células B y TCR reveló una distribución clonal sesgada de CD8 + Respuesta de linfocitos T y B primarios.

Los análisis multimodales unicelulares se han aplicado recientemente por primera vez en células B patógenas raras que secretan autoanticuerpos en el contexto del síndrome de Sjögren. 27 En este estudio, las células B se clasificaron primero como CD19 + CD27 + IgD - células de memoria de pacientes con síndrome de Sjögren, para aislar células relacionadas clonalmente responsables de autoanticuerpos asociados con vasculitis crioglobulinémica. Al utilizar la secuenciación del transcriptoma y del genoma de una sola célula, se analizaron 28 datos de expresión génica de longitud completa de cada célula con VDJPuzzle 22 para reconstruir las cadenas ligeras y pesadas de longitud completa de autoanticuerpos secretores de células B de inmunoglobulina, demostrando así la expansión de un solo " clon "pícaro" que domina el fenotipo observado. A continuación, se utilizó ADN unicelular para identificar mutaciones somáticas conductoras de linfoma presentes sólo dentro del clon rebelde de células B formadoras de autoanticuerpos. Este estudio proporcionó la primera evidencia directa de que las mutaciones somáticas provocan la pérdida de tolerancia y la patogénesis de la enfermedad.

El análisis multimodal unicelular también ha sido útil para investigar el perfil epigenético de subconjuntos de células T y su expansión clonal en el contexto de la leucemia. 29 Al combinar el ensayo de cromatina accesible a transposasa usando secuenciación con secuenciación de TCR, este estudio identificó primero elementos reguladores y factores de transcripción asociados con cada subconjunto de células T canónicas en donantes sanos. Sorprendentemente, este estudio encontró que los perfiles epigenéticos de los subconjuntos de células T canónicas forman un continuo de estados, lo que sugiere una variabilidad reguladora significativa dentro de las subpoblaciones definidas por marcadores de superficie celular. Al aplicar este enfoque a las células T derivadas de pacientes con leucemia, los autores identificaron el estado de los clones anormales y, por lo tanto, determinaron los mecanismos que impulsan la enfermedad. En un estudio separado, se utilizaron 30 mutaciones de los datos de scRNA-seq para identificar y aislar tres clones en una muestra de médula ósea de un paciente con leucemia mieloide aguda. A continuación, se usó la expresión génica para identificar las composiciones de tipo celular de estos clones, determinando que estos clones pertenecían a células similares a progenitoras, similares a monocitos y similares a células dendríticas.


Aebersold, R. y Mann, M. (2016). Exploración por espectrometría de masas de la estructura y función del proteoma. Naturaleza 537, 347 y # x02013355. doi: 10.1038 / nature19949

Allis, C. D. y Jenuwein, T. (2016). Los sellos moleculares del control epigenético. Nat. Rev. Genet. 17, 487 & # x02013500. doi: 10.1038 / nrg.2016.59

Angel, T. E., Aryal, U. K., Hengel, S. M., Baker, E. S., Kelly, R. T., Robinson, E. W., et al. (2012). Proteómica basada en espectrometría de masas: capacidades existentes y direcciones futuras. Chem. Soc. Rvdo. 41, 3912 & # x020133928. doi: 10.1039 / c2cs15331a

Chen, G., Ning, B. y Shi, T. (2019). Tecnologías de RNA-Seq de célula única y análisis de datos computacionales relacionados. Parte delantera. Gineta. 10: 317. doi: 10.3389 / fgene.2019.00317

Costa, V., Angelini, C., De Feis, I. y Ciccodicola, A. (2010). Descubriendo la complejidad de los transcriptomas con RNA-Seq. J. Biomed. Biotechnol. 2010: 853916. doi: 10.1155 / 2010/853916

Garalde, D. R., Snell, E. A., Jachimowicz, D., Sipos, B., Lloyd, J. H., Bruce, M. y col. (2018). Secuenciación directa de ARN altamente paralela en una matriz de nanoporos. Nat. Métodos 15, 201 & # x02013206. doi: 10.1038 / nmeth.4577

Hasin, Y., Seldin, M. y Lusis, A. (2017). Enfoques multiómicos de la enfermedad. Genome Biol. 18:83. doi: 10.1186 / s13059-017-1215-1

Knight, R., Callewaert, C., Marotz, C., Hyde, E. R., Debelius, J.W., McDonald, D. y col. (2017). El microbioma y la biología humana. Annu. Rev. Genomics Hum. Gineta. 18, 65 & # x0201386. doi: 10.1146 / annurev-genom-083115-022438

Li, Y., Xu, Q., Wu, D. y Chen, G. (2020). Exploración de información valiosa adicional a partir de datos de RNA-Seq de una sola célula. Parte delantera. Cell Dev. Biol. 8: 593007. doi: 10.3389 / fcell.2020.593007

Lynch, J. B. y Hsiao, E. Y. (2019). Los microbiomas como fuentes de fenotipos emergentes del hospedador. Ciencias 365, 1405 & # x020131409. doi: 10.1126 / science.aay0240

Marchese, F. P., Raimondi, I. y Huarte, M. (2017). Los mecanismos multidimensionales de la función larga del ARN no codificante. Genome Biol. 18: 206. doi: 10.1186 / s13059-017-1348-2

Misra, B. B., Langefeld, C. D., Olivier, M. y Cox, L. A. (2018). Ómicas integradas: herramientas, avances y enfoques futuros. J. Mol. Endocrinol. 62, R21 y # x02013R45. doi: 10.1530 / JME-18-0055

Stark, R., Grzelak, M. y Hadfield, J. (2019). Secuenciación de ARN: la adolescencia. Nat. Rev. Genet. 20, 631 & # x02013656. doi: 10.1038 / s41576-019-0150-2

Weinhold, B. (2006). Epigenética: la ciencia del cambio. Reinar. Perspectiva de salud. 114, A160 y # x02013A167. doi: 10.1289 / ehp.114-a160

Xiao, M. S., Ai, Y. y Wilusz, J. E. (2020). Se enfocan la biogénesis y las funciones de los ARN circulares. Trends Cell Biol. 30, 226 & # x02013240. doi: 10.1016 / j.tcb.2019.12.004

Palabras clave: multi-ómicas, análisis integrativo, ómicas unicelulares, análisis multi-ómicas, secuenciación de próxima generación.

Cita: Chen G (2021) Editorial: Análisis multimodal e integrativo de datos de secuenciación masiva o de una sola celda. Parte delantera. Gineta. 12: 658185. doi: 10.3389 / fgene.2021.658185

Recibido: 25 de enero de 2021 Aceptado: 08 de febrero de 2021
Publicado: 26 de febrero de 2021.

Editado y revisado por: Richard D. Emes, Universidad de Nottingham, Reino Unido

Copyright & # x000A9 2021 Chen. Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de atribución Creative Commons (CC BY). Se permite el uso, distribución o reproducción en otros foros, siempre que se acredite al autor (es) original (es) y al propietario (es) de los derechos de autor y se cite la publicación original en esta revista, de acuerdo con la práctica académica aceptada. No se permite ningún uso, distribución o reproducción que no cumpla con estos términos.


Editorial: Análisis multimodal e integrativo de datos de secuenciación masiva o unicelular

1 Centro de Bioinformática y Biología Computacional, Laboratorio Clave de Biología Reguladora de Shanghai, Instituto de Ciencias Biomédicas, Facultad de Ciencias de la Vida, Universidad Normal del Este de China, Shanghai, China

2 Genecast Biotechnology Co., Ltd., Wuxi, China

Los sistemas biológicos a menudo involucran interacciones complejas entre las moléculas de diferentes capas ómicas, incluido el genoma, el metiloma, el transcriptoma, el proteoma, el metaboloma e incluso el microbioma. A nivel del genoma, pueden ocurrir en el genoma diversos tipos de variantes (por ejemplo, variaciones de un solo nucleótido, pequeñas inserciones o deleciones y variaciones estructurales) que podrían estar asociadas con una amplia gama de fenotipos o enfermedades. Para el epigenoma, incluye una variedad de modificaciones epigenéticas, como modificaciones covalentes en el ADN y las histonas, la accesibilidad y compactación de la cromatina, así como la conformación de orden superior de los dominios cromosómicos, que forman una intrincada red reguladora que puede influir en la estructura de la cromatina y expresión genética (Weinhold, 2006 Allis y Jenuwein, 2016). La exploración del transcriptoma se vio enormemente revolucionada por las tecnologías RNA-seq, que han reemplazado gradualmente a los microarrays tradicionales y han proporcionado información sin precedentes sobre la dinámica y la complejidad de la expresión génica (Costa et al., 2010 Stark et al., 2019). Específicamente, se encontró que muchos ARN largos no codificantes (lncRNA) y ARN circulares (circRNA) tienen funciones reguladoras críticas en diversos procesos biológicos (Marchese et al., 2017 Xiao et al., 2020). Las proteínas codificadas por ARNm generalmente se organizan en estructuras y redes de orden superior para realizar funciones catalíticas, sintéticas y reguladoras en momentos y lugares específicos (Aebersold y Mann, 2016). Los métodos basados ​​en espectrometría de masas (MS) [como la cromatografía líquida-MS / MS (LC-MS / MS)] revolucionaron enormemente la elaboración de perfiles de proteomas y facilitaron en gran medida la disección de procesos biológicos complejos y fenotipos (Angel et al., 2012). Además, el metaboloma teóricamente puede vincular el genoma, el transcriptoma y el proteoma con el fenotipo (Misra et al., 2018). Los niveles y las proporciones relativas de los metabolitos generalmente podrían reflejar las funciones metabólicas, por lo tanto, las perturbaciones anormales que más allá del rango normal pueden indicar ciertas enfermedades (Hasin et al., 2017). Además, los microbiomas también pueden contribuir significativamente a la biología y diversos fenotipos de sus organismos asociados, lo que puede revelar las interacciones entre el genoma y el entorno del organismo huésped (Knight et al., 2017 Lynch y Hsiao, 2019). Por lo tanto, el análisis multiómico puede promover el desarrollo de la biología de sistemas, que es esencial para investigar de manera integral los cambios dinámicos y las interacciones de las moléculas celulares, así como para comprender los mecanismos subyacentes (Figura 1).

Una vista esquemática simple de las investigaciones de biología de sistemas basada en datos multiómicos.

En este tema de investigación, varios equipos de investigación realizaron análisis integradores para explorar los mecanismos moleculares o identificar biomarcadores potenciales para ciertas enfermedades / trastornos. Chen y col. investigó sistemáticamente los perfiles de expresión del espectro de placenta accreta (PAS) tanto a nivel transcriptómico como proteómico, lo que proporcionó nuevos conocimientos sobre el mecanismo molecular subyacente del PAS. Mediante el análisis conjunto de las redes de interacción entre miRNA, mRNA y lncRNA, Wang et al. identificaron nuevos marcadores de pronóstico potenciales para pacientes con cáncer de mama luminal. Sun y col. reveló que el lncRNA-HEIPP (alta expresión en la placenta de preeclampsia) relacionado con la vía HIF-1 & # x003b1 podría desempeñar un papel importante en la patogénesis de la preeclampsia basándose en la exploración multiómica. Wang y col. realizó un análisis integrador de los mecanismos subyacentes de la pérdida auditiva inducida por ruido (NIHL) y sugirió que las vías inflamatorias están estrechamente asociadas con los cambios en los órganos auditivos de NIHL. Zhang y col. encontró que los G-cuádruples podrían ser objetivos potenciales para el descubrimiento de fármacos del síndrome respiratorio agudo severo coronavirus 2 (SARS-CoV-2) mediante el análisis sistemático de las estructuras secundarias no canónicas de los G-cuádruples en las hebras de sentido positivo y negativo del SARS -CoV-2. Wang y col. revelaron que el perfil de expresión de IGFBP7 podría ser un biomarcador potencial para la vasculatura en respuesta a una lesión cerebral traumática y que la señalización de TGF & # x003b2 podría estar estrechamente correlacionada con la regulación positiva de IGFBP7. Yuan y col. exploró sistemáticamente los patrones de expresión del trastorno depresivo mayor (TDM) y descubrió que la señalización de efrina y la transducción de la señal de la proteína Ras podrían estar asociadas con la patogénesis del TDM. Wang y col. identificó posibles biomarcadores de diagnóstico y pronóstico para el cáncer colorrectal basándose en un análisis integrador de los conjuntos de datos de diferentes bases de datos públicas. Además, Xiong et al. desarrolló un enfoque computacional integrador de ASDmiR para identificar los posibles genes, redes y módulos patógenos correlacionados con el trastorno del espectro autista. En general, estos estudios realizaron análisis conjuntos sobre los datos de distintas capas ómicas, que obtuvieron conocimientos novedosos sobre diferentes enfermedades.


Resultados

Predicción de distribuciones de ARNm citoplasmático a partir de la actividad transcripcional.

Para predecir cómo la actividad transcripcional de núcleos individuales dicta la formación de patrones citoplásmicos de ARNm, comenzamos con un modelo simple que considera el equilibrio entre la tasa de síntesis y degradación de ARNm d ARNm dt (x, t) = pactive (x) ︸ fracción de núcleos activos R (x, t) ︸ síntesis - γ mRNA (x, t) ︸ degradación, [1] donde mRNA (x, t) indica la concentración de mRNA en la posición x a lo largo del embrión en el tiempo t, R (x , t) corresponde a la tasa de síntesis de ARNm promediada sobre múltiples núcleos dentro de la misma posición x, pactive (x) es la fracción de núcleos activos (correspondiente a la estrategia reguladora que se muestra en la Fig.1D), y γ es la tasa de degradación (ver Apéndice SI, sección A para obtener detalles de esta derivación).

Examinar las consecuencias cuantitativas de las 3 estrategias reguladoras potenciales (Fig.1 BD), adoptamos supuestos generalizados en el modelado de la regulación transcripcional. Primero, asumimos que la tasa de degradación γ es una constante y no está bajo ningún tipo de control espacio-temporal. Las comparaciones entre las predicciones del modelo y los niveles de ARNm citoplasmático medidos empíricamente sugieren que esta suposición es razonable (Apéndice SI, sección B). En segundo lugar, postulamos que en cada posición a lo largo del embrión la tasa de síntesis R (x, t) no varía significativamente en el tiempo, de modo que puede aproximarse por su promedio de tiempo R (x) = ⟨R (x, t)⟩. Esta suposición se revisa más adelante en el texto para tener en cuenta la regulación dependiente del tiempo de la tasa media de transcripción. Finalmente, asumimos que los núcleos a lo largo del eje del embrión comienzan a transcribir en el momento t o n (x) y dejan de transcribir y entran en un estado de inactividad transcripcional en el momento t o ff (x). Bajo estos supuestos, Eq. 1 se puede resolver analíticamente, dando como resultado ARNm (x, t) = R (x) γ ︸ tasa de transcripción media × e - γ (t - min ) - e - γ (t - ton (x )) ︸ ventana de tiempo de transcripción × pactive (x) ︸ fracción activa. [2] Eq. 2 hace predicciones precisas sobre cómo cada estrategia reguladora contribuye a la formación del patrón de ARNm citoplasmático. Por lo tanto, medir cómo se regula cada cantidad a lo largo de la franja nos permite predecir sus contribuciones relativas a la formación de patrones.

El control binario de la ventana de tiempo transcripcional es el principal impulsor de la formación de franjas.

Para probar el modelo simple de formación de patrones presentado en la Ec. 2, cuantificamos la transcripción de la banda 2 de víspera en la mosca de la fruta. Tomamos imágenes de la transcripción de un víspera reportero de banda 2, utilizando el sistema MS2 (18, 27, 28). Transcripciones de un gen reportero impulsado por el víspera potenciador de banda 2 y el víspera El promotor contiene repeticiones de una secuencia de ADN que, cuando se transcribe, forman bucles de tallo (29). Estos bucles de tallo son reconocidos por la proteína de cubierta MS2 proporcionada por la madre fusionada con GFP (Fig.2A). Como resultado, los sitios de formación de transcripciones nacientes aparecen como puntos fluorescentes dentro de los núcleos individuales (Fig.2B y Movie S1). Como se describe en Apéndice SI, Fig. S2, la intensidad de estos puntos fluorescentes es proporcional al número de moléculas de RNAP que transcriben activamente el gen. Estos valores de fluorescencia resultantes podrían calibrarse usando FISH de molécula única para estimar el número de moléculas de RNAP que transcriben activamente el gen (Materiales y métodos y ref. 27). Al alinear múltiples embriones (Apéndice SI, Fig. S1), obtuvimos el número promedio de moléculas de RNAP en transcripción activa en función del tiempo y la posición en todo el embrión (Fig.2C).

Midiendo la dinámica transcripcional de víspera formación de la franja 2 utilizando el sistema MS2. (A) Lazos de vástago MS2 introducidos en un víspera el gen informador de la banda 2 está unido por la proteína de cubierta MS2 fusionada con GFP. (B) Los sitios de formación de transcripciones nacientes aparecen como puntos verdes fluorescentes cuya intensidad informa sobre el número de moléculas de RNAP que transcriben activamente. Los núcleos se visualizan mediante una fusión de RFP con histona. (C) Número medio de moléculas de RNAP que transcriben activamente el gen en función del espacio y el tiempo (datos promediados sobre 11 embriones).

Utilizando el sistema MS2, cuantificamos cada estrategia reguladora potencial y determinamos su contribución prevista a la formación de patrones de acuerdo con nuestro modelo en la Ec. 2. Primero usamos las intensidades de fluorescencia promedio de nuestras trazas de MS2 para estimar la tasa promediada en el tiempo de carga de RNAP, R (x) como se describe en Apéndice SI, sección B. Encontramos que esta tasa se modula a lo largo del eje del embrión (Fig.3 A y B Película S2 Apéndice SI, Fig. S3 y Materiales y métodos): Mientras que en el centro de la franja las moléculas de RNAP se cargan a una velocidad de ~ 16 moléculas por minuto, esta velocidad de carga disminuye a aproximadamente 8 moléculas por minuto en los límites.

Estrategias regulatorias para la formación de patrones en víspera raya 2. (AF) Tasa de producción de ARNm promediada en el tiempo (A y B), ventana de tiempo de transcripción (C y D) y fracción de núcleos activos en función de la posición a lo largo del embrión (mi y F). (GRAMO) Amplitud de la distribución del ARNm citoplásmico en comparación con las contribuciones a la formación de franjas del control análogo de la tasa de transcripción media, el control binario de la ventana de tiempo de transcripción y el control de la fracción de núcleos activos. También se muestra la contribución combinada de las estrategias analógica y binaria. Ver Apéndice SI, Fig. S5 para detalles de cómo los perfiles representados se derivaron de datos brutos. A, C, y mi mostrar instantáneas representativas de un embrión individual 40 min en el ciclo nuclear 14 B, D, y F muestran un promedio de más de 11 embriones y las barras de error indican una estimación de arranque del SEM.

A continuación, utilizamos nuestros datos de MS2 para examinar las tendencias espaciales en la ventana de tiempo de transcripción. Nuestros datos revelaron que la ventana de tiempo de transcripción se modula a lo largo de la franja (Apéndice SI, Fig. S4A). Mientras que el tiempo en el que cada núcleo se vuelve transcripcionalmente activo, t o n (x), fue constante a lo largo de la franja, con todos los núcleos volviéndose activos 8 ± 4 min después de la anafase anterior (Apéndice SI, Fig. S4B), el momento en el que los núcleos dejan de transcribir y se vuelven inactivos, t o ff (x), mostró una fuerte modulación a lo largo del eje del embrión (Apéndice SI, Fig. S4C). Como resultado, la ventana de tiempo en la que cada locus transcripcional participa en la transcripción, Δ t = t o ff - t o n, se modula bruscamente a lo largo de la franja (Fig.3 C y D y Movie S3), con núcleos en el centro de la franja transcribiendo durante & gt30 min y núcleos en los límites transcribiendo solo durante ∼10 min. Observamos que, para derivar estos resultados, fue necesario tener en cuenta los efectos potenciales del límite de detección en nuestros experimentos de ∼4 moléculas de RNAP por locus en las estimaciones del momento de aparición y desaparición de puntos fluorescentes. Este procedimiento se describe en detalle en Apéndice SI, sección C, así como en Apéndice SI, Figs. S12 y S13.

Finalmente, nuestro análisis también reveló la magnitud de la modulación de la fracción de núcleos activos a lo largo de la franja. La mayoría de los núcleos a lo largo de la franja se dedicaron a la transcripción. En el centro de la franja, casi el 100% de los núcleos se transcribieron en algún momento durante el ciclo de los núcleos. Este número se redujo a aproximadamente el 80% en los límites (Fig.3 mi y F y Movie S4).

El análisis en la Fig.3 AF revela que cada una de las 3 estrategias reguladoras identificadas en la Fig. 1 está en juego en el embrión y que todas tienen el potencial de contribuir a la formación de patrones. Sin embargo, estas mediciones por sí solas no pueden informarnos en qué medida cada una de estas estrategias contribuye al patrón de ARNm citoplasmático. Cuantificar el grado en que cada estrategia regulatoria contribuye a la formación de víspera raya 2, empleamos el modelo descrito en la Ec. 2.

Fig. 3GRAMO indica la contribución cuantitativa de cada estrategia regulatoria (cada término en el lado derecho de la Ec. 2) a la formación de este patrón citoplasmático. El patrón citoplasmático de ARNm acumulado, correspondiente al lado izquierdo de la Ec. 2, se obtuvo mediante la integración de nuestros datos de imágenes en vivo (ver Apéndice SI, sección B para más detalles). Regulación de la fracción de núcleos activos a lo largo del embrión (Fig.3GRAMO, amarillo) contribuye de manera insignificante a este patrón de ARNm. Por el contrario, tanto la regulación analógica de la tasa media (Fig.3GRAMO, verde) y el control binario de la ventana de tiempo de transcripción (Fig.3GRAMO, azul) hacen contribuciones significativas al patrón general, con el control binario jugando el papel dominante. Por tanto, concluimos que el efecto conjunto de estas 2 estrategias (Fig.3GRAMO, marrón) es suficiente para recapitular cuantitativamente la franja de ARNm citoplasmático de la actividad transcripcional unicelular.

La tasa de transcripción media se dicta mediante el estallido a través de la modulación de la tasa de activación del promotor.

¿Las estrategias de control binario y analógico están impulsadas por distintos mecanismos moleculares o son diferentes manifestaciones del mismo proceso subyacente? Para descubrir el mecanismo molecular detrás del control analógico de la tasa media de transcripción, analizamos la actividad transcripcional de los núcleos individuales. El trabajo anterior demostró que la tasa de expresión génica en los loci individuales dentro del víspera El patrón de la raya 2 es muy estocástico (18). De hecho, como se muestra en la Fig.4A, nuestros datos revelaron picos y valles puntuados en el número de moléculas activas de RNAP. Estas características se han relacionado con la tasa de iniciación de RNAP en el víspera promotor asumiendo que la actividad transcripcional es "similar a un estallido", con el promotor cargando rápidamente múltiples moléculas de RNAP en el gen a una velocidad constante durante "ráfagas" discretas de actividad intercaladas con períodos de inactividad (18). Esta y otra evidencia de imágenes en vivo (18, 25, 30), así como datos de enfoques de tejido fijo (26, 31 ⇓ -33), apoyan un modelo mínimo de 2 estados de cambio de promotor (Fig.4B): Los promotores cambian estocásticamente entre los estados ON y OFF con tarifas k o n y k o ff. En este modelo, los promotores en el estado ON se involucran en la carga de RNAP (y, en consecuencia, la producción de ARNm) a una tasa r. Así encontramos que, para describir víspera raya 2 dinámica transcripcional, debemos tener en cuenta tanto los períodos ON cortos y transitorios dictados por ráfagas transcripcionales como una ventana de tiempo transcripcional más larga que describe el período durante el cual los loci participan en esta explosión transcripcional.

Estallido transcripcional víspera raya 2. (A) Las mediciones de un solo núcleo revelan que los núcleos se transcriben en ráfagas. (B) Modelo de dos estados de ruptura de un solo promotor. (C) La misma tasa oculta de carga de RNAP (Fondo) puede corresponder a diferentes números observables de moléculas RNAP en el gen (Cima), de modo que los enfoques del modelo de Markov oculto estándar no se pueden utilizar para inferir el estado del promotor oculto. (D) Los puntos fluorescentes se componen de 2 loci transcripcionales distintos dentro de un punto limitado por difracción, cada uno correspondiente a una cromátida hermana. (mi) Modelo de tres estados de cambio de promotor dentro de un punto fluorescente que explica la acción combinada de ambas cromátidas hermanas. (F) Modelo efectivo de 2 estados de estallido transcripcional. (En A, las barras de error se obtienen a partir de la estimación de las fluctuaciones fluorescentes de fondo Materiales y métodos y ref. 27.)

En el modelo de ráfagas, la tasa media de transcripción viene dada por el producto de la fracción de tiempo pasado en el estado ON con la tasa de transcripción en este estado activo (34 ⇓ ⇓ –37) R (x) ︸ tasa de transcripción media = r (x) ︸ RNAP tasa de carga × kon (x) kon (x) + ko ff (x) ︸ fracción de tiempo en estado ON, [3] donde se permite que todos los parámetros varíen en función de la posición a lo largo del embrión, x (ver Apéndice SI, sección A para obtener detalles de esta derivación). Por lo tanto, dentro de este marco, la modulación observada de la tasa media de transcripción a través de la franja (Fig.3GRAMO, verde) implica que uno o más de estos parámetros de ráfagas están sujetos a una regulación controlada espacialmente. Sin embargo, la tendencia de la tasa media por sí sola no es suficiente para identificar cuál de los 3 parámetros de explosión (k o n, k o ff yr) está siendo regulado por los factores de transcripción de entrada para controlar la tasa de transcripción promedio. Si bien cada parámetro de explosión no necesariamente se asigna directamente a un solo paso molecular en el ciclo transcripcional, identificar qué parámetro (s) está sujeto a regulación puede ayudar a reducir el conjunto de posibles mecanismos moleculares. Por ejemplo, la variación en r podría indicar que los factores de transcripción juegan un papel activo en el reclutamiento de RNAP al promotor o en la liberación de RNAP a partir de una pausa proximal al promotor (38).

Por lo general, el mecanismo molecular in vivo de la acción del factor de transcripción se infiere a partir de las mediciones del ruido transcripcional obtenidas a través de instantáneas de embriones o células fijas y muertas utilizando modelos teóricos (26, 31 ⇓ –33, 39 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ –47) . Por el contrario, las imágenes en vivo basadas en MS2 pueden informar directamente sobre la dinámica del estallido transcripcional en tiempo real. Sin embargo, el enfoque de MS2 informa sobre el número total de moléculas de RNAP que transcriben activamente y no sobre la tasa instantánea de carga de RNAP en el promotor, que es la cantidad relevante para estimar k o n, k o ff y r. Hasta la fecha, los enfoques para extraer parámetros de ruptura a partir de dichos datos en organismos multicelulares se han basado principalmente en el análisis manual de la dinámica transcripcional de un solo núcleo (18, 25) o métodos basados ​​en autocorrelación que infieren parámetros de ruptura media a través de conjuntos de trazas (30, 48). , 49). Un método computacional para inferir las tasas de carga de RNAP (Fig.4 C, Fondo) del número total de moléculas de RNAP en transcripción activa en células individuales (Fig.4 C, Cima) es por tanto necesaria para obtener los parámetros de ráfagas.

Los modelos ocultos de Markov (HMM) se utilizan ampliamente para descubrir la dinámica de un sistema a medida que pasa por estados que no son directamente accesibles para el observador (50). Sin embargo, nuestro observable (la señal de MS2) no se corresponde con la variable oculta de interés (el estado del promotor) de forma uno a uno (comparar la Fig.4 C, Cima y Fondo). En cambio, la señal observable de MS2 refleja el efecto neto del cambio de promotor durante un período igual al tiempo que tarda una molécula de RNAP en transcribir el gen completo. Por lo tanto, la fluorescencia instantánea no solo depende del estado actual del promotor, sino que también depende de cuán activo haya sido el promotor durante una ventana de tiempo anterior, lo que efectivamente constituye una memoria para los estados recientes del promotor (24, 37, 51, 52). Los enfoques clásicos de HMM no pueden dar cuenta de este tipo de memoria del sistema.

Para modelar el proceso de transcripción y extraer los parámetros cinéticos del cambio de promotor, aumentamos los HMM clásicos para tener en cuenta la memoria (los detalles sobre la implementación del método se dan en Apéndice SI, sección D). Recientemente se introdujeron enfoques similares para estudiar la dinámica transcripcional en cultivos celulares y muestras de tejido (22 ⇓ –24, 53 ⇓ ⇓ ⇓ –57). Usamos datos simulados para establecer que cpHMM extrae de manera confiable los parámetros cinéticos del estallido transcripcional de los datos de imágenes en vivo (Apéndice SI, sección E), que proporciona una herramienta ideal para analizar las contribuciones de los parámetros de explosión individuales a los patrones observados de actividad transcripcional en el espacio y el tiempo.

Antes de aplicar nuestro modelo a datos transcripcionales en tiempo real, tuvimos que tener en cuenta la rápida replicación del Drosophila melanogaster genoma al comienzo de cada ciclo nuclear (58), lo que conduce a la presencia de 2 distintos víspera loci dentro de cada punto fluorescente (Fig.4D y Movie S5). La primera evidencia de cromátidas resueltas aparece ya a los 8 minutos del ciclo nuclear 14 (Apéndice SI, Fig. S24) —coincidente con el tiempo promedio de inicio de la transcripción (Apéndice SI, Fig. S4B). Además, nuestro análisis indica que la replicación de la porción relevante del genoma probablemente ocurre en todos víspera-expresando núcleos a más tardar 10 minutos después de la mitosis (Apéndice SI, Figura S24). Por lo tanto, llegamos a la conclusión de que la gran mayoría de nuestros datos cuentan con 2 víspera loci dentro de cada punto de transcripción limitado por difracción. Además, aunque la distancia entre los loci hermanos varía con el tiempo (p. Ej., Fig.4D), no obstante, permanecen relativamente cerca para asegurar su adecuada segregación entre sí en la siguiente mitosis (59), de modo que las señales de intensidad fluorescente extraídas de nuestros datos reflejan la integral sobre ambos loci (Apéndice SI, Figura S2). Como resultado, si asumimos que cada locus puede estar bien representado por un modelo de 2 estados (APAGADO / ENCENDIDO) de ráfaga transcripcional, entonces un modelo efectivo de 3 estados (APAGADO / APAGADO + APAGADO / ENCENDIDO + APAGADO / ENCENDIDO + ENCENDIDO / ON) es necesario para capturar víspera dinámica (Fig.4mi). Por lo tanto, elegimos emplear un modelo de tres estados en nuestro análisis. Debido a la evidencia contradictoria de estudios previos (26, 32, 60), no hicimos suposiciones previas sobre la naturaleza o el grado de cooperatividad entre las cromátidas hermanas, ya sea en las transiciones entre estados de actividad o en las tasas de iniciación en cada estado (ver Apéndice SI, sección E para más detalles). Si bien estas suposiciones aumentaron la complejidad de nuestro modelo, creímos que se justificaba un enfoque conservador que dejara al modelo libre para inferir la presencia o ausencia de interacciones hermanas, dada nuestra ignorancia con respecto a la naturaleza y la fuerza de las interacciones entre los loci de genes adyacentes. Para facilitar la exposición, presentamos nuestros principales resultados en el contexto de un modelo efectivo de 2 estados, en el cual, como se detalla en Apéndice SI, sección A, se considera que el sistema está en el estado ENCENDIDO siempre que alguna de las cromátidas esté explotando (Fig.4F). Tenga en cuenta que ninguna de nuestras conclusiones a continuación se ve afectada por esta elección de un modelo eficaz como se muestra en Apéndice SI, sección G, donde presentamos los resultados completos para el modelo de 3 estados.

En la figura 5 se muestra una traza experimental típica para un núcleo en el núcleo de la franja.A, junto con su mejor ajuste, que corresponde a la trayectoria del promotor inferida por cpHMM en la Fig.5B. Nuestra capacidad para inferir el estado instantáneo del promotor en núcleos individuales a lo largo del desarrollo se ilustra con más detalle en la Fig.5.C y Movie S6. Estos datos revelaron que, a medida que avanza el desarrollo y la franja se agudiza, la víspera El promotor fluctúa continuamente entre los estados ON y OFF en una escala de tiempo de ∼1 a 2 min.

Inferir dinámica de explosión utilizando un modelo de Markov oculto ajustado a la memoria. (A y B) Traza experimental representativa junto con su mejor ajuste (A) y su trayectoria de estado promotor más probable correspondiente (B). (C) Visualización instantánea del estado del promotor en células individuales a lo largo del desarrollo a través de la falsa coloración de los núcleos por estado del promotor (colores como en B). (D) La tasa de iniciación para cada estado transcripcional no se modula significativamente a lo largo del embrión. (mi) Nuestro cpHMM revela que la tasa de transición entre los estados APAGADO y ENCENDIDO (equivalente a la frecuencia de ráfaga) está regulada al alza en el centro de la franja. (En A, las barras de error se obtienen de la estimación de las fluctuaciones fluorescentes de fondo, como se describe en Materiales y métodos y ref. 27 pulg D y mi, las barras de error indican la magnitud de la diferencia entre el primer y tercer cuartiles de los resultados de inferencia de cpHMM para muestras de arranque de datos experimentales tomados en 11 embriones ver Materiales y métodos para detalles.)

Para inferir los valores de los parámetros de estallido promediados en el tiempo, agrupamos las trazas por posición a lo largo del eje anteroposterior. La tasa de carga de RNAP, r, permaneció constante a lo largo de la franja (Fig.5D), lo que sugiere que ninguno de los factores de transcripción que regulan víspera la banda 2 actúa directamente sobre la rápida serie de pasos moleculares implicados en el inicio de la transcripción por RNAP. De manera similar, no notamos una modulación espacial significativa de la tasa de cambio fuera del estado ON, k o ff (Fig.5mi). Por el contrario, la tasa de conmutación al estado ON (también conocida como frecuencia de ráfaga), k o n, estaba fuertemente regulada hacia arriba en el centro de la franja (Fig.5mi). Estas observaciones sugirieron que, para controlar la tasa media de transcripción, los factores de transcripción actúan principalmente sobre la tasa de activación del promotor, consistente con resultados previos tanto en embriones (25, 30, 33) como en células individuales (41, 43, 44, 46). Esta modalidad reguladora aumenta la fracción de tiempo que los loci cerca del centro de la franja pasan en el estado ON (Apéndice SI, Fig. S7 y ref. 26).

El control binario de la ventana de tiempo transcripcional es independiente del estallido transcripcional.

Habiendo determinado que el control analógico de la tasa de transcripción media se realiza mediante la modulación de la frecuencia de ráfaga, kon, a continuación buscamos descubrir el mecanismo molecular mediante el cual se implementa la regulación binaria de la ventana de tiempo de transcripción. En un escenario posible, el inicio de la quiescencia transcripcional al final de la ventana de tiempo transcripcional reflejaría un cambio fundamental en el carácter molecular del locus transcripcional de tal manera que el marco de ruptura ya no se aplica. Por ejemplo, la represión de los factores de transcripción podría alterar el paisaje de la cromatina local al reposicionar los nucleosomas del promotor o del potenciador (61), cambios que podrían bloquear la unión de los activadores en el potenciador de la banda 2 o de los factores de transcripción generales en el promotor y así abolir más activadores mediados estallar (Fig.6 A, I). Alternativamente, si las tasas de cambio de promotor varían en el tiempo, entonces la ventana de tiempo podría explicarse sin invocar un estado silenciado adicional que sea mecánicamente distinto de los procesos que impulsan el estallido transcripcional. Específicamente, la quiescencia transcripcional podría lograrse reduciendo progresivamente la frecuencia (k o n), la intensidad (r) y / o la duración (1 / k o ff) de las ráfagas transcripcionales. Por ejemplo, es posible que el aumento de los niveles de represor en los flancos de la franja pueda interrumpir la capacidad de los activadores para iniciar ráfagas de transcripción a través de interacciones de extinción de corto alcance (62), un mecanismo que se manifestaría como una disminución de k o n con el tiempo.

Investigando el carácter molecular de la quiescencia transcripcional. (A) Dos hipótesis que explican el inicio de la inactividad del promotor: (A, I) una transición a un estado transcripcionalmente silencioso alternativo y de larga duración y (A, ii) la modulación de uno o más parámetros de ráfagas a lo largo del tiempo. (B – F) División de la franja en 5 regiones (B) para nuestro análisis de la fracción de núcleos en reposo (C), la tasa de transición de OFF a ON (D), la tasa de carga de RNAP cuando el promotor está en el estado ON (mi) y la tasa de transición de ON a OFF en función del tiempo y la posición a lo largo de la franja (F). La región sombreada en gris indica el inicio de la quiescencia transcripcional. (En C, las barras de error indican la estimación de arranque del SEM en D – F, las barras de error indican la magnitud de la diferencia entre el primer y tercer cuartiles de los resultados de inferencia de cpHMM para muestras bootstrap de datos experimentales. Materiales y métodos para detalles.)

Para determinar si la quiescencia se puede explicar dentro del marco de estallido, dividimos la franja en las 5 regiones que se muestran en la Fig.6B. Para cada región, buscamos determinar si la dinámica de estallido variaba con el tiempo de una manera que pudiera explicar la dinámica de entrada en inactividad de núcleos individuales (Fig.6C). Para investigar esta dependencia del tiempo en el estallido transcripcional, ampliamos nuestro método cpHMM para obtener parámetros de estallido de promotores durante períodos de tiempo discretos mediante la realización de inferencias en nuestros datos de imágenes en vivo utilizando una ventana deslizante (ver Apéndice SI, sección D para más detalles). Nuestra inferencia reveló que la tasa de activación del promotor, k o n, varió significativamente en el tiempo (Fig.6D). Específicamente, k o n disminuyó en los límites de la franja anterior y posterior (Fig.6D, curvas negras y rojas) a medida que avanzaba el desarrollo y la fracción de núcleos activos disminuía (Fig.6D, región sombreada de gris), mientras que los lugares en el centro de la franja (Fig.6D, curvas verde y amarillo) exhibieron un aumento significativo en k o n. Además, aunque relativamente constante en la mayoría de las posiciones a lo largo de la franja, tanto la tasa de carga de RNAP cuando está en el estado ON, r, como la tasa de desactivación del promotor, k o ff, disminuyeron ligeramente (Fig.6 mi y F).

Estos hallazgos confirmaron nuestros resultados de inferencia promediados en el tiempo (Fig.5 D y mi) indicando que k o n era la vía cinética primaria a través de la cual los factores de transcripción influyen víspera dinámica de transcripción de la banda 2. Además, la coincidencia de la disminución de k en los núcleos del flanco con el inicio de la quiescencia transcripcional (región sombreada en gris en la Fig.6D) parecía sugerir que, al menos en parte, la quiescencia en los flancos de la franja podría ser impulsada por la modulación temporal de los parámetros de estallido (Fig.6 A, ii). Sin embargo, otras tendencias en nuestros datos no fueron consistentes con la opinión de que una disminución en k o n impulsa la inactividad transcripcional.

Aunque el 70% y el 50% de los núcleos en las regiones directamente anterior y posterior del centro de la raya estaban inactivos a los 40 minutos del ciclo nuclear (curvas azul y amarilla en la Fig.6C), no detectamos una disminución correspondiente en k o n. De hecho, k o n en realidad aumentó en algunas regiones internas de la franja (Fig.6D): Una tendencia que aumentaría la actividad transcripcional general y, por lo tanto, iría en contra del establecimiento de la quiescencia transcripcional.

Los resultados divergentes observados en las regiones de la franja central, con la tasa de estallido transcripcional permaneciendo constante o aumentando en víspera loci dentro de la población comprometida de núcleos incluso cuando los loci en núcleos vecinos se apagan definitivamente, va en contra de la hipótesis de que la quiescencia es impulsada por la modulación temporal de los parámetros de conmutación del promotor. Es concebible que los cambios temporales en los parámetros de explosión asociados con el inicio de la quiescencia ocurran demasiado rápido para ser capturados por nuestro modelo. Sin embargo, como se discutió en Apéndice SI, sección I, estos cambios tendrían que ocurrir en la misma escala de tiempo que el estallido mismo (1 a 3 min). Dado que tanto las otras tendencias temporales detectadas por nuestra inferencia (Fig.6) como los cambios en los propios factores de transcripción de entrada (Apéndice SI, sección H) se desarrollan en escalas de tiempo significativamente más lentas (5 a 15 min), llegamos a la conclusión de que, si bien es posible, un escenario en el que la dinámica de estallido está cambiando demasiado rápido para detectarlo es poco probable.

Las tendencias contradictorias observadas en el centro de la franja y los flancos indicaron que la entrada en la quiescencia transcripcional podría involucrar procesos no capturados dentro del modelo de explosión (Fig.6 A, I), lo que sugiere que el control binario de la ventana de tiempo de transcripción y el estallido transcripcional que impulsa el control analógico de la tasa de transcripción media pueden surgir de distintos procesos moleculares.

El análisis de entrada-salida revela una lógica reguladora distinta para el estallido y la ventana de tiempo de transcripción.

víspera la banda 2 se establece principalmente por la acción combinada de 2 activadores, Bicoid y Hunchback, y 2 represores, Giant y Krüppel (16, 17, 63). Si el estallido transcripcional y la ventana de tiempo transcripcional están controlados por distintos procesos moleculares, entonces pueden estar en juego distintas formas de lógica reguladora. Por ejemplo, los activadores Bicoid y Hunchback podrían controlar el estallido transcripcional, mientras que los represores Giant y Krüppel podrían dictar la entrada al estado inactivo. Para revelar la lógica molecular que controla cada estrategia reguladora, buscamos correlacionar la fracción de núcleos que han entrado en el estado inactivo (Fig.7A) y la fracción de núcleos en estado de explosión ON (Fig.7B) con los correspondientes patrones espacio-temporales en las concentraciones de entrada de estos 4 factores de transcripción.

Sondear la lógica reguladora del estallido y la ventana de tiempo de transcripción. (A y B) Fracción de núcleos en el estado transcripcionalmente inactivo (A) y fracción de núcleos en estado de explosión ON (B) en función del tiempo y la posición a lo largo del embrión. (C) Instantáneas de los niveles de factor de transcripción de entrada y los víspera Niveles de ARNm de nuestro embrión "promedio" a los 10, 25 y 40 minutos del ciclo nuclear 14. (D) Fracción pronosticada de núcleos en reposo para modelos de regresión progresivamente más complejos. El modelo más simple con la mayor probabilidad se resalta en violeta. Los círculos codificados por colores indican cuáles de los 4 factores de transcripción, Krüppel (Kr), Gigante (Gt), Jorobado (Hb) y Bicoide (Bcd), se incluyeron en cada versión del modelo. (mi) Modelo de probabilidad que indica que los niveles de Krüppel y Giant son suficientes para recapitular la fracción de núcleos inactivos en D. (F) Fracción prevista de núcleos en estado ON. El modelo más simple y probable está resaltado en violeta. (GRAMO) Las puntuaciones del modelo revelan que Gigante, Krüppel y Jorobado recapitulan el comportamiento explosivo en F.

Medimos los perfiles de concentración de Bicoide utilizando una fusión Bicoide-GFP bien establecida (64) y obtuvimos perfiles de concentración espacio-temporal para Krüppel, Giant y Hunchback a partir de datos de inmunofluorescencia publicados (65, 66).Combinamos estos datos con nuestros datos de imágenes en vivo de víspera raya 2 actividad transcripcional para generar un "embrión promedio" en el que se conocían la concentración de todas las entradas relevantes y la actividad transcripcional de salida en cada punto en el tiempo y el espacio (Fig. 7C y Movie S7). Sobre la base de trabajos anteriores (67), utilizamos regresiones logísticas para probar el papel regulador que desempeña cada uno de estos 4 factores en el control espacio-temporal del estallido transcripcional y la ventana de tiempo transcripcional. La regresión logística es un método ampliamente utilizado para inferir modelos predictivos en procesos con resultados binarios. Por ejemplo, para consultar la lógica reguladora detrás del control de la ventana de tiempo de transcripción, el modelo investiga el impacto de cada factor de transcripción en la probabilidad relativa de que un locus entre en el estado inactivo versus la probabilidad de permanecer transcripcionalmente comprometido de manera que log P inactivo P comprometido = β 0 + β 1 B cd + β 2 H b + β 3 G t + β 4 K r, [4] donde los coeficientes β n indican la magnitud y naturaleza (activando o reprimiendo) de la función reguladora del factor de transcripción. Para estimar estos coeficientes, utilizamos conocimientos previos sobre la función de cada factor de transcripción, lo que requiere que Bicoide y Jorobado desempeñen roles activadores y Krüppel y Giant desempeñen roles represores (5, 16). Usamos un modelo análogo para investigar la lógica reguladora que controla el estallido transcripcional al inferir los factores que determinan la probabilidad relativa de que los núcleos estén en el estado de estallido ENCENDIDO versus APAGADO, P O N / P O F F.

Nuestro análisis de la fracción de núcleos en el estado de reposo reveló que ningún factor de transcripción puede explicar la dinámica de reposo (Fig.7 D y mi). Sin embargo, un modelo simple en el que los niveles crecientes de los represores Giant y Krüppel impulsan el inicio de la quiescencia transcripcional en los flancos de la franja anterior y posterior, respectivamente, recapituló las tendencias observadas experimentalmente. La adición adicional de Hunchback y / o Bicoid no tuvo ningún impacto en el poder predictivo del modelo, lo que sugiere que las concentraciones de activador no tienen influencia sobre los procesos moleculares responsables del silenciamiento. Relajar las restricciones sobre el papel funcional de cada factor de transcripción, por ejemplo, permitir que los supuestos activadores funcionen como represores, tampoco proporcionó una mejora significativa con respecto a los modelos presentados aquí, como se muestra en Apéndice SI, sección H.

A continuación, dirigimos nuestra atención a la relación entre los niveles de factor de transcripción y la fracción de núcleos en el estado ON (Fig.7B). A diferencia de la ventana de tiempo de transcripción, los niveles de represor por sí solos no podían recapitular el perfil de estallido observado.Los niveles de jorobado también eran necesarios para capturar completamente la dinámica de estallido espacio-temporal (Fig.7 mi y GRAMO). Específicamente, vinculamos un aumento en la concentración de jorobado con un aumento observado en la fracción de núcleos en el estado ON en el centro de la franja entre 30 y 35 minutos en el ciclo nuclear (Fig.7 B y F).

Nuestro análisis de entrada-salida reveló que el estallido y la ventana de tiempo de transcripción exhiben formas significativamente diferentes de lógica reguladora: mientras que los niveles de represor por sí solos son suficientes para explicar la ventana de tiempo de transcripción, la acción conjunta de activadores y represores parece necesaria para explicar los patrones observados de explosión transcripcional. Estos resultados son consistentes con la hipótesis de que la regulación del estallido y de la ventana de tiempo de transcripción ocurre a través de distintos procesos moleculares, por lo tanto apoyando un modelo en el que el estado transcripcionalmente silencioso de larga duración observado en los núcleos de flanco constituye un estado molecular distinto fuera del modelo de estallido. .


Uso de redes bayesianas para analizar datos de expresión

Las matrices de hibridación de ADN miden simultáneamente el nivel de expresión de miles de genes. Estas medidas proporcionan una "instantánea" de los niveles de transcripción dentro de la célula. Un desafío importante en biología computacional es descubrir, a partir de tales mediciones, interacciones gen / proteína y características biológicas clave de los sistemas celulares. En este artículo, proponemos un nuevo marco para descubrir interacciones entre genes basados ​​en múltiples medidas de expresión. Este marco se basa en el uso de Redes bayesianas para representar dependencias estadísticas. Una red bayesiana es un modelo basado en gráficos de distribuciones de probabilidad multivariadas conjuntas que captura propiedades de independencia condicional entre variables. Estos modelos son atractivos por su capacidad para describir procesos estocásticos complejos y porque proporcionan una metodología clara para aprender de observaciones (ruidosas). Comenzamos mostrando cómo las redes bayesianas pueden describir interacciones entre genes. A continuación, describimos un método para recuperar interacciones genéticas a partir de datos de microarrays utilizando herramientas para el aprendizaje de redes bayesianas. Finalmente, demostramos este método en el S. cerevisiae mediciones del ciclo celular de Spellman et al. (1998).


Atlas de expresión

iRAP: herramienta de análisis de RNA-seq
Una tubería flexible para el análisis de RNA-seq que integra muchas herramientas existentes para filtrar y mapear lecturas, cuantificar la expresión y probar la expresión diferencial. iRAP se utiliza para procesar todos los datos de RNA-seq en Expression Atlas.

RNASeq-er API: una puerta de entrada al análisis actualizado sistemáticamente de los datos públicos de RNA-Seq
La API REST de RNASeq-er proporciona un fácil acceso a los resultados del análisis actualizado sistemáticamente y en continuo crecimiento de los datos públicos de RNA-seq en el Archivo Europeo de Nucleótidos (ENA). El análisis de cada ejecución de secuenciación lo realiza el equipo de expresión génica de EMBL-EBI utilizando la tubería iRAP (ver más arriba).

Paquete Expression Atlas R sobre bioconductores
Busque y descargue datos preempaquetados de Expression Atlas dentro de una sesión de R. Se proporcionan recuentos brutos para conjuntos de datos de RNA-seq y las intensidades normalizadas están disponibles para experimentos de microarrays. Los protocolos que describen cómo se generaron los datos y las anotaciones de muestra se encuentran dentro de los objetos R descargados.

Mapa de calor de Expression Atlas
Puede incrustar el mapa de calor de Expression Atlas como un widget de JavaScript en su sitio. Puede compilarlo desde la fuente o puede vincularlo directamente a nuestros paquetes construidos. Las instrucciones para ambos métodos se proporcionan en el repositorio de GitHub. Se recomienda encarecidamente que revise todos los ejemplos disponibles en nuestra galería de muestras.


Ver el vídeo: EXPRESION GENETICA (Agosto 2022).