Información

¿Qué nueva información agrega PheWAS más allá de GWAS?

¿Qué nueva información agrega PheWAS más allá de GWAS?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estoy tratando de comprender el estudio de asociación de todo el fenómeno (PheWAS). Si entiendo correctamente, PheWAS parece ser exactamente lo contrario de GWAS (encontrar asociaciones gen-rasgo utilizando rasgos en lugar de SNP). Entonces, ¿qué información nueva se agrega al ejecutar un estudio PheWAS en comparación con solo ejecutar múltiples GWAS? Si tiene resultados de asociación de una sola variante entre un determinado SNP y 10 rasgos en un GWAS, por ejemplo, ¿es eso lo mismo que hacer un PheWAS para esos 10 rasgos?


Neuroimagen PheWAS (estudio de asociación de todo el fenómeno): una plataforma de computación en la nube gratuita para estudios de asociación de imágenes de gran cantidad de datos y en todo el cerebro

Los estudios de asociación de todo el genoma de casos y controles (GWAS) a gran escala han revelado variaciones genéticas asociadas con diversos trastornos neurológicos y psiquiátricos. Los avances recientes en las bases de datos de neuroimagen y genómicas de grandes cohortes sanas y enfermas han permitido realizar estudios para caracterizar los efectos de los factores genéticos descubiertos en la estructura y función del cerebro, lo que implica a las vías neuronales y los mecanismos genéticos en la biología subyacente. Sin embargo, la escala y la complejidad sin precedentes de las imágenes y los datos genómicos requieren nuevas herramientas avanzadas de ciencia de datos biomédicos para administrar, procesar y analizar los datos. En este trabajo, presentamos Neuroimaging PheWAS (estudio de asociación de todo el fenoma): un sistema basado en la web para buscar en una amplia variedad de fenotipos de imágenes en todo el cerebro para descubrir verdaderas relaciones gen-cerebro a nivel del sistema utilizando un genotipo-a-unificado. estrategia de fenotipo. Este diseño presenta una interfaz gráfica de usuario (GUI) fácil de usar para la carga anónima de datos, la definición y gestión de estudios y visualizaciones interactivas de resultados, así como una infraestructura computacional basada en la nube y múltiples métodos de vanguardia para el análisis de asociación estadística y múltiples corrección de comparación. Demostramos el potencial de la neuroimagen PheWAS con un estudio de caso que analiza las influencias del gen de la apolipoproteína E (APOE) en varias propiedades morfológicas del cerebro en la cohorte de la Iniciativa de neuroimagen de la enfermedad de Alzheimer (ADNI). Se realizaron pruebas de referencia para evaluar el rendimiento del sistema utilizando datos del UK Biobank. El sistema de neuroimagen PheWAS está disponible gratuitamente. Simplifica la ejecución de PheWAS en datos de neuroimagen y brinda una oportunidad para que los estudios de genética de imágenes aclaren las rutas en juego para variantes genéticas específicas en enfermedades en el contexto de datos fenotípicos de imágenes detallados.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


Introducción

Existe una red dinámica entre el genoma, los productos génicos, las vías de señalización, los fenotipos intermedios y los rasgos de resultado, y esta complejidad puede aprovecharse para desarrollar una imagen más clara de la etiología de los rasgos complejos. Mediante la exploración de las relaciones entre la variación genética y una amplia gama de mediciones fenotípicas en múltiples niveles, podemos integrar estos resultados complejos y completos para obtener una imagen más clara del panorama genotipo-fenotipo. Existe una amplia evidencia de que muchas variantes genéticas se asocian con múltiples rasgos, lo que indica el potencial de pleiotropía. El catálogo de estudios de asociación de todo el genoma (GWAS) del NHGRI muestra muchos polimorfismos de un solo nucleótido (SNP) asociados con más de un fenotipo y / o dominio fenotípico [1]. Las enfermedades autoinmunes han mostrado una superposición considerable en las regiones genéticas con evidencia de asociación [2, 3], al igual que el síndrome metabólico [4].

Para identificar redes dinámicas de conexiones fenotípicas y genotípicas, se pueden utilizar los estudios de asociación de todo el fenómeno (PheWAS) para evaluar la asociación entre cualquier número de polimorfismos de un solo nucleótido (SNP) y una amplia gama de variables fenotípicas de una manera de alto rendimiento (Figura 1). PheWAS comenzó con la investigación de la asociación entre múltiples SNP y datos de registros médicos electrónicos (EHR) no identificados [5], y ahora se ha utilizado con éxito varias veces con datos EHR [6 & # x0201312]. Desde entonces, PheWAS se ha utilizado con datos de estudios epidemiológicos y datos de ensayos clínicos [13 & # x0201315]. PheWAS se puede utilizar para investigar exhaustivamente la asociación entre la variación genética y una amplia gama de rasgos de resultado en cualquier diseño de estudio con una multitud de datos fenotípicos como cohortes epidemiológicas, ensayos clínicos e investigación de cría de animales. PheWAS es complementario del enfoque del Genome-Wide Association Study (GWAS), que investiga la asociación entre la variación genética y un resultado / fenotipo, o un dominio fenotípico limitado. Sin embargo, GWAS no puede proporcionar la información adicional que existe cuando se utiliza una amplia gama de datos genotípicos y fenotípicos evaluados simultáneamente a partir del mismo conjunto de datos. Si se encuentran asociaciones entre un solo SNP y múltiples fenotipos, que muestren pleiotropía potencial, hay una variedad de razones para estas asociaciones que pueden revelar una biología importante. Además, PheWAS tiene el potencial de ayudar al descubrimiento clínico y de fármacos a través de la identificación de asociaciones de fenotipos de SNP novedosos y relaciones entre variantes únicas y fenotipos múltiples, incluida la identificación de efectos secundarios potenciales.

PheWAS se puede utilizar para evaluar la asociación entre un conjunto completo de fenotipos y variación genética. Una base de datos relacional es útil para organizar y trabajar con datos fenotípicos. Los datos fenotípicos se pueden recopilar a través de múltiples tipos de estudios, incluidos estudios epidemiológicos, registros de salud electrónicos no identificados, datos de ensayos clínicos e investigación de reproducción animal. La variación genética puede ser polimorfismos de un solo nucleótido (SNP), pero se puede utilizar cualquier variación genética que pueda evaluarse para determinar su asociación con la variación fenotípica. Los resultados de las pruebas de asociación se pueden evaluar de varias formas y, aunque no se muestran, una base de datos relacional puede ayudar con el análisis de los resultados. Se pueden identificar nuevos descubrimientos junto con asociaciones de fenotipos cruzados. Se pueden explorar redes de conexiones entre SNP, genes y fenotipos. Estos resultados pueden proporcionar más información sobre la arquitectura genética de rasgos complejos, resaltar la pleiotropía biológicamente importante y pueden respaldar el descubrimiento de fármacos.

PheWAS no se limita a asociaciones entre SNP y fenotipos. PheWAS se está ampliando ahora para explorar la relación entre otras variaciones genéticas, como la relación entre la variación del número de copias y una amplia gama de medidas, así como la relación entre la variación mitocondrial y el resultado [16]. PheWAS se puede usar con SNP de frecuencia común, pero también se puede aplicar a la variación de baja frecuencia a medida que se introducen cada vez más herramientas para usar variantes de baja frecuencia. El enfoque PheWAS también se ha ampliado para explorar la asociación entre variables de laboratorio individuales y una amplia gama de fenotipos [17]. Además, la información medioambiental se puede utilizar de forma similar a PheWAS para evaluar una amplia gama de exposiciones medioambientales para su posterior estudio en Estudios de Asociación en Todo el Medio Ambiente (EWAS) [18,19] y Estudios de Asociación en toda la Dieta (DWAS) [20], y estos resultados, a su vez, se pueden utilizar en PheWAS para explorar la relación entre las exposiciones ambientales y la variación genética con una amplia gama de resultados fenotípicos.

Dentro de esta revisión, describimos las características y la metodología utilizadas para los estudios PheWAS hasta la fecha. Incluimos una discusión de los métodos que se han utilizado eficazmente para establecer varios tipos de estudios PheWAS, así como para evaluar los miles de resultados potenciales que pueden surgir de los estudios PheWAS. También destacamos algunos de los desafíos, limitaciones y direcciones futuras de los estudios de asociación en todo el fenómeno.


Metodologías PheWAS

El primer PheWAS se publicó en 2010 en Bioinformática como prueba de principio. 8 Este estudio asoció cinco objetivos genéticos a través de un fenómeno curado construido sobre la columna vertebral de los códigos ICD9 y refinado con experiencia clínica. En general, los códigos ICD9 de alto nivel, incluidos los códigos ICD9 de cuatro y cinco dígitos (por ejemplo, 714.3 y 714.33, respectivamente), se condensaron en un código común de tres dígitos (por ejemplo, 714). En algunos escenarios, también se condensaron los códigos de tres dígitos relacionados. En otros escenarios, en los que los fenotipos compartían una codificación ICD9 de cuatro y cinco dígitos muy similar, pero se consideraba que eran enfermedades distintas (por ejemplo, diabetes mellitus tipo I y tipo II), se mantuvo la codificación de orden superior. Se eliminaron los códigos de la CIE9 con etiologías genéticas poco probables (por ejemplo, contaminación con objetos extraños). En el nivel más simple, los pacientes codificados para un código ICD9 específico se convierten en "casos" para ese código respectivo. Aquellos pacientes que no están codificados para un código ICD9 específico se convierten en "controles". La ventaja de utilizar un fenómeno curado es que se reduce la complejidad de la codificación ICD9. Como tal, el poder para detectar una asociación puede incrementarse por el mayor número de casos y menos fenotipos posibles. Al eliminar los códigos ICD9 seleccionados que parecen tener un fuerte componente ambiental, la carga de múltiples pruebas se reduce aún más. Por el contrario, este método no está exento de sesgos. Se hacen suposiciones al combinar códigos ICD9. Los sesgos se introducen aún más cuando no se analizan los códigos ICD9 que se cree que no están relacionados con la genética. Independientemente, se puede aplicar un fenómeno curado en PheWAS para validar los resultados esperados de GWAS e identificar posibles asociaciones nuevas. Por ejemplo, SNP rs6457620, un HLA El SNP conocido por estar asociado con AR, 22 se asoció con el código ICD9 para AR (ICD9 714). Curiosamente, este SNP también se asoció con trastornos de la glándula pituitaria y del nervio trigémino. Además de rs6457620, otro HLA El SNP fue genotipado, específicamente, rs3135388. Etiquetas Rs3135388 para HLA-DRB1 * 1501 y se sabe que está fuertemente asociado con la EM. 5 Cuando HLA-DRB1 * 1501 (rs3135388) fue genotipado, el código ICD9 que define la EM (ICD9 340) estaba altamente asociado con el genotipo SNP. También se informaron nuevas asociaciones, incluida una asociación entre el HLA-DRB1 * 1501 genotipo y condiciones eritematosas (ICD9 695). 8 Este ejemplo demuestra cómo un PheWAS puede complementar los GWAS previamente informados y proporcionar nuevos conocimientos sobre enfermedades con etiologías genéticas poco apreciadas.

Otro estudio que utilizó un fenómeno curado similar se llevó a cabo dentro de la red electrónica Médical Records and GEnomics (eMERGE). 23 Exclusivo de este estudio, GWAS se utilizó para informar PheWAS dentro de la misma cohorte. Los resultados de GWAS demostraron que un SNP común cerca FOXE1 (rs965513) se asoció significativamente con el riesgo de hipotiroidismo. FOXE1, un gen también conocido como factor de transcripción tiroideo 2, se ha relacionado con una variedad de enfermedades de la tiroides, incluida una forma rara de hipotiroidismo congénito sindrómico. 24 Después del análisis de GWAS, PheWAS evaluó rs965513 en la misma cohorte que se utilizó para derivar los casos y controles de hipotiroidismo para el GWAS. Como se esperaba, los códigos ICD9 que definen el hipotiroidismo se asociaron significativamente con el genotipo rs965513 por PheWAS, pero también se asociaron otras afecciones relacionadas con la tiroides, incluido el bocio nodular / multinodular no tóxico y la anemia por deficiencia nutricional. 9

Recientemente, este enfoque PheWAS basado en GWAS también se ha aplicado al estudio de los fenotipos plaquetarios. Utilizando una población eMERGE similar a la descrita anteriormente, este estudio identificó 81 SNP significativos para GWAS, incluidos 56 SNP asociados con el recuento de plaquetas, 29 SNP asociados con el volumen de plaquetas y cuatro SNP asociados con ambos. Muchos de estos SNP validan los resultados de GWAS publicados anteriormente. 5 Cada uno de los 81 SNP se asoció individualmente con el fenómeno. Por ejemplo, rs3819299, una variante intrónica en el HLA-B gen, se asoció con el recuento de plaquetas como se esperaba. 5, 25 Los resultados de PheWAS para este SNP mostraron que HLA-B El genotipo también es un factor de riesgo de espondilopatías inflamatorias / anquilosantes y uveítis. El papel del HLA-B El genotipo en espondilopatías y uveítis se ha descrito previamente. 26, 27 Es importante destacar que se informó una nueva asociación entre la HLA-B genotipo y mastoiditis. 13 Como el FOXE1 ejemplo descrito anteriormente, 9 este estudio demuestra que cuando se utiliza GWAS para informar PheWAS en la misma población, se puede lograr una comprensión más amplia de la importancia biológica y potencialmente clínica de un SNP. Este enfoque PheWAS basado en GWAS también se ha aplicado al estudio del riesgo de arritmias. 12

Como un enfoque alternativo a un fenómeno curado, otros han aplicado un método holístico probando todos los códigos ICD9 en múltiples niveles de resolución fenotípica. Por ejemplo, los pacientes codificados para AR juvenil monoarticular (ICD9 714.33) definen un grupo de casos único, mientras que los codificados para AR juvenil pauciarticular (ICD9 714.32) definen otro grupo de casos único. Para abordar la posibilidad de que las etiologías genéticas se compartan entre códigos similares, todos los códigos 714.3 * pueden combinarse en un grupo de casos definido por 714.3 y luego combinarse con códigos similares para formar un grupo de casos 714 separado (Fig. 2). Dependiendo del tamaño de la muestra y las restricciones de frecuencia, esta metodología puede generar cerca de 17 000 fenotipos. 21 La ventaja de este método es que no hace suposiciones sobre las contribuciones genéticas o ambientales a ninguna enfermedad. Esto es análogo a un GWAS donde las variantes intergénicas y codificantes se tratan por igual. Las desventajas de usar un fenómeno más holístico incluyen la posibilidad de una reducción en el poder para detectar una asociación porque hay muchos más fenotipos con tamaños de caso pequeños, muchos sin índices genéticos. Independientemente, los investigadores han aplicado este método simplificado para definir el fenómeno, o variaciones del mismo, con éxito durante PheWAS. Por ejemplo, una cohorte de pacientes de la Clínica Marshfield fue genotipada para HLA-DRB1 * 1501 como seguimiento del primer PheWAS descrito anteriormente. 8 Como era de esperar, el HLA-DRB1 * 1501 El genotipo se asoció con el código ICD9 para la EM (ICD9 340). En tono rimbombante, HLA-DRB1 * 1501 también se asoció con el código ICD9 para condiciones eritematosas (ICD9 695). Este es el primer ejemplo en el que se validó de forma independiente un nuevo hallazgo de PheWAS. Al aplicar un enfoque holístico para definir el fenómeno y aprovechar los fenotipos de orden superior, se reveló que el código ICD9 para la rosácea (ICD9 695.3) puede estar impulsando los resultados de asociación del código ICD9 más amplio que define las condiciones eritematosas. Además, este estudio caracterizó una asociación novedosa entre la HLA-DRB1 * 1501 genotipo y el código ICD9 que define la cirrosis hepática inducida por alcohol (ICD9 571.2), 10 un fenotipo que puede haber sido ignorado en el PheWAS original debido al potencial de un fuerte componente ambiental. En apoyo de este nuevo hallazgo de PheWAS, los GWAS anteriores han demostrado que HLA-DRB1 * 1501 se asocia con daño hepático inducido por fármacos. 28, 29

Otro ejemplo en el que se ha aplicado un fenómeno imparcial en PheWAS fue informado por Warner et al. 15 Este estudio es único en el sentido de que es el primer PheWAS en utilizar un objetivo no genético, específicamente el recuento de leucocitos. El objetivo de este estudio fue identificar asociaciones dependientes del contexto entre el recuento de leucocitos y los códigos ICD9 de pacientes en una unidad de cuidados intensivos (UCI). Se observaron asociaciones esperadas entre el recuento de leucocitos elevado y los códigos ICD9 que definen la leucemia, incluida la leucemia linfoide crónica (ICD9 204.10), mieloide aguda (ICD9 205.00) y mieloide crónica (ICD9 205.10). El recuento de leucocitos también se asoció con el diagnóstico de Clostridium difficile infección, y estos pacientes tenían un mayor riesgo de efectos adversos debido a los retrasos observados en el tratamiento eficaz y al aumento de la duración de la estancia hospitalaria. 15 Este resultado de PheWAS puede ayudar a alterar el estándar de atención actual y a reducir los posibles efectos adversos para los pacientes de la UCI con un recuento de leucocitos elevado y un alto riesgo de C. difficile Infecciones.

La codificación ICD9 es útil cuando se describe un espectro de fenotipos y, como resultado de su estructura y uso estandarizados, los resultados de PheWAS se pueden combinar o comparar entre instituciones. Alternativamente, se pueden aplicar otros tipos de datos al definir el fenómeno. Por ejemplo, la Red de Arquitectura de Población que usa Genómica y Epidemiología (PAGE) describe cómo diversos fenotipos recopilados de una amplia variedad de fuentes, incluidas encuestas y registros médicos, se pueden aplicar en PheWAS en múltiples instituciones. Descrita por primera vez en 2011, 30 y definida con más detalle a principios de 2013, 11 la red PAGE se centró en 83 SNP de GWAS informados anteriormente que habían sido genotipados en al menos dos de los cinco grupos de la red PAGE. Cada grupo de estudio realizó su propio PheWAS en sus propios fenotipos definidos. El número de fenotipos varió mucho entre los grupos de estudio. Por ejemplo, 3363 fenotipos se describieron en la Women's Health Initiative, mientras que 63 se describieron en el Multi Ethnic Cohort Study. Todos los fenotipos con PAG & lt 0 · 01 se agruparon manualmente en 105 clases fenotípicas estandarizadas ampliamente definidas (por ejemplo, niveles de vitamina E) y se compararon entre los grupos de estudio para identificar asociaciones significativas superpuestas. Este método demostró que el 48% de las asociaciones genotipo-fenotipo esperadas podrían ser validadas directamente por PheWAS, y otro 23% representaba asociaciones estrechamente relacionadas con asociaciones genotipo-fenotipo previamente informadas. Es importante destacar que el 30% de los resultados de PAGE PheWAS representaron asociaciones novedosas. Por ejemplo, este PheWAS caracterizó una asociación novedosa entre el genotipo IL6R (rs2228145) con números de neutrófilos y linfocitos. Se ha demostrado previamente que rs2228145 está asociado con niveles de proteína C reactiva. 31

Independientemente de la metodología utilizada para definir el fenómeno, el diseño de PheWAS presenta desafíos. Algunas limitaciones se comparten con GWAS, mientras que otras son únicas. Por el contrario, el PheWAS tiene ventajas únicas que hacen de este enfoque un poderoso método complementario para comprender las complejidades de las enfermedades humanas.


Agradecimientos

Agradecemos a todos los participantes inscritos en BBJ. Agradecemos a todos los médicos y organizaciones que contribuyeron a la recolección de muestras e información clínica. Esta investigación fue apoyada por el Programa de Tratamiento Médico a Medida (BBJ) del Ministerio de Educación, Cultura, Deportes, Ciencia y Tecnología y la Agencia Japonesa para la Investigación y el Desarrollo Médico (N ° de subvención AMED JP17km0305002, JP19km0405201 y JP19km045208), y por el Programa de Investigación Estratégica en Ciencias del Cerebro de AMED (no. JP19dm0107097). YO. recibió el apoyo de la Sociedad Japonesa para la Promoción de la Ciencia, KAKENHI (núms. 15H05911 y 19H01021), AMED (núms. JP19gm6010001, JP19ek0410041, JP19ek0109413 y JP19km0405211), la Fundación de Ciencias Takeda y la Iniciativa de Bioinformática de la Facultad de Medicina de la Universidad de Osaka, Osaka Universidad y Centro de Ciencia de Datos Médicos de la Universidad de Osaka, Proyecto de Investigación del Investigador de Epidemiología Clínica Avanzada. Los patrocinadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito.


Métodos

Sujetos y medidas clínicas

El estudio incluyó participantes de las siguientes cohortes: EUFAM, FINRISK, FinnGen y UK Biobank. La EUFAM (La cohorte del estudio European Multicenter Study on Familial Dyslipidemias in Pacientes con cardiopatía coronaria prematura está compuesta por las familias finlandesas de hiperlipidemias familiares combinadas 37. Las familias del estudio EUFAM fueron identificadas a través de probandos ingresados ​​en hospitales universitarios finlandeses con un diagnóstico de enfermedad coronaria prematura. Los probandos tenían cardiopatía coronaria prematura y niveles altos de colesterol total, triglicéridos o ambos (≥ percentil 90 de la población finlandesa específica por edad y por sexo), o niveles bajos de HDL-C (≤ percentil 10). Se extendió la invitación a todos los miembros de la familia y cónyuges de los probandos si al menos un familiar de primer grado del probando tenía niveles altos de colesterol total, triglicéridos o ambos. Se obtuvieron muestras de sangre venosa de todos los participantes después de un ayuno nocturno. Los triglicéridos y el colesterol total se midieron mediante métodos enzimáticos utilizando un analizador automático Cobas Mira (Hoffman-La Roche, Basilea, Suiza) 37,38. El HDL-C se cuantificó mediante procedimientos de precipitación con ácido fosfotúngstico / cloruro de magnesio, y el LDL-C se calculó mediante la fórmula 39 de Friedewald.

El estudio finlandés nacional FINRISK es una encuesta basada en la población que se lleva a cabo cada 5 años desde 1972, y hasta ahora se han recolectado muestras en 1992, 1997, 2002, 2007 y 2012 40. Las colecciones de las encuestas de 1992, 1997, 2002, 2007 y 2012 se almacenan en el Biobanco del Instituto Nacional de Salud y Bienestar (THL). Se realizó un perfil lipidómico para 1142 participantes que fueron seleccionados al azar de la encuesta FINRISK 2012 (Tabla complementaria 1). Se recomendó a los participantes que ayunaran durante al menos 4 horas antes del examen y que evitaran las comidas pesadas más temprano durante el día. Se obtuvieron muestras de sangre venosa de todos los participantes y se separaron los sueros. El HDL-C, los triglicéridos y el colesterol total se midieron con métodos enzimáticos (laboratorios Abbott, Abbott Park, IL, EE. UU.) Con el analizador químico clínico Abbott Architect c8000 40.

La publicación de datos de FinnGen 2 está compuesta por 102.739 participantes finlandeses. Los fenotipos se derivaron de los códigos ICD en los registros hospitalarios nacionales finlandeses y en el registro de causas de muerte como parte del proyecto FinnGen. La calidad de los diagnósticos de ECV en estos registros ha sido validada en estudios previos 41,42,43,44,45. Los datos del Biobanco del Reino Unido se componen de & gt500,000 participantes en el Reino Unido y de 40 a 69 años, anotados para más de 2000 fenotipos 46. Los análisis PheWAS en este estudio incluyeron 408,961 muestras de participantes británicos blancos.

Declaración de Ética

El estudio se realizó de acuerdo con los principios de la declaración de Helsinki. Se obtuvo el consentimiento informado por escrito de todos los participantes del estudio. Los protocolos del estudio fueron aprobados por los comités de ética de los centros participantes (Comités de Ética de Coordinación del Distrito Hospitalario de Helsinki y Uusimaa, aprobación nº 184/13/03/00/12). Para el proyecto preparatorio FinnGen impulsado por el Instituto Finlandés de Salud y Bienestar (THL) (aquí llamado FinnGen), todos los pacientes y sujetos de control habían brindado su consentimiento informado para la investigación del biobanco, basado en la Ley de Biobancos de Finlandia. Alternativamente, las cohortes más antiguas se basaron en consentimientos específicos del estudio y luego se transfirieron al THL Biobank después de la aprobación de Valvira, la Autoridad Nacional de Supervisión para el Bienestar y la Salud. Los protocolos de reclutamiento siguieron los protocolos del biobanco aprobados por Valvira. La Junta de Revisión Ética del Distrito Hospitalario de Helsinki y Uusimaa aprobó el protocolo del estudio FinnGen Nr HUS / 990/2017. El proyecto preparatorio de FinnGen está aprobado por THL, números de aprobación THL / 2031 / 6.02.00 / 2017, enmiendas THL / 341 / 6.02.00 / 2018, THL / 2222 / 6.02.00 / 2018 y THL / 283 / 6.02.00 / 2019. Todas las muestras de ADN y los datos de este estudio fueron seudonimizados.

Perfilado lipidómico

El análisis de lípidos basado en espectrometría de masas de 2181 participantes se realizó en tres lotes: 353 y 686 participantes EUFAM en dos lotes y 1142 participantes FINRISK en el tercer lote en Lipotype GmbH (Dresden, Alemania). Las muestras se analizaron mediante infusión directa en un espectrómetro de masas QExactive (Thermo Scientific) equipado con una fuente de iones TriVersa NanoMate (Advion Biosciences) 47. Los datos se analizaron utilizando un software de identificación de lípidos desarrollado internamente basado en LipidXplorer 48,49. El posprocesamiento y la normalización de los datos se realizaron utilizando un sistema de gestión de datos desarrollado internamente. Solo los lípidos con una relación señal / ruido & gt5 y cantidades al menos cinco veces superiores a las de las muestras en blanco correspondientes se consideraron para análisis adicionales. La reproducibilidad del ensayo se evaluó mediante la inclusión de muestras de plasma de referencia (ocho muestras de referencia para EUFAM y tres muestras de referencia para FINRISK) por placa de 96 pocillos. La mediana del coeficiente de variación fue & lt10% en todos los lotes. Los datos se corrigieron por efectos de lote y deriva. Especies de lípidos detectadas en & lt80% de las muestras en cualquiera de los lotes y muestras (norte = 64) con bajo contenido de lípidos fueron excluidos. Entre las especies de lípidos que pasaron el control de calidad, se detectaron un total de 141 especies de lípidos de 13 clases de lípidos (Tabla complementaria 2) de manera consistente en los tres lotes y se incluyeron en todos los análisis. Las cantidades totales de clases de lípidos se calcularon sumando las concentraciones absolutas de todas las especies de lípidos pertenecientes a cada clase de lípidos. Las concentraciones medidas de las especies de lípidos y el total de clases calculado se transformaron a distribución normal mediante transformación normal inversa basada en rangos.

Cabe señalar que la plataforma Lipotype utilizada en el estudio detectó muchas especies de lípidos adicionales (norte = 83) que no fueron capturados previamente por otras plataformas. La lista de las especies de lípidos detectadas por las diferentes plataformas y las superposiciones entre las plataformas se proporcionan en los Datos complementarios 12 y la Figura complementaria 7.

Genotipado e imputación

El genotipado de las cohortes EUFAM y FINRISK se realizó utilizando HumanCoreExome BeadChip (Illumina Inc., San Diego, CA, EE. UU.). Las llamadas de genotipo se generaron junto con otros conjuntos de datos disponibles utilizando zCall en el Instituto de Medicina Molecular de Finlandia (FIMM). Los datos de genotipo se sometieron a un estricto control de calidad (CC) antes de la imputación que incluyó la exclusión de muestras con una tasa de llamada baja (& lt95%), discrepancias de sexo, exceso de heterocigosidad y ascendencia no europea. Variantes con tasa de llamada baja (& lt95%) y desviación del equilibrio de Hardy-Weinberg (HWE PAG & lt 1 × 10 −6) fueron excluidos. La imputación se realizó utilizando IMPUTE2 50, que utilizó dos paneles de referencia específicos de la población de 2690 datos de secuencia de genoma completo de alta cobertura y 5093 de exoma completo de alta cobertura. Se filtraron las variantes con una puntuación de información de imputación & lt0,70. Después del control de calidad de los perfiles lipidómicos y las variantes imputadas, todos los análisis posteriores incluyeron 2045 individuos y

9,3 millones de variantes con MAF & gt0.005 que estaban disponibles en ambas cohortes.

Las muestras de FinnGen se genotiparon con matrices Illumina y Affymetrix (Thermo Fisher Scientific, Santa Clara, CA, EE. UU.). Las llamadas de genotipo se realizaron con los algoritmos GenCall y zCall para Illumina y el algoritmo AxiomGT1 para los datos de genotipado del chip Affymetrix. Los datos de genotipado producidos con plataformas de chips anteriores se elevaron para compilar la versión 38 (GRCh38 / hg38) siguiendo el protocolo que se describe aquí: dx.doi.org/10.17504/protocols.io.nqtddwn. Se eliminaron las muestras con discrepancias de sexo, alta falta de genotipo (& gt 5%), exceso de heterocigosidad (+ -4SD) y ascendencia no finlandesa. Variantes con alta falta (& gt 2%), desviación de HWE (PAG & lt 1e-6) y el recuento bajo de alelos menores (MAC & lt 3) se eliminaron. La fase previa de los datos genotipados se realizó con Eagle 2.3.5 (https://data.broadinstitute.org/alkesgroup/Eagle/) con los parámetros predeterminados, excepto que el número de haplotipos de acondicionamiento se estableció en 20.000. La imputación se llevó a cabo utilizando el panel de referencia de imputación SISu v3 específico de la población con Beagle 4.1 (versión 08Jun17.d8b, https://faculty.washington.edu/browning/beagle/b4_1.html) como se describe en el siguiente protocolo: [ dx.doi.org/10.17504/protocols.io.nmndc5e]. El panel de referencia de imputación SISu v3 se desarrolló utilizando los datos de secuenciación del genoma completo de alta cobertura (25-30x) generados en el Broad Institute of MIT y Harvard y en el McDonnell Genome Institute de la Washington University y procesados ​​conjuntamente en el Broad Institute. El conjunto de llamadas de variantes se produjo con el algoritmo GATK HaplotypeCaller siguiendo las mejores prácticas de GATK para llamadas de variantes. El control de calidad de genotipo, muestra y variante se aplicó de manera iterativa utilizando el marco Hail v0.1 [https://github.com/hail-is/hail]. Los datos de WGS de alta calidad resultantes para 3775 individuos fueron escalonados con Eagle 2.3.5 como se describió anteriormente. El control de calidad posterior a la imputación implicó la exclusión de variantes con una puntuación INFO & lt 0,7.

El genotipado de la mayoría de los participantes del Biobanco del Reino Unido se realizó utilizando el Affymetrix UK Biobank Axiom Array, mientras que un subconjunto de participantes se genotipificó utilizando el Affymetrix UK BiLEVE Axiom Array. Los detalles sobre el control de calidad y la imputación de la cohorte del Biobanco del Reino Unido se describen en Bycroft et al. 51.

Estimaciones de heredabilidad y correlaciones genéticas

Para la estimación de la heredabilidad y la correlación genética, se combinaron medidas de transformación inversa basadas en rangos de especies de lípidos, calculadas por separado para las cohortes EUFAM y FINRISK, para aumentar el poder estadístico. Se utilizaron como fenotipos los residuos de las medidas de transformación inversa después de la regresión por edad, sexo, los primeros diez componentes principales (PC) de la estructura genética de la población, medicación lipídica, terapia de reemplazo hormonal, afección tiroidea y diabetes tipo 2. Las estimaciones de heredabilidad basadas en SNP se calcularon utilizando el análisis de componentes de varianza utilizando una matriz de relación genética (GRM) como se implementó en biMM 52. Solo las variantes de buena calidad con faltas & lt10% y MAF & gt0.005 se utilizaron para generar el GRM. El GRM se generó usando GCTA estableciendo los elementos fuera de la diagonal que son & lt0.05 a 0 como lo propusieron Zaitlen et al. 53. Esto permite estimar la heredabilidad basada en SNP en los datos familiares sin eliminar a los individuos estrechamente relacionados. Las estimaciones de heredabilidad de las especies de lípidos en diferentes grupos se compararon mediante la prueba de suma de rangos de Wilcoxon.

La correlación genética entre cada par de especies de lípidos y entre cada especie de lípidos y los lípidos tradicionales se determinó utilizando el modelo GRM generado con el modelo mixto lineal bivariado implementado en biMM. Las correlaciones basadas en los niveles plasmáticos (denominadas correlaciones fenotípicas) entre todos los pares de especies de lípidos y lípidos tradicionales se calcularon utilizando el coeficiente de correlación de Pearson. Los mapas de calor y la agrupación jerárquica basados ​​en correlaciones genéticas y fenotípicas se generaron utilizando heatmap.2 en R. Dado que los medicamentos para reducir los lípidos podrían afectar los niveles plasmáticos de las especies de lípidos, todos los análisis se ajustaron para el uso de medicamentos para reducir los lípidos y análisis separados también se realizaron después de excluir a las personas que usaban medicamentos para reducir los lípidos (norte = 172).

Lipidómica GWAS

Realizamos pruebas de asociación univariadas para 141 especies de lípidos individuales, 12 clases de lípidos totales y 4 medidas de lípidos tradicionales (HDL-C, LDL-C, colesterol total y triglicéridos), en todos los lotes para controlar los posibles efectos del lote y combinamos las estadísticas resumidas por metaanálisis. Los análisis de asociación para la cohorte EUFAM se realizaron utilizando modelos lineales mixtos, incluidas las covariables mencionadas anteriormente como efectos fijos y la matriz de parentesco como efecto aleatorio como se implementó en MMM 54. Las matrices de parentesco para los análisis GWAS se calcularon por separado para cada cromosoma para incluir las variantes de los otros cromosomas utilizando variantes genotipadas directamente con MAF & gt0.01 y falta & lt2%. The FINRISK cohort was analysed with linear regression model adjusting for age, sex, first ten PCs, lipid medication and diabetes using SNPTEST v2.5 55 . Meta-analyses were performed using the inverse variance weighted method for fixed effects adjusted for genomic inflation factor in METAL 56 . In addition, analyses adjusting for the traditional lipids (in addition to above-mentioned covariates) were also performed for the identified variants to determine the independent effect on lipid species.

Test statistics were adjusted for λ values if >1.0 before meta-analyses. Genomic inflation factor (λ) ranged from 0.98 to 1.19 across the batches whereas the final λ values for meta-analysis ranged from 0.998 to 1.045 (Supplementary Data 13). los P-values obtained from the meta-analysis were considered to determine the SNP–lipid species associations. To account for multiple tests, the study-wide P-value threshold was set at <1.5 × 10 −9 after correcting for 34 principal components (PCs) that explain over 90% of the variance in lipidomic profiles. Only the associations consistent in effect direction in all three batches were considered significant. Variants were designated as new if not located within 1 Mb of any previously reported variants for lipids (any of the traditional lipids and molecular lipid species) and as independent signal in known locus if located within 1 Mb but r 2 < 0.20 with the previous lead variants and confirmed by conditional analysis. Variants with the strongest association in the identified lipid species loci was identified as the lead variants, and were annotated to the nearest gene for the new loci.

PheWAS

We identified 25 CVD-related outcomes from the derived phenotypes in the FinnGen and UK Biobanks (Supplementary Table 3). Associations between the 35 lead variants from the identified loci and 25 selected CVD phenotypes in FinnGen cohort were obtained from the ongoing analyses as a part of the FinnGen project. The associations were tested using saddle point approximation method adjusting for age, sex and first 10 PCs as implemented in SPAtest R package 57 . Associations between selected binary phenotypes and 35 lead variants in UK Biobank were obtained from Zhou et al. that were tested using logistic mixed model in SAIGE with a saddle point approximation and adjusting for first four principal components, age and sex (https://www.leelabsg.org/resources) 58 . Data for four phenotypes were not available from Zhou et al. and hence were obtained from http://www.nealelab.is/uk-biobank/. Associations of quantitative traits were tested using linear regression models with the same covariates as mentioned above, both for Finnish and UK Biobank cohorts. Meta-analyses of both cohorts were performed using the inverse variance weighted method for fixed effects model in METAL. los P-values obtained from the meta-analyses of the two cohorts are reported for PheWAS associations. All the PheWAS associations with false discovery rate (FDR) <5% evaluated using the Benjamini–Hochberg method and consistent direction of effects were considered significant.

Variance explained

To determine the variance explained by the known loci for traditional lipids, we included all the lead variants with MAF >0.005 in 250 genomic loci that have previously been associated with one or more of the four traditional lipids. Of the 636 reported variants, 557 variants with MAF >0.005 (including six proxies) were available in our QC passed imputed genotype data (Supplementary Data 10). A genetic relationship matrix (GRM) based on these 557 variants was generated using GCTA that was used to determine the variance in plasma levels of all lipid species explained by the known variants using variance component analysis in biMM.

LPL activity

The post-heparin lipoprotein lipase (LPL) after 15 min of heparin load was measured for 630 individuals in the EUFAM cohort using the ELISA method developed by Antikainen et al. 59. The measured values were transformed using rank-based inverse normal transformation. Associations between the LPL activity and plasma levels of TAGs were determined using linear regression model adjusted for age, sex, lipid medication, hormone replacement therapy, thyroid condition and type 2 diabetes. Association between the LPL variant rs11570891 and LPL activity was tested using linear mixed model adjusted for age, sex, first ten PCs of genetic population structure, lipid medication, hormone replacement therapy, thyroid condition and type 2 diabetes as fixed effect and kinship matrix as random effect as implemented in MMM.

Resumen de informes

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de investigación de la naturaleza vinculado a este artículo.


Discusión

Our study investigates the utility of PheWAS to help predict therapeutic success of candidate drug targets nominated through human genetics. We focused on a selection of loci that GWAS have firmly established as associated with common immune-mediated, cardiometabolic, or neurodegenerative human diseases, and where additional biological or genetic evidence supports candidate drug target genes within these loci as likely causing the disease associations. We analyzed SNPs impacting these targets for association with 1683 disease endpoints captured in four large, disease-agnostic population cohorts that link genome-wide genotypes with various types of structured health information. Our PheWAS meta-analysis replicates 75% of the published GWAS associations at PAG <𠂐.05, substantially surpassing performance of previous PheWAS in smaller cohorts 25 . Through meta-analyzing PheWAS results with published GWAS data, we identified nine novel SNP-phenotype associations that exceeded stringent significance thresholds for multiple test correction, as well as additional putative associations with therapeutically relevant clinical endpoints. For a subset of early drug targets, our results support previous genetic evidence for efficacy in distinct common disease indications. Our analysis further proposes alternative indications as opportunities for drug repositioning and predicts on-target adverse drug events that may warrant preclinical or clinical monitoring.

Among others, we discovered novel associations for p.I148M in PNPLA3. This is a common gain-of-function missense allele increasing the risk for a range of liver phenotypes, which suggested that pharmaceutical inhibition of PNPLA3 could be a viable strategy to treat or prevent liver diseases. While our PheWAS support this hypothesis and further backs expanding the indication spectrum of a putative PNPLA3 inhibitor to T2D, we also uncovered opposite associations with severe acne and high cholesterol, phenotypes that if observed during a clinical trial might put a therapeutic program at risk.

We also identified a novel association of the IFIH1 loss-of-function allele rs1990760-C (p.T946A) with risk of asthma. The rs1990760-C allele, which protects against several autoimmune diseases and increases risk of UC, has been shown to decrease interferon (IFN) signaling and lower resistance to viral challenge 43 , while complete loss of IFIH1 function makes children susceptible to severe viral respiratory infections 44 , 45 . The association of rs1990760-C with increased risk of asthma discovered in our meta-PheWAS is consistent with the observation that bronchial epithelial cells from asthmatics produce lower amounts of IFN-β during viral infections 46 , a finding that lead to inhaled IFN-β being tested in phase 2 clinical trials for the treatment of virus-induced asthma exacerbation 47 . Future studies will need to investigate the risk:benefit ratio of modulating MDA5 (encoded by IFIH1) for asthma relative to autoimmune diseases.

While our study illustrates the power of systematically interrogating disease-agnostic cohorts with extensive health information to enrich target validation, it also emphasizes several opportunities to improve existing resources in order for PheWAS to become a routine tool in drug discovery and development. First, truly large, thoroughly phenotyped cohorts will be needed to adequately power PheWAS. Despite our meta-PheWAS being conducted in close to 700,000 individuals, 20% of GWAS associations could not be replicated (PAG <𠂐.05) in the disease-agnostic cohorts due to an insufficient number of cases. In addition, PheWAS should considerably gain from improved phenotypic endpoints 48 . In our study, this is best reflected by an only modest replication rate, despite adequate power, for CD, UC, and IBD endpoints that are closely related and difficult to discern from other disorders in routine clinical settings 49 . To better take these considerations and other characteristics of disease-agnostic cohorts (typical case:control ratio unbalance between phenotypes and phenotype correlation) into account, novel statistical methods will be needed to better define significance thresholds and control type I error rates in PheWAS 50 . Second, our study highlights the challenge to systematically combine phenotypes from independent disease-agnostic cohorts with various phenotype data sources. While we introduce the concept of meta-PheWAS and demonstrate that mapping phenotypes to interrogate independent PheWAS cohorts may considerably strengthen association signals, there is still a need for standardized terminology, automated phenotype extraction, and coordinated data management across healthcare institutions that will help with better harmonization across cohorts in the future 9 , 51 . A third challenge to the PheWAS approach is inherent to the current limitations of human genetics. Even when starting from a highly-annotated set of loci as in our study, PheWAS may lead to spurious interpretation of association results that can only be ruled out through thorough follow-up 18 . We demonstrate this at the example of LGALS3 and PD. Access to genome-wide association results for systematic fine-mapping and co-localization analyses, functionalization of GWAS loci and the emergence of association data for intermediate phenotypes, e.g., at the protein level, will be needed to help narrow the gap between SNPs and candidate target genes in the future. Finally, a fourth challenge to broadly use PheWAS for drug development is to relate findings from germline variants that impact a target across an individual’s entire lifetime to success of an interventional trial with much shorter observation periods. In the end, many decisions to pursue or discontinue a therapeutic program may remain dependent on the specific risk:benefit ratio that quantitative genetics as applied here may help to predict, and the level of unmet clinical need.

Taken together, our study highlights PheWAS as a highly promising, yet largely untapped opportunity to use disease-agnostic cohorts with extensive health information for drug target validation. We provide several examples that illustrate PheWAS as a powerful strategy to help predict efficacy and unintended drug effects, which should ultimately help to develop better drugs. Whether PheWAS may truly impact decision making during drug development will only become evident with either the emergence of ADEs in trials that genetics could have predicted, or reduced safety-related attrition rates for portfolios enriched in targets nominated through human genetics. The growing number of large-scale population cohorts that link genetic data with extensive health data, together with an increased willingness across the borders of academia, biotech and the pharmaceutical industry to collaborate and share data, will provide opportunities to demonstrate that.


Papers of particular interest, published recently, have been highlighted as: • Of importance •• Of major importance

• Bush WS, Moore JH. Chapter 11: genome-wide association studies. Lewitter F, Kann M, editors. PLoS Comput Biol. 20128(12):e1002822. https://doi.org/10.1371/journal.pcbi.1002822. This provides a basic understanding on designing genome-wide association studies

Visscher PM, Brown MA, McCarthy MI, Yang J. Five years of GWAS discovery. Soy J Hum Genet. 201290:7–24.

•• Visscher PM, Wray NR, Zhang Q, Sklar P, McCarthy MI, Brown MA, et al. 10 years of GWAS discovery: biology, function, and translation. Soy J Hum Genet. 2017101:5–22. This is an excellent review of the successes and challenges with GWAS over past decade

Loos RJF, Yeo GSH. The bigger picture of FTO—the first GWAS-identified obesity gene. Nat Rev Endocrinol. 201310:51–61.

Dina C, Meyre D, Gallina S, Durand E, Körner A, Jacobson P, et al. Variation in FTO contributes to childhood obesity and severe adult obesity. Nat Genet. 200739:724–6.

Frayling TM, Timpson NJ, Weedon MN, Zeggini E, Freathy RM, Lindgren CM, et al. A common variant in the FTO gene is associated with body mass index and predisposes to childhood and adult obesity. Ciencias. 2007 316(5826):889–94.

Jacobsen S, Sonne-Holm S. Increased body mass index is a predisposition for treatment by total hip replacement. Int Orthop. 200529:229–34.

Maes HH, Neale MC, Eaves LJ. Genetic and environmental factors in relative body weight and human adiposity. Behav Genet. 199727:325–51.

•• Denny JC, Ritchie MD, Basford MA, Pulley JM, Bastarache L, Brown-Gentry K, et al. PheWAS: demonstrating the feasibility of a phenome-wide scan to discover gene-disease associations. Bioinformática. 201026:1205–10. This is the first PheWAS performed using EHRs data

•• Ritchie MD, Denny JC, Crawford DC, Ramirez AH, Weiner JB, Pulley JM, et al. Robust replication of genotype-phenotype associations across multiple diseases in an electronic medical record. Soy J Hum Genet. 201086:560–72. This study demonstrates the application of EHRs data in genomic studies

Cronin RM, Field JR, Bradford Y, Shaffer CM, Carroll RJ, Mosley JD, et al. Phenomewide association studies demonstrating pleiotropy of genetic variants within FTO with and without adjustment for body mass index. Front Genet 20145.

McCarty CA, Chisholm RL, Chute CG, Kullo IJ, Jarvik GP, Larson EB, et al. The eMERGE network: a consortium of biorepositories linked to electronic medical records data for conducting genomic studies. BMC Med Genet. 2011 Jan 264:13. https://doi.org/10.1186/1755-8794-4-13.

Denny JC, Bastarache L, Roden DM. Phenome-wide association studies as a tool to advance precision medicine. Annu Rev Genomics Hum Genet. 201617:353–73.

Bush WS, Oetjens MT, Crawford DC. Unravelling the human genome–phenome relationship using phenome-wide association studies. Nat Rev Genet. 201617:129–45.

Roden DM. Phenome-wide association studies: a new method for functional genomics in humans: Phenome-wide association studies. J Physiol. 2017595:4109–15. Updated References

Pendergrass SA, Ritchie MD. Phenome-wide association studies: leveraging comprehensive phenotypic and genotypic data for discovery. Curr Genet Med Rep. 20153:92–100.

Mitchell SL, Hall JB, Goodloe RJ, Boston J, Farber-Eger E, Pendergrass SA, et al. Investigating the relationship between mitochondrial genetic variation and cardiovascular-related traits to develop a framework for mitochondrial phenome-wide association studies. BioData Min 20147.

• Basile AO, Wallace JR, Peissig P, McCarty CA, Brilliant M, Ritchie MD. Knowledge driven binning and PheWAS analysis in Marshfield personalized medicine research project using BIOBIN. Pac Symp Biocomput. 201621:249–60. This is the first published rare-variant PheWAS analysis

Liao KP, Sparks JA, Hejblum BP, Kuo I-H, Cui J, Lahey LJ, et al. Phenome-wide association study of autoantibodies to Citrullinated and Noncitrullinated Epitopes in rheumatoid arthritis: PheWAS FOR AUTOANTIBODIES IN RA. Arthritis Rheumatol. 201769:742–9.

Denny JC, Bastarache L, Ritchie MD, Carroll RJ, Zink R, Mosley JD, et al. Systematic comparison of phenome-wide association study of electronic medical record data and genome-wide association study data. Nat Biotechnol. 201331:1102–10.

Denny JC, Crawford DC, Ritchie MD, Bielinski SJ, Basford MA, Bradford Y, et al. Variants near FOXE1 are associated with hypothyroidism and other thyroid conditions: using electronic medical records for genome- and phenome-wide studies. Soy J Hum Genet. 201189:529–42.

Hebbring SJ, Schrodi SJ, Ye Z, Zhou Z, Page D, Brilliant MH. A PheWAS approach in studying HLA-DRB1*1501. Genes Immun. 201314:187–91.

Verma A, Verma SS, Pendergrass SA, Crawford DC, Crosslin DR, Kuivaniemi H, et al. eMERGE Phenome-Wide Association Study (PheWAS) identifies clinical associations and pleiotropy for stop-gain variants. BMC Med. Genómica. 20169. Available from: http://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-016-0191-8

Verma A, Basile AO, Bradford Y, Kuivaniemi H, Tromp G, Carey D, et al. Phenome- wide association study to explore relationships between immune system related genetic loci and complex traits and diseases. Yao Y-G, editor. Más uno. 201611(8):e0160573. https://doi.org/10.1371/journal.pone.0160573. eCollection 2016

Verma SS, Lucas AM, Lavage DR, Leader JB, Metpally R, Krishnamurthy S, et al. Identifying genetic associations with variability in metabolic health and blood count laboratory values: diving into the quantitative traits by leveraging longitudinal data from an ehr. Pac Symp Biocomput Pac Symp Biocomput. 201622:533–44.

Shameer K, Denny JC, Ding K, Jouni H, Crosslin DR, de Andrade M, et al. A genomeand phenome-wide association study to identify genetic variants influencing platelet count and volume and their pleiotropic effects. Hum Genet. 2014133(1):95–109. https://doi.org/10.1007/s00439-013-1355-7.

Namjou B, Marsolo K, Caroll RJ, Denny JC, Ritchie MD, Verma SS, et al. Phenomewide association study (PheWAS) in EMR-linked pediatric cohorts, genetically links PLCL1 to speech language development and IL5-IL13 to Eosinophilic Esophagitis. Front Genet 2014 5. Available from: http://journal.frontiersin.org/article/10.3389/fgene.2014.00401/abstract

Ye Z, Mayer J, Ivacic L, Zhou Z, He M, Schrodi SJ, et al. Phenome-wide association studies (PheWASs) for functional variants. Eur J Hum Genet. 201523:523–9.

Pendergrass SA, Brown-Gentry K, Dudek S, Frase A, Torstenson ES, Goodloe R, et al. Phenome-wide association study (PheWAS) for detection of pleiotropy within the population architecture using genomics and epidemiology (PAGE) network. PLoS Genet. 20139(1):e1003087. https://doi.org/10.1371/journal.pgen.1003087.

Pendergrass SA, Brown-Gentry K, Dudek SM, Torstenson ES, Ambite JL, Avery CL, et al. The use of phenome-wide association studies (PheWAS) for exploration of novel genotype-phenotype relationships and pleiotropy discovery. Genet Epidemiol. 201135:410–22.

Polimanti R, Kranzler HR, Gelernter J. Phenome-wide association study for alcohol and nicotine risk alleles in 26394 women. Neuropsicofarmacología. 201641:2688–96.

Hall MA, Verma A, Brown-Gentry KD, Goodloe R, Boston J, Wilson S, et al. Detection of Pleiotropy through a Phenome-wide association study (PheWAS) of epidemiologic data as part of the environmental architecture for genes linked to environment (EAGLE) study. PLoS Genet. 201410(12):e1004678. https://doi.org/10.1371/journal.pgen.1004678. eCollection 2014 Dec.

Moore CB, Verma A, Pendergrass S, Verma SS, Johnson DH, Daar ES, et al. Phenomewide association study relating Pretreatment laboratory parameters with human genetic variants in AIDS Clinical Trials Group protocols. O Open Forum Infect Dis. 20152(1):ofu113. https://doi.org/10.1093/ofid/ofu113. eCollection 2015 Jan

Verma A, Bradford Y, Verma SS, Pendergrass SA, Daar ES, Venuto C, et al. Multiphenotype association study of patients randomized to initiate antiretroviral regimens in AIDS Clinical Trials Group protocol A5202: Pharmacogenet. Genómica. 201727:101–11.

• World Health Organization. History of the development of the ICD [Internet]. Available from: http://www.who.int/classifications/icd/en/HistoryOfICD.pdf. A great review of ICD codes.

Krive J, Patel M, Gehm L, Mackey M, Kulstad E, Li J “John,” et al. The complexity and challenges of the international classification of diseases, ninth revision, clinical modification to international classification of diseases, 10th revision, clinical modification transition in EDs. Am J Emerg Med 201533:713–718.

Kirby JC, Speltz P, Rasmussen LV, Basford M, Gottesman O, Peissig PL, et al. PheKB: a catalog and workflow for creating electronic phenotype algorithms for transportability. J Am Med Inform Assoc. 201623:1046–52.

Crawford DC, Goodloe R, Brown-Gentry K, Wilson S, Roberson J, Gillani NB, et al. Characterization of the Metabochip in diverse populations from the international HapMap project in the epidemiologic architecture for genes linked to environment (EAGLE) project. Pac Symp Biocomput. 2013:188–99.

Emdin CA, Khera AV, Natarajan P, Klarin D, Won H-H, Peloso GM, et al. Phenotypic characterization of genetically lowered human lipoprotein(a) levels. J Am Coll Cardiol. 201668:2761–72.

Hebbring SJ, Rastegar-Mojarad M, Ye Z, Mayer J, Jacobson C, Lin S. Application of clinical text data for phenome-wide association studies (PheWASs). Bioinformática. 201531:1981–7.

Karaca S, Civelek E, Karaca M, Sahiner UM, Ozgul RK, Kocabas CN, et al. Allergyspecific Phenome-wide association study for Immunogenes in Turkish children. Sci Rep. 2016 Sep 146:33152. https://doi.org/10.1038/srep33152.

Klarin D, Emdin CA, Natarajan P, Conrad MF, INVENT consortium, Kathiresan S. Genetic analysis of venous Thromboembolism in UK biobank identifies the ZFPM2 locus and implicates obesity as a causal risk factor. Circ Cardiovasc Genet. 201710(2). https://doi.org/10.1161/CIRCGENETICS.116.001643.

Liu J, Ye Z, Mayer JG, Hoch BA, Green C, Rolak L, et al. Phenome-wide association study maps new diseases to the human major histocompatibility complex region. J Med Genet. 201653:681–9.

Millwood IY, Bennett DA, Walters RG, Clarke R, Waterworth D, Johnson T, et al. A phenome-wide association study of a lipoprotein-associated phospholipase A2 loss-offunction variant in 90 000 Chinese adults. Int J Epidemiol. 201645:1588–99.

Namjou B, Marsolo K, Lingren T, Ritchie MD, Verma SS, Cobb BL, et al. A GWAS study on liver function test using eMERGE network participants. Prokunina-Olsson L, editor. Más uno. 201510:e0138677.

Ritchie MD, Denny JC, Zuvich RL, Crawford DC, Schildcrout JS, Bastarache L, et al. Genome- and phenome-wide analyses of cardiac conduction identifies markers of arrhythmia risk. Circulación. 2013127:1377–85.

Simonti CN, Vernot B, Bastarache L, Bottinger E, Carrell DS, Chisholm RL, et al. The phenotypic legacy of admixture between modern humans and Neandertals. Ciencias. 201612:737–41.

Wang X, Pandey AK, Mulligan MK, Williams EG, Mozhui K, Li Z, et al. Joint mousehuman phenome-wide association to test gene function and disease risk. Nat Commun. 20167:10464.

Millard LAC, Davies NM, Timpson NJ, Tilling K, Flach PA, Smith GD. MR-PheWAS: hypothesis prioritization among potential causal effects of body mass index on many outcomes, using Mendelian randomization. Sci Rep. 20155:16645. https://doi.org/10.1038/srep16645.

Verma A, Leader JB, Verma SS, Frase A, Wallace J, Dudek S, et al. Integrating clinical laboratory measures and ICD-9 code diagnoses in phenome-wide association studies. Pac Symp Biocomput. 201621:168–79.

Dey R, Schmidt EM, Abecasis GR, Lee S. A fast and accurate algorithm to test for binary phenotypes and its application to PheWAS. Soy J Hum Genet. 2017101:37–49.

Doss J, Mo H, Carroll RJ, Crofford LJ, Denny JC. Phenome-wide association study of rheumatoid arthritis subgroups identifies association between Seronegative disease and fibromyalgia: PheWAS of rheumatoid arthritis subgroups. Arthritis Rheumatol. 201769:291–300.

Liao KP, Kurreeman F, Li G, Duclos G, Murphy S, Guzman R, et al. Associations of autoantibodies, autoimmune risk alleles, and clinical diagnoses from the electronic medical records in rheumatoid arthritis cases and non-rheumatoid arthritis controls. Artritis Rheum. 201365:571–81.

Neuraz A, Chouchana L, Malamut G, Le Beller C, Roche D, Beaune P, et al. Phenome- wide association studies on a quantitative trait: application to TPMT enzyme activity and Thiopurine therapy in Pharmacogenomics. Slonim DK, editor. PLoS Comput Biol. 20139:e1003405.

Denny JC, Crawford DC, Ritchie MD, Bielinski SJ, Basford MA, Bradford Y, et al. Variants near FOXE1 are associated with hypothyroidism and other thyroid conditions: using electronic medical Records for Genome- and Phenome-Wide Studies. Soy J Hum Genet. 201189:529–42.

Takahashi M, Saenko VA, Rogounovitch TI, Kawaguchi T, Drozd VM, Takigawa-Imamura H, et al. The FOXE1 locus is a major genetic determinant for radiation-related thyroid carcinoma in Chernobyl. Hum Mol Genet. 201019:2516–23.

Gudmundsson J, Sulem P, Gudbjartsson DF, Jonasson JG, Sigurdsson A, Bergthorsson JT, et al. Common variants on 9q22.33 and 14q13.3 predispose to thyroid cancer in European populations. Nat. Gineta. 200941:460–4.

Bush WS, Boston J, Pendergrass SA, Dumitrescu L, Goodloe R, Brown-Gentry K, et al. Enabling high-throughput genotype-phenotype associations in the epidemiologic architecture for genes linked to environment (EAGLE) project as part of the population architecture using genomics and epidemiology (PAGE) study. Pac Symp Biocomput. 2013:373–84.

Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MAR, Bender D, et al. PLINK: a tool set for whole-genome association and population-based linkage analyses. Soy J Hum Genet. 200781:559–75.

Chang CC, Chow CC, Tellier LC, Vattikuti S, Purcell SM, Lee JJ. Second-generation PLINK: rising to the challenge of larger and richer datasets. GigaScience. 20154. Available from: https://academic.oup.com/gigascience/articlelookup/doi/10.1186/s13742-0150047-8

Hall MA, Wallace J, Lucas AM, Kim D, Verma SS, McCarty CA, et al. PLATO software provides analytic framework for investigating complexity beyond genome-wide association studies. Nat. Comun. 2017. https://doi.org/10.1038/s41467-017-00802-2

Carroll RJ, Bastarache L, Denny JC. R PheWAS: data analysis and plotting tools for phenome-wide association studies in the R environment. Bioinforma Oxf Engl. 201430:2375–6.

StataCorp. Stata statistical software: release 12. College Station, TX: StataCorp LP 2011.

Lee S, Abecasis GR, Boehnke M, Lin X. Rare-variant association analysis: study designs and statistical tests. Soy J Hum Genet. 201495:5–23.

Moore CB, Wallace JR, Frase AT, Pendergrass SA, Ritchie MD. BioBin: a bioinformatics tool for automating the binning of rare variants using publicly available biological knowledge. BMC Med Genet. 20136(Suppl 2):S6. https://doi.org/10.1186/1755-8794-6-S2-S6.

Zhan X, Hu Y, Li B, Abecasis GR, Liu DJ. RVTESTS: an efficient and comprehensive tool for rare variant association analysis using sequence data: table 1. Bioinformatics. 201632:1423–6.

PLINK/SEQ: A library for the analysis of genetic variation data. at [Internet]. Available from: <http://atgu.mgh.harvard.edu/plinkseq/>.

Armstrong RA. When to use the Bonferroni correction. Ophthalmic Physiol Opt. 201434:502–8.

•• Sobota RS, Shriner D, Kodaman N, Goodloe R, Zheng W, Gao Y-T, et al. Addressing population-specific multiple testing burdens in genetic association studies: population-specific genome-wide thresholds. Ann Hum Genet. 201579:136–47. In this study, the authors describe an in-depth approach to identify multiple hypothesis correction thresholds based on different population linkage disequilibrium structures

Grimm DG, Roqueiro D, Salomé PA, Kleeberger S, Greshake B, Zhu W, et al. easyGWAS: a cloud-based platform for comparing the results of genome-wide association studies. Célula vegetal. 201729:5–19.

Dai W, Wang Q, Gao M, Zhang L. CloudAssoc: A pipeline for imputation based genome wide association study on cloud. IEEE 2012 [cited 2017 Sep 16]. pag. 1435–8. Available from: http://ieeexplore.ieee.org/document/6526190/

DNAnexus Cloud Platform: A Global Network for Genomics [Internet]. Available from: https://www.dnanexus.com/company

• Solovieff N, Cotsapas C, Lee PH, Purcell SM, Smoller JW. Pleiotropy in complex traits: challenges and strategies. Nat Rev Genet. 2013 Jul14(7):483–95. https://doi.org/10.1038/nrg3461. This is a review on challenges with differentiating true vs false pleiotropy and a review on statistical methods to address such challenges

Smemo S, Tena JJ, Kim K-H, Gamazon ER, Sakabe NJ, Gómez-Marín C, et al. Obesityassociated variants within FTO form long-range functional connections with IRX3. Naturaleza. 2014507:371–5.

Kichaev G, Yang W-Y, Lindstrom S, Hormozdiari F, Eskin E, Price AL, et al. Integrating functional data to prioritize causal variants in statistical fine-mapping studies. Di Rienzo a, editor. PLoS Genet. 201410:e1004722.

Li Y, Kellis M. Joint Bayesian inference of risk variants and tissue-specific epigenomic enrichments across multiple complex human diseases. Ácidos nucleicos Res. 201644:e144–4.

Hormozdiari F, Kostem E, Kang EY, Pasaniuc B, Eskin E. Identifying causal variants at loci with multiple signals of association. Genética. 2014198:497–508.

Zhang Y, An L, Yue F, Hardison RC. Jointly characterizing epigenetic dynamics across multiple human cell types. Ácidos nucleicos Res. 201644:6721–31.

Ernst J, Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Métodos Nat. 20129:215–6.


GWAS and Beyond: Using Omics Approaches to Interpret SNP Associations

Neurodegenerative diseases, neuropsychiatric disorders, and related traits have highly complex etiologies but are also highly heritable identifying the causal genes and biological pathways underlying these traits may advance the development of treatments and preventive strategies. While many genome-wide association studies (GWAS) have successfully identified variants contributing to polygenic neurodegenerative and neuropsychiatric phenotypes including Alzheimer’s disease (AD), schizophrenia (SCZ), and bipolar disorder (BPD) among others, interpreting the biological roles of significantly associated variants in the genetic architecture of these traits remains a significant challenge. Here, we review several ‘omics’ approaches which attempt to bridge the gap from associated genetic variants to phenotype by helping define the functional roles of GWAS loci in the development of neuropsychiatric disorders and traits.

Hallazgos recientes

Several common ‘omics’ approaches have been applied to examine neuropsychiatric traits, such as nearest-gene mapping, trans-ethnic fine mapping, annotation enrichment analysis, transcriptomic analysis, and pathway analysis, and each of these approaches has strengths and limitations in providing insight into biological mechanisms. One popular emerging method is the examination of tissue-specific genetically regulated gene expression (GReX), which aggregates the genetic variants’ effects at the gene level. Furthermore, proteomic, metabolomic, and microbiomic studies and phenome-wide association studies will further enhance our understanding of neuropsychiatric traits.

Resumen

GWAS has been applied to neuropsychiatric traits for a decade, but our understanding about the biological function of identified variants remains limited. Today, technological advancements have created analytical approaches for integrating transcriptomics, metabolomics, proteomics, pharmacology, and toxicology as tools for understanding the functional roles of genetic variants. These data, as well as the broader clinical information provided by electronic health records, can provide additional insight and complement genomic analyses.


Fondo

Nonalcoholic fatty liver disease (NAFLD) is one of the most common chronic liver diseases, found in 17–30% of the population in Western countries [1]. NAFLD, defined as greater than 5% fatty acid content of liver by weight, includes not only simple and benign steatosis but also the more serious nonalcoholic steatohepatitis (NASH), which may progress to cirrhosis and liver failure in 8 to 26% of adults with NASH [2]. NASH is defined histologically by the presence of macrovesicular steatosis, lobular inflammation, and hepatocellular ballooning. The pathology is often indistinguishable from alcoholic fatty liver disease therefore, the diagnosis can only be made in the absence of significant alcohol use [3]. NAFLD is now recognized as a common metabolic disorder globally as a result of ongoing obesity pandemic. It also increases risk of adverse long-term consequences including death from liver cirrhosis and cardiovascular disease. In fact, NASH is now the second most common indication for liver transplantation in the USA after chronic hepatitis C [4].

Growing evidence has shown that NAFLD can also occur in 10–20% of non-obese population, most often in association with central adiposity, recent weight gain, dietary factors, or genetic risk alleles [5]. In East Asian countries, for example, the incidence and prevalence of NAFLD are increasing with time despite lower rates of obesity compared to Western countries [6]. Hence, it is important to identify the natural course of NAFLD and the contributing factors for the development and maintenance or regression of this disease. The underlying etiology is believed to be multifactorial with a substantial genetic component. The heritability estimates of NAFLD generally range from 20 to 70%, depending on the study design, ethnicity, and the methodology used [7]. Likewise, for indices of disease severity, the heritability estimates in a twin study for hepatic steatosis was 0.52 (based on MRI proton-density fat fraction) and for liver fibrosis (based on liver stiffness) 0.5 [8]. In addition, heritability risk for NAFLD may be independent of body mass index heritability. For example, family studies show that while fatty liver can be present in 17% of siblings and 37% of parents of overweight children without NAFLD, it was significantly more common in siblings (59%) and parents (78%) of children with NAFLD [9]. To date, several genome-wide association studies (GWAS) have been published for this condition mainly in adult cohorts [10,11,12]. One of the established effects is in the PNPLA3 (patatin-like phospholipase domain–containing 3) gene with consistent results across studies in which the rs738409 C>G variant (resulting in an amino acid substitution of methionine for isoleucine at position 148 (I148M)) is strongly associated with this trait. The PNPLA3 protein exerts lipase activity and plays a role in the hydrolysis of glycerolipids, with maximum enzymatic activity against triglycerides, diacylglycerol, and monacylglycerol [13]. Structural modeling suggests that this substitution may occlude access of substrates to the catalytic dyad [14]. However, the exact underlying mechanisms remain unclear.

The electronic medical record (EMR) is a rich source of clinical information. Natural language processing (NLP) techniques have demonstrated successes within the clinical domain and have been tested for transferability to another institution [15]. The electronic MEdical Records and GEnomics (eMERGE) Network, founded in 2007, is a consortium of multiple adult and pediatric institutions developed to explore the utility of DNA biorepositories linked to EMRs as well as establishing and validating specific algorithms with and without NLP for many common phenotypes [16]. In this study, we investigated the genetic variants associated with NAFLD/NASH in children and adults using phenotypic measures extracted from medical records in a collection of already genotyped samples from more than 80,000 eMERGE participants to replicate prior studies and identify additional genetic loci.


Additional file 1.

Additional file 2: Table S1.

Differential expression analysis of ACE2 in relation to clinical variables (A) and genomic signatures (B) in SPIROMICS, SARP, and MAST. Cuadro S2. Top 100 genes co-expressed with ACE2 after adjustments in SPIROMICS (A), SARP (B), and MAST (C). The genes in the IL-17 signature are highlighted in yellow. Cuadro S3. Canonical pathway gene sets based on differentially downregulated genes between SARS-CoV-2 infection and other viral illness using the Ingenuity Pathway Analysis canonical pathway function. Cuadro S4. Association between canonical pathway gene sets from Table S3 and comorbidities in SPIROMICS (A), SARP (B), and MAST (C). Leading edge genes are enriched in association with the given comorbidity. Cuadro S5. Canonical pathway gene sets based on genes enriched in association with each comorbidity using the Ingenuity Pathway Analysis canonical pathway function. A – cardiovascular condition in SPIROMICS, B – hypertension in SPIROMICS, C – obesity in SPIROMICS, D - hypertension in SARP, E – obesity in SARP. Cuadro S6. COVID-19-related genes from Blanco-Melo et al. 2020, Gassen et al. 2020, Gordon et al. 2020, Hoffmann et al. 2020, Wang et al. 2020, and COVID-19 Cell Atlas. Cuadro S7. Summary statistics of eQTL mapping in bronchial epithelium in SPIROMICS, including eQTL effect sizes, and lookup analysis from GTEx and eQTLGen Consortium. Cuadro S8. Lookup of COVID-19-related genes with cis-eQTLs in bronchial epithelium from GTEx v8. Effect size measured as allelic fold change (log2) is given for every gene with FDR < 0.05 in GTEx v8 and its lead eQTL, or set to NA otherwise. Cuadro S9. Pathway analysis of 492 eGenes from SPIROMICS not tested in GTEx Lung. Cuadro S10. pheWAS of eQTLs for COVID-19-related genes in bronchial epithelium with Phenoscanner v2. Cuadro S11. pheWAS of eQTLs for COVID-19-related genes in bronchial epithelium in (A) non-Hispanic White individuals (norte = 1980) and (B) Hispanic and non-Hispanic, non-White individuals (norte = 696) in SPIROMICS for 20 phenotypes. Cuadro S12. Results of the colocalization analysis of the eQTLs in bronchial epithelium and COVID-19-relevant phenotypes.

Additional file 3: Figure S1.

Associations between ACE2 gene expression and COPD, asthma, steroid use, and race. Figura S2. Associations between ACE2 gene expression and obesity. Figura S3. Associations between ACE2 gene expression and hypertension, and use of antihypertensives. Figura S4. Associations between age and ACE2 gene expression, and age and differential ACE2 exon usage. Figura S5. Associations between age and smoking status, hypertension, sex, and BMI in SPIROMICS. Figura S6. COVID-19 and other viral illness related gene set enrichment analyses in association with comorbidities in SPIROMICS, SARP, and MAST. Figura S7. Regulatory genetic effects of ACE2 y TMPRSS2, and the effect of smoking on TMPRSS2. Figura S8. Associations between COVID-19-related genes and comorbidities. Figura S9. Replication of cis-eQTLs in GTEx. Figura S10. Regulatory genetic effects of the candidate genes in the chr3 cluster associated with COVID-19. Figura S11. PheWAS associations for the 44 out of 108 lead cis-eQTLs associated with COVID-19-related genes with Phenoscanner v2.

Additional file 4: Supplementary Note.

NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium Banner Authorship List.


Ver el vídeo: Clase 22. Filogenómica I (Mayo 2022).


Comentarios:

  1. Kigalrajas

    Disculpe por lo que tengo que intervenir ... situación similar. Podemos discutir.

  2. Faras

    Bien hecho, fue visitado por simplemente excelente idea



Escribe un mensaje