Información

¿Las personas que llaman con variantes pierden variantes raras en la referencia?

¿Las personas que llaman con variantes pierden variantes raras en la referencia?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Generalmente, los programas de llamadas variantes (como GATK-UnifiedGenotyper) buscan diferencias entre el genoma de referencia y la secuencia enviada. Sin embargo, todos sabemos que el genoma de referencia consta de variantes raras en varias posiciones. Si la secuencia enviada tiene esta forma rara de esa variante, la llamada de variante no la ve y no informa en absoluto. Sin embargo, esa variante podría ser muy valiosa para el análisis.

Entonces, ¿cómo puedo resolver este problema? ¿Qué debo hacer para no perderme esas raras variantes aunque estén en el genoma de referencia?


Si la secuencia de referencia está asociada con una enfermedad o una mayor susceptibilidad a algún fenotipo, la población con la que se va a comparar (con una variante) le mostrará protección. Entonces, de cualquier manera, encontrará una asociación, esto solo cambiará el signo del coeficiente.


Bueno, esperaría que la secuencia de "referencia" sea de un individuo sano y no lleve un alelo altamente perjudicial que le importa.

O obtenga un montón de datos de control del proyecto del genoma 1K y compárelos también con la referencia; no llevarán los alelos raros que tiene su referencia.


El genoma de referencia es una secuencia compuesta de múltiples individuos, por lo tanto, el escenario A difícilmente debería ocurrir, si es que ocurre. La respuesta insatisfactoria es que es muy poco probable que las variantes raras que le interesan estén en la referencia.


Impacto de la variación genética rara y común en la vía de la interleucina-1 en las respuestas de las citocinas humanas

La vía de la interleucina (IL) -1 se asocia principalmente con la defensa inmunológica innata y desempeña un papel importante en la inducción y regulación de la inflamación. La variación genética común y rara en esta vía subyace a varias enfermedades mediadas por inflamación, pero el papel de las variantes raras en relación con las variantes comunes en la variabilidad de la respuesta inmune en individuos sanos sigue sin estar claro.

Métodos

Realizamos la secuenciación de la sonda de inversión molecular en 48 genes relacionados con la vía de la IL-1 en 463 individuos sanos del Proyecto de Genómica Funcional Humana. Agrupamos funcionalmente variantes comunes y raras, sobre genes, subrutas y niveles inflamatorios y realizamos la prueba de asociación del núcleo de secuencia para probar la asociación con respuestas de citocinas inducidas por estimulación in vitro específicamente, mediciones de citocinas de IL-1β e IL-6 sobre estimulaciones que representan una variedad de infecciones microbianas: lipopolisacárido (LPS), fitohemaglutinina (PHA), Candida albicans (C. albicans), y Staphylococcus aureus (S. aureus).

Resultados

Identificamos una carga de NCF4 variantes raras con citocina IL-6 inducida por PHA y mostraron que los respectivos portadores están en el 1% de productores de IL-6 más bajos. El colapso de variantes raras en los genes de la subvía de IL-1 produce una asociación bidireccional con los niveles de citocinas de IL-1β inducidos por LPS, que se refleja en una correlación de Spearman significativa. A nivel inflamatorio, identificamos una carga de variantes raras en genes que codifican proteínas con función antiinflamatoria con S. aureuscitoquina IL-6 inducida. En contraste con estos hallazgos de variantes raras que se basaron en diferentes tipos de estímulos, las asociaciones de variantes comunes se identificaron exclusivamente con C. albicans-citocinas inducidas en varios niveles de agrupación, desde el gen hasta la subvía y el nivel inflamatorio.

Conclusiones

En conclusión, este estudio muestra que la agrupación funcional de variantes genéticas comunes y raras permite elucidar los mecanismos biológicos mediados por IL-1, específicamente, para las respuestas de citocinas IL-1β e IL-6 inducidas por diversos estímulos. El marco utilizado en este estudio puede permitir el análisis de variantes genéticas raras y comunes en una variedad más amplia de fenotipos complejos (no inmunes) y, por lo tanto, tiene el potencial de contribuir a una mejor comprensión de las enfermedades y rasgos complejos no resueltos.


Introducción

La secuenciación masivamente paralela de ácidos nucleicos permite el análisis de ADN y ARN a gran escala. Una implementación natural de esta tecnología de "secuenciación de próxima generación (NGS)" es evaluar el conjunto único y complejo de alteraciones genómicas que ocurren en las neoplasias malignas, con el objetivo de mejorar la atención del paciente mediante el diagnóstico, el pronóstico y la terapia personalizados.

La implementación actual más frecuente de NGS para oncología es la detección de mutaciones a través de paneles dirigidos 1-5. Estos ensayos utilizan métodos moleculares como las reacciones en cadena de la polimerasa múltiple (PCR) para aislar segmentos clínicamente relevantes del genoma, como puntos calientes de mutación o exones codificantes de genes completos. Estos paneles van desde unos pocos cientos de loci objetivo hasta muchos miles. En estos ensayos, las lecturas de secuencias sin procesar se alinean primero con el genoma humano de referencia. A continuación, se realiza una llamada de variantes para identificar pequeños desajustes en estos alineamientos que pueden representar mutaciones presentes en la muestra. A continuación, se debe realizar el análisis y la interpretación de las variantes para evaluar la validez técnica y la utilidad clínica de cada variante ( Figura 1 ).

Resumen de la evaluación de la validez técnica y la utilidad clínica para el cáncer NGS. (A) Llamado base NGS, en el que se genera una secuencia de ADN y una puntuación de confianza correspondiente a partir de una plantilla de ADN genómico nuclear. (B) El siguiente paso, que compara todos los datos disponibles con la referencia y entre sí. Luego se realiza la llamada de variantes (bases subrayadas en el panel B), comparando las llamadas de bases en muchas lecturas, se pueden filtrar muchas llamadas de variantes de falsos positivos (bases con x), mientras que los verdaderos positivos (bases en círculos) deben generar una señal fuerte. (C) Se generan múltiples métricas de calidad durante la llamada de variantes, que se pueden comparar con los límites establecidos durante la validación del ensayo (líneas discontinuas). (D) Revisión detallada de las bases de datos y la literatura disponibles (lado izquierdo) y comparación con la historia clínica y la patología tumoral (lado derecho) para evaluar la utilidad clínica. VAF, frecuencia alélica variante QUAL, calidad de llamada variante COSMIC, Catálogo de mutaciones somáticas en los inhibidores de la tirosina quinasa del cáncer, terapias con inhibidores de la tirosina quinasa.

Antes de realizar cualquier análisis de variantes, se deben verificar los datos para determinar el rendimiento y la calidad generales del ensayo. Dado que muchas muestras de patología quirúrgica tienen cantidades y calidad de tejido limitadas y se han tratado con fijación con formalina, los fallos de los ensayos se producen con cierta regularidad. Como hay muchas formas diferentes de medir el rendimiento del ensayo, cada ensayo requiere un conjunto único de parámetros establecidos durante la validación 6,7.

La validez técnica y la utilidad clínica son los dos problemas principales que deben resolverse para cada variante identificada mediante la detección de variantes somáticas NGS. Si una variante detectada no cumple o excede los criterios predeterminados de validez y utilidad, no debe notificarse clínicamente como médicamente relevante. Si bien es simple en principio, existe una profunda complejidad en estas áreas que merecen una cuidadosa consideración.


MÉTODOS

Diseño del estudio

Realizamos un estudio retrospectivo de precisión diagnóstica de chips SNP (prueba índice) utilizando NGS (prueba de referencia) de participantes de UKB en los que ambos conjuntos de datos estaban disponibles. Los datos del chip SNP fueron generados centralmente por UKB y los datos NGS fueron generados externamente por Regeneron y son devueltos al recurso UKB como parte de una solicitud de aplicación de acceso externa.

Participantes

La UKB es una cohorte de investigación basada en la población de aproximadamente 500.000 participantes reclutados en el Reino Unido entre 2006 y 2010. Aproximadamente 9,2 millones de personas de entre 40 y 69 años que vivían a menos de 40 km de uno de los 22 centros de evaluación fueron invitadas y el 5,5% participó [10 ].

Métodos de prueba

Estudiamos 49,960 individuos (55% mujeres) de UKB con datos NGS (prueba de referencia). La captura del exoma se realizó utilizando un enfoque desarrollado en el Regeneron Genetics Center y las muestras se secuenciaron utilizando lecturas de 75 pares de bases en la plataforma Illumina NovaSeq 6000 [14]. La alineación, la llamada de variantes y el control de calidad de los datos de secuenciación del exoma se describen en [14].

De estos individuos, 49.908 también tenían datos de chip SNP aprobados por control de calidad (prueba de índice). Un subconjunto de 4.037 individuos fueron previamente genotipados usando Applied Biosystems UK BiLEVE Axiom Array de Affymetrix (807.411 marcadores genéticos), y 45.871 individuos fueron previamente genotipados usando Applied Biosystems UK Biobank Axiom® Array (825.927 marcadores genéticos) que comparte el 95% de sus contenido del marcador con el BiLEVE [10]. Los individuos fueron genotipados en 106 lotes de ~ 5000 muestras. Incluimos muestras que pasaron el control de calidad (QC) central de UKB en cualquiera de los chips SNP de UKB y solo incluimos variantes genotipadas directamente que tenían una tasa de ausencia de genotipo & lt5% y Hardy Weinberg PAG& lt1 × 10 −6. Utilizamos la herramienta Liftover del navegador del genoma UCSC para convertir las posiciones variantes del chip SNP que se informaron en las coordenadas hg37 a hg38 para la comparación directa con los datos NGS.

Analiza

Para la comparación de todo el genoma con genotipos de chip SNP, solo incluimos variantes de un solo nucleótido (SNV) genotipadas directamente con posiciones genómicas presentes en los archivos gVCF y cubiertas por lecturas & gt15 en los datos de NGS. Se utilizó la frecuencia de alelos menores (MAF) de todos los 488,377 individuos genotipados con chip SNP en UKB [10]. Para los subconjuntos de SNV comunes y raros, probamos la calidad de genotipado de los SNV heterocigotos en los chips SNP frente a las llamadas NGS y calculamos las métricas de rendimiento promedio por variante.

Para una comparación detallada de genes específicos con genotipos de chip SNP, incluimos SNV directamente genotipados, inserciones y deleciones en el BRCA1 o BRCA2 genes. Las variantes se definieron como patógenas si se predijo que darían como resultado una proteína truncada o si se habían clasificado previamente como probables o definitivamente patógenas en la base de datos de ClinVar [15]. incluido. Los datos de NGS se examinaron visualmente utilizando el Visor de Genómica Integrativa (IGV) [16] para determinar si la variante estaba presente o no. Se extrajeron los datos del registro de cáncer de mama, ovario, próstata y páncreas de todos los participantes. Se llevaron a cabo regresiones logísticas para evaluar la relación entre los participantes con pruebas positivas y cualquier cáncer relacionado con BRCA.

Los resultados se presentan de acuerdo con las directrices STARD para informar estudios de precisión diagnóstica [17] utilizando sensibilidad, especificidad, valor predictivo positivo (VPP) y valor predictivo negativo (VPN) para evaluar el rendimiento del ensayo.


RESULTADOS

Estudio piloto interlaboratorio

Se realizó un estudio entre laboratorios tanto para reforzar nuestra comprensión del impacto de diferentes metodologías de NGS en tipos de variantes desafiantes como para evaluar si los controles positivos sintéticos son una herramienta útil para el desarrollo y validación de métodos para detectar tales variantes. En este estudio, los 10 flujos de trabajo de NGS en los laboratorios colaboradores pudieron secuenciar y analizar las mezclas de control sintéticas, demostrando la compatibilidad del enfoque sintético con varias bioquímicas de NGS. Sin embargo, solo 2 de las 13 variantes desafiantes (como se define en la Fig.1) fueron detectadas por los 10 flujos de trabajo, y solo tres flujos de trabajo detectaron los 13 (Tablas 1, S1, S2). Además, algunos flujos de trabajo pasaron por alto 3 de los otros 11 indeles menos desafiantes.

La revisión manual usando IGV demostró que la evidencia de las variantes perdidas era visible en la mayoría de los conjuntos de datos sin procesar, lo que indica que las limitaciones de sensibilidad eran en gran parte de naturaleza bioinformática. La revisión de IGV de datos de controles sintéticos y muestras de pacientes que contienen las mismas variantes mostró desafíos similares, incluidos artefactos, desalineaciones, lecturas recortadas, tartamudeo y desviaciones de fracciones de alelos 50:50 (Figura S1). Sin embargo, el flujo de trabajo de secuenciación de amplicones (número 8) fue una excepción, ya que 5 de los 12 indeles seleccionados fueron falsos negativos porque (1) la variante alteró un sitio de unión del cebador de PCR, (2) la variante estaba cerca de un límite de amplicón, interfiriendo con la alineación , o (3) la variante provocó un aumento sustancial en el tamaño del amplicón, que la bioquímica no pudo adaptarse. Esta plataforma de secuenciación también exhibió su limitación característica con las dos variantes asociadas al homopolímero en este estudio. 25

Muchas, pero no todas, las limitaciones de sensibilidad identificadas en este estudio ya eran conocidas por los laboratorios colaboradores. Una revisión adicional de los componentes de los flujos de trabajo (Tabla S2) identificó las causas raíz probables de estas limitaciones de sensibilidad e indicó que estas limitaciones probablemente se aplicarían a las muestras de pacientes y a otras variantes con propiedades similares (no solo a las muestras y variantes específicas de este estudio) . Nuestra revisión también sugirió modificaciones en el flujo de trabajo que podrían implementarse para mejorar potencialmente el rendimiento. En general, determinamos que los controles sintéticos eran una herramienta informativa y válida para evaluar la capacidad de los métodos para detectar muchos tipos de variantes desafiantes.

Estudio de sensibilidad

En nuestro análisis de prevalencia se utilizó un flujo de trabajo de NGS (Fig. 2) del estudio piloto (a continuación). Su sensibilidad se evaluó adicionalmente utilizando un enfoque basado en métodos 2,3,4,26 en lugar de un enfoque basado en genes o variantes, que era la única opción práctica teniendo en cuenta el gran número de genes y variantes objetivo. En tales estudios, se obtienen muestras de control positivo que contienen una diversidad de variantes, y la capacidad para detectar estas variantes se mide por clase. Este estudio en particular utilizó 94 muestras que contenían 601 variantes de control positivo caracterizadas independientemente en 47 genes de interés. Los 601 se detectaron correctamente, demostrando una sensibilidad observada del 100% (Tabla 1). Descubrimos que la forma en que los diversos tipos de especímenes contribuyeron a este estudio variaba considerablemente, con implicaciones significativas para la evaluación de métodos para detectar variantes desafiantes que detallamos aquí.

Las siete muestras de GIAB, por ejemplo, contribuyeron con la mayoría (470/601, 78,2%) de las variantes del estudio, aunque tenían una relevancia clínica o metodológica limitada. La gran mayoría (92%) eran SNV, mientras que las variantes patogénicas de estos 47 genes suelen ser indeles o CNV. 7,27 Además, ninguno de los 36 indeles de GIAB tenía un tamaño superior a 5 pares de bases (pb) y muchas ubicaciones genómicas desafiantes (p. Ej., Los exones asociados al pseudogen de PMS2) no tuvo ninguna llamada de alta confianza en los datos de GIAB 3.3.2 (sin embargo, los conjuntos de datos de GIAB más nuevos pueden mejorar esta limitación particular, como se muestra a continuación). Las muestras de GIAB contienen tipos de variantes adicionales (es decir, CNV y variantes estructurales), 28 pero estas no estaban ubicadas en o cerca de nuestros genes diana y no fueron útiles para medir la sensibilidad de este ensayo. De hecho, ninguna de las 470 variantes de GIAB cumplió con nuestra definición de técnicamente desafiante.

Para aumentar el número de tipos de variantes clínicamente importantes, incluimos 58 muestras de referencia adicionales (Tabla S5) y 26 muestras clínicas. A diferencia de GIAB, cada uno de estos contribuyó solo con una o dos variantes caracterizadas de forma independiente a nuestro estudio. Sin embargo, este conjunto agregó 60 indeles, 10 de los cuales eran mayores de 5 pb y 9 CNV. Más importante aún, proporcionó 14 variantes que cumplieron con nuestra definición de técnicamente desafiante (Fig. 1).

Sin embargo, mejorados, estos recuentos de variantes permanecieron pequeños, particularmente para los diversos subtipos de variantes desafiantes. Por lo tanto, agregamos controles sintéticos a nuestro estudio, que tienen la ventaja de incluir múltiples variantes de interés en cada muestra de ADN. Solo tres especímenes agregaron otras 18 variantes heterogéneas y técnicamente desafiantes (más de la mitad del total de 32), y también agregaron 23 indeles adicionales (Tablas S1, S6). Es importante destacar que la mayoría de estas variantes eran únicas, en contraste con las variantes en las muestras de referencia y GIAB que a menudo (21% y 74%, respectivamente) se repetían en múltiples muestras (las variantes repetidas pueden ser más útiles para demostrar la reproducibilidad en comparación con la sensibilidad). En nuestro estudio de prevalencia, a continuación, se desarrollaron, validaron y utilizaron múltiples paneles de genes que utilizan diferentes ensayos de hibridación, pero un flujo de trabajo común.

Prevalencia de variantes técnicamente desafiantes

En nuestra cohorte de 471.591 pacientes que cumplían los criterios del estudio, 102.085 (21,6%) portaban una o más variantes patogénicas o probablemente patogénicas (P / LP) informadas clínicamente en 1.217 genes distintos. Se esperaba esta tasa positiva dada la combinación de las indicaciones clínicas de los pacientes y las pruebas realizadas. Se reportaron un total de 127.710 variantes P / LP, de las cuales los indeles comprendieron el 31,4%, las CNV el 9,7% y las SNV el 58,9%. Estas variantes se confirmaron según la necesidad 21 y, por lo tanto, todas se consideraron con seguridad verdaderas positivas.

Predominaron variantes técnicamente desafiantes. De los 127.710 hallazgos de P / LP, 17.561 (13,8% IC del 95% 13,6-13,9%) cumplieron uno o más de nuestros criterios para ser técnicamente desafiantes (Fig. 1). Estas variantes desafiantes se descubrieron en 16.618 pacientes (es decir, algunos pacientes portaban más de uno) y en 556 genes (46% de esos genes con algún hallazgo de P / LP). Se observaron variantes técnicamente desafiantes entre todas las áreas clínicas estudiadas (Fig.3), en particular el cribado de portadores y las pruebas neurológicas, pediátricas y de cáncer hereditario, que comprenden entre el 10,3% y el 20,4% de todos los hallazgos de P / LP en estos pacientes. La prevalencia fue menor, pero aún clínicamente significativa (2,1% a 4,3%), en cardiología, trastornos metabólicos, pruebas preventivas, inmunología y otras indicaciones. En las Tablas S7 y S8 se proporciona una lista de genes y hallazgos por tipo. Como era de esperar, era probable que las variantes desafiantes (

75%) para ser marcado como que requiere confirmación ortogonal 21 en comparación con otros (

Para cada área clínica, evaluamos la población de variantes patogénicas o probablemente patogénicas (P / LP) que cumplían con una o más de nuestras definiciones de técnicamente desafiante (Fig. 1). Las barras azules indican la prevalencia de variantes desafiantes entre todos los hallazgos de P / LP informados. El mapa de calor (celdas verdes) indica la contribución relativa de cada clase de variante a este resultado. Las barras grises indican la fracción de variantes únicas que fueron técnicamente desafiantes (es decir, cuando la misma variante apareció en más de un paciente, se contó solo una vez en este análisis, pero se contó varias veces en el análisis de prevalencia [barras azules]). Las diferencias entre estas dos fracciones resultan de un pequeño número de variantes de P / LP relativamente comunes que son (por ejemplo, en pruebas de portadores o neurológicas) o no (por ejemplo, pruebas preventivas) técnicamente desafiantes. En este conjunto de datos están representados un total de 102 085 pacientes con variantes de P / LP en 1217 genes. Se observaron variantes desafiantes de la mayoría de los tipos en todas las áreas clínicas. Variante del número de copia de la CNV, inserción o eliminación de Indel.

Un pequeño número de variantes recurrentes constituía una fracción desproporcionada de todos los hallazgos positivos, lo que también era de esperar dada la combinación de pacientes y pruebas. Once sitios específicos (Tabla S9) representaron el 22.2% (28,351) de todos los hallazgos de P / LP, por ejemplo, y el 34% de estos (9,683) se consideraron desafiantes. Estos hallazgos prevalentes incluyeron alelos de penetrancia alta, moderada y baja, y estuvieron representados los modos de herencia tanto dominante como recesivo. Excluyendo estos 11 sitios, la prevalencia de variantes desafiantes se mantuvo alta (7,9%). Teniendo en cuenta los hallazgos más raros en nuestra cohorte, se observaron 18,856 variantes de P / LP en un solo individuo, y el 9.2% (2,434) de estas se consideraron desafiantes. Por lo tanto, a menudo se observaron variantes técnicamente desafiantes tanto raras como relativamente comunes.

Ningún atributo definió todas o incluso la mayoría de las variantes técnicamente desafiantes que observamos. Más bien, estaba presente un amplio espectro. De las variantes desafiantes de P / LP, el 42,3% (7,423) estaban ubicadas en regiones de baja complejidad (por ejemplo, homopolímeros, repeticiones cortas en tándem) y el 35,0% (6,153) estaban en duplicaciones segmentarias (segdups). Además, el 11,4% (1.995) eran CNV pequeñas, el 6,5% (1.135) indeles grandes y el 1,4% (238) reordenamientos complejos. Finalmente, el 0,6% de las variantes (740) se marcaron como potencialmente mosaico en función de tener una fracción de alelos NGS anormalmente baja. (Tenga en cuenta que no todas estas variantes eran, de hecho, mosaico: algunas pueden ser el resultado de la hematopoyesis clonal, algunas aparentemente estaban dentro de las CNV, pero todas pueden justificar una investigación). Algunas variantes (118) se clasificaron en más de una categoría (p. Ej. , indel grande dentro de un segdup).

Una fracción considerable de las variantes de baja complejidad (5.254, 70,8%) fueron alteraciones en el CFTR sitio intrónico poli-T / poli-TG, que, según el diploma, confieren un riesgo moderado de pancreatitis, enfermedades respiratorias e infertilidad masculina. 29 Excluyendo CFTRSe descubrieron 2169 variantes de baja complejidad en 233 genes diferentes, que comprenden el 1,7% de todos los hallazgos de P / LP. Algunos fueron particularmente desafiantes para NGS convencional. Por ejemplo, 91 hallazgos confirmados de MSH2 Se observó la variante NM_000251.3: c.942 + 3A & gtT, que no es un cambio de longitud del homopolímero, sino más bien un SNV al final de un homopolímero de 25 pb. Esta única variante de empalme patógeno de alta penetrancia representó el 11.0% de todos los hallazgos de P / LP en MSH2, un gen que confiere riesgo de cáncer (síndrome de Lynch) y respuesta a ciertos fármacos inmuno-oncológicos (IO). 30 Se observaron 185 alelos adicionales de premutación y mutación completa en FMR1, síndrome del cromosoma X frágil subyacente, pero no se incluyeron en los recuentos anteriores debido a diferencias metodológicas.

Los hallazgos más comunes (5457) de P / LP SNV, indels y CNV dentro de genes duplicados segmentariamente se observaron en SMN1 / 2, GBA, y HBA1 / 2. Todos fueron probados en el cribado de portadores, con SMN1 / 2 también se incluye en las pruebas de neurología. Otras regiones segdup, incluidas NEBRASKA (exones 83-103), PMS2 (exones 12-15), PRSS1, y SDHA, representó 358 hallazgos adicionales dentro de las indicaciones de cáncer hereditario, neurología y pediatría. Por ejemplo, PMS2 (igual que MSH2) está involucrado en el síndrome de Lynch y la respuesta IO, y el 20,9% de los 1.194 hallazgos de P / LP se localizaron en los cuatro exones asociados al pseudogén. En NEBRASKA, miopatía nemalínica subyacente, el 7,7% de las variantes de P / LP estaban en los exones triplicados.

Los indeles grandes, las CNV pequeñas y los reordenamientos complejos representaron colectivamente 3366 hallazgos de P / LP, el 6,4% de todos los no SNV, que afectaron al 38% de los genes y todas las áreas clínicas (Fig. 4a). Más de la mitad (1.836) de estos fueron deleciones entre 50 pb y un exón de tamaño. Si tales eventos se consideraron CNV o indeles, en la práctica, se definió más por la metodología que por la biología. Los elementos móviles, a veces llamados "genes saltarines", explicaron 128 hallazgos, 58 de los cuales se observaron en un solo individuo.

(a) Distribución de tamaño de indeles patógenos / probablemente patógenos (P / LP) y variantes de número de copias (CNV), ya sean técnicamente desafiantes o no. El sesenta y cuatro por ciento de estas variantes tenían un tamaño de 1 a 5 pb (no se muestra). Variantes de un solo nucleótido (SNV), FMR1 expansiones de repetición de trinucleótidos y variantes en el CFTR El sitio poly-T / TG ​​no está incluido. (B) Cobertura de secuenciación de próxima generación (NGS) de ubicaciones de variantes clínicas de P / LP en la base de datos gnomAD de 125.748 secuencias de exomas (versión 2.2.1). Las secuencias del genoma de gnomAD no se utilizaron en este análisis. La cobertura promedio del exoma de gnomAD fue de 76 × en estos sitios de variantes clínicas (mucho más bajo que el promedio de 660 × para nuestras pruebas clínicas). La tasa observada de una ubicación de variante clínica que tiene menos del grado de cobertura indicado en los exomas de gnomAD se calculó en los umbrales específicos mostrados. El 5,1% no tiene cobertura (0 ×), el 6,7% menos de 10 × cobertura (incluido 0 ×) y el 10,1% menos de 20 ×. Las CNV no se incluyeron en este análisis. (C) Comparación de sitios de variantes clínicas de P / LP con las regiones de referencia Genome in a Bottle (GIAB) utilizando los conjuntos de datos de la versión 3.3.2 y 4.1 GIAB. Muchas (9,7%) de estas variantes estaban fuera de las regiones de referencia en las siete muestras de GIAB (categoría "Ninguna") y el 15,1% de estas variantes estaban fuera de estas regiones en al menos una de las siete muestras ("No todas" ). Sin embargo, los datos de GIAB de la versión 4.1 más reciente, disponibles solo para una de las muestras de GIAB en este momento, mejoran sustancialmente esta situación. Las CNV no se incluyeron en este análisis.

Comparaciones con conjuntos de datos públicos

Como era de esperar, la mayoría de las variantes de P / LP que observamos eran raras y, por lo tanto, estaban ausentes de las bases de datos de población, incluido gnomAD 31 (datos no mostrados), aunque algunas de estas ausencias se explican por diferencias metodológicas en la detección de variantes entre gnomAD y nuestros datos. Sin embargo, examinamos las secuencias del exoma de la versión 2.1.1 de gnomAD como una vista representativa, aunque heterogénea, de la cobertura que la captura del exoma puede lograr en las ubicaciones de las variantes de P / LP en nuestro estudio. Aunque la cobertura promedio entre las secuencias del exoma de gnomAD 125,748 en estos sitios es de 76 ×, nuestras variantes P / LP tenían un 5,1% de posibilidades de no tener cobertura en un exoma de gnomAD y un 10,1% de posibilidades de tener una cobertura de & lt20 × (Fig. 4b) . Incluso si se duplicó de 76 × a

150 × en promedio, más típico de la secuenciación clínica del exoma, esta cobertura probablemente seguiría siendo inadecuada para detectar muchas de nuestras desafiantes variantes de P / LP.

De manera similar, comparamos nuestros sitios de variantes con las regiones de referencia de GIAB para las siete muestras de GIAB y descubrimos que el 15,1% de las variantes estaban fuera de estas regiones en al menos una de las siete, y el 9,7% estaban fuera de las siete con la versión 3.3.2 de GIAB datos (Fig. 4c). Una nueva versión de los datos de GIAB de la versión 4.1 estaba disponible para una muestra (HG002) en la que solo el 3.0% de nuestras variantes P / LP estaban fuera de las regiones de referencia, una mejora notable como resultado del uso reciente del consorcio GIAB de long- y short -secuenciación de lecturas con bioinformática mejorada. 32


Investigación abierta

El código fuente de KATK se distribuye bajo los términos de GNU GPL v3. Las bases de datos de k-mer se distribuyen bajo la licencia Creative Commons CC BY-NC-SA. El código fuente está disponible en GitHub como parte del paquete GenomeTester4 (https://github.com/bioinfo-ut/GenomeTester4/). Los binarios del paquete KATK y las bases de datos k-mer que se describen en el documento actual están disponibles en http://bioinfo.ut.ee/KATK/.

Nombre del archivo Descripción
humu24197-sup-0001-Supp_File_S1.pdf 70.7 KB Información de soporte.
humu24197-sup-0002-Supp_File_S2.pdf73.4 KB Información de soporte.
humu24197-sup-0003-Supp_File_S3.pdf 83.5 KB Información de soporte.
humu24197-sup-0004-Supp_File_S4.pdf 69 KB Información de soporte.
humu24197-sup-0005-Supp_Table_S5.xls16.5 KB Información de soporte.

Tenga en cuenta: El editor no es responsable del contenido o la funcionalidad de la información de apoyo proporcionada por los autores. Cualquier consulta (que no sea contenido faltante) debe dirigirse al autor correspondiente del artículo.


Resultados

FamSeq.

La figura 1 describe el marco FamSeq. Este método proporciona una medida de confianza para las llamadas de genotipo, que es una probabilidad posterior Pr (GRAMOI|D, P). Aquí GRAMO denota genotipo, I denota un individuo, PAG denota estructura de pedigrí, y D es un vector que denota datos de secuenciación, incluidos los recuentos de lectura, la calidad de la base y la calidad del mapeo, para todos norte miembros de la familia (individual I y familiares). Incorporando datos de miembros de la familia, Pr (GRAMOI|D, P) permite realizar llamadas de variantes precisas cuando los datos de la persona I no son informativos, quizás debido a una débil relación señal / ruido, al tomar prestada la fuerza de todos los parientes (Fig.1B). Aquí medimos la relación señal / ruido utilizando las relaciones de las estimaciones de probabilidad (Pr (DI|GRAMOI)) para los dos genotipos más probables. FamSeq ha incluido probabilidades de mutaciones de novo. Permite un tamaño de pedigrí variable (norte & gt 3) y estructura. Además de utilizar el algoritmo de Elston-Stewart como en Li et al. (12) para el análisis de pedigrí, implementamos dos enfoques únicos, red bayesiana y MCMC. El enfoque de la red bayesiana calcula directamente las probabilidades conjuntas para cada combinación de genotipos de todos los miembros de la familia y permite el cálculo analítico en genealogías con bucles de matrimonio y / o consanguinidad, siempre que formen gráficos acíclicos dirigidos. Este método proporciona un cálculo más rápido que el algoritmo de Elston-Stewart con o sin bucles en árboles genealógicos de tamaño inferior a 7. El método MCMC permite el uso de funciones de densidad de probabilidad continua como anteriores en la probabilidad y verosimilitud del genotipo, en lugar de designar la masa puntual a priori.

Ilustración de una llamada de variante utilizando FamSeq. (A) Marco de llamada de variantes de FamSeq. (B) Dos ejemplos en un trío familiar. Usamos 0 para denotar referencia y 1 para denotar variante heterocigota. El orden de los genotipos presentados entre paréntesis es padre, madre e hijo. En ambos casos, FamSeq le da al niño una alta probabilidad posterior (& gt0.9) para el genotipo verdadero incluso cuando el niño tiene un LLR log10 relativamente bajo. Esto se hace en FamSeq tomando prestada la fuerza de los datos de los padres.

Ejemplo motivador: Familia con WT heredado.

La transmisión familiar de la predisposición a WT, un tumor renal infantil, es compatible con una mutación autosómica dominante con penetrancia incompleta. Se han localizado dos genes de predisposición mediante estudios de ligamiento genético, pero ninguno de los genes ha sido identificado (15). Generamos datos de WGS para cinco miembros de una gran familia de WT y nos centramos en una región de enlace de 5,6 MB en chr19q. Debido a que se ha demostrado previamente la vinculación genética, se espera que los dos individuos parientes lejanos WTX524-708 y WTX524-000 compartan las mismas variantes mendelianas que los individuos WTX524-709 y WTX524-004 en el trío (Fig. 2). Al comparar FamSeq con GATK (con recalibración variante), encontramos que ambos métodos identificaron 4920 posiciones con llamadas variantes en los cuatro miembros de la familia afectados. FamSeq identificó 132 posiciones adicionales y GATK identificó de forma única una posición.

Una familia con tumor de Wilms para la secuenciación genómica de la región ligada a 19q13. El trío familiar es la madre afectada (WTX524-004), el padre no afectado (WTX524-029) y el niño afectado (WTX524-709). También se secuencian dos parientes lejanos afectados (WTX524-708, WTX524-000).

Validación de Sanger.

Para evaluar la validez de las variantes llamadas de FamSeq, realizamos la secuenciación de Sanger en 57 de las 132 posiciones, que existen en una subregión y cumplen con el requisito adicional de presentar llamadas de referencia en el padre no afectado. Este procedimiento de filtrado de cuatro variantes más una referencia está diseñado para priorizar variantes potencialmente importantes para WT y se realizó tanto en llamadas basadas en FamSeq como en GATK. Obtuvimos resultados confiables de Sanger en 38 posiciones únicas de FamSeq y confirmamos que 32 (61 llamadas variantes) son verdaderas (Apéndice SI, Tabla S1). Nuestra tasa de validación es 61/73 = 84% (intervalo de confianza del 95%: 75–92%). Entre las variantes únicas confirmadas de FamSeq, 17 (53%) son raras (no informadas o con una frecuencia de alelos menores de menos del 5%). Aparte de una posición en la que FamSeq corrigió una llamada de la variante de GATK para hacer referencia al padre no afectado, GATK pasó por alto las posiciones únicas de FamSeq porque eran (I) llamado como referencia en un individuo afectado, (ii) eliminado durante la recalibración de la puntuación de calidad de la variante, o (iii) tenían opciones de llamadas a un nivel de tramo de 99,9 a 100 o menos.

Usando datos simulados y reales, identificamos variables que determinan las posibles mejoras al usar nuestro análisis basado en la familia. A partir de aquí, comparamos FamSeq con el método Single en función de sus probabilidades posteriores. Primero, describimos los resultados basados ​​en simulaciones.

Configuraciones de genotipos.

FamSeq mejoró la precisión en todos los genotipos mendelianos (15 escenarios para un trío familiar, Fig.3A) e hizo mejoras sustanciales en dos escenarios: (I) en posiciones donde todos los miembros de la familia tienen genotipos de referencia, FamSeq corrigió las llamadas FP (∼ 30% Apéndice SI, Fig. S1), and (ii) at positions where a single parent and child carry heterozygous variants, FamSeq corrected FN calls (20–40% Apéndice SI, Fig. S1). FamSeq identified true Mendelian positions that were erroneously called as variants by the Single method, as shown by the red cells in the heatmap of Fig. 3A. For example, at truth = 000, FamSeq reduced discordant calls of 001 at truth = 101, again FamSeq reduced discordant calls of 001 y 102, made by the Single method. When the de novo mutation rate is high [1 × 10 −5 , compared with variants with minor allele frequency (MAF) of 0.01 Apéndice SI, Fig. S1B], FamSeq missed 34% of true de novo mutations correctly called by the Single method, suggesting possible underestimations. We made similar observations with a family quartet.

Simulation results. (A) Highlighted results from a full simulation of all possible genotype configurations of a family. Each row is the simulated genotype for the family trio (father, mother, child). Aquí, 0 is homozygous reference, 1 is heterozygous variant, and 2 is homozygous variant. Each heatmap entry is the percent reduction in discordance from using the Single method to using FamSeq. The values on the diagonal are equal to the sum of all other 63 values in the same row. Only 27 columns are shown. Additionally, there are 37 columns with genotypes containing “no calls.” The corresponding complete results can be found in Apéndice SI, Fig. S1. The barplot on the right presents the frequency for observing each configuration. (B) Targeted simulation to evaluate effect of MAF. F stands for FamSeq and S stands for single method. (C) Targeted simulation to evaluate effect of pedigree size and structure.

The MAF parameter is used for computing prior probabilities of genotypes, Pr(GRAMO), in FamSeq and the Single method and is mostly unknown (Fig. 3B). Setting different values of MAF (from 10 −5 to 0.5) switches the balance between the FNR and FPR in the Single method. As MAF increases, FNRs decrease and FPRs increase. With FamSeq, not only are both error rates lower at all values, but as the MAF varies, the changes in FNRs and in FPRs in the children, and changes in FNRs in the parents, are much attenuated that is, error rates are less dependent on MAF values. Therefore, by jointly calling variants in all family members, we can set the same MAF at all base positions, for example 0.001, without compromising the detection of true variants.

Family Size and Pedigree Structure.

Starting from a parent–child pair, FamSeq reduced both FNR and FPR when we included the second parent (family size = 2 to size = 3), and then added another sibling (size = 3, 4) (Fig. 3C). Interestingly, adding more children (size = 4, 5, 6) did not further reduce error rates, whereas adding the grandparents (size = 5–7) made additional reductions in both FNR and FPR. When the parental data are not available, we also observed improvements made by FamSeq in analyzing all siblings together (size = 3, FNR 23.5% vs. 13.3%, FPR 0.5% vs. 0.4%). This has important implications when prioritizing individuals from a larger pedigree to accurately and comprehensively detect rare DNA variants.

Contribution to Family Members.

The reduction in error rates using FamSeq is membership-dependent (Fig. 3 B y C). FNRs are better controlled in parents than in children. FPRs are better controlled in children than in parents (founders), which reduces the cost of subsequent sequence verifications. Both reduce the FPs in calling de novo mutations in children. Accordingly, when grandparents’ data are available, the FPRs in the corresponding parent (nonfounder) decrease substantially, which improves the detection of de novo mutations in children.

Next, we present results from the analysis of sequencing data in extended families (Apéndice SI, Tabla S2).

WGS Data Analysis.

We analyzed a three-generation HapMap WGS dataset of five samples. In the whole genomes of HapMap samples, FamSeq found 1,179, 317, and 494 new variant positions across all samples when analyzing pedigrees g3 (grandparent trio), c3 (child trio), and a5 (all five). Within each sample, FamSeq called ∼ 7,000 to ∼ 32,000 more variants than the Single method. Samples with lower coverage (NA12892 at ∼ 25× Apéndice SI, Tables S2 and S3) benefited most from FamSeq analysis, exhibiting a greater percentage of increased variant calls.

HapMap Sample Validation.

In three samples (mean coverage ∼ 25–30×), we compared FamSeq calls with HapMap calls at ∼ 1 million single-nucleotide polymorphism (SNP) positions (16) (Apéndice SI, Tabla S3). Homozygous genotypes are more easily identified than heterozygous variants (17). Using known SNP data, we combined all homozygous SNP positions as true negatives and used all heterozygous SNP positions as true positives, from NA12878, NA12891, and NA12892 ( ∼ 400,000 true positives for each sample). As expected, FamSeq called more positions at high confidence (7–29% fewer no call positions) and identified more true variants with percent reduction in FNs of 14–33%, and without substantially increasing the number of false discoveries (1–3% Fig. 4A y Apéndice SI, Tabla S3). In particular, comparing pedigrees c3 and a5, we observed a statistically significant difference in the percent reduction of FNs (15% vs. 33% in NA12878, PAG & lt 0,0001). This result is consistent with simulations comparing sizes of 5 and 7 in the parent (Fig. 3C). We also observed low sensitivity to varying MAF values in variant calling when using FamSeq (Apéndice SI, Fig. S2). In contrast to the simulations, we did not observe a decrease in FPs in the child (NA12878 in g3). One explanation is we derived the input likelihood estimates from GATK, which may aggressively filter out FPs, but at a price of missing some true positives.

Analysis of sequencing data in extended pedigrees. (A) HapMap SNP validation (Apéndice SI, Tabla S3). (B) FamSeq-unique variants found in 45 people (parents) in 25 families affected with mitochondrial disorders. (C) Coverage versus LLR in TS samples. All positions called concordantly by the Single method and FamSeq are shown in the background as a smoothed scatterplot. Red circles represent FamSeq-unique variants black triangles represent Single-unique variants.

This validation was performed at HapMap SNP positions, including all common SNPs whose known genotypes may have been used for calibration by GATK. Additionally, most of these SNPs (98%) are located in the noncoding region. Therefore, we look for larger improvements from using FamSeq for finding rare DNA variants at sequence sites where variant calling in the Single method has not been optimized.

Targeted Sequencing Data Analysis in Families with Mitochondrial Neurodevelopmental Disorders.

These families vary in size from 2 to 7 and include single-parent, nuclear, as well as three-generation families (Apéndice SI, Tabla S2). In each individual, we sequenced 524 nuclear-encoded mitochondrial candidate genes (18, 19) and focused our analysis on 962 Kb of coding regions in autosomes. We observed a significant increase in new variants called by FamSeq in the parents (Fig. 4B y Apéndice SI, Table S4 FamSeq vs. Single method at size = 3: Kolmogorov-Smirnov test PAG < 0.001 FamSeq vs. Single method at size = 4: PAG < 0.001 FamSeq at size = 3 vs. size = 4: PAG < 0.001, FamSeq at size = 4 vs. size > 4, PAG = 0.06). We measured the significantly increased number of variants as related to family size in a total of 45 individuals from 25 different families, thus accounting for biological and technological variations between different sequenced individuals. We are currently validating these positions using Sanger-based sequencing, which may facilitate finding the unknown gene defects in these families. We did not observe significant increases in variants in the children (Fig. 3C y Apéndice SI, Fig. S3). However, the approximate reduction in FNRs (estimated by % FamSeq-unique variants) in the three-generation pedigree was 1–5%, which is substantially larger than the 0.1% observed at HapMap SNP positions (Apéndice SI, Table S5) indicating the power of FamSeq in detecting rare variants. In three of these families, we found 15 unique variant positions (Apéndice SI, Table S5) that are not reported in the Single Nucleotide Polymorphism Database (dbSNP) or the 1,000 Genomes Project, nine of which are nonsynonymous. We also analyzed family MTF04 in three ways: trio, trio plus either pair of grandparents, and trio plus both pairs of grandparents. Interestingly, compared with the Single method for this family, only the extended pedigree (size = 5 or 7) analysis found new positions in the affected child. This illustrates the limitation of the Single method in detecting rare DNA variants and demonstrates the power of using multigeneration pedigrees to detect rare variants.

Coverage and Log Likelihood Ratios.

FamSeq improved variant calling in both WGS and targeted sequencing (TS) data at mean base coverages from 25× to 1,200×. In the HapMap WGS data (mean coverage 25–60×), FamSeq improved accuracy primarily at positions with low-to-moderate coverage (15–20× Table 1 and Apéndice SI, Fig. S4). NA12892 had the lowest mean coverage (25×) and presented the biggest reduction in error rates among the three samples (Fig. 4A). Compared with the WGS data, the TS data have a wider range of mean coverage (200–1,200×). However, FamSeq still called 1.2% more variants overall, at coverage from 11 to 600× (median 24× Fig. 4C y Apéndice SI, Fig. S3). To explore why, we correlated base coverage with log likelihood ratio (LLR) (input for FamSeq) in all sequence data. We expected a genotype-specific linear relationship between LLR and coverage (Apéndice SI, Fig. S5, r = 0.87 for heterozygotes, r = 0.80 for homozygous positions), which can be derived analytically from the underlying binomial distribution used by Samtools and GATK (20). FamSeq strengthens signals at positions with a low LLR (LLR < 10). Therefore, it can improve variant calling in sequencing data at positions with coverage 20× or lower. However, in TS data where most positions are at high coverage, FamSeq called more variants in 381 positions, 234 (61%) of which have high coverage (>20×) but still low LLR (<10), and thus show a relationship that varies from the expected linear relationship (Fig. 4C y Apéndice SI, Fig. S5).

Mean base coverage of all loci with HapMap heterozygous calls in FamSeq performance categories


EMPIRICAL EVALUATION OF THE ROLE OF RARE VARIANTS IN COMMON DISEASES

There are many examples of rare and low-frequency variants associated with complex traits and our aim here is not to provide an exhaustive list of them (for a review of some of the relevant studies, see Table 1 in Schork et al. [ 20]). Rather, we will discuss here the results of some recently published resequencing studies on cases and controls that have addressed the issue of the contribution of rare variants in complex traits.

The first study is a large resequencing effort of 25 GWAS-identified genes for autoimmune diseases in 24 892 subjects with six autoimmune diseases and 17 019 controls [ 36]. A total of 2990 variants in protein-coding regions of these genes were identified among which 73.6% were novel (never reported in public databases), 97.1% had a frequency <0.5% in the controls (the frequency threshold considered by the authors for rare variants) and 68.9% were only seen in one or two individuals. These numbers are similar to what was also observed in 202 drug target genes sequenced in 14 002 individuals [ 34]. On these data, the authors first performed single-locus analysis with each of the seven studied phenotypes in an attempt to detect possible rare variants with strong effect that could be shared among several cases. They found some signals with some low-frequency variants, but those were in fact explained by common variants that were already identified by GWAS. Next, they consider the possibility of heterogeneity and that the susceptibility could be due to multiple rare variants within the same gene. They thus applied burden association tests that look for a difference in the load of variants both rare and predicted to be of functional impact (they considered variants with a frequency <0.5% in controls that were annotated as nonsynonymous, premature stop or splice-site altering). They used different types of tests to combine the information on these different variants and failed to detect any significant association with any of the phenotypes. They concluded that, in the seven tested autoimmune diseases, there was little support for a significant impact of rare coding-region variants in the known risk genes. The GWAS signals previously detected in these diseases were not explained by rare variants with strong effects through synthetic associations [ 37]. However, it cannot be excluded that, for these diseases, rare variants located outside these GWAS regions contribute significantly to the risk. Moreover, the frequency threshold used to filter out common variants could also have an impact on the results. It would be interesting to reevaluate the association using tests that consider the overall spectrum of variation within each gene to test for a cumulative effect of rare and common variants [ 38]. Moreover, it is also possible that a polygenic burden of rare coding variants located in different genes is involved, and effects are not detectable at the individual gene level as recently found in schizophrenia exomes [ 39].

Another relevant study is a whole-exome sequencing study of 1000 cases affected by type 2 diabetes and 1000 controls from Denmark, where the authors tested for association using a wide-range of strategies from single-marker tests to gene set analysis with different allele frequency thresholds to include variants in these tests [ 40]. They failed to detect any significant signal after correction for multiple testing but performed some simulations based on the observed patterns of genetic variation in their data to assess the power of the gene-based association tests under different scenarios. Their simulation approach is original in that it does not fix effect sizes or allele frequencies but fixes the heritability and considers that it is equally divided among different numbers of coding variants. They found that the power to detect a particular gene effect was limited, but their study was powerful enough to detect at least one gene if rare variations in <20 genes were involved in type 2 diabetes risk. Because they were not able to evidence any such association, they concluded that low-frequency variants in a small number of genes do not explain a large amount of type 2 diabetes heritability. Their simulation model is simplistic in that it assumes that each variant equally contributes to the heritability of the trait, however, the approach calibrated on real data is interesting.

A similar idea was also recently highlighted by Agarwala et al. [ 41], who proposed an integrated simulation framework to test the fit of different disease architecture models with real data. They went even further in their approach in that they consider empirical data from different genetic studies (linkage, GWAS, polygenic score and sequencing studies). They simulated genetic variation at the population scale consistent with empirical sequencing data and considered a wide range of disease genetic models to generate phenotypes of individuals. Then, they sampled in this phenotyped population to mimic different types of genetic study (epidemiological estimates of sibling recurrence risk, linkage scans in affected sibpairs, GWAS and replication in large case-control samples and polygene score logistic regression studies). They compared the results of these en silico studies against the results of these different types of studies conducted so far on type 2 diabetes. More than 50 different disease models were considered that were defined by two parameters: the mutation target size T and the coupling τ between the effects of the variant on fitness and on disease. The mutational target size T is the number of nucleotides that could influence disease risk if mutated and they considered values of T ranging from 75 kb to 3.75 Mb corresponding to situations where there could be between 1 and 1500 genes involved. The coupling parameter τ was varied between tight coupling (τ = 1), where variants with large effects on fitness were assumed to have large effects on disease risk and no coupling (τ = 0), where these two effects were assumed to be independent. Comparing the en silico genetic studies produced under these different models against the empirical data for type 2 diabetes, they found that only the most extreme models could be excluded and a wide range of models was compatible from models with moderate τ, where a large part of the heritability is explained by rare alleles (CDRV hypothesis) to models with weak τ, where the contribution of rare variants is more limited (CDCV hypothesis). The results of this complex simulation study could leave the feeling that it is much ado about nothing as, at the end, we are not able to quantify the respective contribution of rare and common variants in the genetic architecture of type 2 diabetes. However, the interest of the study is to provide tools to integrate the information coming from both population genetics studies and genetic epidemiological studies. This is indeed a necessary step toward a comprehensive understanding of the genetic bases of common diseases [ 24].

The failures of common disease exome sequencing studies to evidence genes differentially enriched in rare coding variants among cases and controls could be due to their limited sample sizes. A recent study by Zuk et al. [ 14] suggest that samples at least as large as those that were genotyped on SNP-chips for GWAS will need to be resequenced to gain enough power to test for association with rare variants in an agnostic manner, testing all genes using gene-based tests and/or gene-set analyses. They computed the power of rare variant association tests under various scenarios of mutation rates, selection coefficients and effect sizes of alleles within genes and reached the conclusion that at least 25 000 cases would be needed in the discovery phase to reach a 90% power to detect genes that contain missense mutations associated with an increased disease risk at least 3-fold. These numbers are much larger than expected and between 10 and 25 orders of magnitude from the sizes of the samples studied by exome sequencing in the papers highlighted above. They raised the question of whether alternative strategies that rely on formal genetics should be preferred [ 42]. This is well illustrated by the study by Cruchaga et al. [ 43], where the role in Alzheimer’s disease of rare coding variants in the phospholipase D3 gene could be evidenced by sequencing no more than 40 exomes in the exploratory phase (29 affected and 11 unaffected individuals). The key point here was the selection of the cases for the exome study. They were sampled from 14 large families containing at least four cases with late-onset Alzheimer’s disease. Such multiplex families have been collected for many common diseases and have been underexploited compared with case-control data in the GWAS era [ 44]. This is really a pity, as they contain important information useful to gain insights into the importance of rare and common variants in complex diseases, allowing modeling of their respective contribution rather than just detection of effects difficult to link to phenotypes [ 45].


A Comparison of Variant Calling Pipelines Using Genome in a Bottle as a Reference

High-throughput sequencing, especially of exomes, is a popular diagnostic tool, but it is difficult to determine which tools are the best at analyzing this data. In this study, we use the NIST Genome in a Bottle results as a novel resource for validation of our exome analysis pipeline. We use six different aligners and five different variant callers to determine which pipeline, of the 30 total, performs the best on a human exome that was used to help generate the list of variants detected by the Genome in a Bottle Consortium. Of these 30 pipelines, we found that Novoalign in conjunction with GATK UnifiedGenotyper exhibited the highest sensitivity while maintaining a low number of false positives for SNVs. However, it is apparent that indels are still difficult for any pipeline to handle with none of the tools achieving an average sensitivity higher than 33% or a Positive Predictive Value (PPV) higher than 53%. Lastly, as expected, it was found that aligners can play as vital a role in variant detection as variant callers themselves.

1. Background

In the past few years there have been many advances made to high-throughput sequencing technologies. Due to these advances, it is now possible to detect a great number of potential disease-causing variants [1], and, in a few cases, next generation sequencing (NGS) data has even been used for diagnostic purposes [2–4]. This is partially due to the developments in sequencing technologies over the past few years but also due to the number of improvements made to the various bioinformatic tools used to analyze the mountains of data produced by NGS instruments [5].

When searching for mutations in a patient, a typical workflow is to sequence their exome with an Illumina sequencer, align the raw data to the human reference genome, and then identify single nucleotide variants (SNVs) or short insertions and deletions (indels) that could possibly cause or influence the phenotype of interest [6]. While this is fairly straightforward, deciding on the best tools to use at each stage of the analysis pipeline is not. There are a large number of tools that are used in various intermediate steps, but the two most important steps in the entire process are aligning the raw reads to the genome and then searching for variants (i.e., SNVs and indels) [7]. In this study, we aim to help today’s bioinformatician by elucidating the correct combination of short read alignment tool and variant calling tool for processing exome sequencing data produced by NGS instruments.

A number of these studies have been performed in the past, but they all had drawbacks of some form or another. Ideally one should have a list of every known variant contained in a sample so that when a pipeline of analysis tools is run, you can test it to know with certainty that it is performing correctly. However, in the past no such list existed, so validation had to be performed by less complete methods. In some instances, validation was performed by generating simulated data so as to create a set of known true positives (TP) and true negatives (TN) [8–10]. While this conveniently provides a list of every TP and TN in the dataset, it does a poor job of accurately representing biology. Other methods of validating variant calling pipelines include using genotyping arrays or Sanger sequencing to obtain a list of TPs and false positives (FP) [11]. These have the upside of providing biologically validated results, but they also have the downside of not being comprehensive due to the limited number of spots on genotyping arrays and the prohibitive cost of Sanger validation when performed thousands of times. Lastly, none of these studies aimed at looking at the effect the short read aligner had on variant calling. Consequently, the upstream effect of aligner performance could not be assessed independently.

In this study, we have the advantage of a list of variants for an anonymous female from Utah (subject ID: NA12878, originally sequenced for the 1000 Genomes project [12]) that was experimentally validated by the NIST-led Genome in a Bottle (GiaB) Consortium. This list of variants was created by integrating 14 different datasets from five different sequencers, and it allows us to validate any list of variants generated by our exome analysis pipelines [7]. The novelty of this work is to validate the right combination of aligners and variant callers against a comprehensive and experimentally determined variant dataset: NIST-GiaB.

To perform our analysis we will be using one of the exome datasets originally used to create the NIST-GiaB list. We chose only one of the original Illumina TruSeq-generated exomes because we wanted to provide a standard use case scenario for someone who wishes to perform NGS analysis, and while whole genome sequencing is continuing to drop in price, exome sequencing is still a popular and viable alternative [1]. It is also important to note that, per Bamshad et al., currently the expected number of SNVs per European-American exome is 20,283 ± 523 [13]. Despite this, the total number of SNVs found in the NIST-GiaB list with the potential to exist in TruSeq exome dataset was 34,886, which is significantly higher than expected. This is likely due to the fact that while the exome kit was used to generate NIST-GiaB data it was also supplemented by whole genome sequencing.

Lastly, we considered a large number of aligners [14–21] and variant callers [22–29] but ultimately chose the 11 tools based on prevalence, popularity, and relevancy to our dataset (e.g., SNVMix, VarScan2, and MuTect were not used as they are intended for use on tumor-derived samples). Our analysis itself involves comparing six aligners (Bowtie2 [14], BWA sampe [15], BWA mem [16], CUSHAW3 [17], MOSAIK [18], and Novoalign) and five variant callers (FreeBayes [22], GATK HaplotypeCaller, GATK UnifiedGenotyper [23], SAMtools mpileup [24], and SNPSVM [25]). In this study we also try to determine how much of an effect, if any, the aligner has on variant calling and which aligners perform best when using a normal Illumina exome sample. To our knowledge, this is the first report which validates all possible combinations (total of 30 pipelines) of a wide array of aligners and variant callers.

2. Methods

2.1. Datasets

Human reference genome hg19 was downloaded from the UCSC browser (http://hgdownload.soe.ucsc.edu/goldenPath/hg19/chromosomes/) and was used to perform the alignments. The human exome, SRR098401, was downloaded from the Sequence Read Archive (SRA) (http://www.ncbi.nlm.nih.gov/sra). For annotation and calibration purposes, dbSNP137 without sites after version 129, HapMap 3.3, Human Omni 2.5 BeadChip, and Mills and 1000 G gold standard indel set lists were used (all from ftp://ftp.broadinstitute.org/distribution/gsa/gatk_resources.tgz).

2.2. The Pipeline

Figure 1 shows the workflow used in this study, which is similar to the one outlined in the Best Practices guide produced by The Broad Institute [30]. This involves a number of steps to ensure that the alignment files produced are of the highest quality as well as several more to guarantee the variants are called correctly. First, raw reads were aligned to hg19, and then PCR duplicates were removed from the alignment. Next, to help with indel identification later in the pipeline, read realignment was performed around indels. The last step of alignment processing was to perform a base quality score recalibration step, which helps to ameliorate the inherent bias and inaccuracies of scores issued by sequencers. Unfortunately, despite these steps, the alignment rate of each aligner was significantly lower than expected, so to offset this, the fastx toolkit was used to filter out low quality reads (Table 1). Low quality reads were defined as those reads that had at least half of their quality scores below 30. Following alignment processing, variant calling and variant filtering were performed.


Información del autor

Afiliaciones

Division of Molecular Biology and Human Genetics, Faculty of Medicine and Health Sciences, Stellenbosch University, Cape Town, South Africa

Brigitte Glanzmann & Soraya Bardien

Department of Law, Faculty of Law, Stellenbosch University, Cape Town, South Africa

SA MRC Centre for TB Research, DST/NRF Centre of Excellence for Biomedical TB Research, Division of Molecular Biology and Human Genetics, Faculty of Medicine and Health Sciences, Stellenbosch University, Cape Town, South Africa

Craig J. Kinnear & Marlo Möller

South African National Bioinformatics Institute, University of the Western Cape, Cape Town, South Africa


Ver el vídeo: Las personas que llaman borrachas a plagociar (Agosto 2022).