Información

¿Cómo detectar variantes de un solo nucleótido (SNV)?

¿Cómo detectar variantes de un solo nucleótido (SNV)?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Esta imagen se obtiene de este artículo.

La descripción de esta imagen es la siguiente: -
Las lecturas de la secuencia de ADN de una muestra de tumor se alinean con un genoma de referencia (mostrado en gris). Las diferencias de un solo nucleótido entre las lecturas y el genoma de referencia indican variantes de un solo nucleótido de la línea germinal (SNV; círculos verdes), SNV somáticos (círculos rojos) o errores de secuenciación (diamantes negros). (a) En una muestra de tumor puro, una ubicación que contiene desajustes o sustituciones de un solo nucleótido en aproximadamente la mitad de las lecturas que cubren la ubicación indica un SNV de línea germinal heterocigoto o un SNV somático heterocigoto, asumiendo que no hay aberración en el número de copias en el locus. Los algoritmos para detectar SNV distinguen los SNV verdaderos de los errores de secuencia al requerir que varias lecturas con la misma sustitución de una sola letra se alineen en la posición (recuadros grises). (b) A medida que disminuye la pureza del tumor, la fracción de lecturas que contienen mutaciones somáticas disminuye: las células cancerosas y normales, y las lecturas que se originan en cada una, se muestran en azul y naranja, respectivamente. El número de lecturas que informan de una mutación somática disminuye con la pureza del tumor, disminuyendo el valor para distinguir las mutaciones somáticas verdaderas de los errores de secuenciación. En este ejemplo, solo se detectan un SNV somático heterocigótico y un SNV de línea germinal heterocigota (recuadros grises) ya que la mutación en el conjunto medio de lecturas alineadas no se distingue de los errores de secuenciación.

Este es mi entendimiento a continuación. ¿Estoy en lo correcto?

Hay varias lecturas que están alineadas de tal manera que para una ubicación determinada en el genoma de referencia, (aquí la cuarta), si aproximadamente la mitad o más de las lecturas que cubren esa ubicación tienen un único desajuste de nucleótidos con el genoma de referencia, entonces es un SNV heterocigoto. .
P.ej:-


Su enlace no se vincula al periódico y parece que ignora la mitad de lo que la imagen intenta transmitir.

El punto es que dado que los tumores son heterogéneos, es muy posible que solo el 40% de las células sean heterocigotas para un SNV en particular, lo que significa que solo sería observable en el 20% de las lecturas. Pero si varias lecturas con diferentes sitios de inicio muestran el mismo SNV, es probable que sea real. Si la cobertura es tan baja que solo obtiene una lectura que muestra un SNV real, no podrá distinguirlo del ruido.


La respuesta existente es correcta, pero quiero ampliar esto un poco.

En el mundo ideal, una muestra de tejido será completamente homogénea (cada célula tiene exactamente el mismo ADN genómico con 0 diferencias), las máquinas de secuenciación de ADN cometerán 0 errores y los experimentos de secuenciación tomarán muestras de cada porción del genoma (uniformemente) a una profundidad nivel de cobertura. En este mundo ideal, distinguir los SNV heterocigotos de los SNV homocigotos es trivial: para los SNV homocigotos, el 100% de las lecturas que se alinean con la posición de interés tendrán el mismo nucleótido que se diferencia de la referencia; para los SNV heterocigotos, habrá una división perfecta del 50% / 50% entre las lecturas que coinciden con la referencia y las lecturas que coinciden con el nucleótido alternativo.

El gran problema es que ninguno de estos 3 ideales es cierto en el mundo real. Los experimentos de secuenciación NO muestrean el genoma de manera uniforme, por lo que algunas regiones tienen muchos mapas de lecturas (decimos que estas regiones tienen "cobertura alta") mientras que otras regiones tienen pocos mapas de lecturas ("cobertura baja"). Además, las máquinas de secuenciación de ADN SÍ cometen errores, del orden del 1% para la máquina Illumina y del 10-30% para secuenciadores de lectura larga como PacBio y Oxford Nanopore. Dado que los errores de secuenciación son aleatorios, generalmente son bastante fáciles de distinguir de la variación genética real, pero solo en regiones de cobertura media a alta. Por último, no siempre podemos asumir que todas las células de una muestra tendrán ADN idéntico; esto es ESPECIALMENTE cierto con el tejido tumoral.

Por todas estas razones, no podemos distinguir los SNV heterocigotos simplemente requiriendo que exactamente el 50% del mapeo de lecturas coincida con un nucleótido alternativo. Como dice swbarnes2, podría ser mucho más bajo que el 50%, pero con suficiente cobertura puede tomar una decisión segura.


Cómo detectar variantes preocupantes de COVID-19

Es un poco de deja-vu escribir este título un año después de una publicación de blog similar sobre cómo validar un ensayo de COVID-19 al comienzo de la pandemia. En muchos sentidos, los desafíos son similares: reactivos / material de control limitados y recuentos de casos en aumento. Al menos ahora, hay un apoyo creciente en la forma de financiamiento del gobierno federal que podría ayudar con el monitoreo y la vigilancia. Voy a resumir los métodos actuales disponibles para detectar las variantes de preocupación y las variantes emergentes.

Secuenciación del genoma completo

El método principal utilizado por muchos es la secuenciación del genoma completo. Tiene la ventaja de poder examinar exhaustivamente cada letra (nucleótido) del genoma del SARS-CoV-2 (30 kilobases de longitud). En nuestra institución, he estado trabajando en el esfuerzo de secuenciar todas nuestras muestras positivas. Si bien es factible, no es simple ni factible en la mayoría de los lugares. Las limitaciones incluyen:

  • Financiero: ya debe poseer secuenciadores costosos
  • Experiencia: se necesita personal de diagnóstico molecular avanzado que realice pruebas de NGS
  • Análisis de datos: personal de bioinformática necesario para crear canalizaciones, analizar datos y reportarlos en un formato digerible.
  • Tiempo: el proceso generalmente toma una semana en el mejor de los casos y varias semanas si hay un retraso o no hay suficientes muestras para que una ejecución de secuenciación sea financieramente viable.
  • Sensibilidad: el límite de detección para NGS es de 30 ciclos de TC, que para nosotros incluye solo alrededor de 1 / 2- 1/3 de todas las muestras positivas de COVID19.

En pocas palabras: WGS es el mejor para detectar cepas o mutaciones nuevas / emergentes cuando el costo / tiempo no es una preocupación.

Detección de mutaciones

Otras instituciones han comenzado a realizar esfuerzos para detectar variantes de interés mediante la detección de mutaciones características. Por ejemplo, la mutación N501Y en la proteína pico es común a las principales Variants of Concern (Reino Unido B.1.1.7, Brasil P.1 y Sudáfrica B.1.351) y E484K está presente en Brasil (P.1), Sudáfrica (B.1.351) y Nueva York Variant (B. 1.526). Por lo tanto, varias instituciones (enumeradas a continuación) adoptaron enfoques para 1) detectar estas mutaciones y luego 2) realizar WGS secuencialmente.

InstituciónMétodoObjetivos
Hackensack Meridian Health (HMH)Sondas de baliza molecular, temperatura de fusiónBalizas moleculares N501Y, E484K
Rutgers, Nueva JerseySondas de baliza molecular, temperatura de fusiónBalizas moleculares N501Y
VancouverSonda + curva de fusión (ensayos de mutación VirSNiP SARS-CoV-2)Pantalla N501Y + sonda refleja qPCR, ensayo de curva de fusión
YaleEnsayo de sonda RT-qPCRS: 144del, ORF1Adel
ColumbiaEnsayo de sonda RT-qPCRN501Y, E484K

Como puede ver, HMH, Rutgers y Vancouver están utilizando ensayos que utilizan sondas específicas para alelos característicos combinado con curvas de temperatura de fusión para detectar un cambio inducido por una mutación. El análisis de la curva de fusión se realiza normalmente después de qPCR para garantizar que se forma un único producto de PCR correcto. Esta medida se calcula en función del cambio de fluorescencia que se produce cuando el marcador fluorescente puede unirse a su ADN diana. Por lo tanto, la Tm (temperatura de fusión) es similar a la temperatura de recocido. En este caso, cuando hay una mutación en el sitio de unión de la sonda (fragmento de ADN), la unión se interrumpe y se produce a una temperatura más baja, como se observa en el desplazamiento hacia abajo de 5 grados Celsius en el gráfico siguiente.

Figura 1. Esquema que muestra el cambio de temperatura de fusión para la sonda diseñada por HMH que une las secuencias normales y mutantes (variante E484K) a concentraciones decrecientes. Figura 2. Cambio similar hacia abajo en la temperatura de fusión para el ensayo de Rutgers cuando una sonda de tipo salvaje encuentra una secuencia mutante frente a WT.

Estos enfoques son rápidos, pero solo pueden realizar 2-3 reacciones por pocillo y requieren muchos de los mismos gastos que los ensayos de diagnóstico de RT-qPCR. La mayoría de los estudios describen este método como una forma de cribado de muestras para secuenciar NGS, sin embargo, no serán tan buenos para detectar cepas emergentes. Por ejemplo, la mutación N501Y no está presente en las variantes de Nueva York ni de California.

RT-qPCR multiplexado puede resolver algunos de estos problemas. En Columbia y Yale, varios objetivos están diseñados para detectar B.1.1.7 (N501Y solo en Columbia y S144del + ORF1A del en Yale) frente a variantes de Brasil / Sudáfrica (N501Y y amp E484K en Columbia y ORF1A solo en Yale). A medida que han llegado nuevas variantes, encontramos la cepa de Nueva York que porta tanto la deleción ORF1A como la mutación E484K. Ahora está claro que hay algunos puntos críticos para la mutación dentro del genoma del SARS-CoV-2, lo que puede complicar las interpretaciones. Por lo tanto, Estos ensayos de RT-PCR siguen siendo útiles para la detección, pero no reemplazan la necesidad de secuenciación del genoma completo..

Dado el espectro superpuesto de mutaciones, sería útil probar varios marcadores a la vez en una sola reacción. En cierto punto, esto efectivamente "genotiparía" una variante así como WGS. Los ensayos anteriores se han limitado a 2 dianas / reacción debido a los canales de detección de luz limitados. Por lo tanto, he creado un ensayo multiplex que se puede escalar para incluir de 30 a 40 dianas en una sola reacción sin la necesidad de sondas costosas. Este método es multicine Análisis de fragmentos de PCR, que se utiliza tradicionalmente para la toma de huellas dactilares forenses o el seguimiento de trasplantes de médula ósea. En este método, el ADN de diferente longitud se amplifica mediante PCR, luego separados por electroforesis capilar-el mismo instrumento que realiza la secuenciación Sanger.

El análisis de fragmentos se puede realizar para detectar mutaciones por deleción / inserción y polimorfismos de un solo nucleótido (SNP) por cebadores específicos de alelo o con enzimas de restricción que solo corta la secuencia WT o Mutant.

Diseñé el ensayo para apuntar a 3 mutaciones por deleción en B.1.1.7: S: D69_70, S: D144 y ORF1A: D3675_3677. Cada deleción tiene una longitud específica y si están presentes 3/3 mutaciones, entonces hay una especificidad del 95% para la cepa B.1.1.7. Se analizaron muestras desde diciembre hasta el presente y, en el primer lote, detecté el patrón B.1.1.7 característico (patrón esperado y patrón observado a continuación).

Imagen teórica de cómo se vería el ensayo de análisis de fragmentos para B.1.1.7. A continuación, se muestra una muestra de paciente real, que mostró las eliminaciones esperadas exactamente como se predijo:

Hemos probado y secuenciado más de 500 muestras positivas, y encontramos niveles crecientes de prevalencia de la cepa B.1.1.7 hasta casi el 30% a mediados de marzo. Todas las muestras seleccionadas de B.1.1.7 fueron validadas por WGS. Estos resultados y la capacidad de detectar las variantes de Nueva York y California se detallan en nuestra preimpresión reciente.

Prevalencia semanal de aislamientos compatibles con B.1.1.7 en el norte de Texas.

Implicaciones para la futura vigilancia de variantes

Dado que B.1.1.7 se ha convertido en la cepa dominante, los esfuerzos de secuenciación están aumentando. Yo diría que los ensayos deben usarse para lo que son mejores. Por ejemplo, podría considerarse una pérdida de tiempo y recursos de NGS secuenciar todas las variantes cuando & gt50% serán B.1.1.7 si otras pruebas pueden verificar la deformación más rápido por un 10-20% del costo. En cambio, creo WGS debería centrarse en descubrir variantes emergentes para el que es más adecuado. En los EE. UU., El número de casos ha ido disminuyendo y el número de muestras probables podría ampliarse mediante el uso de un ensayo de PCR más sensible que podría hacerlo.

  1. Clark AE y col. El análisis de fragmentos múltiples identifica las variantes del SARS-CoV-2. https://www.medrxiv.org/content/10.1101/2021.04.15.21253747v1
  2. Zhao Y y col. Una nueva prueba de diagnóstico para detectar variantes del SARS-CoV-2 que contienen mutaciones E484K y N501Y. Una nueva prueba de diagnóstico para detectar variantes del SARS-CoV-2 que contienen mutaciones E484K y N501Y | medRxiv
  3. Banada P y col. Un ensayo simple de temperatura de fusión RT-PCR para detectar rápidamente las variantes del SARS-CoV-2 de amplia circulación. Un ensayo simple de temperatura de fusión por RT-PCR para detectar rápidamente las variantes del SARS-CoV-2 de amplia circulación | medRxiv
  4. Annavajhala MK y col. Una nueva variante preocupante del SARS-CoV-2, B.1.526, identificada en Nueva York. Una nueva variante preocupante del SARS-CoV-2, B.1.526, identificada en Nueva York | medRxiv
  5. Matic N y col. Detección rápida de variantes preocupantes del SARS-CoV-2 que identifica un grupo de la variante B.1.1.28 / P.1 en Columbia Británica, Canadá. Detección rápida de variantes preocupantes del SARS-CoV-2 que identifican un grupo de la variante B.1.1.28 / P.1 en Columbia Británica, Canadá | medRxiv
  6. Vogels CBF y col. Ensayo de PCR para mejorar la vigilancia mundial de las variantes preocupantes del SARS-CoV-2. Ensayo de PCR para mejorar la vigilancia mundial de las variantes preocupantes del SARS-CoV-2 | medRxiv

Jeff SoRelle, MD es Instructor Asistente de Patología en el Centro Médico Southwestern de la Universidad de Texas en Dallas, TX y trabaja en el laboratorio de Secuenciación de Próxima Generación. Sus intereses de investigación clínica incluyen comprender cómo la medicina de laboratorio afecta la atención médica de las personas transgénero y mejorar la interpretación de variantes genéticas. Síguelo en Twitter @Jeff_SoRelle.


Introducción

Las variantes de la secuencia genómica pueden heredarse verticalmente (es decir, transmitirse a través de la línea germinal) o generarse después de la formación del cigoto (es decir, conducir al mosaicismo somático o gonadal). Está bien establecido que el mosaicismo somático ocurre en células de individuos fenotípicamente normales [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17] y puede provocar diversas enfermedades [18]. Sin embargo, es necesario dilucidar la prevalencia del mosaicismo somático y la medida en que contribuye a enfermedades distintas de los cánceres [18].

Estudios recientes han estimado que cada célula dentro del cerebro humano contiene de cientos a algunos miles de variantes somáticas de un solo nucleótido (SNV) y que una fracción más pequeña de células alberga variaciones del número de copias somáticas (CNV) e inserciones de elementos genéticos móviles (es decir, retrotransposón) [10, 15, 17, 19,20,21,22]. Decenas de SNV somáticas están presentes en fracciones de alelos de variante alta (VAF) en múltiples tejidos, lo que indica que surgieron durante el desarrollo temprano [17, 23]. En comparación, algunas SNV somáticas están presentes en VAF bajas y tienen distribuciones tisulares limitadas, lo que sugiere que surgieron más tarde en el desarrollo [15,16,17].

La secuenciación de ADN unicelular es el método más directo para identificar variantes somáticas. Sin embargo, las mutaciones introducidas durante la amplificación del ADN y / o la generación de bibliotecas de secuenciación unicelular, así como los sesgos de amplificación del ADN no uniformes, dificultan la discriminación de los SNV en mosaico auténticos de los artefactos de procedimiento [24]. Además, este enfoque para identificar SNV en mosaico requiere muestrear un gran número de células en un individuo dado y, en consecuencia, es costoso.

Otro enfoque para identificar variantes de mosaico implica comparar poblaciones de células a granel de dos muestras de tejido derivadas del mismo individuo (la muestra de interés y una muestra de control) como se realiza de forma rutinaria durante el análisis de los genomas del cáncer. Sin embargo, este enfoque está limitado por la incapacidad de definir un tejido de control adecuado porque los SNV en mosaico, en particular los que surgen durante el desarrollo temprano, a menudo están presentes en múltiples tejidos en todo el cuerpo. De manera similar, los enfoques de códigos de barras moleculares, como la secuenciación dúplex, pueden corregir los errores introducidos por la amplificación o secuenciación por PCR y ofrecen una mejora de la precisión de & gt 10.000 veces en comparación con la WGS convencional [25, 26]. Sin embargo, los enfoques de consenso molecular más precisos requieren una profundidad de secuenciación extremadamente alta (1000 × o superior) para garantizar que cada molécula de ADN se secuencia varias veces, utilizando así de forma eficaz sólo un pequeño porcentaje de las lecturas generadas para la llamada de variantes [27]. Desde un punto de vista práctico, este requisito restringe el beneficio principal de los códigos de barras a enfoques específicos. Por lo tanto, el desarrollo de un conjunto unificado de mejores prácticas para detectar SNV somáticos a partir de conjuntos de datos de secuenciación del genoma completo (WGS) a granel proporcionaría un enfoque alternativo y rentable para identificar SNV somáticos.

En este estudio, los miembros de Brain Somatic Mosaicism Network (BSMN) llevaron a cabo un estudio coordinado y multiinstitucional que analizó el mosaicismo en una sola muestra de cerebro neurotípico y estableció estándares unificados para llamar y validar mosaicos SNV a partir de datos masivos de WGS y WES.


Resultados

Justificación del enfoque COBASI.

Cuando se busca un solo nucleótido específico a lo largo del genoma, la posición a la que pertenece no se puede determinar sin ambigüedades. Si se incorporan dos nucleótidos adyacentes a la búsqueda, el conjunto de posibles ubicaciones se reduce, aunque sigue siendo bastante grande. En algún momento, sin embargo, el contexto del nucleótido diana contendrá suficiente información para determinar sin ambigüedades su posición de origen única (Fig.1A). En nuestra investigación anterior, definimos COIN-Strings (CS) como el conjunto de todas las secuencias superpuestas (con una ventana deslizante de un nucleótido) del genoma de referencia de un tamaño específico (k) que están localizadas de forma única. Por tanto, cada nucleótido a lo largo del genoma de referencia está contenido, como máximo, en k CS.

Justificación del enfoque COBASI. (A) Un nucleótido específico (C grande en negrita) no se puede localizar de forma única a lo largo del genoma hasta que su contexto se incluya en la búsqueda. (Izquierda) La cadena que se buscará (Derecha) el número de posiciones en las que se encuentra dicha cadena. La cuerda inferior es una COIN-String (CS) de 30 nt. (BD) (Superior) Representación esquemática de lecturas de secuencia. (Más bajo) Regiones específicas de paisajes de variación (VL) para tres escenarios. (B) Sin señal de variación. (C) Una señal de variación de SNV heterocigota. (D) Una señal de variación de SNV homocigótica. Líneas negras en B, C, y D representan lecturas del proyecto del genoma que contienen el alelo de referencia. Las líneas rojas representan lecturas del proyecto del genoma que contienen el alelo SNV. Las secciones de la VL en la ref. 2 están representados por líneas azules. los X El eje indica la posición del genoma para cada inicio de CS. los y El eje indica el número de lecturas que contienen la secuencia CS comenzando en esa posición.

COBASI amplía este análisis de CS para encontrar variaciones sólidas en la muestra en todo el genoma. Cuando un SNV está presente en una muestra en una posición X particular, se espera que aproximadamente la mitad de las lecturas para SNV heterocigotos, o casi todas las lecturas en SNV homocigotos que se superponen con X contendrán el SNV. En consecuencia, los CS que incluyen X estarán presentes solo en las lecturas que no contienen el alelo alternativo. Esto se puede traducir en patrones específicos que se designan como regiones de firma de variación (VSR) (Figs.1 C y D y 2A). Una vez que se identifican las regiones candidatas, las alineaciones locales entre las lecturas y el genoma en las regiones de interés descubrirán la naturaleza de las variantes específicas.

Transformación del paisaje de variación en un paisaje de cobertura relativa. (Izquierda) Se muestra un SNV homocigoto. (Derecha) Se muestra un SNV heterocigoto. (A) Se muestra el VL para una región compuesta por 30 nt aguas arriba y 30 nt aguas abajo de cada VSR. Los gráficos muestran la posición inicial de cada CS en esa región genómica (X eje) y la cobertura para cada CS (y eje). (B) El VL se convierte en RVL utilizando el RCI. RCInorte se refiere al índice de cobertura relativo para el nucleótido n. Cnorte y Cn1 denotan el número de lecturas que contienen el CS comenzando en el nucleótido ny el siguiente CS corriente abajo, respectivamente. (C) El RVL para las mismas regiones que se muestran en A. Los gráficos muestran la posición inicial de cada CS (X eje) y valores RCI asociados con cada CS (y eje). El VL y el RVL están representados por líneas azules. PrevCS y PostCS se muestran como líneas anaranjadas y amarillas en la Fondo de cada parcela, y sus posiciones iniciales se resaltan con líneas verticales negras discontinuas (Apéndice SI, Fig. S1).

Descubrimiento de Novo SNV utilizando el oleoducto COBASI.

Sobre la base de la justificación presentada, diseñamos e implementamos una estrategia para detectar SNV de novo de un trío de padres e hijos. Primero, se calculan todas las posiciones de CS del genoma de referencia. Definimos el genoma accesible a COBASI como regiones de al menos 100 pb de largo para las que al menos el 50% de los kmers que comienzan dentro de la región son CS con k = 30 pb. Aunque más del 50% del genoma humano se clasifica como secuencias repetitivas (24), la gran mayoría (alrededor del 84%) del genoma se puede interrogar utilizando COBASI (Apéndice SI, Tabla S1).

A continuación, todos los SNV del niño individual se identifican mediante el análisis del paisaje de variación (VL). El VL es una representación del número de lecturas que contienen cada secuencia CS (cobertura) a lo largo de todo el genoma (Fig.2A). Para ampliar la diferencia de cobertura entre dos CS adyacentes, el VL se transformó en un paisaje de variación relativa (RVL) utilizando un índice de cobertura relativa (RCI), medido en una escala de -1 a +1 (Fig.2B). Bajo esta formulación, el RCI es cercano a cero cuando hay poca o ninguna diferencia en la cobertura, y su valor absoluto se acerca a 1 cuando ocurren diferencias abruptas, la mayoría de las veces debido a una variación genética subyacente (Fig.2C). Dado que el RVL es variable en regiones de baja cobertura, se estableció un umbral de cobertura para evitar ruido en el proceso de identificación del VSR (Materiales y métodos).

A partir del RVL, se pueden identificar los VSR que abarcan cualquier mutación candidata. Definimos la última CS antes del inicio de un VSR como PrevCS, y definimos la primera CS después del final de un VSR como PostCS, y ambas CS las llamamos CS de firma. A continuación, se identifican las lecturas que contienen coincidencias perfectas con los CS de firma y se calculan las alineaciones globales entre la región correspondiente en las lecturas y el genoma. Finalmente, los nucleótidos variantes en las lecturas se destacan en la alineación local para identificar el SNV específico (Fig. 3). Dado que se garantiza que los CS son únicos en el genoma, y ​​solo se consideran las coincidencias perfectas, no se requieren otros filtros de calidad.

La tubería experimental de COBASI para el descubrimiento de SNV en un individuo. (A, Izquierda) Se obtiene cada kmer superpuesto de 30 nt (con una ventana deslizante de 1 nt) a lo largo de cada una de las lecturas del proyecto de secuenciación (solo se muestran 3 kmers por lectura). Los recuentos de cada kmer se almacenan en una base de datos. Lee y lee kmers se muestran como líneas grises y gris claro, respectivamente. (A, Derecha) Se obtiene CS a lo largo del RG y se almacenan las posiciones inicial y final de todas las regiones únicas que no se superponen. Los kmers RG y RG se muestran como líneas violetas y violetas claras. (B) Los dos productos virtuales se fusionan y se genera el panorama de variación (VL). (C) Se presenta una región de la VL que contiene un SNV heterocigoto. El gráfico muestra la posición inicial de cada CS a lo largo del genoma (X eje) y cada cobertura CS (y eje). El VL se representa como una línea azul. El VL se transforma en RVL. Solo se representa el VL. La posición de inicio de PrevCS y PostCS se indican mediante líneas verticales naranjas y amarillas, respectivamente. PrevCS y PostCS están representados por líneas horizontales naranjas y amarillas, respectivamente. Algunos interCS se muestran como líneas marrones horizontales. La posición del SNV se muestra como una línea vertical roja. Todas las CS ubicadas entre las CS anteriores y posteriores (interCS) contienen la posición SNV. (D) Los CS anteriores y posteriores (CS de firma) se utilizan como anclajes para recuperar todas las lecturas de interés (Materiales y métodos). (mi) Cada una de las lecturas recuperadas se alinea luego con la región correspondiente del RG. Se muestra una región de lectura-RG alineada. La posición de SNV y el nucleótido específico se resaltan en un rectángulo rojo.

Para descubrir los SNV de novo, las posiciones variables en el niño se interrogan a continuación en los padres. Para cada SNV en el niño, sus CS de firma se utilizaron como anclajes para recuperar las lecturas de interés en los padres. A continuación, las lecturas de los padres se alinean con el RG mediante el procedimiento anterior. Luego se genera un catálogo que contiene todos los SNV secundarios y los alelos encontrados en cada padre para las mismas posiciones. Los genotipos de cada individuo se asignan y comparan, de modo que se puedan identificar los SNV candidatos de novo (Fig. 4). Consideramos como variantes de novo auténticas aquellas que no se encuentran en ninguno de los padres en más de una alineación que contiene ambos CS de firma, que se consideran alineaciones de alta calidad.

La tubería experimental de COBASI para el descubrimiento de SNV en un marco familiar. (A) Para cada SNV en el niño, sus CS de firma se utilizan como anclajes para recuperar las lecturas correspondientes en los padres. Luego, las lecturas se alinean con el RG. (B) Se genera un catálogo que contiene todos los SNV secundarios y los alelos que se encuentran en cada padre en las mismas posiciones. A continuación, se comparan los tres genotipos y se identifican los posibles SNV de novo.

Rendimiento de COBASI mediante experimentos de simulación.

Primero evaluamos COBASI en relación con las tuberías más comúnmente utilizadas a través de experimentos de simulación considerando varias profundidades de secuenciación diferentes, tamaños de kmer y otros parámetros internos (Apéndice SI, Materiales y métodos SI). Se introdujeron mutaciones en un cromosoma diploide humano (cromosoma 12), se produjeron lecturas simuladas y se llamaron SNV utilizando COBASI. Cuantificamos el rendimiento utilizando el área ampliamente utilizada bajo la estadística de la curva de recuperación de precisión (AUPR).

Los parámetros de mejor rendimiento se derivaron de los experimentos de simulación. En todas las profundidades de secuenciación probadas, el mejor tamaño de kmer fue 30, y la mejor relación entre la cobertura de ambos CS de firma fue 2,0. Esto mantuvo un número bajo de FP sin aumentar significativamente los falsos negativos (FN). Los valores de 0,2 o 0,3 para el umbral de RCI tenían puntuaciones AUPR muy similares. Por el contrario, el mejor valor para otros parámetros clave dependía de la profundidad de secuenciación. Si la profundidad de secuenciación fue 35 ×, la cobertura mínima para los CS de firma fue 5, la extensión óptima para alineaciones que contienen solo PrevCS fue 5 pb y el número mínimo de alineamientos con ambos CS fue 2. Si la profundidad de secuenciación fue 100 ×, la cobertura mínima para los CS de firma fue 10, la extensión óptima para las alineaciones que contienen solo PrevCS fue de 5 pb o 10 pb, y el número mínimo de alineaciones totales con ambos CS fue de 3 o 4. Una vez que se obtuvieron los parámetros de mejor rendimiento identificado, el AUPR osciló entre 0,94 y 0,96. Para comparar el rendimiento de COBASI con el rendimiento de la canalización de llamadas de variantes más comúnmente utilizada, los SNV también se llamaron desde el experimento de simulación con una profundidad de secuenciación de 100 × utilizando una combinación de BWA, Picard Tools y GATK. El AUPR fue de 0,99, mientras que el AUPR obtenido para COBASI fue de 0,96. Sin embargo, el tiempo requerido para obtener una lista de SNV a partir de datos de secuenciación sin procesar se redujo increíblemente, de más de 30 h en el caso de la tubería basada en alineación estándar a menos de 6 h requeridas por COBASI.

Además, en un estudio anterior, Hwang et al. midió el rendimiento para cualquier combinación de tres mapeadores diferentes y tres llamadores diferentes para cualquiera de los 11 conjuntos de datos (10). En la mayoría de los casos, la AUPR para COBASI fue similar a las AUPR informadas anteriormente, aunque Hwang et al. usó solo datos del exoma (aproximadamente el 2% del genoma) y COBASI se probó en todo el genoma invocable (aproximadamente el 84% del genoma) (Apéndice SI, Tablas S2 y S3).

A continuación, medimos el rendimiento del descubrimiento de novo de SNV por COBASI utilizando simulaciones de trío de padres e hijos. Se creó un trío de genomas de padres e hijos siguiendo la herencia mendeliana junto con un número limitado de variantes de novo (con una mediana de 35 SNV de novo por simulación) (Materiales y métodos), a partir de los cuales se simularon los datos de secuenciación. La profundidad de secuenciación se eligió para parecerse a nuestros datos de secuenciación experimental: 35 × para los padres y 100 × para el niño. A continuación, se llamó a los SNV de novo mediante COBASI. El experimento se repitió cinco veces, de modo que pudieran calcularse valores de precisión mediana robustos. La mediana de precisión obtenida fue de 1.0 y la mediana de recuerdo fue de 0.91 con una mediana de 32 verdaderos positivos (TP), 3 FN y 0 FP.

Al igual que con cualquier canal de detección de variantes, se requiere una cobertura de secuenciación suficiente para detectar mutaciones con precisión. Para examinar esto para COBASI, trazamos la curva de recuperación de precisión ordenada por la cobertura disponible, definida como el número de alineaciones que contienen la variante. La mediana de la AUPR en todos los valores de cobertura fue de 0,86. Sin embargo, la mayoría de los errores se encontraron en variantes de cobertura baja, y con un nivel de cobertura razonable (lecturas & gt10), la precisión media y la recuperación para las simulaciones de novo fueron 1.0 y 0.91, respectivamente. En un experimento individual, la precisión y la recuperación en el mismo umbral de cobertura fueron 0,9999 y 0,9613, respectivamente. Por lo tanto, la tubería de descubrimiento de novo fue más precisa que la tubería del genoma completo a expensas de un pequeño grado de sensibilidad. Utilizando los mismos datos simulados, los SNV de novo se llamaron utilizando las prácticas estándar de la tubería basada en alineación más comúnmente utilizada, lo que resultó en un AUPR de 0,91. Por lo tanto, el rendimiento de COBASI se puede comparar con las tuberías de última generación, lo que reduce el tiempo necesario para completar el proceso de llamada de variantes.

Aplicación de COBASI en un marco familiar.

A continuación, aplicamos la canalización COBASI de descubrimiento de novo para encontrar SNV de todo el genoma en un trío de padres e hijos que secuenciamos utilizando la secuenciación de Illumina (Materiales y métodos). Aquí utilizamos los parámetros de mejor rendimiento determinados a partir de los experimentos de simulación. Además, consideramos como variantes de novo de buena fe aquellas no reportadas previamente en bases de datos públicas, como dbSNP, ya que la probabilidad de que dos individuos independientes tengan un evento de mutación de novo en el mismo nucleótido es muy baja (Apéndice SI, Materiales y métodos SI). Usando estos parámetros, encontramos 2.912.889 SNV en el individuo de descubrimiento y 58 variantes de novo (Fig. 5).

Ejemplo experimental de la estrategia COBASI en el marco familiar. (Izquierda) Se muestra un SNV mendeliano. La posición 1 en los gráficos corresponde a la posición chrX 8928409. (Derecha) Se muestra un SNV de novo. La posición 1 en los gráficos corresponde a la posición chr11 66915681. (A) La sección correspondiente del VL se muestra para cada individuo del trío de padres e hijos: las líneas roja, verde y violeta corresponden al VL para el padre, la madre y el niño, respectivamente. Dado que el SNV mendeliano se encuentra en el chrX, el padre tiene alrededor de la mitad de la cobertura que la madre. (B) La RVL se muestra para ambos padres. (C) Se muestra el RVL para el niño. (D) Se muestra el nucleótido presente en el RG. (mi) Se muestran los cromatogramas obtenidos por secuenciación de Sanger para estas regiones. Los genotipos obtenidos para cada individuo mediante el enfoque COBASI se muestran en negrita. Un asterisco junto al genotipo individual indica que el cromatograma está en orientación inversa. La posición SNV se sombrea de acuerdo con el código de color individual.

Los 58 SNV de novo y una selección de dos SNV elegidos al azar por cromosoma (46 variantes aleatorias en total) identificados en el niño se seleccionaron para la validación experimental mediante PCR y secuenciación de Sanger. En el caso de las variantes de novo, en cinco casos no se pudo obtener ningún producto de PCR y un caso no se pudo secuenciar correctamente. Para las 52 mutaciones de novo que pudieron secuenciarse, la secuenciación de Sanger confirmó que cada SNV predicho representaba una variante de novo real. Apéndice SI, La Tabla S4 presenta las coordenadas genómicas, el genotipo de cada individuo y los resultados de la validación experimental para cada SNV de novo. Apéndice SI, La Fig. S2 presenta la validación experimental para cada individuo del trío familiar para 10 variantes de novo, elegidas al azar. Todas las 46 variantes mendelianas fueron validadas con éxito (Apéndice SI, Fig. S3 and Table S5) (five examples).


Abstracto

Next Generation sequencing (NGS) is a powerful tool to identify somatic mutations associated with tumor onset and drug response. While it is well suited for high quality fresh/frozen samples, NGS is not proven for FFPE tissue which is the most common type of clinical specimen. Since the nucleic acids can be readily extracted from FFPE samples for a variety of genomic analyses, a comparative mutational analysis of paired frozen and FFPE tissues is urgently needed. Our long term goal is to establish a lab protocol to detect mutations in FFPE tumors using a targeted capture and sequencing approach for genes of interest. This pilot study focuses on the comparison of FFPE and frozen samples to test the validity of using FFPE tissues in such application.

Gene Selection: 128 genes associated with known pathogenic mutations in lymphoma

Sample Selection: 9 diffuse large B-cell lymphoma (DLBCL) cases with FFPE, frozen and germline samples, as well as 10 frozen normal lymphatic tissues as references for CNV detections

Capture Probe Design: We targeted coding exons and UTR, as well as the evolutionarily conserved intronic regions. The capture probes were designed using the Agilent eArray tool. The titling density of the probes was set to 3 probes overlapping with every base in the target region to improve the capture efficiency in FFPE samples. The least stringent masking of the repeat regions was allowed to include regions with small repeats that are shorter than the length of the sequencing reads (100-bp). In addition, boosting parameters were picked to set various levels of probe replication in different regions in order to minimize the local coverage differences (e.g. between regions of different GC contents)

Sequencing and Bioinformatics: The target capture and sequencing were performed by the Mayo Clinic Medical Genome Facility. The reads were mapped to Human Reference Genome Build 37 using Novalign, and SNVs were called using GATK. The CNVs were identified using an in-house developed algorithm, patternCNV.

The designed probes covered 99.65937% of the target regions. We generated 2.2-6.7 Gbp of reads per sample, 57.4-71.5% of which were on target. This equalled an average coverage of 2100-6700 folds which is 10-30 times higher than the minimal coverage recommended by Agilent. Due to this high coverage, we observed duplicate reads that accounted for 7.7-73.5% of the total reads. When we analysed the data with and without the duplicated reads, the concordance of the called SNVs was between 84-93% out of 207-249 mutated positions per trio-sample. There were 7.8-8.9% and 1.1-2.2% unique SNVs per sample by excluding or including duplicate reads, respectively.

The dis-concordances were mostly missed calls, where a SNV was observed in only 1 or 2 of the trio samples. The missed calls from frozen samples ranged from 0-10.4% compared to 1.4-10.4% from the FFPE tissues, with 0.88-2.4% more SNVs missed in FFPE. Further analyses showed that all of the missing calls came from the lack of or low coverage of the corresponding positions. There were also differences of the called SNVs between the trio samples. However, this was extremely rare. Only 2 out of the 9 trio samples at a total of 3 positions had disagreements in called SNVs between FFPE and frozen tissues, all due to the allelic imbalance where the percentage of reads supporting the alternative alleles were below 20%. Therefore, this dis-concordance can be removed by back-filling of the read-level information for each position.

Unfortunately only 11.9-47.4% of the CNVs called in frozen tissues were identified in FFPE samples, due to the widely various coverage in FFPE samples. The consequent large noises of the log ratio values between the FFPEs and normal references significantly reduced the sensitivity for CNV calling.

This pilot study compared the performance of SNV and CNV detection in FFPE and paired frozen tissues using a target capture and sequencing approach. With a capture probe design strategized to benefit FFPE samples, we observed SNV detection rates in FFPE that were only slightly lower (0.88-2.4%) than those of frozen tissues due to poor coverage of some positions in FFPE samples. With a proper back-filling step, there was no dis-concordance of the called SNVs between FFPE and frozen samples. However, CNV detections in FFPE were more problematic due to the un-predictable regional coverage in FFPE samples.


RESULTS AND DISCUSSIONS

Reads mapping, redundancy filtering and SNV detection

In order to detect SNVs in the protein-coding and untranslated regions of the human genome using the next generation sequencing techniques, we designed a strategy as outlined in Figure 1 . cDNAs synthesized from mRNAs were fragmented to 100–200 bp by sonication and sequenced using Illumina Genome Analyzer II. The short reads of 30 bp were mapped to the reference consisting of hg18 human genome plus a collection of synthetic exon junctions using ELAND software, allowing up to two mismatches with the reference (see ‘Materials and methods’ section).

The mismatches with the reference sequence can occur due to sequencing errors or point mutations present in the sample. In order to distinguish between these two possibilities and hence filter noise from signal, we applied the following two-step procedure to the set of uniquely mapped reads (see ‘Materials and methods’ section). Multiple identical copies of a read can be present as an artifact of PCR amplification procedure and this can provide false evidence for variant site discovery. Therefore, in the first step, we retained only a single copy of each read ( Figure 2 A). This filter can also reduce confounding effects of systematically bad sequencing cycles within a read. In the second step, if multiple reads map to the same genomic position, we randomly selected only one read from each of the categories U0, U1 and U2 ( Figure 2 A). Thus, there can be at most three reads that map to the same genomic position ( Figure 3 A). The application of the above two filters (named together as ‘Redundant Reads Filter’ in Figure 1 ) should reduce false-positive rate of SNV discovery. Since there can be only a small number of unique and nonredundant genomic reads at the exon edges, we generated a library containing exon junctions to detect potential SNVs in these genomic regions, which increased the power of SNV detection at the exon edges. We found that about 6% of all significant SNVs are detected due to exon-junction reads. The nonredundant reads were analyzed by our point mutation analyzer. A very small probability of observing multiple overlapping but noncoincident short sequence reads agreeing at a given mismatched genomic location by random chance is taken as the evidence in favor of the presence of a genuine SNV at that location ( Figure 2 B and ‘Materials and methods'section).

The number of reads that align uniquely to the genome and exon junctions is shown in Table 1 . We obtained about 27 million uniquely mapped 30-bp sequence reads for each sample. The resulting mean coverage of exonic regions is ∼11×. Since gene expression varies dramatically, we examined the distribution of coverage for all exonic sequences ( Figure 4 A). Our data indicate that with 26 million uniquely mapped non-redundant short sequence reads, about 40% of exonic regions were covered ≥5 times.

We performed sequencing cost analysis for SNV detection (see ‘Materials and methods’ section). We show that at the stringency we use to call SNV ( PAG -value = 10 –9 ), fold coverage of C = 5 and C = 14 are needed to detect homozygous and heterozygous SNVs, respectively. At the sequencing depth we achieved (around 13 million 30-bp unique nonredundant reads), these fold coverages correspond to RPKM values 13 and 35, respectively. Thus, we estimate that about 40% of homozygous and 14% of heterozygous expressed SNVs were detected in this work. Our analysis demonstrates that about 80% of homozygous and 55% of heterozygous SNVs in expressed exons can be detected using 67 million 30-bp nonredundant unique reads ( Figure 4 B). However, our hypothesis is that mutation of a highly expressed gene may have more functional consequence than a gene expressed at low level or not expressed therefore, it may not be necessary to do much deeper sequencing than what we have achieved in this study.

SNV validation and annotation

At a very stringent significance threshold ( PAG -value < 1.0 × 10 –9 ), we detected 12176 and 10621 SNV in Jurkat and CD4 + T cells, respectively. Many of detected sites overlap with known single nucleotide polymorphism sites (dbSNP build 126): 7473 for Jurkat and 7669 for CD4 + T cells ( Figure 5 A). Interestingly, more nonsynonymous SNVs in Jurkat cells as compared to CD4 + T cells ( Figure 5 B and Tables 1 , Supplementary Data for further details), which could be related with the disease or generated during in vitro cultura.

Summary of results. ( A ) Venn diagram of single nucleotide variants (SNVs) detected in Jurkat and CD4 samples. ( B ) Summary table of SNVs detected in Jurkat and CD4 samples. Shown in the brackets are numbers of SNVs that are novel, i.e. not present in dbSNP Build 126 database.

Summary of results. ( A ) Venn diagram of single nucleotide variants (SNVs) detected in Jurkat and CD4 samples. ( B ) Summary table of SNVs detected in Jurkat and CD4 samples. Shown in the brackets are numbers of SNVs that are novel, i.e. not present in dbSNP Build 126 database.

To validate the genetic mutations detected using RNA-Seq, we randomly selected five nonsynonymous SNVs that are also present in dbSNP and four SNVs that are novel in Jurkat cells ( Table 2 ). The genomic regions containing these SNVs were amplified using PCR and sequenced using Sanger sequencing method. Our results indicate that all the nine SNVs were confirmed ( Supplementary Data ). Interestingly, the SNV identification indicated existence of only the mutated allele in the TAL1 gene that is implicated in T-cell acute leukaemia ( 7 ). However, the Sanger sequencing revealed that both the wild-type and mutated alleles were present, suggesting that only one parental copy is mutated and it is the mutated allele but not the wild-type allele that is expressed in Jurkat cells.

Confirmation of selected Jurkat single nucleotide variants by Sanger sequencing of genomic DNA

Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . PAG -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 C T 0 58 0 0 1.0e-102 K → E
LOC554226 chr2 132729041 C T 2 53 1 1 1.9e-97 No intronic
ECH1 chr19 44013927 GRAMO T 0 0 55 1 1.1e-95 E → A
SEPT9 chr17 73006300 GRAMO A 0 1 50 0 2.1e-90 M → V
POLR3K chr16 43517 C A 0 48 2 0 1.2e-88 S → A
CYC1 chr8 145222820 GRAMO A 0 0 49 0 7.0e-87 M → V
FLNA chrX 153235779 A GRAMO 45 3 2 0 4.7e-82 No R → W
MYO1G chr7 44983146 T C 0 0 3 36 2.7e-69 No V → M
TAL1 chr1 47456811 T C 0 0 0 39 2.7e-69 No UTR
Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . PAG -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 C T 0 58 0 0 1.0e-102 K → E
LOC554226 chr2 132729041 C T 2 53 1 1 1.9e-97 No intronic
ECH1 chr19 44013927 GRAMO T 0 0 55 1 1.1e-95 E → A
SEPT9 chr17 73006300 GRAMO A 0 1 50 0 2.1e-90 M → V
POLR3K chr16 43517 C A 0 48 2 0 1.2e-88 S → A
CYC1 chr8 145222820 GRAMO A 0 0 49 0 7.0e-87 M → V
FLNA chrX 153235779 A GRAMO 45 3 2 0 4.7e-82 No R → W
MYO1G chr7 44983146 T C 0 0 3 36 2.7e-69 No V → M
TAL1 chr1 47456811 T C 0 0 0 39 2.7e-69 No UTR

a Shows 1-based chromosomal location of SNV.

b Shows the allele inferred from RNA-seq data using the Point Mutation Analyzer.

c Shows the allele from hg18 (NCBI Build 36) human genome sequence both alleles refer to the forward strand of the genome sequence.

#‘X’ denotes the number of uniquely mapped nonredundant RNA-seq reads that have nucleotide X at the location of SNV.

‘Known SNP’ status is based on dbSNP build 126 database.

Confirmation of selected Jurkat single nucleotide variants by Sanger sequencing of genomic DNA

Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . PAG -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 C T 0 58 0 0 1.0e-102 K → E
LOC554226 chr2 132729041 C T 2 53 1 1 1.9e-97 No intronic
ECH1 chr19 44013927 GRAMO T 0 0 55 1 1.1e-95 E → A
SEPT9 chr17 73006300 GRAMO A 0 1 50 0 2.1e-90 M → V
POLR3K chr16 43517 C A 0 48 2 0 1.2e-88 S → A
CYC1 chr8 145222820 GRAMO A 0 0 49 0 7.0e-87 M → V
FLNA chrX 153235779 A GRAMO 45 3 2 0 4.7e-82 No R → W
MYO1G chr7 44983146 T C 0 0 3 36 2.7e-69 No V → M
TAL1 chr1 47456811 T C 0 0 0 39 2.7e-69 No UTR
Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . PAG -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 C T 0 58 0 0 1.0e-102 K → E
LOC554226 chr2 132729041 C T 2 53 1 1 1.9e-97 No intronic
ECH1 chr19 44013927 GRAMO T 0 0 55 1 1.1e-95 E → A
SEPT9 chr17 73006300 GRAMO A 0 1 50 0 2.1e-90 M → V
POLR3K chr16 43517 C A 0 48 2 0 1.2e-88 S → A
CYC1 chr8 145222820 GRAMO A 0 0 49 0 7.0e-87 M → V
FLNA chrX 153235779 A GRAMO 45 3 2 0 4.7e-82 No R → W
MYO1G chr7 44983146 T C 0 0 3 36 2.7e-69 No V → M
TAL1 chr1 47456811 T C 0 0 0 39 2.7e-69 No UTR

a Shows 1-based chromosomal location of SNV.

b Shows the allele inferred from RNA-seq data using the Point Mutation Analyzer.

c Shows the allele from hg18 (NCBI Build 36) human genome sequence both alleles refer to the forward strand of the genome sequence.

#‘X’ denotes the number of uniquely mapped nonredundant RNA-seq reads that have nucleotide X at the location of SNV.

‘Known SNP’ status is based on dbSNP build 126 database.

Among all the 12 176 SNVs identified in Jurkat cells, 4703 are novel and 7473 are known ( Figure 5 B). Among these, we detected 3206 nonsynonymous and 47 nonsense mutations. Further analysis of the 47 nonsense SNVs indicates that 41 are novel. Interestingly, all the 20 Jurkat-specific nonsense SNVs are single-allele changes ( Table 3 ). We were able to PCR amplify genomic regions containing 18 of these 20 SNVs and obtained their sequences using Sanger sequencing method. Our results indicate that 16 SNVs were confirmed ( Supplementary Data ). Interestingly, we found that one of the two SNVs not confirmed by sequencing of genomic DNA was in fact present in mRNA as revealed by Sanger sequencing of cDNA ( Supplementary Data ). The SNV is located in the last exon of TAF6 gene. These results suggest that the SNV may be introduced by RNA-editing.


A NGS solution to detect copy number variants, single nucleotide variants and loss of heterozygosity in Intellectual Disability and Developmental Delay samples

James Reid, Sandra Kachhia, Paul Dougall, John Shovelton, Duarte Molha, Christina Taylor, Jagath Kasturiarachchi, Jolyon Holdstock, Venu Pullabhatla, Laura Parkes, Ewa Marek, Natalie Milner, Emma Shipstone, Douglas Hurd

Introducción

The detection of Copy Number Variants (CNVs) in intellectual disability and developmental delay (ID/DD) samples is crucial in elucidating the genetic cause of abnormality. We have developed a targeted NGS panel and analytical software (Interpret) to accurately detect CNVs, as well as SNVs, indels and LOH.

The assay uses a bait capture approach, which is able to capture the exons and untranslated regions (UTRs) from over 700 genes, chosen for their relevance in ID/DD, as well as a range of backbone regions across the genome. Combined with OGTs proprietary CNV detection algorithm in the software, both intragenic and large ‘backbone’ CNVs can be detected robustly.

We implemented a web-based solution that runs OGTs NGS analysis pipeline, comprising many state-of-the-art open-source NGS software tools. These tools were carefully chosen and deployed using containers to ensure cross-platform compatibility and reproducibility. Pipeline optimisation and performance was assessed using equivalent array data and reference materials.

We will outline the results from over 200 intellectual disability and developmental delay research samples to demonstrate the efficiency of the CNV, SNV and LOH detection. The study demonstrated that the assay automatically called 100% of SNVs and 97% of reported pathogenic CNVs (including small intragenic CNVs), the uncalled CNVs were visible on Interpret but the protocol of the study precluded them from being called. We have described an improved method to investigate ID/DD samples, providing critical information on not just CNVs, but SNVs and Indels as well.

Register with us to read the full article

Once you have registered with us for free you will be able to read all our supportive literature, video tutorials and webinars.


Single Nucleotide Variant Detection Using Next Generation Sequencing

Single nucleotide variants (SNVs) occur when a single nucleotide (e.g., A, T, C, or G) is altered in the DNA sequence. SNVs are by far the most common type of sequence change, and there are a number of endogenous and exogenous sources of damage that lead to the single base pair substitution mutations that create SNVs. The biologic impact of SNVs in coding regions depends on their type (synonymous versus missense), and in noncoding regions depends on their impact on RNA processing or gene regulation. Nonetheless, selection pressure reduces the overall frequency of single base pair substitutions in coding DNA and in associated regulatory sequences, with the result that the overall SNV rate in coding DNA is much less than that of noncoding DNA. The utility of a clinical next generation sequencing (NGS) assay designed to detect SNVs depends on assay design features including an amplification-based versus hybrid capture-based targeted approach, DNA library complexity, depth of sequencing, tumor cellularity (in sequencing of cancer specimens), specimen fixation, and sequencing platform. From a bioinformatic perspective, many popular NGS analysis programs for SNV detection are designed for constitutional genome analysis where variants occur in either 50% (heterozygous) or 100% (homozygous) of the reads these prior probabilities are often built-in to the algorithms, and consequently SNVs with variant allele frequencies (VAFs) falling too far outside the expected range for homozygous and heterozygous variants are often ignored as false positives. Thus, sensitive and specific bioinformatic approaches for acquired SNVs require either significant revision of the software packages designed for constitutional testing or new algorithms altogether. Some bioinformatic tools are optimized for very sensitive detection of SNVs in NGS data, but these tools require high coverage depth for acceptable performance and rely on spike-in control samples in order to calibrate run-dependent error models, features that must be accounted for in assay design. There are a number of online tools that can be used to predict the impact of an SNV and evaluate whether an SNV has a documented disease association. Guidelines for reporting SNVs detected in constitutional NGS testing have been developed consensus guidelines for reporting somatic or acquired SNVs are under development.


A resource of variant effect predictions of single nucleotide variants in model organisms

The effect of single nucleotide variants (SNVs) in coding and noncoding regions is of great interest in genetics. Although many computational methods aim to elucidate the effects of SNVs on cellular mechanisms, it is not straightforward to comprehensively cover different molecular effects. To address this, we compiled and benchmarked sequence and structure-based variant effect predictors and we computed the impact of nearly all possible amino acid and nucleotide variants in the reference genomes of Homo sapiens, Saccharomyces cerevisiae y Escherichia coli. Studied mechanisms include protein stability, interaction interfaces, post-translational modifications and transcription factor binding sites. We apply this resource to the study of natural and disease coding variants. We also show how variant effects can be aggregated to generate protein complex burden scores that uncover protein complex to phenotype associations based on a set of newly generated growth profiles of 93 sequenced S. cerevisiae strains in 43 conditions. This resource is available through mutfunc (www.mutfunc.com), a tool by which users can query precomputed predictions by providing amino acid or nucleotide-level variants.

Sinopsis

This study presents mutfunc, a resource that includes the pre-computed impact of genetic variants in three model organisms (human, yeast and E. coli). These predictions can be used to prioritize genetic variants and compute gene burden scores.


RESULTADOS

A novel computational pipeline (the eSNV-Detect) was developed to identify known and novel expressed SNVs from RNA-Seq experiment. To call variants the software requires post alignment files from any two aligners. The two aligner concept has been shown to be effective in reducing the false positives ( 27). Below are few examples of how we have shown the utility of the software in a lymphoblastoid cell line, Sanger validation of an ER+ tumor sequenced at Mayo, TCGA ER+ breast tumors and single-cell RNA-Seq data from a breast cancer cell line (Supplementary Methods). The mapping strategies used in the below examples are BWA + TopHat2 for most of the analyses (lymphoblastoid cell line, Mayo ER+ tumor samples and single-cell data from breast cancer cell line). We applied TopHat + MapSplice combination only for 25 TCGA ER+ breast tumors. We chose this combination, because all the TCGA RNA-Seq data from TCGA data repository has MapSplice alignments readily available.

High precision of the eSNV-detect method when applied to a lymphoblastoid cell line

We applied the eSNV-Detect method for the RNA-Seq data of a lymphoblastoid cell line (NA07347) from the 1000 genome project. Alignment of the RNA-Seq data was performed by TopHat2 and BWA against the human genome (release NCBI GRCh37.1b) respectively and the bam files were processed through the eSNV-Detect pipeline. In this analysis, we chose the splice aligner TopHat2 as the preferred aligner. The variant calls from the workflow were validated with the HumanOmni2.5 SNP chip that consisted of genotyping information for 2 448 222 genomic locations over the whole genome.

Our method identified 39 255 high confident (validated by both aligners, CONF = 2) eSNVs in the NA07347 RNA-Seq data, of which genotyping data was available for 15 796 nucleotide positions on the HumanOmni2.5 chip. The remaining eSNVs could not be validated due to absence of genotype information. Hence, our validation was based on these 15 796 loci. The HumanOmni2.5 chip data confirmed 15 753 out of the 15 796 RNA-Seq eSNV candidates to be true positives and the eSNV-Detect achieved a high precision rate of 99.7% (Figure 2a). The genomic composition of the 15 753 validated eSNVs is shown in Figure 2b. The variant calls were mainly present in exonic and untranslated region (UTR) regions, but part of the high precision calls were also distributed in intronic and intergenic regions.

Validation of the eSNVs in NA07347 mRNA-Seq data against the Omni 2.5 Chip data. (a) 15 753 out of 15 796 eSNVs were validated by the Omni data. There were 1554 Omni SNPs that were expressed but not called by the eSNV-Detect (B) The validated 16 441 validated eSNVs distributed across the whole genome, mainly in exonic (36.9%), UTR (38.4%), intronic region (14.3%).

Validation of the eSNVs in NA07347 mRNA-Seq data against the Omni 2.5 Chip data. (a) 15 753 out of 15 796 eSNVs were validated by the Omni data. There were 1554 Omni SNPs that were expressed but not called by the eSNV-Detect (B) The validated 16 441 validated eSNVs distributed across the whole genome, mainly in exonic (36.9%), UTR (38.4%), intronic region (14.3%).

Of the 2 448 222 SNP loci on the Omni chip of NA07347, only 17 307 SNPs were expressed in the transcriptome (i.e. >3 alternative allele supporting reads in the RNA-Seq data. A detailed transcriptomic expression distribution of all SNPs on the Omni chip can be found in Supplementary Table S2). Among the expressed variants, the eSNV-Detect called 15 753 out of 17 307 as high confident eSNVs and achieved a high sensitivity/recall rate of 91.0%. The 1553 variants not found in the high confident eSNV list were either called by only one aligner (683 found with TopHat evidence only and 19 found in BWA evidence only), or eliminated by the stringent filter criteria (i.e. 851 by low alternative allele frequency or extreme ReadPosRankSum score or strand bias ratio).

We thus also investigated the medium/low confident variants called by single aligner. In the NA07347 RNA-Seq data, there were 4363 medium confidence variants (CONF = 1) with evidence from TopHat2 alone. Among them 706 have genotype information on the Omni and 683 of 703 (97.1%) were verified to be true positive. There were 5106 low confidence variants (CONF = 0) with evidence from BWA only. Among them 358 had genotype information on the Omni Chip and 343 of 358 (95.8%) were validated. As the preferred aligner, eSNVs with only TopHat2 evidence showed a slightly higher precision than those with BWA evidence, while variants set with support from both aligners had the highest precision. Our analysis concludes that the two-aligner strategy improved the precision of the eSNV calling.

The impact of the selected mapping strategies

Using the same set of data for the lymphoblastoid cell line (NA07347) that consists of both RNA-Sequencing and SNP chip data, we investigated the impact of different mapping strategies. Engstrom and his colleagues ( 25) have shown that MapSplice, STAR-2pass and TopHat2 are top performance aligners for RNA-Seq. Hence we have chosen these three aligners along with BWA for the following analysis. After alignment with the four aligners, the bam files were processed through the eSNV-detect pre-processing and variant calling steps, respectively. We compared all pair-wise combinations of two-aligners with the Omni SNP chip data. Since the read-depth at a nucleotide position may differ during alignment process, we have chosen SNVs for comparison that have read depth ≥4 in at least two aligners and have Omni-SNP chip data (17389 SNVs).

Among the pair-wise comparisons (Supplementary Table S3), the combination of MapSplice + TopHat2 detected the truest positive variants, thus have the highest recall rate. It should be noted that MapSplice and TopHat2 both use Bowtie (both used bowtie 1 in the comparison) for segment mapping, which could be part of the reason of the high recall rate. It is noted that different combinations of aligners affect the precision very little. We have also tried combinations of three and four aligners to call variants using the eSNV-Detect. Intuitively, the evidence from more aligners may improve the performance precision. However, it turned out that the improvement of precision was only marginal with the price of a substantial loss in recall rate (Supplementary Table S4). Moreover, increasing the number of aligners will require extra computational resources. Hence, we recommend using two-aligner mapping strategy with the eSNV-Detect.

Sanger sequencing validation of variants identified by the eSNV-Detect in breast tumor and adjacent normal

We have used an earlier version of the eSNV-Detect method to call variants from RNA-Seq data in lung adenocarcinomas ( 26) and breast cancer samples ( 27). In a recent study, we have validated the variants predicted by the eSNV-Detect method with high accuracy in ERBB2 overexpressed (HER2+) breast tumors and adjacent normal tissues using Sanger sequencing. In a survey of 32 breast tumors from RNA-Seq data, a HER2+ breast tumor with the highest number of novel eSNVs (83 candidate variants) predicted by the eSNV-Detect was selected for Sanger sequencing validation. Tumor and tumor-adjacent normal tissues were sequenced along with a control sample for validation. We have confirmed 79/83 eSNVs in the HER2+ study using Sanger sequencing ( 27).

Similarly, in the present study, we also selected an ER+ breast tumor sample that was processed through the eSNV-Detect method for validation, and 29 out of 31 eSNVs were validated. An example of Sanger sequence chromatogram plots of eSNVs from ER+ tumor is shown in Figure 3. As indicated in Figure 3A the variant in PDCL3 gene called with low minor allele frequency and read depth was also validated by Sanger sequencing.

Sanger sequencing validated the eSNVs called. Not only eSNVs with higher allele frequency were validated, an eSNV in PDCL3 gene called with low minor allele frequency was also validated by Sanger sequencing.



Comentarios:

  1. Huu

    Esta publicación, es incomparable))), es muy interesante para mí :)

  2. Frey

    Variante segura :)

  3. Wilfryd

    hilarantemente

  4. Mezibar

    Le felicito que me parece que esta es la magnífica idea

  5. Gale

    Genial, estoy conmovido)



Escribe un mensaje