Información

Frecuencia de secuencias de nucleótidos de longitud específica en el ADN

Frecuencia de secuencias de nucleótidos de longitud específica en el ADN


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

  1. ¿Con qué frecuencia encontraría la secuencia de nucleótidos GGATATCCGC (dirección 5 'a 3') por casualidad en una molécula de ADN?
  2. En promedio, ¿cuántas veces espera encontrar una secuencia específica de 20 nucleótidos en un genoma con un tamaño total de 4 x 10?9 pares de bases?

Dado que esa probabilidad de encontrar cada par de bases en su posición dada es 1 en 4, la probabilidad total de encontrar esa secuencia en particular sería $0.25^{10}$

Pero, ¿cómo abordo el segundo problema?

TIA


Estadísticas de secuencia de ADN (2) ¶

En el capítulo sobre Cómo instalar R, aprendió sobre variables en R, como escalares, vectores y listas. También aprendió a usar funciones para realizar operaciones en variables, por ejemplo, usando la función log10 () para calcular el logaritmo en base 10 de una variable escalar X, o usando la función mean () para calcular el promedio de los valores en una variable vectorial myvector:

También aprendió que puede extraer un elemento de un vector escribiendo el nombre del vector con el índice de ese elemento entre corchetes. Por ejemplo, para obtener el valor del tercer elemento en el vector myvector, escribimos:

Una función útil en R es la función seq (), que puede usarse para crear una secuencia de números que van desde un número en particular a otro número en particular. Por ejemplo, si queremos crear la secuencia de números del 1 al 100 en pasos de 1 (es decir, 1, 2, 3, 4,. 97, 98, 99, 100), podemos escribir:

Podemos cambiar el tamaño del paso alterando el valor del argumento & # 8220by & # 8221 dado a la función seq (). Por ejemplo, si queremos crear una secuencia de números del 1 al 100 en pasos de 2 (es decir, 1, 3, 5, 7,. 97, 99), podemos escribir:

En R, al igual que en los lenguajes de programación como Python, es posible escribir un en bucle para ejecutar el mismo comando varias veces. Por ejemplo, si queremos imprimir el cuadrado de cada número entre 1 y 10, podemos escribir lo siguiente para el bucle:

En el en bucle arriba, la variable I es un contador del número de ciclos a través del bucle. En el primer ciclo a través del bucle, el valor de I es 1, entonces I * I = 1 se imprime. En el segundo ciclo a través del bucle, el valor de I es 2, entonces I * I = 4 se imprime. En el tercer ciclo a través del bucle, el valor de I es 3, entonces I * I = 9 se imprime. El bucle continúa hasta que el valor de I es 10. En el décimo ciclo a través del bucle, el valor de I es 10, entonces I * I = 100 se imprime.

Tenga en cuenta que los comandos que se ejecutarán en cada ciclo del en bucle debe ir entre llaves (& # 8220 <& # 8221 y & # 8220> & # 8221).

También puedes dar un en bucle un vector de números que contiene los valores que desea el contador I para tomar en ciclos posteriores. Por ejemplo, puedes hacer un vector avector que contenga los números 2, 9, 100 y 133, y escriba un en bucle para imprimir el cuadrado de cada número en vector avector:

¿Cómo podemos usar un en bucle imprimir el cuadrado de cada segundo número entre 1 y 10? La respuesta es usar la función seq () para decirle al en bucle tomar cada segundo número entre 1 y 10:

En el primer ciclo de este ciclo, el valor de I es 1, entonces I * I = 1 se imprime. En el segundo ciclo a través del bucle, el valor de I es 3, entonces I * I = 9 se imprime. El bucle continúa hasta que el valor de I es 9. En el quinto ciclo a través del bucle, el valor de I es 9, entonces I * I = 81 se imprime.

R permite la producción de una variedad de gráficos, incluidos gráficos de dispersión, histogramas, gráficos circulares y gráficos de caja. Por ejemplo, si tiene dos vectores de números myvector1 y myvector2, puede trazar un diagrama de dispersión de los valores en myvector1 contra los valores en myvector2 usando la función plot (). Si desea etiquetar los ejes en la gráfica, puede hacerlo dando los valores de la función plot () para sus argumentos opcionales. xlab y ylab:

Si observa la página de ayuda de la función plot (), verá que hay muchos argumentos opcionales (entradas) que puede tomar. Por ejemplo, un argumento opcional es el escribe argumento, que determina el tipo de trama. Por defecto, plot () dibujará un punto en cada punto de datos, pero si configuramos escribe para ser & # 8220b & # 8221, entonces también dibujará una línea entre cada punto de datos subsiguiente:

Hemos estado usando funciones R integradas como mean (), length (), print (), plot (), etc. También podemos crear nuestras propias funciones en R para hacer cálculos que quieras realizar muy a menudo en diferentes conjuntos de datos de entrada. Por ejemplo, podemos crear una función para calcular el valor de 20 más el cuadrado de algún número de entrada:

Esta función calculará el cuadrado de un número (X) y luego agregue 20 a ese valor. La declaración return () devuelve el valor calculado. Una vez que haya escrito esta función, la función estará disponible para su uso. Por ejemplo, podemos usar la función para diferentes números de entrada (por ejemplo, 10, 25):

Puede ver el código que compone una función escribiendo su nombre (sin paréntesis). Por ejemplo, podemos probar esto escribiendo & # 8220myfunction & # 8221:

Cuando esté escribiendo R, si lo desea, puede escribir comentarios escribiendo el texto del comentario después del signo & # 8220 # & # 8221. Esto puede resultar útil si desea escribir algunos comandos de R que otras personas necesitan leer y comprender. R ignorará los comentarios cuando esté ejecutando los comandos. Por ejemplo, es posible que desee escribir un comentario para explicar qué hace la función log10 ():


Introducción

Los estudios de genomas basados ​​en enfoques lingüísticos datan de hace algunas décadas (Brendel et al. 1986 Pevzner et al. 1989 Searls 1992 Botstein y Cherry 1997 Gimona 2006 Faltýnek et al. 2019 Ji 2020). La interacción con los métodos de la física estadística y la teoría de sistemas complejos aportó nuevos conocimientos sobre la biología (Dehmer et al. 2009 Qian 2013). Los estudios van desde el intento de clasificación de genomas basada en n-gramas (Tomović et al.2006 Huang y Yu 2016) hasta algoritmos para la segmentación óptima de ARN en predicciones de estructura secundaria (Licon et al.2010) y análisis de tasas de sustitución de genes codificadores durante evolución (Lin et al. 2019), solo por mencionar algunos. Varios tipos de secuencias en los genomas están relacionados con múltiples códigos genéticos (Trifonov et al. 2012) y se pueden estudiar tanto desde el punto de vista lingüístico cuantitativo (Ferrer-i-Cancho et al. 2013 Ferrer-i-Cancho et al. 2014) y desde una perspectiva más amplia, dentro de enfoques más abstractos (Neuman y Nave 2008 Barbieri 2012). Recientemente, las redes neuronales y los algoritmos de aprendizaje profundo surgieron como nuevas herramientas para analizar secuencias de nucleótidos (Fang et al.2019 Singh et al.2019 Melkus et al.2020 Ren et al.2020) que ofrecen perspectivas más amplias para estudios de genomas. Los virus, que se equilibran en la borrosa frontera entre lo no vivo y lo vivo, y por lo tanto permanecen al borde de la vida (Villarreal 2004 Kolb 2007 Carsetti 2020), se encuentran dentro de los temas de estudio más interesantes.

El objetivo de la presente Carta es llamar la atención sobre tratamientos simples de secuencias de nucleótidos en ARN virales mediante nuevos parámetros, que pueden extraerse inmediatamente de los datos del genoma. Esperamos que dichos parámetros se puedan utilizar potencialmente como una herramienta auxiliar en la clasificación de virus (cf., en particular, Wang 2013). La idea de este estudio está relacionada con el reciente brote de COVID-19, y el análisis partió de la comparación de coronavirus humanos (Su et al. 2016 Wu et al. 2020) y algunos otros virus. Para lograr una homogeneidad relativa del material, restringimos nuestra muestra a virus de ARN monocatenarios únicamente. Se consideran los ARN de sentido positivo y negativo. Para referencia futura, también incluimos dos retrovirus, VIH-1 y VIH-2.

El documento está organizado de la siguiente manera. El resumen de los datos y la descripción de los métodos se dan en la sección "Datos y métodos". Los resultados se presentan en la sección "Resultados". Finalmente, se ofrece una breve discusión en la sección "Discusión".


3. Resultados y discusión

3.1. Ocurrencia de palíndromo a través del árbol de la vida

Contamos la ocurrencia de las 16 palabras palindrómicas de longitud 4 (Tabla 1), junto con un número igual de palabras no palindrómicas de longitud 4 (Tabla 1), en secuencias de ADN de genomas seleccionados. Se analizaron veinte especies diferentes para cada uno de los 10 grupos filogenéticos diferentes, es decir, vertebrados, invertebrados, hongos, plantas, protozoos, mitocondrias, bacterias, arqueas, virus de ADN bicatenario y retrovirus. Las repeticiones perfectas se eliminaron de las secuencias de entrada para evitar la introducción de un sesgo trivial de regiones de complejidad extremadamente baja, como las repeticiones teloméricas o centroméricas. Para cada secuencia de ADN de entrada y cada palabra de 4 unidades, calculamos la relación R de la aparición real de la palabra dividida por el número esperado de ocurrencias, dado su contenido de GC y el de la secuencia de ADN de entrada. La mayoría de los palíndromos estaban subrepresentados (R & lt 1) en todos los genomas analizados. En general, los palíndromos exhibieron una media R de 0,86, en contraste con una media R de 1,08 para los controles no palindrómicos (Tabla 1). La infrarrepresentación de palíndromos fue más pronunciada en genomas de vertebrados, plantas, virus de ADN bicatenario y retrovirus (Fig. 1). Contrariamente a informes anteriores, 20 palíndromos estaban subrepresentados incluso en genomas mitocondriales, lo que demuestra que la infrecuencia de palíndromos en genomas procariotas no puede explicarse únicamente por la presión selectiva ejercida por las enzimas de restricción. Las fuerzas selectivas adicionales contra los palíndromos podrían comprender su impacto en la estructura del ADN o su papel como sitios de unión al factor de transcripción. 17 Cualesquiera que sean las fuerzas subyacentes, los palíndromos cortos están subrepresentados en todo tipo de genomas (Fig. 1). Exactamente qué palíndromos y qué tan fuertemente dependen de la fuente del ADN. Curiosamente, las frecuencias intergenómicas de palíndromos cortos exhiben más del doble de la varianza de las secuencias de control no palindrómicas (22 frente al 9% Tabla 1), mientras que las frecuencias intragenómicas, p. Ej. entre diferentes cromosomas del mismo organismo, son uniformes (Figs. 2-4). Esto hace que los palíndromos cortos sean ideales para la tipificación del ADN.

Frecuencia de palíndromos en una diversa selección de genomas. La frecuencia palíndromo se expresa como la relación (R) de ocurrencia a la expectativa. Los palíndromos están subrepresentados (R & lt 1, línea de puntos) en todos los tipos de genomas, más fuertemente en vertebrados, plantas y virus, y exhiben aproximadamente el doble de varianza entre especies en frecuencia (barras de error) que los no palíndromos. Se analizaron veinte genomas diferentes por grupo (ver Sección 2).

Frecuencia de palíndromos en una diversa selección de genomas. La frecuencia palíndromo se expresa como la relación (R) de ocurrencia a la expectativa. Los palíndromos están subrepresentados (R & lt 1, línea de puntos) en todos los tipos de genomas, más fuertemente en vertebrados, plantas y virus, y exhiben aproximadamente el doble de varianza entre especies en frecuencia (barras de error) que los no palíndromos. Se analizaron veinte genomas diferentes por grupo (ver Sección 2).

Ejemplos de patrones de frecuencia palíndromos. Frecuencia de los 16 palíndromos de longitud 4 en genomas seleccionados, expresada como log2 de relaciónR) de ocurrencia real a esperada. La agrupación jerárquica se realizó en función de la distancia de la cuadra de la ciudad. 23 (Arriba) Media y varianza por palíndromo. (Abajo) Las señales de tres secuencias aleatorias se muestran para comparar.

Ejemplos de patrones de frecuencia palíndromos. Frecuencia de los 16 palíndromos de longitud 4 en genomas seleccionados, expresada como log2 de relaciónR) de ocurrencia real a esperada. La agrupación jerárquica se realizó en función de la distancia de la cuadra de la ciudad. 23 (Arriba) Media y varianza por palíndromo. (Abajo) Las señales de tres secuencias aleatorias se muestran para comparar.

Varianza de las frecuencias palíndromas en la secuencia aleatoria de ADN de diferentes longitudes (norte = 20 para cada uno). La varianza media para cada palíndromo de longitud 4 en las 20 secuencias diferentes se compara con las de los primeros 20 cromosomas humanos (línea gris punteada) y en los 20 cromosomas de vertebrados diferentes analizados en la Fig.1 (ver Tabla complementaria S1).

Varianza de las frecuencias palíndromas en la secuencia aleatoria de ADN de diferentes longitudes (norte = 20 para cada uno). La varianza media para cada palíndromo de longitud 4 en las 20 secuencias diferentes se compara con las de los primeros 20 cromosomas humanos (línea gris punteada) y en los 20 cromosomas de vertebrados diferentes analizados en la Fig.1 (ver Tabla complementaria S1).

Estudios de caso sobre Caenorhabditis spp. (A), cromosomas de mamíferos (B) y en sentido estricto levaduras (C). La mayoría de los cromosomas se resuelven correctamente agrupando en función de la frecuencia palíndromo. Las repeticiones en tándem perfectas se eliminaron antes del análisis para evitar diferencias triviales de regiones repetitivas. Tenga en cuenta la notable diferencia entre el ADN de vertebrados e invertebrados.

Estudios de caso sobre Caenorhabditis spp. (A), cromosomas de mamíferos (B) y en sentido estricto levaduras (C). La mayoría de los cromosomas se resuelven correctamente agrupando en función de la frecuencia palíndromo. Las repeticiones en tándem perfectas se eliminaron antes del análisis para evitar diferencias triviales de regiones repetitivas. Tenga en cuenta la notable diferencia entre el ADN de vertebrados e invertebrados.

3.2. Agrupación de ADN basada en la frecuencia palíndromo

Aquí, representamos una secuencia de ADN dada por un vector de 16 números: para cada uno de los 16 palíndromos de longitud 4, el log2 de la razón R de frecuencia real a esperada (dado el contenido de GC del ADN analizado y el del palíndromo). Cuando dichos vectores, generados a partir de una selección diversa de secuencias de ADN, se alinearon y agruparon jerárquicamente en función de la distancia a la cuadra de la ciudad, diferentes secuencias de ADN de la misma especie se agruparon fácilmente (ver Fig.2 para un conjunto representativo de diversos genomas). El agrupamiento funcionó para todos los tipos de secuencias del genoma ensayadas (eucariota, procariota, plastidio o virus), pero la topología del árbol resultante no fue filogenéticamente significativa (Fig. 2). La falta de una señal filogenética a gran escala fue igualmente evidente a partir del análisis del conjunto completo de 200 genomas (Fig. Complementaria S1). La resolución de la agrupación de frecuencias de palíndromos aumentaría aún más utilizando los 64 palíndromos diferentes de longitud 6. Sin embargo, esto también requeriría que las secuencias de entrada fueran más largas. Sobre la base de las secuencias aleatorias incluidas en la Fig. 2, el presente enfoque pareció funcionar para secuencias de más de aproximadamente 10 kb. Para obtener una mejor estimación del tamaño mínimo requerido de ADN de entrada, analizamos secuencias generadas aleatoriamente de longitud creciente (Fig. 3). Por encima de 9 kb, la varianza promedio de R por palíndromo cayó por debajo del valor obtenido para diferentes cromosomas de vertebrados (0.025, línea gris discontinua en la Fig. 3). A modo de comparación, la varianza promedio de R por palíndromo en los cromosomas humanos fue 0,0008 (línea gris punteada en la Fig. 3), lo que demuestra de nuevo que la varianza de la frecuencia palíndromo es mucho más baja dentro del genoma que entre el genoma.

Invertebrados que exhiben la varianza intergenómica más pequeña de frecuencia palíndromo (Fig.1), elegimos Caenorhabditis especies para desafiar su poder de discriminación. Los genomas nucleares completos de C. briggsae y C. elegans se compararon como se describió anteriormente y todos los cromosomas se resolvieron correctamente a pesar de los patrones débiles (Fig. 4A). La agrupación basada en la frecuencia de los palíndromos también segregó diferentes cromosomas de mamíferos que, en contraste con el ADN de invertebrados, mostraron el patrón característico causado por una fuerte representación insuficiente de palíndromos que contienen un dinucleótido CG (ACGT, TCGA, CCGG, GCGC y CGCG Fig. 4B). Esto está de acuerdo con el modelo de que en los vertebrados, la metilación del ADN está restringida a las citosinas seguidas de la guanina (CpG), mientras que en los invertebrados, las citosinas están metiladas en un contexto más amplio. La mutación espontánea del GC palindrómico al TG no palindrómico por desaminación de citosina metilada elimina así los palíndromos cortos del ADN de vertebrados. El límite de resolución de la agrupación de frecuencias palindrómicas se alcanzó con un conjunto de datos de muy similar en sentido estricto levaduras. 26 Los diferentes cromosomas de las especies estrechamente relacionadas Saccharomyces cerevisiae, S. bayanus, S. mikatae, y S. kudriavzevii no segregaba perfectamente los de los parientes más lejanos S. castellii hizo (Fig. 4C).

La agrupación basada en la frecuencia palíndromo también funcionó para los procariotas, generando patrones específicos de especies para arqueas y bacterias. Los genomas de procariotas exhibieron patrones muy diversos (Fig. Suplementaria S1). Plásmidos naturales de Escherichia coli claramente agrupados con el ADN del huésped (Fig. 5A). Lo mismo se aplica a ciertos bacteriófagos dsDNA como Lambda o P2. Sin embargo, otros fagos de dsDNA como T3, así como todos los fagos de ssDNA analizados, no exhibieron los mismos patrones de frecuencia palíndromos que E. coli (Figura 5A). Surgió una imagen interesante al comparar los virus humanos: mientras que todos los virus de cadena negativa ssRNA y el VIH retrotranscriptor se agruparon con ADN humano, los virus dsDNA y los virus de cadena positiva ssRNA no lo hicieron (Fig. 5B).

Patrones de frecuencia palindrómica del ADN genómico del huésped (A, E. coli B, Homo sapiens etiquetados en negro) y virus asociados (codificados por colores según el tipo de ácido nucleico del genoma) o plásmidos (gris).

Patrones de frecuencia palindrómica del ADN genómico del huésped (A, E. coli B, Homo sapiens etiquetados en negro) y virus asociados (codificados por colores según el tipo de ácido nucleico del genoma) o plásmidos (gris).

3.3. Aplicación potencial a la metagenómica

El campo de rápido desarrollo de la secuenciación de escopeta ambiental permite análisis metagenómicos de comunidades de microorganismos, la mayoría de los cuales no pueden cultivarse en el laboratorio y, por lo tanto, no han sido detectados hasta hace poco. 27 Un desafío clave en la interpretación de los datos de secuenciación de escopeta ambiental es el agrupamiento de andamios de ADN que no se superponen en grupos que, idealmente, corresponden a las diferentes especies de microorganismos presentes. 28 Los métodos estándar, como las búsquedas de similitudes con genomas conocidos o el análisis filogenético de genes marcadores, tienen un uso limitado cuando se trata de fragmentos de ADN extraídos de especies no descritas anteriormente. Se han propuesto 28 frecuencias de di, tri y tetranucleótidos para proporcionar firmas de ADN. 29–31 Frecuencias palíndromas que llevan una señal específica de la especie (Figuras 2 y 4), las relaciones de ocurrencia a expectativa tal como se aplican aquí también pueden ser útiles para almacenar datos de secuenciación ambiental de escopeta, siempre que los contigs a analizar sean mayores de 9 kb (Fig. 3). Desde el 2007 Hechicero II Global Ocean Sampling Expedition, que en ese momento produjo predominantemente secuencias novedosas, 32 los cien contigs más grandes, con un tamaño de entre 11 y 59 kb, se analizaron como se describió anteriormente. Esto reveló una imagen diversa de patrones de frecuencia palíndromos con varios grupos importantes (Fig. Complementaria S2). Sin embargo, las secuencias analizadas todavía no arrojaron resultados de alta calidad cuando se buscaron con blastn 33 contra la colección de nucleótidos no redundantes del NCBI, con solo una excepción de identidad del 99% para Proclorococo fago P-SSM4 (nº de acceso de GenBank AY940168). Por lo tanto, no fue posible evaluar el beneficio de la agrupación de frecuencias palíndromas con este conjunto de datos. No obstante, para probar el potencial del método, seleccionamos aleatoriamente 10 fragmentos no superpuestos de 10 kb de longitud de cada uno de los 20 genomas bacterianos diferentes analizados en la Fig. 1 (Tabla complementaria S1). Cuando estas 200 secuencias se agruparon según patrones de frecuencia palíndromos, más del 90% de ellas se ensamblaron correctamente según la especie de origen.


Resultados

Los datos experimentales de HT-SELEX proporcionan METRO-puntuaciones de palabras para diversas familias de TF

Analizamos los datos de HT-SELEX, incluidos 548 experimentos que cubren 410 proteínas humanas y de ratón de 40 familias de TF diferentes, para producir METRO-puntuaciones vinculantes de palabras. El aumento de la profundidad de secuenciación nos permitió obtener puntuaciones precisas durante más tiempo METRO-palabras. Este aspecto es particularmente importante porque la forma del ADN se ve afectada por las regiones flanqueantes de los TFBS. Por lo tanto, aumentamos el conjunto de datos original (Jolma et al, 2013) con secuenciación adicional para aumentar la profundidad de lectura de los experimentos en casi 10 veces (de un promedio de

168.000 lecturas por archivo de secuenciación para

1,656,000 lecturas). Los datos experimentales se filtraron mediante rigurosos criterios de control de calidad (QC) para identificar casos con suficiente complejidad de biblioteca y recuentos de lectura para permitir la construcción de modelos multiparamétricos. Un total de 218 TF de 29 familias pasaron el primer filtro basado en la alta variabilidad y el gran tamaño de muestra de los datos, y un total de 215 TF de 27 familias diferentes pasaron el paso de CC basado en el rendimiento de la regresión (Fig 1).

Figura 1. Pipeline utilizado para generar HT-SELEX METRO-puntuaciones de palabras y conjuntos de datos de filtros

Para cada TF, seleccionamos un motivo de unión al núcleo, para permitir la identificación del sitio de unión más probable dentro METRO-palabras y filtrar los oligonucleótidos que probablemente no estén unidos. Los motivos utilizados se derivaron de un estudio anterior (Jolma et al, 2013). Estos motivos generalmente contienen flancos largos además de la secuencia de consenso central, lo que evitaría que nos volvamos robustos. METRO-puntuaciones de palabras debido a la baja cobertura de lectura para secuencias largas. Para superar esta dificultad, utilizamos motivos del catálogo compilado por Weirauch y Hughes (Weirauch & Hughes, 2011) para identificar y usar solo las posiciones centrales. Calculamos la puntuación vinculante para cada METRO-palabra que incluía el motivo central en el centro (permitiendo algunos desajustes) y cualquier posible secuencia flanqueante 5 'y 3' del motivo. Buscamos evitar la posibilidad de FT cooperativoUnión de ADN, en la que múltiples copias del TF ocupan diferentes sitios de unión de ADN (BS) en la misma secuencia, así como para minimizar el ruido causado por la alineación inexacta de METRO-palabras basadas en el motivo central. Por lo tanto, excluimos las lecturas de HT-SELEX que contenían múltiples instancias de los motivos centrales.

A continuación, derivamos METRO-puntuaciones de vinculación de palabras basadas en el enriquecimiento experimental observado. Cada experimento HT-SELEX incluyó varias rondas de selección del sitio de unión (BS) por parte del TF, con el aumento de la especificidad de unión de las secuencias de ADN seleccionadas en cada ronda. Calculamos el METRO-Puntaje de palabras como el cociente de la frecuencia de la METRO-palabra en redondo I sobre su frecuencia estimada en la ronda inicial, utilizando un modelo de Markov de quinto orden (Slattery et al, 2011). El resultado final de este proceso fue el METRO-puntuaciones de palabras de la secuencia central y sus flancos para cada experimento HT-SELEX (Apéndice Fig. S1A).

Para evaluar la exactitud de nuestra METROde puntuación de palabras y el valor de una secuenciación más profunda, comparamos las puntuaciones derivadas de HT-SELEX con las medidas por PBM de contexto genómico (gcPBM). Los gcPBM utilizan matrices diseñadas específicamente con la secuencia central en el centro, flanqueadas por un contexto genómico (Gordân et al, 2013). Estas sondas están destinadas a medir el efecto de las secuencias flanqueantes y, por lo tanto, proporcionan un estándar de oro preciso para largos METRO-palabra (METRO ≥ 12) puntuaciones vinculantes. La única proteína para la que existen datos experimentales de gcPBM y HT-SELEX fue el homodímero Max (Zhou et al, 2015). El Apéndice Fig S1B muestra la buena correlación (r = 0,64) de las puntuaciones de 12 palabras producidas por las dos tecnologías, lo que demuestra la precisión de nuestro proceso en la producción METRO-puntuaciones de palabras de datos HT-SELEX. Para probar cuánto ganamos con respecto a las puntuaciones de unión de gcPBM mediante el uso de los nuevos datos, examinamos tres METRO-puntuaciones de palabras: frecuencia, ratio en comparación con la ronda inicial y ratio en comparación con la ronda inicial estimada. Una secuenciación más profunda mejoró la correlación de estas tres puntuaciones con las puntuaciones de 12 palabras de gcPBM, y la relación entre la puntuación y la puntuación estimada logró la correlación más alta (Figura S1C del Apéndice). Cabe destacar que al procesar los datos previamente publicados en (Jolma et al, 2013) con la misma tubería, solo 22 proteínas pasaron el control de calidad, en comparación con 218 con la cobertura más alta, lo que muestra la ventaja de una secuenciación más profunda.

El análisis de componentes principales (PCA) revela especificidades y heterogeneidades de unión al ADN específicas de la familia TF dentro de las familias TF

Realizamos PCA para visualizar las especificidades de unión al ADN específicas de la familia TF. La preferencia de unión al ADN de cada TF estuvo representada por el ADN METRO-palabra con la mayor afinidad de unión para este TF. Codificamos esto METRO-palabra en vectores de características numéricas que incluían (i) solo características de mononucleótidos (es decir, 1-mer), y (ii) características de forma de ADN y 1-mer. Las características de la forma del ADN incluyen ancho de surco menor (MGW), balanceo, giro de hélice (ProT) y giro de hélice (HelT) y se predicen con nuestro enfoque de forma de ADN (Zhou et al, 2013). Las Figuras 2A y B muestran los dos primeros componentes principales obtenidos usando cada vector de características.

Figura 2. PCA revela diferentes especificidades de unión al ADN entre familias de TF

  1. PCA con funciones 1-mer. Cada punto representa un TF. Los puntos del mismo color pertenecen a la misma familia TF. Se trazó una elipse para cada familia de TF. La elipse es un contorno de una distribución normal ajustada de dos variables que encierra una probabilidad de 0,68 (valor predeterminado del paquete R).
  2. PCA usando características de forma y 1-mer, anotadas de la misma manera que se describe en (A).
  3. Diagramas de caja de distancias TF entre familias e intrafamiliares derivadas de (A). La diferencia entre medianas de distancias inter e intrafamiliares es 2.02 (rojo).
  4. Diagramas de caja de distancias TF entre familias e intrafamiliares derivadas de (B). La diferencia entre las medianas de las distancias inter e intrafamiliares es de 3,68 (rojo).

Diferentes familias de TF tendieron a formar grupos distintos en los diagramas de dispersión de PCA. Para comparar la calidad de la agrupación en las dos parcelas, obtuvimos las distancias euclidianas bidimensionales entre todos los pares de TF de las figuras 2A y B. Las distancias se clasificaron como intra o interfamiliares y se visualizaron como diagramas de caja (figuras 2C y D). Las distancias entre familias eran generalmente mayores que las distancias dentro de la familia. Cuando usamos características de forma de 1 mer y de ADN, la diferencia entre las medianas de los grupos inter e intrafamiliares fue ligeramente mayor que la diferencia obtenida cuando se usaron características de 1 mer solo (Fig. 2C y D). Este resultado fue consistente con la Fig. 2A y B, lo que indica que se podría explicar una mayor variación introduciendo características de la forma del ADN, en parte debido a la mejor separación de la familia del homeodominio (Fig. 2B). Para probar si tales efectos se debían simplemente a la mayor dimensionalidad introducida por las características adicionales de la forma del ADN, agregamos características de la forma generadas al azar basadas en la distribución gaussiana con desviación estándar y media de las características de la forma original. Tanto la varianza explicada como la distancia entre los grupos intra e interfamiliares fueron menores en esta prueba (Figura S2 del Apéndice).

Las características de la forma del ADN mejoran el modelado de las especificidades de unión al ADN en las familias de TF

Probamos la importancia del reconocimiento de la forma del ADN por cada TF a través del modelado cuantitativo de las especificidades de unión al ADN y la comparación del rendimiento del modelo en términos de R 2 entre predicho y experimental METRO-puntuaciones de palabras. Similar a la metodología en Yang et al (2014) y Zhou et al (2015), construimos modelos de regresión que usaban solo características de mononucleótidos de ADN (es decir, modelos de 1mer) o que combinaban características de mononucleótidos y formas de ADN (es decir, modelos de forma de 1mer +). Un resultado en el que el modelo de forma 1mer + supera al modelo 1mer indica que la lectura de la forma del ADN podría desempeñar un papel en la unión de TF.

Con base en un análisis de 215 TF de 27 familias diferentes, encontramos que los modelos de forma 1mer + generalmente superaban a los modelos 1mer (Fig 3A), lo que indica la prevalencia de la lectura de la forma del ADN en diferentes familias de TF (para una lista completa de los conjuntos de datos utilizados en la Fig 3 , consulte la Tabla EV1). Con la lectura de la secuencia de ADN jugando un papel dominante en la unión de TF, la importancia del reconocimiento de la forma del ADN como contribución adicional varió tanto entre las familias de TF como dentro de ellas. Por ejemplo, el rendimiento del modelo para los TF de homeodominio fue generalmente más sustancialmente mejorado que para los TF de C2H2. Dentro de la familia TF del homeodominio, hubo una gran variación entre los miembros individuales. Se ha observado previamente que los TF homeodominio y bHLH son sensibles a las características de la forma del ADN (Slattery et al, 2011 Gordân et al, 2013 Yang et al, 2014 Zhou et al, 2015). Aquí, confirmamos y ampliamos esta observación a las familias bZIP, CENPB, CP2, CUT, ETS, HSF, IRF, MYB, NFAT, receptor nuclear, PAX, POU, PROX, TBX y TEA TF. Al menos la mitad de los miembros de cada una de estas familias, cubiertos por nuestros datos, mostraron una mejora de rendimiento superior al 10% cuando se agregaron características de forma de ADN al modelo. Sin embargo, algunas familias estaban subrepresentadas en los datos con solo un TF presente (Tabla EV1 para nombres completos e información detallada de las familias TF, ver Tabla EV2).

Figura 3. Comparaciones de desempeño entre modelos que utilizan diferentes características

  1. Comparación entre modelos de forma 1mer y 1mer +.
  2. Comparación entre modelos de formas que se basan en el método original de formas de ADN (Zhou et al, 2013) y tablas de consulta de pentámeros barajadas aleatoriamente.
  3. Comparación entre los modelos de forma 1mer + 2mer + 3mer y 1mer +.
  4. Comparación entre los modelos 1mer + 2mer + 3mer y 1mer + shape + 3merE2. La etiqueta 3merE2 representa características 3mer de las dos posiciones finales en el terminal 5 'y 3' de cada secuencia de ADN.
  5. Comparación entre los modelos de forma 1mer + 2merNoE2 + 3merNoE2 y 1mer +. Las etiquetas 2merNoE2 y 3merNoE3 indican que las características 2mer y 3mer, respectivamente, se eliminaron de las posiciones finales.
  6. Comparación entre los modelos 1mer + shape y 1mer + shape + 3merE2.

Para probar la robustez de los datos experimentales y nuestra canalización computacional, repetimos el análisis anterior en replicar datos experimentales para tres TF de las familias de bHLH y homeodominio. Nuestros resultados mostraron consistentemente contribuciones de la lectura de la forma del ADN para estas dos familias (Apéndice Fig. S3A). Para probar si la ganancia de rendimiento es simplemente el resultado del aumento en el número de parámetros del modelo debido a las características de forma de ADN agregadas, barajamos la tabla de consulta para las características de forma de ADN. Los modelos de formas basados ​​en la tabla de consultas mezcladas generalmente tienen un rendimiento más pobre que los basados ​​en la tabla de consultas original (Fig. 3B). También probamos si los resultados eran robustos a las semillas de motivo utilizadas durante el preprocesamiento de datos. Repetimos los análisis anteriores utilizando las semillas de Weirauch y Hughes (Weirauch & Hughes, 2011) como semillas finales en lugar de usarlas para identificar las posiciones centrales de los motivos basados ​​en HT-SELEX publicados por Jolma. et al (2013). Calculamos los coeficientes de correlación de Pearson entre el rendimiento de los modelos que se basaron en las semillas de Weirauch y Hughes (Weirauch & Hughes, 2011) y la de Jolma. et al (2013) semillas. La alta correlación entre los dos conjuntos de semillas de motivos indicó que los resultados fueron robustos a la elección de semillas de motivos (Apéndice Fig. S3B). También probamos la solidez de los resultados bajo cambios leves en el umbral de desajuste (ver 4) y la longitud de las regiones flanqueantes. Ambas pruebas mostraron una alta correlación entre diferentes configuraciones de parámetros, demostrando suficiente robustez (Apéndice Fig. S3C y D).

Los TF de homeodominio en este estudio presumiblemente se unen al ADN como monómeros, mientras que nuestros estudios anteriores demostraron la importancia de la forma del ADN para los heterodímeros Exd-Hox (Slattery et al, 2011). Las estructuras de rayos X y resonancia magnética nuclear (RMN) de los dominios de unión al ADN del homeodominio en un complejo con el ADN muestran repetidamente que la cola N-terminal del dominio de unión al ADN del homeodominio interactúa con el ADN a través de contactos menores de surco y columna vertebral, que es un signature of DNA shape readout (Joshi et al, 2007 ).

DNA shape features in flanking regions are important for different TF families

We previously observed that 1mer+2mer+3mer models usually outperform 1mer+shape models (Zhou et al, 2015 ). Here, we gained additional clues for possible explanations of this observation. As noted previously (Zhou et al, 2015 ), both 2-mer and 3-mer features are indirect representations of DNA shape characteristics. The 2-mer features describe stacking interactions between adjacent base pairs, whereas 3-mer features describe short structural elements, such as A-tracts that tend to form narrow minor groove regions. Thus, it is not surprising that 1mer+2mer+3mer models can capture TFDNA binding specificities with high accuracy.

Using our high-quality HT-SELEX data, we observed that, for most TFs, 1mer+2mer+3mer models outperformed 1mer+shape models (Fig 3C). As our prediction of local DNA shape features was based on a sliding window of 5 base pairs (Zhou et al, 2013 ), we were unable to predict shape features for the two extreme positions at the 5′ and 3′ ends of each DNA sequence. This limitation could give an edge to 1mer+2mer+3mer models. However, we could encode 2-mer and 3-mer features for those terminal positions, which in turn would work as a proxy for DNA shape. To test this hypothesis, we added 3-mer features from only the two end (E2) positions (i.e., 3merE2 features) to the 1mer+shape model. Performance of the resulting 1mer+shape+3merE2 model was indeed comparable to that of the 1mer+2mer+3mer model (Fig 3D). As an additional test, we removed 2-mer and 3-mer features at the end positions from the 1mer+2mer+3mer model, which resulted in the 1mer+2merNoE2+3merNoE2 model that showed similar performance to the 1mer+shape model (Fig 3E).

We also hypothesized that if longer flanking sequences were available for predicting shape features, then 1mer+shape models would perform similar to 1mer+2mer+3mer models without adding 3merE2 features. To verify this possibility, we used an independent dataset generated by the gcPBM platform (Zhou et al, 2015 ). As expected, 1mer+shape models performed comparable to 1mer+2mer+3mer models for the data without additional 3merE2 features (Appendix Fig S3E). These results imply that DNA shape features in the flanking regions contribute to TFDNA binding specificities, which was previously known for bHLH TFs (Gordân et al, 2013 Yang et al, 2014 Zhou et al, 2015 ). Here, we showed for the first time that this phenomenon is of general nature, as adding 3merE2 features as proxy for missing DNA shape features consistently improved the model performance for various TF families (Fig 3F).

Beyond better interpretability of shape-augmented models, an important distinction between the models is the different number of features required to achieve similar performance. The 1mer+shape model requires 12 features (including second-order DNA shape features) per nucleotide position compared with the 84 features required by the 1mer+2mer+3mer model per nucleotide position (Zhou et al, 2015 ). Although we previously included lower-order 1-mers and 2-mers in our 1mer+2mer+3mer models for reasons of interpretability, nevertheless, the 3-mer features actually contain all of the information of the 1-mers and 2-mers. Thus, a 3mer model is equivalent to a 1mer+2mer+3mer model (4 and Appendix Fig S3F). This choice, however, would still leave the 3mer model with 64 required features per nucleotide position compared with a maximum of only 12 features in the 1mer+shape model.

Feature selection can provide insights into TF–DNA readout mechanisms

We performed feature selection to identify BS positions where DNA shape features contribute to TF-binding specificities. The method is similar to the one we previously introduced for the analysis of SELEX-seq data for Hox proteins (Abe et al, 2015 ). For each TF, we evaluated the R 2 performance of the baseline 1mer model, denoted . Next, we evaluated models that combined 1-mer features with DNA shape features individually at single nucleotide positions I, denoted 1mer+shapeI modelos. We denoted the performance as . We calculated the difference in model performance for each nucleotide position I (Fig 4A). los ratio indicates the percentage change in performance due to the availability of DNA shape features at nucleotide position I, with a positive ratio suggesting performance gain. The ratio at position I compared with other positions reflects the relative importance of DNA shape features at different nucleotide positions. We visualized the ratio as a function of position I for each TF in the form of a heat map (Fig 5A and Appendix Fig S4).

Figure 4. Schematic representation of feature-selection process

  1. Feature-selection scheme for adding DNA shape features at one individual position to a sequence-only model.
  2. Feature-selection scheme for removing DNA shape features from one single position from a shape-only model.

Figure 5. Importance of DNA shape features as a function of nucleotide positions revealed by feature selection with machine learning

  1. Heat map based on adding DNA shape features to a sequence-only model.
  2. Heat map based on removing DNA shape features from a shape-only model.
  3. Combined heat map that takes cell-by-cell minimum of heat maps in (A and B).

To avoid interference from DNA sequence information, we devised a second feature-selection approach in which we removed DNA shape features at individual positions from a shape-only model. los ratio was then used for generating the heat map (Figs 4B and 5B, and Appendix Fig S4), where . These two different approaches can sometimes yield conflicting heat maps as discussed below. To address such cases and facilitate the use of these heat maps, we also generated a combined heat map based on the cell-by-cell minimum of the two heat maps (Fig 5C and Appendix Fig S4). Quantitative information about the importance of the position-dependent DNA shape in TFDNA recognition at single-base pair resolution provides the means to determine the structural proteinDNA readout mechanisms based on sequence data. To achieve this goal, we further expanded our feature-selection method to test each individual DNA shape feature category, which enabled us to gauge the importance of each DNA shape feature, that is, MGW, Roll, ProT, or HelT, at every position (Appendix Fig S5). To date, obtaining such information required experimentally solved structures.

Figure 5 shows the position-dependent DNA shape importance for homeodomain TFs that recognize a TAAT motif. For most of these TFs, DNA shape was more important at the 3′ side of the core motif, as indicated by the darkness of colors (Fig 5). Homeodomain TFs that recognize a different motif, for example, TCRTAAA, were shown to have a different positional DNA shape preference (Appendix Fig S4F). Positional preferences were also protein-family specific. For example, for bHLH TFs DNA shape features in both flanking regions were important, whereas for nuclear receptors that bind to an ACANNNTGT motif the central motif region was generally important (Appendix Fig S4A and H). In comparison, bZIP TFs that bind to a TTRCGC motif and homeodomain TFs were generally sensitive to DNA shape features at only one flanking side of the core motif (Appendix Fig S4B and F).

The exact positions where DNA shape features are important were not unambiguously pinpointed for the bHLH TFs and the nuclear receptors that bind to an ACANNNTGT motif (Appendix Fig S4A and H). Both Appendix Fig S4A and H relate to a scenario where the red heat map shows prominent shape effects in multiple consecutive positions, whereas the blue heat map shows almost no effects. We believe that this is due to false positives in the red heat map, that is, positions that are not important for shape readout but identified as such, and false negatives in the blue heat map, that is, positions that are important for shape readout that were not identified. We conclude in this case that DNA shape is important in some positions in the consecutively red regions, but we failed to locate it, even with the help of the blue heat map.

We illustrated the relevance of feature importance heat maps derived from feature-selection approaches by considering experimental structures of the homeodomain proteins PITX2 (PDB ID 2LKX) and GBX1 (PDB ID 2ME6) in complex with DNA (Fig 6A and B). These structures provide possible explanations for entries representing PITX3 and GBX1 on the heat maps (Fig 5). As no experimental structure for PITX3 is available, we used an NMR structure for PITX2 (Chaney et al, 2005 ), which shares the same DNA-binding domain as PITX3. In the heat maps, PITX3 has darker colors at the 3′ side of the TAAT motif, indicating a more important role of DNA shape at these positions. In the PITX2 structure, the N-terminal tail of the protein interacts with DNA in the minor groove of the TAAT motif. The structure contains a narrow minor groove region near the second A within the TAAT motif (Fig 6A). In this case, the protein might exploit the DNA structural characteristics at positions highlighted in the heat maps to achieve its binding specificity.

Figure 6. Three-dimensional structure and DNA sequence and shape logos for the homeodomain TFs PITX2/PITX3 and GBX1

  1. NMR structure of PITX2 in complex with DNA (PDB ID 2LKX) and the CURVES (Lavery & Sklenar, 1989 ) derived plot for the MGW of the bound DNA.
  2. NMR structure of GBX1 in complex with DNA (PDB ID 2ME6) and the CURVES (Lavery & Sklenar, 1989 ) derived plot for the MGW of the bound DNA.
  3. DNA sequence and shape logos for PITX3.
  4. DNA sequence and shape logos for GBX1.

We observed similar concurrence between heat map and structural analyses for the TF GBX1, where the structure has a narrow minor groove region at the 3′ flank (Fig 6B). Although the positions indicated by the heat maps do not match the positions in the structure in an exact way, the heat maps successfully highlighted those nearby positions. Moreover, the heat maps were consistent with our conclusion that DNA shape features in flanking regions are important for TFDNA binding specificities (Fig 3D–F). In addition to the homeodomain family, we used a structure of the human progesterone receptor (PDB ID 2C7A) from the nuclear receptor family to illustrate how the heat maps can provide hints to the structural mechanisms of proteinDNA binding. In the structure (Roemer et al, 2006 ), MGW, Roll, and ProT show distinct characteristics in the central region of the DNA-binding site, which potentially explains the central “red” regions in the heat maps (Appendix Fig S6).

DNA shape logos represent structural readout mechanisms

To visualize the detailed DNA shape preferences of individual TFs, we propose a new visualization, DNA shape logos, analogous to sequence logos for PWMs. In these logos, we used the letters H, M, P, and R to represent DNA shape features HelT, MGW, ProT, and Roll, respectively. The height of each letter indicates the importance derived from the feature-selection analysis for the corresponding DNA shape feature at a specific position (Fig 6). As an example, we used ΔR 2 , that is, the performance gain due to adding an individual DNA shape feature to a 1mer model, to generate shape logos for PITX3 and GBX1 (Fig 6C and D). For PITX3, a prominent M at positions 7, 8, 9, and 10 overlaps with the narrow minor groove region in the structure. Similarly, for GBX1, a prominent M at positions 7 and 8 overlaps with the narrow minor groove in the structure. DNA shape information was missing for the two nucleotide positions at each end of the TFBS thus, no letters are shown at these positions in the shape logo. DNA shape logos can facilitate the integration of structural information in motif finding tools. Sequence and shape logos for all the TFs studied in this work are provided as Datasets EV1 and EV2, respectively.


4 Contact:

Repetitive elements in DNA sequences consist two or more copies of approximate patterns of nucleotides and are abundant in both prokaryotic and eukaryotic genomes. Over two-thirds of the human genome and 5 - 10 % bacterial genomes are repetitive regions (de Koning et al., 2011) . Repetitive elements play important roles in genome structure and functions such as nucleoprotein complex formation, chromosome structure, and gene expression. Various diseases including cancer and neurodegentive disease can also arise from changes of repetitive elements. The distribution of repetitive DNA sequences can be used as fingerprints of bacterial genomes (Versalovic et al., 1991) and human individuals.

Repetitive elements are complex structures. They may exist as imperfect tandem repeats, insertion and deletions in repeats, interspersed repeats, and palindromic sequences, etc. These partial and hidden repeat signals in DNA sequences are difficult to analyze through straightforward observation and sequence comparison.

Currently, repetitive elements and hidden periodicities of DNA and protein sequences are primarily detected by digital signal processing and statistical approaches (Treangen and Salzberg, 2011) . In most signal processing methods, DNA sequences are converted to numerical sequences, and the hidden periodicities arising from repetitive elements can be identified by Fourier power spectrum at specific periodicities (Yin and Wang, 2016)

. Commonly used signal processing methods by Fourier transform include SRF maps

(Sharma et al., 2004) , spectral analysis (Buchner and Janjarasjitt, 2003) , Ramanujan-Fourier transform (Yin et al., 2015) , and the periodic power spectrum method (Yin and Wang, 2016) . The statistical methods are based on distribution analysis of nucleotides in DNA sequences. The common statistical methods for repeat findings are tandem repeats finder (Benson, 1999) and statistical spectrum (Epps et al., 2011)

(Arora and Sethares, 2007) , and information decomposition (Korotkov et al., 2003) . Besides signal processing and statistical approaches, sequence alignments such as RepeatMask are also used to identify repetitive patterns in genomes, and but require a known reference repeat sequence.

Despite significant advances in repeat finding, it is still difficult to precisely capture the essential features of repetitive elements such as consensus patterns, perfect levels and copy numbers of repeats. For example, while Fourier transform is the most common used approach for finding repeats, it may not exactly correlate the strength of Fourier power spectrum with the perfect level of repeat patterns. Furthermore, since Fourier power spectrum is weak for short DNA sequences and long harmonious periodicities are embedded in short periodicities, Fourier transform can not capture repeats in short DNA sequences and long harmonious periodicities. Moreover, the relationship between repetitive elements and periodicities of genomes is not fully understood. Thus there is a high potential for improving the accuracy for identifying repetitive elements and better understanding the relationship of periodicities and repeats in DNA sequences (Suvorova et al., 2014 Epps et al., 2011 Illingworth et al., 2008) .

In this paper, we present an ab initio method to quantitatively identify repetitive sequences and periodicities in DNA sequences. The method is based on the nucleotide distribution uniformity at periodic positions in DNA sequences or genomes. The distribution uniformity of nucleotides reflects the unbalance of nucleotide frequencies on periodic positions and thus can indicate the strength for periodic signals in DNA sequences. The method can also reveal the consensus repeat pattern for the major periodicity of DNA sequences, and quantitatively determine the perfect level and copy numbers of repetitive sequences. The proposed method also formulates the relationship between repetitive elements and the corresponding periodicities in DNA sequences.


Experimental procedures

Bacterial strains and growth conditions

Helicobacter pylori strains (Table S1) were grown on solid horse blood agar (HB) plates containing 4% Columbia agar base (Oxoid), 5% defibrinated horse blood (HemoStat Laboratories), 0.2% β-cyclodextrin (Sigma), 10 µg ml −1 vancomycin (Sigma), 5 µg ml −1 cefsulodin (Sigma), 2.5 U ml −1 polymyxin B (Sigma), 5 µg ml −1 trimethoprim (Sigma), and 8 µg ml −1 amphotericin B (Sigma) at 37°C either under a microaerobic atmosphere generated using a CampyGen sachet (Oxoid) in a gas pack jar or in an incubator equilibrated with 14% CO2 and 86% air. For liquid culture, H. pylori was grown in Brucella broth (Difco) containing 10% fetal bovine serum (BB10, Invitrogen) with shaking in a gas pack jar containing a CampyGen sachet. For resistance marker selections, bacterial media were additionally supplemented with 15 µg ml −1 chloramphenicol (Cm, Sigma), 25 µg ml −1 kanamycin (Kan, Fisher Scientific) 2.5 µg ml −1 erythromycin (Ery, Fisher Scientific) or 36 µg ml −1 metronidazole (Mtz, Sigma).

DNA manipulations

DNA manipulations, such as restriction digestion, PCR and agarose gel electrophoresis, were performed according to standard procedures ( Ausubel et al., 1997 ). H. pylori genomic DNA (gDNA) was prepared by Wizard genomic DNA preparation kits (Promega). Primers used for PCR and sequencing are described in Table S2. Plasmid DNA (Table S3) was isolated and prepared from E. coli using Qiagen Maxiprep kit (Qiagen). The FHCRC Genomics Shared Resource performed the sequencing of plasmid DNA and PCR products and the resulting sequences were analysed using Sequencher (Gene Codes Corporation).

Generation of H. pylori knockout isogenic mutants

Knockout alleles were constructed in H. pylori NSH57 using a vector-free allelic replacement strategy to generate alleles in which a non-polar kanamycin resistance (aphA3) cassette ( Menard et al., 1993 ), an erm cassette conferring resistance to erythromycin ( Lampson and Parisi, 1986 Dailidiene et al., 2006 ), or a chloramphenicol acetyl transferase (gato) resistance cassette fused to a sucrose sensitivity marker (sacB) ( Copass et al., 1997 Humbert and Salama, 2008 ) replaced 80–90% of the coding sequence of the gene while preserving the start and stop codons. The primers used for this procedure are designated as 1 through 4 and are given in Table S2. After natural transformation with the appropriate PCR product and selection on Kan-, Ery- or Cm-containing media, four clones were evaluated by PCR to confirm replacement of the WT allele with the null allele. los ΔrecJ::kanΔaddA 852-2540 double mutant was generated by transforming strain ΔrecJ::kanΔaddA::catsacB with a PCR product digested with SspI (New England Biolabs) and ligated with T4 DNA ligase (Invitrogen) to delete a 1.7 kbp intergenic region in addA. Transformants were selected on sucrose-containing HB plates, screened on Cm-containing media and checked by PCR to confirm the addA deletion. Urease activity and flagella-based motility were confirmed for all the clones generated. Single clones were used for transformation experiments.

Generation of H. pylori complemented mutants

Constructs for chromosomal complementation at the rdxA locus were made by cloning each gene individually into pLC292 ( Terry et al., 2005 ), which were then introduced into H. pylori NSH57 by natural transformation and selection on Mtz-containing media ( Dailidiene et al., 2006 ). Each gene was amplified using primers -XbaI and -SalI (Table S2) from H. pylori NSH57 gDNA using high-fidelity Taq polymerase (Platinum Taq, Invitrogen). The resulting PCR product was digested with XbaI and SalI (New England Biolabs), ligated into pLC292, and electroporated in E. coli strain DH10B or XA90 ( Ezaz-Nikpay et al., 1994 ) for pOH10 (Table S3). All inserted genes were fully sequenced and contained the expected nucleotide sequences.

Natural transformation

To generate knockout and complemented mutant strains of H. pylori, bacteria were freshly grown for 24–32 h on HB plates, transferred as patches onto fresh plates and grown for an additional 6–8 h. DNA (plasmid or PCR product) was diluted as appropriate in distilled water and 10 µl was added to each patch and incubated overnight. The mixture was harvested from the plate surface, resuspended in 350 µl phosphate-buffered saline (PBS) and plated onto selective HB plates.

To assess the frequency of natural transformation, recipient H. pylori bacteria freshly grown on HB plates were resuspended in 350 µl BB10 media and used to inoculate a 5 ml liquid culture grown for 6–8 h. The optical density at 600 nm (OD600) of this culture was measured and the culture was diluted back to OD600 0.015 to reach logarithmic phase of growth (OD600∼1) after overnight incubation. One hundred microlitres of recipient bacteria was dispensed in a flat-bottom 96-well plate and transformed in duplicates or triplicates with 10 µl of 1 ng µl −1 donor gDNA. Donor gDNA was constructed by inserting the gato resistance cassette at bp 483 in gene cagH de H. pylori strain NSH57 and J99 (hpG27-499 and jhp0489 respectively). To measure transformation of the ΔdprA mutant, donor gDNA was isolated from the G27 cag2::aphA3-sacB clone ( Pinto-Santini and Salama, 2009 ). After 3 h incubation, 50 µl and 5 µl of the mixture were plated on Cm or Kan HB plates and 20 µl of a 10 −5 dilution was plated on plain HB plates to determine the total number of viable bacteria. Transformation frequency was calculated as the number of Cm or Kan resistant colonies per colony-forming unit.

In the co-culture experiment, NSH57 and J99 ΔcomB10::ermΔcagH::cat were used as donor strains and to maximize DNA released in the culture media, we grew donor bacteria to stationary phase before mixing them with the recipient strain. ΔcomB10 strains show no detectable transformation ( Dorer et al., 2010 ) ensuring unidirectional transformation in the co-culture assay. Recipient strains NSH57 hp0203-hp0204::aphA3 ( Langford et al., 2006 ) and Δhpy188IIIR::aphA3ΔhpyCH4VR::erm were grown to logarithmic phase as described above and mixed at equal volume with the donor strains in a flat-bottom 96-well plate. After 3 h co-incubation, 100 µl of the mixture was plated on Cm + Kan HB plates to select for recombinant clones and 20 µl of a 10 −5 dilution was plated on Kan HB plates to determine the total number of recipient bacteria.

Mapping of integration end-points

Chromosomal DNA of the transformants was prepared and 5–7 kbp of the regions upstream and downstream of the gato marker were amplified by PCR using primer pairs -6FcagH/cagH::cat-3 and cagH::cat-4/5RcagH (Table S2) respectively. The resulting PCR products were purified with the DNA clean and concentrator-5 kit (Zymo Research) and digested with the appropriate restriction enzymes for a minimum of 4 h (New England Biolabs) or sequenced by the FHCRC Genomics Shared Resource.

Sensitivity to UV and antimicrobial agents

UV sensitivity assays were carried out as described previously ( Amundsen et al., 2008 ). For antimicrobial sensitivity testing, H. pylori were grown overnight in liquid culture to OD600 = 0.3, and 200 µl was plated on solid medium lacking all other antimicrobials, and incubated for 30 min in a CO2 incubator. mi-test strips (AB Biodisk) were then placed on the plates, which were further incubated for two days and read according to the manufacturer's instructions.

Statistical analysis

A t-test was used to compare the mean of integration lengths or transformation frequency between WT bacteria and mutant clones and those comparisons resulting in a PAG-value of < 0.05 were considered significant. All statistical analyses were performed using the SAS version 9.1 software (SAS Institute, Cary, NC, USA).

In silico genomic analysis

Helicobacter pylori sequences were retrieved from the H. pylori genome browser http://hpylori.ucsc.edu/. Para H. pylori strain NSH57, the sequence of the parent strain G27 was used ( Baltrus et al., 2009 ). The distribution of restriction sites and single nucleotide polymorphism was analysed with Sequencher (Gene Codes Corporation).


6.4: Restriction Mapping

  • Contributed by Michael Blaber
  • Professor (Biomedical Sciences) at Florida State University

los restriction/modification system in bacteria is a small-scale immune system for protection from infection by foreign DNA.

In the late 1960's it was discovered that E. coli contains enzymes that will methylate specific nucleotide bases in ADN

· Different strains of E. coli contained different types of these methylases

  • Typical sites of methylation include the norte6 position of adenine, los norte4 position of cytosine, or the C5 position of cytosine.

Figure 6.4.1:Methylation sites

  • In addition, only a fractional percentage of bases were methylated (i.e. not every adenine was methylated, for example) and these occurred at very specific sites in the DNA.
  • A characteristic feature of the sites of methylation, was that they involved palíndromo DNA sequences.
  • Here is an example from a particular E. coli strain R1:

Figure 6.4.2:Palindromic DNA

(EcoR1 methylase specificity. Rubin and Modrich, 1977)

  • In addition to possessing a particular methylase, individual bacterial strains also contained accompanying specific endonuclease activities.
  • The endonucleases cleaved at or near the methylation recognition site.

Figure 6.4.3:Cleavage near methylation site

  • These specific nucleases, however, would no cleave at these specific palindromic sequences if the DNA was methylated.

Thus, this combination of a specific methylase and associated endonuclease functioned as a type of immune system for individual bacterial strains, protecting them from infection by foreign DNA (e.g. viruses).

  • In the bacterial strain EcoR1, the sequence GAATTC will be methylated at the internal adenine base (by the EcoR1 methylase).
  • The EcoR1 endonuclease within the same bacteria will no cleave the methylated DNA.
  • Foreign viral DNA, which is not methylated at the sequence "GAATTC" will therefore be recognized as "foreign" DNA and voluntadbe cleaved by the EcoR1 endonuclease.
  • Cleavage of the viral DNA renders it non-functional.

Such endonucleases are referred to as "restriction endonucleases" because they restrict the DNA within the cell to being "self".

The combination of restriction endonuclease and methylase is termed the "restriction-modification" system.

Since different bacterial strains and species have potentially different R/M systems, their characterization has made available cientos of endonucleases with different sequence specific cleavage sites.

  • They are one of the primary tools in modern molecular biology for the manipulation and identification of DNA sequences.
  • Restriction endonucleases are commonly named after the bacterium from which it was isolated.

Arthrobacter luteus

"Four cutter". Leaves blunt ends to the DNA.

Bacteroides fragilis

"Four cutter". Leaves 5' overhang.

Neisseria cinerea

"Five cutter". Middle base can be either cytosine or guanine. Leaves 5' overhang. Different recognition sites may have non-complementary sequences.

"Six cutter". Leaves 5' overhang. Behaves like a "four cutter" ('star' activity) in high salt buffer. $44 for 10,000 units.

Haemophilusaegyptius

"Six cutter". Pu is any purine, Py is any pyrimidine. Leaves 3' overhang.

"Seven cutter". Pu is any purine, Py is any pyrimidine, N is any base. Leaves 5' overhang. Different recognition sites may have non-complementary sequences.

"Six cutter with interrupted palindrome". Leaves 5' overhang. Different recognition sites may have non-complementary sequences.

Bacillusstearothermophilus

"Six cutter". Different recognition sites voluntad be complementary.

Acetobacter aceti

"Six cutter" with 3' overhang. Same recognition sequence as Bsa HI, but different cleavage position.

Non-palindrome, distal cleavage. Leaves 3' overhang. $50 for 50 units.

Nocardiaotitidiscaviarum

"Eight cutter". Leaves 5' overhang.

Bacillusstearothermophilus

  • The utility of restriction endonucleases lies in their specificity and the frequency with which their recognition sites occur within any given DNA sample.
  • If there is a 25% probability for a specific base at any given site, then the frequency with which different restriction endonuclease sites will occur can be easily calculated (0.25 n ):

Frequency of Occurrence

1 Alu site in every 256 bases (0.25 Kb)

1 Nci I site in every 1024 bases (1.0 Kb)

1 EcoR1 site in every 4,096 bases (4.1 Kb)

1 EcoO109I site in every 16,384 bases (16.4 Kb)

1 Not I site in every 65,536 bases (65.5 Kb)

Thus, on average, any given DNA will contain an Alu I site every 0.25 kilobases, whereas a Not I site occurs once about every 65.5 kilobases.

  • Not I is therefore a very useful enzyme for isolating large regions of DNA, typically in research involving genomic DNA manipulations.
  • Alu I would be expected to digest a DNA sample into lots of little pieces.

The assortment of DNA fragments would represent a specific "fingerprint" of the particular DNA being digested. Different DNA would not yield the same collection of fragment sizes. Thus, DNA from different sources can be either matched or distinguished based on the assembly of fragments after restriction endonuclease treatment. These are termed "Restriction Fragment Length Polymorphisms", or RFLP's. This simple analysis is used in various aspects of molecular biology as well as a law enforcement and genealogy. For example, genetic variations that distinguish individuals also may result in fewer or additional restriction endonuclease recognition sites.


Introducción

Comparative sequence analysis has had a major impact on molecular biology and genetics. Comparison of the sequences of protein-coding genes between multiple species has enabled prediction of gene function [1], identification of protein domains [2], prediction of functional amino acid residues [3,4], and detection of signals of natural selection at the level of whole genes [5] and individual codons [6,7]. Inferring non-neutral sequence elements in the human genome is of considerable interest even without a specific a priori hypothesis concerning their possible functional role(s). On a general level, for example, sequence conservation may considerably inform human genetic studies seeking to identify allelic variants associated with disease phenotypes, particularly in noncoding regions [8]. The effect of human SNPs at the level of molecular function and phenotype depends on the importance of the individual nucleotide position, whereas the information of the sequence region as a whole is not necessarily relevant. For example, about half of human SNPs within protein coding genes are represented by synonymous variants, which are likely to be of limited importance, even though they are embedded within highly conserved exonic sequences. In addition, a subset of individual nucleotides conserved in four mammalian genomes were shown to be under selective pressure [9]. A position-specific measure of selective constraint is therefore highly suitable for analysis of positions that are polymorphic within the human population.

Several algorithms have been developed for detection and scoring of sequence conservation in the context of a multispecies sequence alignment. However, to date these approaches have been applied almost exclusively to detect discrete regions with elevated average sequence conservation that typically extend for up to hundreds of contiguous bases [10–14]. Such regions encompass canonical coding exons, as well as so-called “conserved noncoding sequences” that presumably result from purifying selection, and are thereby indicative of functional importance [15,16].

Recently, comparative genomic sequence of unprecedented depth has been generated by sequencing of multiple mammalian and other vertebrate genomes orthologous to 1% of the human genome defined by the ENCODE regions [17,18]. Several alignment techniques have been applied to construct multiple sequence alignments within ENCODE regions [18]. These alignments have in turn been subjected to analysis with existing sequence conservation detection algorithms, including phastCons[10], GERP [11], and BinCons [13]. The conserved regions identified by these analyses show statistically significant overlap with experimentally identified coding and noncoding functional elements. However, the majority of experimentally characterized noncoding functional elements fall outside of currently delineated conserved regions, and, conversely, most conserved regions were located outside of experimentally detected elements [18]. The fact that many functional elements reside in noncoding regions that do not exhibit uniformly high conservation is perhaps not surprising given that binding sites for transcriptional factors that mediate many biological processes are quite plastic evolutionarily [19]. Conversely, many individual nucleotides located outside of well-defined conserved regions exhibit sequence conservation across multiple species. Such conservation may be due to mere chance or, for a certain fraction of these nucleotides, may reflect their importance for fitness and hence function. The aforementioned observations emphasize the need for higher resolution methods for analysis of evolutionary conservation within functional elements and generally across the genome.

Here we develop an approach for analyzing sequence conservation at the individual base-pair level, with an aim toward correlating conservation with human genetic variation and with functional genomic annotations. We present a new probabilistic conservation score, SCONE (Sequence Conservation Evaluation). SCONE provides conservation scores for individual nucleotide positions, and can be applied to predict continuous sequence regions with an elevated level of conservation.

We apply SCONE to the study of annotated functional elements and human sequence polymorphism. We focus on the statistical distribution of position-specific conservation scores rather than on the bulk overlap between conserved regions and functional features. It is clear from the outset that the power to detect conservation at the single base-pair resolution is limited, even when comparing multiple species [20]. We surmount this obstacle by deriving considerable statistical power from combined analysis of numerous individual nucleotide positions from many genomic regions. While this analysis does not allow us to detect individual functional positions accurately, we can show that, collectively, a subset of noncontiguous individual positions are important. A key advantage of the analysis of the distribution of position-specific scores is that it is unbiased with respect to the pattern of conservation along a given sequence region. SCONE thus has the potential to analyze putative functional elements in which the conservation signal is not homogeneous or manifested by exon-like contiguous conserved stretches.

We report herein on the relationship between sequence conservation, functional sequence elements, and human allelic variation, as revealed by single-nucleotide conservation analysis.


Nota del editor Springer Nature permanece neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Extended Data Fig. 1 Highly efficient base editing by A3A-BE4max or hyA3A-BE4max in mouse embryos.

(a, b) Genotyping of F0 generation pups by A3A-BE4max and hyA3A-BE4max. The frequencies of WT and mutant alleles were determined by analyzing HTS using BE-analyzer. The percentage on the right represents the frequency of the indicated mutant allele with the corresponding mutation-induced amino acid conversion shown in parentheses. The frequency of the wild-type allele was omitted. Wt, wild-type.

Extended Data Fig. 2 Off-target analysis and germline transmission of the founders derived from hyA3A-BE4max injection.

(a) HTS was performed with mouse tails to determine editing efficiencies at 15 potential off-target sites in three Dmd mutant F0 mice (#BD03, #BD04 and #BD07). Mismatched nucleotide letters are indicated in lowercase. Data are means ± SD (n = 3 mice).(B) HTS alignments of mutant sequences from F1 generated by mating founder #BD12(♀) with Wt (♂). The column on the right indicates frequencies of mutant alleles. Wt, wild-type.Statistical source data are provided in Source Data Extended Data Fig. 2.

Extended Data Fig. 3 Comparison of base editing efficiency and protein levels by CBEs and hyCBEs in HEK293T cells.

(a)Comparison of base editing efficiency induced by A3A-BE4max or hyeA3A-BE4max in HEK293T cells. The average mutation percentage derived from three independent experiments of A3A-BE4max and hyeA3A-BE4max at the same site is listed. Some of the data (hyeA3A-BE4max) are the same as presented in Fig. 4a. Statistical source data are provided in Source Extended Data Fig. 3. (B) The protein levels of BE4max, hyBE4max, A3A-BE4max, hyA3A-BE4max, eA3A-BE4max and hyeA3A-BE4max were determined by Western blotting in HEK293T cells 3 days after transfection of similar amounts of plasmid DNA. Specific antibodies against Cas9 (top) or GAPDH (bottom) were used. Western blotting images are representative of three independent experiments. Unprocessed blots are shown in Source Data Extended Data Fig. 3.

Extended Data Fig. 4 Comparison of base editing product purity induced by variant base editors in HEK293T cells.

(a) Comparison of base editing products induced by BE4max vs hyBE4max. HTS data were analyzed and the ratio of each type of nucleotides was listed on each target position. Data are means ± SD (n = 3 independent experiments). (B) Comparison of base editing products induced by A3A-BE4max vs hyA3A-BE4max. HTS data were analyzed and the ratio of each type of nucleotides was listed on each target position. Data are means ± SD (n = 3 independent experiments) (C) Comparison of base editing product induced by eA3A-BE4max vs hyeA3A-BE4max. HTS data were analyzed and the ratio of each type of nucleotides was listed on each target position. The individual data points are shown as black (C > T), light green (C > A) and light red (C > G) dots. Data are means ± SD (n = 3 independent experiments). Statistical source data are provided in Source Data Extended Data Fig. 4.

Extended Data Fig. 5 Whole genome sequencing of Dmd F0 (#DD11) and wild-type (Wt) mice.

(a) Summary of genome sequencing analysis. WGS for a Dmd mutant mouse (#DD11) and a wild type mouse (Wt) were performed. A total of 82,573 and 62,359 SNPs were identified for #DD11 and Wt, respectively. After filtering out dbSNP (naturally occurring variants in the SNP database), 20,387 SNPs were obtained in the #DD11 genome. Then the sequences at the remaining SNP sites were compared with all on-/off-target sequences (20 bp). (B) Summary of on-/off-target site information. A total of 175,058 sites, including 1 on-target site and 20 374 2,869 22,335 and 148,569 off-target sites with 3, 4, 5, 6, or 7 mismatch/es, respectively, were analyzed. (C) Summary of the whole-genome sequencing. (D) Summary of off-target analysis. After comparing the sequences at the remaining SNP sites with the 175,058 on-/off-target sequences (20 bp), the C-to-T substitution was only detected within the on-target sequencing in #DD11. (mi) Validation the off-target candidate site determined in (d) using targeted deep sequencing of genomic DNA isolated from various #DD11 organs (heart, liver, lung and tail). Mismatched nucleotides and PAM sequences are shown in red and in blue, respectively. Data represent mean from two independent experiments. Statistical source data are provided in Source Data Extended Data Fig. 5.


Ver el vídeo: Ejercicios de transcripción y traducción del ADN - 1ro BGU (Junio 2022).


Comentarios:

  1. Odel

    Le aconsejo que busque un sitio, con artículos sobre un tema interesante de usted.

  2. Akiramar

    Pido disculpas, pero ¿podrías describir con un poco más de detalle?

  3. Samushakar

    y pensé que se lo leería a los principiantes... (siempre es así) dice bien - es breve y cómodo de leer y comprender.

  4. Osker

    Lo leí tanto que me perdí mi programa favorito)

  5. Yuki

    ¡Te lo recordaré! Voy a pagar con usted.

  6. Shaktigis

    Qué palabras necesarias ... genial, un pensamiento magnífico



Escribe un mensaje