Información

Notación para ácidos nucleicos repetitivos

Notación para ácidos nucleicos repetitivos



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Con respecto a los ácidos nucleicos con residuos repetidos, ¿alguien podría proporcionar una descripción de cuáles son las siguientes secuencias y las diferencias clave entre ellas?

  • Poli (dA)
  • Oligo (dA)
  • Poli (A)

dNdenota desoxirribonucleósido (dondenortepuede serA,T,GRAMOoC). Si no hayDprefijo, entonces denota un ribonucleósido.

Respecto a la diferencia entre escuela politécnica y oligo:

El primero se refiere a tener un gran número de unidades monoméricas mientras que el segundo significa tener unas pocas unidades monoméricas. No existe una definición estricta del límite entre escuela politécnica y oligo. Poli-A las colas tienen típicamente alrededor de 70-80nt de largo en levadura (Eckmann et al. 2010). Entonces, lógicamente se sigue que cualquier cosa más corta que eso debería llamarse un oligo-A. Los tramos de ADN sintetizados químicamente a menudo se denominan oligos aunque hoy en día se pueden sintetizar más de 80 n de ADN / ARN de longitud. Además, un tramo deComoen algunos mamíferos ARNm más pequeños que la longitud habitual de ~ 150-250 todavía se conoce como un cola corta poli-A en lugar de un oligo-A cola (Jalkanen et al. 2014; hay muchos más ejemplos).

Además, incluso si el límite es, digamos, 100 unidades, no se aplica a las proteínas. Una proteína con 100 aminoácidos todavía se considera un polipéptido y no un oligopéptido. En el caso de los péptidos, el límite suele ser de ~ 30.

Entonces, concluiría que el uso de estos prefijos es bastante contextual.


Cristalografía

Cristalografía es la ciencia experimental de determinar la disposición de los átomos en sólidos cristalinos (ver estructura cristalina). La palabra "cristalografía" se deriva de las palabras griegas crystalon "gota fría, gota congelada", cuyo significado se extiende a todos los sólidos con cierto grado de transparencia, y grafeína "escribir". En julio de 2012, las Naciones Unidas reconocieron la importancia de la ciencia de la cristalografía al proclamar que 2014 sería el Año Internacional de la Cristalografía. [1]

Antes del desarrollo de la cristalografía por difracción de rayos X (ver más abajo), el estudio de los cristales se basaba en mediciones físicas de su geometría utilizando un goniómetro. [2] Esto implicó medir los ángulos de las caras de los cristales entre sí y con los ejes de referencia teóricos (ejes cristalográficos), y establecer la simetría del cristal en cuestión. La posición en el espacio 3D de cada cara de cristal se traza en una red estereográfica como una red de Wulff o una red de Lambert. El poste de cada cara está trazado en la red. Cada punto está etiquetado con su índice de Miller. El gráfico final permite establecer la simetría del cristal.

Los métodos cristalográficos ahora dependen del análisis de los patrones de difracción de una muestra dirigida por un haz de algún tipo. Los rayos X se utilizan con mayor frecuencia, otros haces utilizados incluyen electrones o neutrones. Los cristalógrafos a menudo establecen explícitamente el tipo de haz utilizado, como en los términos Cristalografía de rayos X, difracción de neutrones y difracción de electrones. Estos tres tipos de radiación interactúan con la muestra de diferentes formas.

  • Los rayos X interactúan con la distribución espacial de electrones en la muestra.
  • Los electrones son partículas cargadas y, por lo tanto, interactúan con la distribución de carga total tanto de los núcleos atómicos como de los electrones de la muestra.
  • Los neutrones son dispersados ​​por los núcleos atómicos a través de las fuerzas nucleares fuertes, pero además, el momento magnético de los neutrones es distinto de cero. Por lo tanto, también están dispersos por campos magnéticos. Cuando los neutrones se dispersan de materiales que contienen hidrógeno, producen patrones de difracción con altos niveles de ruido. Sin embargo, el material a veces se puede tratar para sustituir el hidrógeno por deuterio.

Debido a estas diferentes formas de interacción, los tres tipos de radiación son adecuados para diferentes estudios cristalográficos.


MATERIALES Y MÉTODOS

El trabajo que se presenta aquí consta de dos partes: la construcción inicial de las estructuras secundarias atípicas y las posteriores simulaciones de MD basadas en el modelo inicial de triple hélices. Se construyeron las estructuras iniciales para las triples hélices. de novo utilizando hebras simples con tres repeticiones (nueve nucleótidos) cada una, el proceso implica tanto la determinación cuidadosa de los enlaces de hidrógeno relevantes entre la tercera hebra y el dúplex canónico, como el ensamblaje de las tres hebras. El proceso de modelado y las estructuras iniciales resultantes se describen en la siguiente sección.

Las simulaciones de MD se realizaron con el paquete Amber18 (58) con campo de fuerza BSC1 (59) (parte de ADN) y BSC0 (60) + OL3 (61) (parte de ARN) para diferentes estructuras atípicas combinado con el campo de fuerza AMBER protonado ( 62). La protonación se completó con tleap (58). Las simulaciones para la tercera hebra de pirimidina se realizaron con y sin protonación para la citosina. El modelo de agua TIP3P (63) se utilizó para las simulaciones explícitas de solventes bajo condiciones de contorno periódicas en cajas de agua de octaedro truncado. Se usó el número apropiado de iones Na + (parámetros en (64)) para neutralizar las cargas de ácido nucleico. Se realizaron simulaciones adicionales con iones Mg 2 + (parámetros en (65)) en una concentración de 0,20 M, con iones Cl - añadidos para la neutralización. En una corrida, apR se corrió adicionalmente con concentraciones de 40 y 80 mM.

La electrostática se manejó mediante el método Particle Mesh Ewald (66), con un corte de espacio directo de 9 Å. El límite para las interacciones de van der Waals se estableció en 9 Å. Usamos la dinámica de Langevin con un parámetro de acoplamiento de 1.0 ps −1. El algoritmo SHAKE (67) se aplicó a todos los enlaces que implican átomos de hidrógeno. Los enlaces de hidrógeno fueron identificados por cpptraj como suministrados por ambertools18 (58) con un corte de distancia de 3,5 Å y un corte de ángulo de 140 °.

Las conformaciones iniciales para los cálculos de MD se obtuvieron como sigue. Primero minimizamos la energía para las conformaciones iniciales obtenidas mediante el modelado: primero, manteniendo el ácido nucleico y los iones fijos y luego, permitiéndoles moverse. Posteriormente, la temperatura se elevó gradualmente utilizando simulaciones de volumen constante de 0 a 300 K en corridas de 50 ps con un intervalo de tiempo de 1 fs. Luego, se usó una corrida de 100 ps a volumen constante para reducir gradualmente las constantes armónicas restrictivas para los ácidos nucleicos y los iones. Después de que obtuvimos las conformaciones iniciales, realizamos corridas de MD durante 1 μs con un paso de tiempo de 2 fs bajo una presión constante de 1 atm. Las conformaciones se guardaron cada 20 ps. En las carreras MD, restricciones débiles de 1kcal/mol en enlaces de hidrógeno para las bases finales se agregaron al sistema con el fin de reducir el deshilachado artificial en los extremos.

También realizamos una prueba con el mismo método y procedimiento mencionado anteriormente para una estructura de triple hélice de ADN obtenida experimentalmente con citosina protonada cuyo ID de PDB es 1BWG (68). Después de una simulación MD de 1 μs, encontramos que el triplex era estable y muy cercano a la conformación experimental. Para investigar más a fondo la estabilidad de las estructuras seleccionadas, también realizamos ejecuciones de MD a temperaturas más altas con todas las demás configuraciones computacionales siendo las mismas que las anteriores.


INTRODUCCIÓN

La información de la vía que describe las interacciones entre moléculas en los procesos biológicos puede ayudar a resolver problemas de investigación, como la interpretación de datos genómicos (1), la generación de hipótesis en torno a los mecanismos de la enfermedad (2, 3), el diseño de terapias racionales (4) y las estrategias de decisión del tratamiento. (5).

El número de recursos disponibles de vía e interacción casi se ha triplicado durante la última década, de 190 en 2006 a 702 en 2018 (6) (www.pathguide.org), aumentando la necesidad de integración. Desafortunadamente, hacer que este conocimiento esté disponible para la comunidad de investigadores se ha visto obstaculizado por la fragmentación del uso de diversos esquemas de representación de datos y software, lo que dificulta la combinación y el uso de la información de vías de múltiples fuentes.

Pathway Commons (PC) es un recurso que agrega datos de las bases de datos de vías biológicas e interacciones moleculares disponibles públicamente y los proporciona desde un único punto de acceso en la web (7). De esta manera, la PC facilita la integración y el intercambio de descripciones a nivel molecular de vías metabólicas y de señalización, interacciones moleculares y genéticas y redes de regulación de genes. Los datos se recopilan de proveedores en los formatos Biological Pathway Exchange (BioPAX) Nivel 3 (8) y Proteomics Standards Initiative Molecular Interaction (PSI-MI) (9), y se almacenan uniformemente en formato BioPAX. El uso de la ontología y el formato BioPAX permite a la PC capturar, de manera uniforme y consistente, detalles relacionados con genes, macromoléculas (proteínas) y moléculas pequeñas y su participación en diferentes tipos de interacciones físicas, como reacciones bioquímicas, catálisis, postraduccionales. modificaciones de proteínas, ensamblaje complejo y transporte. Los datos de PSI-MI capturan interacciones moleculares de experimentos a pequeña y gran escala. Estas descripciones están ricamente comentadas con enlaces a citas, evidencia experimental e información de bases de datos externas, por ejemplo, anotaciones de secuencias de proteínas. PC tiene como objetivo agregar valor a las bases de datos de origen curadas al normalizar, integrar y exportar datos de manera que simplifiquen el uso.

La PC se ha utilizado para analizar datos de transcriptómica, proteómica y metabolómica en un gran número de proyectos sobre enfermedades para ampliar nuestra comprensión de la biología humana en la salud y la enfermedad (4, 10-17). Desde nuestro informe original en 2011, se han logrado avances significativos con respecto a la amplitud y el volumen de datos disponibles (& gt3 veces más vías e interacciones) junto con herramientas de software novedosas para respaldar la creación, validación y accesibilidad de datos de vías en la comunidad de investigación en general. . Toda la pila de software de la base de datos se ha vuelto a desarrollar para integrar capacidades de consulta más potentes, así como para admitir una variedad más amplia de formatos de datos de salida. También hemos desarrollado un motor de búsqueda "más inteligente" que presenta resultados de búsqueda y vínculos a aplicaciones novedosas de análisis y visualización basadas en el contexto de la consulta. Además, se ha desarrollado una nueva guía de ayuda con contenido original diseñado para enseñar a los usuarios cómo aplicar el análisis de rutas a su trabajo. Aquí, resumimos los recursos disponibles para nuevos usuarios, así como los desarrollos realizados desde nuestro informe original. Finalmente, discutimos los esfuerzos futuros para mejorar la accesibilidad y proporcionar sistemas escalables para la captura de conocimiento en apoyo del descubrimiento biomédico.


MATERIALES Y MÉTODOS

Aporte

CRISPRloci ofrece cuatro modos de funcionamiento diferentes, según los elementos a anotar. Por lo tanto, se aceptan proteínas, ADN genómico, repeticiones de CRISPR o secuencias virales (consulte la Figura 1 y la Tabla complementaria S2 en los materiales complementarios). los ADN del genoma El modo es el más completo y analiza un genoma procariota para matrices CRISPR, determinando también su orientación y secuencias líder asociadas. Además, identificará los límites del casete y, dentro de estos límites, el Cas proteínas junto con su clasificación de subtipos. Hay tres conjuntos de parámetros disponibles que permiten al usuario ajustar las predicciones de las matrices CRISPR y cas genes. Además, todos los parámetros incluyen información sobre herramientas. El segundo modo requiere un conjunto de secuencias de proteínas procariotas como entrada. Nuestro método es lo suficientemente rápido para analizar un proteoma completo. Identifica y clasifica Cas proteínas y detecta los límites del casete si las secuencias de proteínas se proporcionan en el orden correcto. El tercer modo acepta una o más secuencias de repetición CRISPR e identifica la orientación y el subtipo de repetición. Además, una búsqueda contra bases de datos integradas encuentra regiones de similitud local entre las secuencias de entrada y la lista de repeticiones de consenso de buena fe. El cuarto modo requiere la carga de un genoma viral / fago completo o parcial. Analiza las conexiones huésped-viral informando cuántos espaciadores se originaron potencialmente a partir del genoma viral de entrada.

El flujo de trabajo de CRISPRloci. El flujo de trabajo admite 4 tipos diferentes de entrada. Si se selecciona ADN como entrada, CRISPRloci identificará el Matrices CRISPR, predecir su orientación y la Líder secuencia y luego extraiga las secuencias repetidas y espaciadoras. A continuación, se analizan las secuencias repetidas para determinar su estabilidad estructural, mientras que se utilizan espaciadores para identificar las regiones potenciales de autodirección. Si se envían secuencias de proteínas como entrada, CRISPRloci clasificará e informará el tipo de proteína y su función. El usuario puede ingresar opcionalmente un conjunto de secuencias repetidas. En este escenario, CRISPRloci realizará una búsqueda de secuencias repetidas similares en la base de datos existente. El usuario recibirá los resultados, así como su región, similitud y valor electrónico. Por último, el usuario puede proporcionar ADN viral como entrada. En este escenario, CRISPRloci realizará una búsqueda de los protoespaciadores utilizando una base de datos de espaciadores. El usuario recibirá las coordenadas del protoespaciador, así como la descripción del host. Matrices CRISPR.

El flujo de trabajo de CRISPRloci. El flujo de trabajo admite 4 tipos diferentes de entrada. Si se selecciona ADN como entrada, CRISPRloci identificará el Matrices CRISPR, predecir su orientación y la Líder secuencia y luego extraiga las secuencias repetidas y espaciadoras. A continuación, se analizan las secuencias repetidas para determinar su estabilidad estructural, mientras que se utilizan espaciadores para identificar las regiones potenciales de autodirección. Si se envían secuencias de proteínas como entrada, CRISPRloci clasificará e informará el tipo de proteína y su función. El usuario puede ingresar opcionalmente un conjunto de secuencias repetidas. En este escenario, CRISPRloci realizará una búsqueda de secuencias repetidas similares en la base de datos existente. El usuario recibirá los resultados, así como su región, similitud y valor electrónico. Por último, el usuario puede proporcionar ADN viral como entrada. En este escenario, CRISPRloci realizará una búsqueda de los protoespaciadores utilizando una base de datos de espaciadores. El usuario recibirá las coordenadas del protoespaciador, así como la descripción del host. Matrices CRISPR.

Detección de matrices CRISPR

La tarea de detectar correctamente Matriz CRISPR plantea dos dificultades principales. El primer problema radica en la correcta identificación de los Matriz CRISPR representación, es decir, los límites de la matriz y la secuencia de repetición. Una vez que se detecta una estructura similar a una matriz, el segundo problema es distinguir una estructura de buena fe Matriz CRISPR de estructuras repetitivas que se asemejan a una pseudo matriz CRISPR. En nuestro enfoque, confiamos en CRISPRidentify (14) para ambas tareas.

Para superar el primer desafío, CRISPRidentify utiliza pasos de mejora consecutivos para construir múltiples representaciones de candidatos para cada potencial. Matriz CRISPR región (Ver Tabla complementaria S1 y Figuras S2-S8 en Materiales complementarios para la comparación con las otras herramientas).

Para elegir la mejor representación y filtrar simultáneamente los candidatos falsos, CRISPRidentify utiliza un enfoque basado en ML basado en datos. Primero, transforma a cada candidato en un vector de características, donde cada característica representa una propiedad biológica como la longitud de la repetición, el número de desajustes entre las repeticiones o la similitud de los espaciadores, etc. Luego, el candidato se clasifica según el modelo ML preentrenado. Este enfoque permite generar una puntuación de certeza para cada candidato y, por tanto, evaluar el nivel de confianza. Después de la Matriz CRISPR extracción, la orientación se predice utilizando CRISPRstrand (15). Finalmente, enriquecemos la matriz identificada con información sobre la secuencia líder utilizando CRISPRleader (6).

Es bien sabido que el motivo de la estructura secundaria de la repetición CRISPR es esencial para la generación y carga de crRNA en muchos sistemas CRISPR – Cas. Por lo tanto, después de construir el conjunto de Matrices CRISPR, analizamos los perfiles de estabilidad estructural para las repeticiones en cada Matriz CRISPR. Primero, usamos RNAfold (16) para medir la Energía Libre Mínima (MFE) de la repetición de consenso. A continuación, minimizamos la contribución de los pares de bases de largo alcance, que no son fiables mediante un enfoque de plegado local para determinar las probabilidades de los pares de bases (8). Posteriormente, calculamos una predicción de estructura local en todo el Matriz CRISPR utilizando RNAplfold (17) con los parámetros de tamaño de ventana y intervalo de pares basado (W = 150 y L = 80, respectivamente). Además, usamos la opción –noLP para no permitir pares de bases solitarios, lo que generalmente mejora la calidad de la predicción.

Finalmente, exploramos la autofocalización de CRISPR y las funciones alternativas de los sistemas CRISPR-Cas que se extienden más allá de la inmunidad adaptativa. CRISPRloci detecta las posibilidades de los espaciadores autodirigidos en un genoma de interés determinado. Para identificar espaciadores posicionales autodirigidos, extraemos todas las secuencias espaciadoras de cada Matriz CRISPR y buscar coincidencias exactas o parciales entre el espaciador y una parte de la secuencia genómica que no es parte de Matrices CRISPR. Además, clasificamos el contexto de la coincidencia como genes mobiloma o no mobiloma para proporcionar información sobre el posible origen evolutivo.

Límites de Cas Casete

En el campo de investigación de CRISPR, la identificación de los límites de los casetes juega un papel esencial en la detección de los casetes, como nuevos elementos desconocidos. cas los genes deben separarse de los genes aleatorios que bordean el locus.

Introdujimos la primera herramienta (llamada Casboundary (18)) que es capaz de definir, con base en ML, los límites del casete de manera automática.

Casboundary asume que la relación entre el gen de firma (es decir, el gen principal usado para definir un casete) y cualquier otro miembro del mismo casete es más fuerte que la relación del gen de firma y cualquier no miembro. En particular, entrenamos dos modelos predictivos, utilizando Árboles extremadamente aleatorizados (ERT) y Redes neuronales profundas (DNN), para clasificar si los genes característicos y los genes candidatos pertenecen al mismo casete (positivo relación) o no (negativo relación). Dado un genoma de interés, para cada gen característico encontrado en el genoma, la herramienta define una región CRISPR potencial considerando un intervalo de k genes aguas abajo y k genes aguas arriba del gen característico (predeterminado: k = 50). A continuación, los modelos inducidos se emplean para predecir la etiqueta de la relación entre el gen característico y todos los genes de la región potencial. El límite se especifica como la subregión máxima formada por una lista de genes consecutivos, de modo que el primer y el último gen tienen relaciones positivas con el gen característico y no se permiten más de tres genes consecutivos con relaciones negativas.

En los experimentos llevados a cabo, Casboundary mostró una puntuación de 0,86 para Jaccard Similarity (JS), que mide la tasa de superposición entre los casetes verdaderos y predichos.Por otro lado, CRISPRCasFinder (19), la herramienta más similar a Casboundary disponible en la literatura, alcanzó una puntuación JS de 0,70.

Clasificación de Cas proteínas y modularización de casetes

Considerando la alta variabilidad de la Cas secuencias de proteínas, su clasificación utilizando sólo métodos estándar, como la homología de secuencia o modelos ocultos de Markov, no se puede lograr fácilmente. Por lo tanto, usamos Casboundary para clasificar Cas proteínas de acuerdo con las familias conocidas de núcleo y firma. Para esta tarea, Casboundary combinó características de las propiedades de las proteínas con evidencia extraída de Cas Modelos ocultos de Markov. Basado en probabilidades que se asignan a una proteína para pertenecer a cada uno conocido Cas familia, Casboundary también fue capaz de detectar proteínas que pueden pertenecer a nuevos putativos Cas familias.

Después de clasificar el Cas proteínas de los casetes identificados, Casboundary aplica un paso de descomposición que anota los módulos funcionales típicos (adaptación, procesamiento o interferencia) contenidos en los casetes.

Clasificación de casetes y predicción de proteínas faltantes

La clasificación de un subtipo de casete se basa en la combinación de las proteínas Cas que contiene (4, 11, 20). Para realizar tal tarea, nuestra herramienta CRISPRcasIdentifier (21) representa los casetes de entrada como vectores multidimensionales, donde cada característica corresponde a un diferente Cas familia de proteínas, y cada valor se refiere a la puntuación de bits normalizada de cada familia de proteínas Cas. Por lo tanto, utilizamos las diferentes puntuaciones de bits normalizadas como evidencia de que un Cas la proteína está contenida en un casete. A continuación, CRISPRcasIdentifier procede al paso de clasificación, que permite el uso de tres algoritmos ML para la inducción de clasificadores, de la siguiente manera: Algoritmo de árbol de decisión CART (22), Máquinas de vectores de soporte (23) y Árboles extremadamente aleatorizados (24). Durante nuestro análisis, observamos que los clasificadores identificaron correctamente firmas compuestas por uno o más genes para determinar los subtipos de casete. Dichas firmas representan la información principal que guía la categorización realizada manualmente por los expertos.

CRISPRcasIdentifier también puede predecir las proteínas potencialmente faltantes en los casetes de entrada, basándose en las proteínas restantes. Esta tarea es realizada por un conjunto de regresores entrenados para predecir las puntuaciones de bits normalizadas de cada Cas familia. Como resultado, proporciona evidencia para una investigación detallada por parte de los investigadores para anotar las proteínas faltantes.

CRISPRcasIdentifier se comparó con otras cinco herramientas populares de la literatura (dos servidores web y tres herramientas de línea de comandos) en el conjunto de datos de referencia CRISPR público más grande (5). En este análisis, nuestra herramienta obtuvo una puntuación F y una precisión equilibrada de 0,91 y 0,89, respectivamente. Por otro lado, los mejores rendimientos obtenidos por el resto de herramientas fueron 0,63 y 0,54, respectivamente.

Interacciones virus-hospedador / interacciones fago-hospedador

Para mejorar el estudio de los mecanismos implicados en las interacciones Virus-Plásmido-Huésped, es fundamental conocer el huésped de un virus, fago o plásmido en particular. Por lo tanto, CRISPRloci proporciona información para tales interacciones detectando todos los tipos de coincidencias entre un genoma de fago completo o parcial dado y, por ejemplo, la base de datos de espaciadores CRISPR de genomas arqueales y bacterianos, basada en CRISPRidentify.

Procesamiento e implementación

CRISPRloci se implementó con el marco del servidor Freiburg RNA (13), que se basa en Java Server Pages (JSP) procesadas por un servidor Apache Tomcat. Los trabajos de los cuatro modos de servidor web diferentes se ejecutan dentro de entornos bioconda (25), utilizando versiones de herramientas ancladas para garantizar la reproducibilidad. El tiempo de procesamiento (minutos) para los conjuntos de datos de ejemplo proporcionados con el servidor web es el siguiente: 33 (modo 1), 15 (modo 2), 1 (modo 3), 1 (modo 4). Para cada envío de usuario, se genera un enlace único que rastrea el progreso y recupera los resultados una vez finalizado.


Estructura de biología molecular de los ácidos nucleicos

Mensaje de Paul Mcinulty el 7 de agosto de 2017

Notado en el tallo del diagrama, en el lado derecho usted CUU pero en el otro lado las bases complementarias son GGA, ¿no debería ser GAA?

Mensaje de Paul Mcinulty el 7 de agosto de 2017

El codón-anticodón-codón aclara este problema, ¿no estás de acuerdo?

Última respuesta de: Profesor Michael Philips
Viernes 16 de noviembre de 2018 13:04

Mensaje de Paul Mcinulty el 7 de agosto de 2017

Estimado doctor Philips
Al mostrar el diagrama de la molécula de ARNt, el anticodón es GAA que codificaría un GLU L Alfa Aminoácido,
Sin embargo, el codón de la cadena de ARNm es CUU, que codificaría un alfa-aminoácido LEU L.
Pero en el diagrama muestra un codón CUU en el tallo aceptor, esto codificaría para un alfa Aminoácido LEU L
Esta importante información nunca se enfatiza en los libros de texto de biología celular molecular, y nuevamente ha pasado por alto este hecho.
No crea que sería mejor describir la molécula de TRNA y la cadena de ARNm como, por ejemplo

CUU
GAA
CUU?
Codón
Anticodon
Codon?
Porque los libros de texto cuando estudias esta sección no tiene ningún sentido en absoluto
Los llamados códigos anticodón para un Laminoácido completamente diferente del codón
Pero si va codón - anticodón - codón codificaría, por ejemplo, LEU
¿Estoy correcto o incorrecto?
Por favor explique
Esto no quita mérito al hecho de que sus conferencias ya han aclarado tanto
y muchas gracias

Última respuesta de: Profesor Michael Philips
Vie 16 de noviembre de 2018 12:57 PM

Publicado por peter alabi el 17 de marzo de 2017

Hola, Dr. Philip. Solo tengo que mencionar lo gran conferenciante que eres, tan genial, eres fantástico. Tambien tengo una pregunta. ¿Existe alguna diferencia significativa entre el genoma Archaean y Bacteria, quizás en términos de composición, organización o topología? Gracias por las magníficas conferencias.


El ADN triplex intracadena se repite en bacterias: una fuente de inestabilidad genómica

Las secuencias repetitivas de ácido nucleico suelen ser propensas a formar estructuras secundarias distintas del B-DNA. Ejemplos destacados de tales estructuras son los triplex de ADN. Observamos que ciertos motivos tríplex intracadena están muy conservados y son abundantes en los genomas procarióticos. Se realizó una búsqueda sistemática de 5246 plásmidos procarióticos y genomas diferentes para motivos triplex intracadena y los resultados se resumieron en la base de datos ITxF disponible en línea en http://bioinformatics.uni-konstanz.de/utils/ITxF/. A continuación, investigamos las propiedades biofísicas y bioquímicas de un motivo triplex rico en G / C (TM) que se produce en muchas copias en más de 260 genomas bacterianos mediante espectroscopia de resonancia magnética nuclear y CD, así como técnicas de huella in vivo. Una caracterización de las propiedades y funciones putativas de estos motivos de ácidos nucleicos inusualmente frecuentes demostró que la aparición de la MT está asociada con un alto grado de inestabilidad genómica. Los loci genómicos que contienen TM están significativamente más reorganizados entre las cepas de Escherichia coli estrechamente relacionadas en comparación con los sitios de control. Además, encontramos frecuencias muy altas de motivos de TM en ciertas enterobacterias y cianobacterias que se describieron previamente como genéticamente muy diversas. En conclusión, vinculamos motivos triplex intracadena con la inducción de inestabilidad genómica. Especulamos que la inestabilidad observada podría ser una característica adaptativa de estos genomas que crea una variación para que actúe la selección natural.

© The Author (s) 2015. Publicado por Oxford University Press en nombre de Nucleic Acids Research.

Cifras

Resumen de motivos triplex. (…

Resumen de motivos triplex. ( A ) Presentación esquemática de una purina intermolecular ...

La TM ECO secuencia. ( A ) Motivo de consenso de la MT ECO secuencias ...

Caracterización estructural de secuencias de MT.…

Caracterización estructural de secuencias de MT. ( A ) Espectroscopía de dicroísmo circular de TM ...

TM ECO motivos en diferentes ...

TM ECO motivos en diferentes cepas de Escherichia coli : Distribución de MT…

Varianza genómica en TM ECO…

Varianza genómica en TM ECO sitios de Escherichia coli K12 . ( A…


Discusión

Para analizar de manera eficaz la cantidad cada vez mayor de datos biológicos que se generan, es importante que se intercambien de manera eficiente tanto entre los colaboradores como entre las aplicaciones informáticas. Con BON, describimos un nuevo formato de archivo que está diseñado para manejar estos tamaños de datos aumentados y sus metadatos asociados. Además, permite realizar ajustes en prácticamente todos los conjuntos de datos biológicos con solo un conocimiento básico de programación informática.

No solo ha aumentado constantemente la cantidad de datos biológicos, sino también su complejidad. Por lo tanto, es fundamental desarrollar formas eficientes de almacenar y analizar los metadatos asociados. La creciente necesidad de agregar metadatos biológicos se puede observar en la base de datos SRA en NCBI (https://www.ncbi.nlm.nih.gov/sra), donde la longitud de la secuencia se agrega a la primera línea de cada entrada cuando utilizando el kit de herramientas SRA. Estos metadatos son especialmente importantes en conjuntos de datos filogenéticos. Sin embargo, un estudio reciente demostró que el formato de Newick ampliamente utilizado es propenso a una semántica poco clara, lo que puede llevar a una mala interpretación de los datos analizados 17. BON alivia estas deficiencias utilizando un enfoque menos complejo que los formatos XML. Es importante destacar que BON no ha sido diseñado para ser legible por humanos, sino para escribir herramientas menos propensas a errores para intercambiar, filtrar o preparar grandes conjuntos de datos para análisis. La notación JSON respalda aún más este enfoque, ya que utiliza estructuras que son familiares para los programadores. BON puede codificar los mismos datos complejos que cualquier documento XML debido a la capacidad de la sintaxis JSON anidada y la validación de datos se puede agregar fácilmente usando sumas de verificación como un campo de datos.

Los archivos comprimidos XML y FASTQ mostraron los tamaños de archivo más pequeños para todos los conjuntos de datos. El factor más importante para los tamaños de archivo aumentados de BON comprimidos en comparación con los archivos comprimidos con gzip es la codificación de los datos comprimidos como cadena base64 en BON. Introduce una sobrecarga del 33% pero permite transferir datos binarios como texto sin formato. Otro factor que influye en el tamaño del archivo es el algoritmo zlib. Funciona de manera más eficiente con datos repetitivos o cuando se pueden comprimir más datos a la vez, que es el caso de archivos completos pero no en BON. Curiosamente, una versión con gzip del subconjunto de proteínas humanas del archivo BON sin comprimir es aproximadamente un 30% más grande que el archivo XML con gzip correspondiente. Sin embargo, un archivo BON sin comprimir con gzip del subconjunto de proteínas vegetales es aproximadamente un 5% más pequeño que un archivo XML con gzip correspondiente. La eficiencia de la compresión se puede optimizar en función de los datos. La especificación EXI utiliza este hecho para obtener una transferencia de datos mejor y más rápida, pero requiere un esquema para lograrlo 8. De manera similar, un algoritmo de compresión propuesto recientemente para archivos FASTQ logró una relación de compresión muy alta al considerar el formato 18. Aquí, proponemos un método que es independiente de los datos subyacentes.

Los archivos completamente comprimidos con gzip no se pueden analizar fácilmente durante la transmisión. Es necesario almacenar en búfer fragmentos de los datos comprimidos, descomprimirlos y analizarlos, y ponerlos en relación con fragmentos previamente descomprimidos. Si bien este enfoque es más simple cuando se utilizan archivos FASTQ, rompe la estructura de los archivos XML y pierde cualquier beneficio. Los metadatos almacenados en BON se pueden analizar durante la transferencia, mientras que el almacenamiento de datos biológicos grandes comprimidos reduce el tamaño del archivo. Si bien esto da como resultado tamaños de archivo más grandes que los archivos completamente comprimidos, aún se puede reducir el tamaño del archivo hasta en un 80%.

En resumen, BON es un formato de archivo ajustado para casi todos los datos biológicos basado en una notación ampliamente utilizada y es más estable que otros formatos disponibles. BON permite una estructuración clara de los datos biológicos y los metadatos que los acompañan utilizando la notación JSON. Demostramos esta versatilidad con nuestra biblioteca BON básica que se puede utilizar para todos los conjuntos de datos ajustando el objeto BON básico sin la necesidad de ajustar el analizador subyacente. Revelamos una compresión de datos de hasta el 70% en los datos de secuencia y hasta el 87% en los datos filogenéticos, dependiendo del número y tamaño de los datos comprimidos. Esta compresión es especialmente poderosa cuando se usa con grandes conjuntos de datos que contienen metadatos que son cada vez más comunes en biología.


Bioinformática: bases de datos, herramientas e implicaciones para la biodiversidad

A grandes rasgos, la bioinformática describe cualquier uso de computadoras para manejar información biológica.

En la práctica, se utiliza una definición más estricta: bioinformática es sinónimo de & # 8220biología molecular computacional & # 8221—el uso de computadoras para caracterizar los componentes moleculares de los seres vivos.

La mayoría de los biólogos hablan de & # 8220hacer bioinformática & # 8221 cuando usan computadoras para almacenar, recuperar, analizar o predecir la composición o estructura de biomoléculas.

A medida que las computadoras se vuelven más poderosas, probablemente se podría agregar simular a esta lista de verbos bioinformáticos. & # 8220 Biomoléculas& # 8221 incluyen el material genético (ácidos nucleicos) y los productos de los genes: proteínas. Estas son las preocupaciones de & # 8220classical & # 8221 bioinformática, que se ocupa principalmente del análisis de secuencias. La bioinformática se ha considerado & # 8220los métodos matemáticos, estadísticos y de computación que tienen como objetivo resolver problemas biológicos utilizando secuencias de ADN y aminoácidos e información relacionada. & # 8221 NIH ha definido la bioinformática como & # 8220 investigación, desarrollo o aplicación de herramientas y enfoques computacionales para expandir el uso de datos biológicos, médicos, conductuales o de salud, incluidos aquellos para adquirir, almacenar, organizar, archivar, analizar o visualizar dichos datos. & # 8221

Obviamente, tenemos disciplinas superpuestas como Biología Estructural Computacional, Biología Estructural Molecular, Bioinformática, Genómica, Genómica Estructural, Proteómica, Biología Computacional, Bioingeniería, etc. Sin embargo, podemos considerar el siguiente alcance para la bioinformática:

Métodos bioinformáticos = biología + informática

Área temática de Bioinformática = Secuencia + Función + Estructura de biomoléculas. Es una propiedad matemáticamente interesante de la mayoría de las moléculas biológicas grandes que son polímeros ordenados en cadenas de módulos moleculares más simples llamados monómeros. Piense en los monómeros como cuentas o bloques de construcción que, a pesar de tener diferentes colores y formas, todos tienen el mismo grosor y la misma forma de conectarse entre sí. Los monómeros que pueden combinarse en una cadena pertenecen a la misma clase general, pero cada tipo de monómero de esa clase tiene su propio conjunto de características bien definido.

Se pueden unir muchas moléculas de monómero para formar una sola macromolécula mucho más grande. Las macromoléculas pueden tener un contenido informativo y / o propiedades químicas exquisitamente específicas. De acuerdo con este esquema, los monómeros en una macromolécula dada de ADN o proteína pueden tratarse computacionalmente como letras de un alfabeto, reunirse en arreglos preprogramados para transportar mensajes o trabajar en una célula.

El mayor logro de los métodos bioinformáticos es el Proyecto Genoma Humano. Una de las consecuencias es que el campo de la biología está pasando de ser una ciencia descriptiva a una analítica. Ahora no solo se necesitan descripciones precisas y coherentes, sino que son vitales para el análisis. Debido a esto, la naturaleza y las prioridades de la bioinformática, la investigación y las aplicaciones están cambiando. La gente a menudo habla portentosamente de nuestra vida en la era & # 8220post- genómica & # 8221.

Una opinión es que esto afectará la bioinformática de varias maneras:

(i) Ahora poseemos múltiples genomas completos y podemos buscar diferencias y similitudes entre todos los genes de múltiples especies. De estos estudios podemos sacar conclusiones particulares sobre las especies y generales sobre la evolución. Este tipo de ciencia a menudo se denomina genómica comparada.

(ii) Actualmente existen tecnologías diseñadas para medir el número relativo de copias de un mensaje genético (niveles de expresión génica) en diferentes etapas del desarrollo o enfermedad o en diferentes tejidos. Estas tecnologías para los estudios de expresión génica, como los microarrays de ADN, cobrarán una importancia cada vez mayor.

(iii) Otras formas más directas y a gran escala de identificar funciones y asociaciones de genes (por ejemplo, métodos de dos híbridos de levadura) crecerán en importancia y conducirán al crecimiento de la bioinformática acompañante de la genómica funcional.

(iv) Habrá un cambio general en el énfasis (especialmente en el análisis de secuencias) de los genes mismos a los productos génicos. Esto conducirá a: intentos de catalogar las actividades y caracterizar interacciones entre todos los productos génicos (en humanos): proteómica, e intentos de cristalizar y / o predecir las estructuras de todas las proteínas (en humanos): biología estructural.

(v) Lo que a menudo se denomina investigación o informática médica, la gestión de todos los datos experimentales biomédicos asociados con moléculas o pacientes particulares, desde la espectroscopia de masas hasta los ensayos in vitro y los efectos secundarios clínicos, pasará de la preocupación de aquellos trabajando en la informática de la empresa farmacéutica y del hospital (tecnología de la información) en la corriente principal de la biología celular y molecular y migrar de los sectores comercial y clínico a los académicos.

Vale la pena señalar que todas las áreas de investigación no clásicas anteriores dependen de las técnicas de análisis de secuencias establecidas.

Principios de las búsquedas de similitud de secuencias:

La caracterización de cualquier nueva secuencia de ADN o proteína comienza con una búsqueda en la base de datos para averiguar si hay homólogos de este gen (proteína) disponibles y con qué detalle. Claramente, buscar una secuencia coincidente es bastante sencillo. Tome la primera letra de la secuencia de consulta, busque su primera aparición en la base de datos y luego verifique si la segunda letra de la consulta es la misma en el asunto.

Si las dos letras coinciden, marque la tercera, luego la cuarta y continúe con esta comparación hasta el final de la consulta. Si falla la coincidencia de la segunda letra, se realizará la búsqueda de otra aparición de la primera letra, y así sucesivamente. Esto identificará todas las secuencias en la base de datos que son idénticas a la secuencia de la consulta (o la incluirán).

Aquí solo buscamos secuencias que coincidan exactamente con la consulta. Para encontrar secuencias con exclusión de la primera letra, se puede realizar el mismo análisis con los fragmentos a partir de la segunda letra de la consulta original, luego de la tercera, y así sucesivamente.

Consulta 1: 1 KVRASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG

Consulta 2: 1 VRASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG

Consulta 3: 1 RASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG

Consulta 4: 1 ASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG

Estas búsquedas, a mayor escala, requieren mucho tiempo. Encontrar parientes cercanos daría lugar a problemas conceptuales y técnicos adicionales. A continuación, suponga que las secuencias que son 99% idénticas son definitivamente homólogas. Entonces, ¿cuál es el umbral para considerar que las secuencias no son homólogas: 50% de identidad, 33% o quizás 25%? El ejemplo de dos lisozimas muestra que las secuencias con una identidad tan baja como del 8% pueden pertenecer a proteínas ortólogas y realizar la misma función.

Siguiendo la teoría de la información de C E Shannon [La teoría matemática de la comunicación, 1949], podemos calcular el contenido de información de los ácidos nucleicos y de las proteínas. Si usamos 2 bits (0 o 1 constituyen un bit), podemos codificar 4 unidades de información (00, 01, 10, 11) que es suficiente para representar una posición de base en el ADN o ARN.

Sin embargo, dos bases (4 cuadrados) no son suficientes para codificar los 20 aminoácidos que se utilizan para constituir las diversas moléculas de proteína. Si tomamos tres bases (4-cube), nos da un espacio de código de 64 que es más que el requisito 20. Esta redundancia conduce a muchos codones para cada aminoácido, códigos de corrección de errores y especialidades de tercer lugar (como stop codón: TAA, TAG, TGA).

Otro aspecto es la ejecución del & # 8220Central Dogma. & # 8221. Esto es interesante porque conduce a la introducción de ruido de fuentes tales como secuencias de vectores, secuencias heterólogas, secuencias reorganizadas y eliminadas, contaminación de elementos repetitivos, errores de cambio de cuadro y secuenciación. errores o polimorfismo natural.

De hecho, los cuatro nucleótidos, A, T, C y G, se encuentran en la base de datos con aproximadamente las mismas frecuencias y tienen aproximadamente la misma probabilidad de mutar uno en otro. Como resultado, las comparaciones ADN-ADN se basan en gran medida en la coincidencia de texto simple, lo que las hace bastante lentas y no particularmente sensibles, aunque se han ideado una variedad de heurísticas para superar esto.

En contraste, las comparaciones de secuencias de aminoácidos tienen varias ventajas distintas que, al menos potencialmente, conducen a una sensibilidad mucho mayor:

(i) Hay 20 aminoácidos pero solo cuatro bases. Por lo tanto, una coincidencia de aminoácidos lleva consigo & gt 4 bits de información en lugar de solo dos bits para una coincidencia de nucleótidos. Por tanto, se puede establecer la significación estadística para secuencias mucho más cortas en las comparaciones de proteínas que en las comparaciones de nucleótidos,

(ii) Hay redundancia del código genético. Casi un tercio de las bases en las regiones de codificación están sometidas a una presión selectiva débil (si la hay) y representan ruido, lo que afecta negativamente a la sensibilidad de las búsquedas.

(iii) Las bases de datos de secuencias de nucleótidos son mucho más grandes que las bases de datos de proteínas debido a la gran cantidad de secuencias no codificantes que surgen de los proyectos del genoma eucariota, y esto reduce aún más la sensibilidad de la búsqueda.

(iv) Probablemente lo más importante, a diferencia de la secuencia de nucleótidos, las probabilidades de que ocurran diferentes sustituciones de aminoácidos durante la evolución son sustancialmente diferentes, y tener esto en cuenta mejora enormemente el rendimiento de los métodos de búsqueda de bases de datos. Dadas todas estas ventajas, las comparaciones de cualquier secuencia codificante se llevan a cabo típicamente a nivel de secuencias de proteínas incluso cuando el objetivo es producir una alineación ADN-ADN (por ejemplo, para el análisis de sustituciones en posiciones de codones silenciosos), generalmente se hace primero con secuencias de proteínas, que luego son reemplazadas por las secuencias codificantes correspondientes. La comparación directa de secuencias de nucleótidos es indispensable solo cuando se analizan regiones no codificantes.

La secuenciación basada en laboratorio y la investigación y otros tipos de información relacionada con los ácidos nucleicos y las proteínas se recopilan como bases de datos bioinformáticas en dos categorías amplias: repositorio central (como NCBI para secuencias de nucleótidos, Swiss-Prot y PDB para secuencias de proteínas, y las más pequeñas como Flybase, MGD para genoma de ratón y RGD para genoma de rata, etc.) y bases de datos combinadas / secundarias (como KEGG para vía y genoma, prosite para proteína anotada, etc.).

Las bases de datos son del tipo más sofisticado del mundo de la informática y, por tanto, requieren apoyo organizativo y voluntario para su mantenimiento y conservación. De hecho, las bases de datos no son una mera colección de secuencias. Por ejemplo, el PDB (Protein Data Bank) es el mayor depósito mundial de estructuras tridimensionales de grandes moléculas biológicas y, a principios de septiembre de 2006, almacena 38620 estructuras.

Por lo tanto, alberga la secuencia, las coordenadas atómicas, los datos geométricos derivados, el contenido de la estructura secundaria y las anotaciones sobre las referencias bibliográficas de proteínas. El PDB se estableció con 7 estructuras en 1971 y, en 1998, se asignó al Laboratorio de Investigación en Bioinformática Estructural (RCSB) para administrar sus asuntos en el Laboratorio Nacional de Brookhaven.

Puntuaciones de sustitución y matrices de sustitución:

El hecho de que cada uno de los 20 aminoácidos proteicos estándar tenga sus propias propiedades únicas significa que la probabilidad de sustitución de cada residuo particular por otro residuo durante la evolución debería ser diferente. Generalmente, cuanto más similares sean las propiedades físico-químicas de dos residuos, mayor será la posibilidad de que la sustitución no tenga un efecto adverso sobre la función de la proteína y, en consecuencia, sobre la aptitud del organismo.

Por tanto, en las comparaciones de secuencias, dicha sustitución debería penalizarse menos que la sustitución de un residuo de aminoácido por uno que tenga propiedades dramáticamente diferentes. Esta es una simplificación excesiva, porque el efecto de una sustitución depende del entorno estructural y funcional en el que se produce.

Pero, en general, no tenemos un conocimiento a priori de la ubicación de un residuo particular en el ambiente estructural y funcional de la proteína donde ocurre, e incluso con ese conocimiento, incorporarlo en un algoritmo de búsqueda en una base de datos es una tarea extremadamente compleja.

Por tanto, se aplica una medida generalizada de la probabilidad de sustituciones de aminoácidos de modo que a cada sustitución se le dé un valor o puntuación (peso) apropiado para ser utilizado en comparaciones de secuencia. La puntuación para una sustitución entre los aminoácidos i y j se puede expresar mediante la siguiente fórmula intuitivamente plausible, que muestra la probabilidad de una sustitución particular, dadas las frecuencias de cada uno de los dos residuos en la base de datos analizada:

donde K es un coeficiente, qij es la frecuencia observada de la sustitución dada, ypI, pagj son las frecuencias de fondo de los residuos respectivos. Obviamente, aquí el producto pIpagj es la frecuencia esperada de la sustitución y, si qij = pI pagj (Sij = 0), la sustitución se produce con la frecuencia esperada. En la práctica, las puntuaciones utilizadas se escalan de manera que la puntuación esperada para alinear un par aleatorio de secuencias de aminoácidos sea negativa.

Hay dos formas fundamentales de diseñar una matriz de puntuación de sustitución, es decir, una tabla triangular que contiene 210 valores de puntuación numérica para cada par de aminoácidos, incluidas las identidades (elementos diagonales de la matriz). Como en muchas otras situaciones de la biología computacional, el primer enfoque trabaja la abolición, mientras que el segundo es empírico.

Un enfoque ab initio calcula la puntuación como el número de sustituciones de nucleótidos que se requieren para transformar un codón de un aminoácido de un par en un codón del otro. En este caso, la matriz es obviamente única (siempre que no se consideren códigos genéticos alternativos) y contiene solo cuatro valores, 0, 1,2 o 3.

En consecuencia, esta es una matriz de grano muy grueso que es poco probable que funcione bien. El otro enfoque ab initio asigna puntuaciones sobre la base de similitudes y diferencias en las propiedades físico-químicas de los aminoácidos.

Bajo este enfoque, el número de matrices posibles es infinito, y pueden tener una granularidad tan fina como sea deseable, pero un grado de arbitrariedad es inevitable porque nuestra comprensión de la física de las proteínas es insuficiente para tomar decisiones informadas sobre qué conjunto de propiedades & # 8220 correctamente & # 8221 refleja las relaciones entre los aminoácidos.

Los enfoques empíricos, que vinieron primero, intentan derivar las frecuencias características de diferentes sustituciones de aminoácidos a partir de alineaciones reales de familias de proteínas homólogas. En otras palabras, estos enfoques se esfuerzan por determinar la probabilidad real de que ocurra cada sustitución durante la evolución. Obviamente, el resultado de tales esfuerzos depende críticamente de la cantidad y calidad de las alineaciones disponibles, e incluso ahora, cualquier base de datos de alineación está lejos de ser completa o perfectamente correcta.

Además, el simple conteo de diferentes tipos de sustituciones no será suficiente si se incluyen alineaciones de proteínas relacionadas lejanamente porque, en muchos casos, podrían haber ocurrido múltiples sustituciones en la misma posición. Idealmente, uno debería construir el árbol filogenético para cada familia, inferir el secuencia ancestral para cada nodo interno, y luego cuente las sustituciones exactamente. Esto no es factible en la mayoría de los casos y es necesario tomar varios atajos.

Se han propuesto varias soluciones a estos problemas, cada una de las cuales da como resultado un conjunto diferente de puntuaciones de sustitución. La primera matriz de sustitución, construida por Dayhoff y Eck (1968), se basó en un alineamiento de proteínas estrechamente relacionadas, de modo que se pudiera deducir la secuencia ancestral y se pudiera considerar que todos los reemplazos de aminoácidos ocurrían una sola vez.

Este modelo se extrapoló luego para dar cuenta de relaciones más distantes, lo que resultó en la serie PAM de matrices de sustitución. PAM (Accepted Point Mutaion) es una unidad de divergencia evolutiva de secuencias de proteínas, correspondiente a un cambio de aminoácido por 100 residuos.

Así, por ejemplo, se supone que la matriz PAM30 se aplica a proteínas que difieren, en promedio, en 0,3 cambios por residuo alineado, mientras que PAM250 debería reflejar la evolución de secuencias con un promedio de 2,5 sustituciones por posición.

En consecuencia, la primera matriz debe emplearse para construir alineaciones de secuencias estrechamente relacionadas, mientras que la última es útil en búsquedas de bases de datos destinadas a la detección de relaciones distantes. Utilizando un enfoque similar al de Dayhoff, combinado con algoritmos rápidos para la agrupación y alineación de secuencias de proteínas, Jones, Taylor y Thornton produjeron la serie de las llamadas matrices JTT, que son esencialmente una actualización del PAMS.

Las matrices PAM y JTT, sin embargo, tienen limitaciones que surgen del hecho de que se han derivado de alineamientos de secuencias estrechamente relacionadas y se han extrapolado a otras lejanamente relacionadas. Esta extrapolación puede no ser completamente válida porque el modelo evolutivo subyacente podría no ser adecuado, y las tendencias que determinan la divergencia de secuencias de secuencias estrechamente relacionadas podrían no aplicarse a la evolución a distancias más grandes.

En 1992, Steven y Jorja Henikoff desarrollaron una serie de matrices de sustitución utilizando alineaciones conservadas sin huecos de proteínas relacionadas de la base de datos BLOCKS. El uso de estos alineamientos ofreció tres ventajas importantes sobre los alineamientos utilizados para construir las matrices PAM.

Primero, la colección BLOCKS obviamente incluía un número mucho mayor y, lo que es más importante, una diversidad mucho mayor de familias de proteínas que la colección que estaba disponible para Dayhoff y sus compañeros de trabajo en la década de 1970 y # 8217.

En segundo lugar, al provenir de proteínas bastante distantes, las alineaciones de BLOCKS reflejaron mejor los cambios de aminoácidos que ocurren en grandes distancias filogenéticas y, por lo tanto, produjeron puntuaciones de sustitución que representaron la divergencia de secuencia en homólogos distantes directamente, en lugar de mediante extrapolación.

En tercer lugar, en estas proteínas relacionadas lejanamente, BLOCKS incluyó solo las regiones alineadas con mayor confianza, que probablemente representen mejor las tendencias evolutivas predominantes. Estas matrices de sustitución, denominadas serie BLOSUM (= BLOCKS Substitution Matrix), se adaptaron a distancias evolutivas particulares ignorando las secuencias que tenían más de un cierto porcentaje de identidad.

En la matriz BLOSUM62, por ejemplo, las puntuaciones de sustitución se derivaron de las alineaciones de secuencias que no tenían más del 62% de identidad, las puntuaciones de sustitución de la matriz BLOSUM45 se calcularon a partir de las alineaciones que contenían secuencias con no más del 45% de identidad.

En consecuencia, las matrices BLOSUM con números altos, como BLOSUMSO, son las más adecuadas para las comparaciones de secuencias estrechamente relacionadas (también es aconsejable utilizar BLOSUMSO para búsquedas en bases de datos con secuencias cortas), mientras que las matrices BLOSUM de números bajos, como BLOSUM45, son mejores para relaciones distantes.

Además de las series PAM, JTT y BLOSUM de propósito general, se desarrollaron algunas matrices de sustitución especializadas, por ejemplo, para proteínas integrales de membrana, pero nunca lograron un reconocimiento comparable.

Varios estudios iniciales encontraron que las matrices PAM basadas en datos empíricos resultaban consistentemente en una mayor sensibilidad de búsqueda que cualquiera de las matrices ab initio. Una comparación empírica extensa mostró que: (i) las matrices BLOSUM superaron sistemáticamente a las PAM en las búsquedas BLAST y (ii) en promedio, BLOSUM62 tuvo un mejor desempeño en la serie, esta matriz se usa actualmente como predeterminada en la mayoría de las búsquedas de bases de datos de secuencias.

Es notable que, hasta ahora, las matrices empíricas hayan superado sistemáticamente a las basadas en la teoría, ya sea físico-química o evolutiva. Esto quizás indique que todavía no tenemos una teoría adecuada para describir la evolución de las proteínas.

Estadísticas de comparación de secuencias de proteínas:

Consideremos la misma secuencia de proteínas (E. coli RpsJ) que la anterior.

Consulta & # 8221 1 MKVRASVKKLCRNCKIVKRDGVIRVICSAEPKHKQRQG 38

y comprobar cuántas veces se encuentran segmentos de esta secuencia de diferentes longitudes en la base de datos (elegimos fragmentos a partir de la segunda posición de la secuencia porque casi todas las proteínas de la base de datos comienzan con una metionina). Como era de esperar, encontramos que cuanto mayor es el fragmento, menor es el número de coincidencias exactas en la base de datos.

Con la disminución en el número de aciertos de la base de datos, aumenta la probabilidad de que estos aciertos sean biológicamente relevantes, es decir, pertenezcan a homólogos de la proteína de consulta. Por lo tanto, 13 de las 23 apariciones de la cadena KVRASV y las 8 apariciones de la cadena KVRASVK son de ortólogos RpsJ.

El número de apariciones de una cadena determinada en la base de datos se puede estimar aproximadamente de la siguiente manera. La probabilidad de emparejar un residuo de aminoácido es 1/20 (asumiendo frecuencias iguales de los 20 aminoácidos en la base de datos, este no es el caso, la probabilidad es ligeramente mayor). La probabilidad de hacer coincidir dos residuos en una fila es entonces (1/20) 2, y la probabilidad de hacer coincidir n residuos es (1/20) n. Dado que la base de datos de proteínas actualmente contiene N

2 ∞ 10 8 letras, se debe esperar que una cadena de n letras coincida aproximadamente con N ∞ (1/20) n veces.

La búsqueda de coincidencias perfectas es la forma más simple pero insuficiente de búsqueda en la base de datos de secuencias. Sin embargo, es importante como uno de los pasos básicos en los algoritmos de búsqueda que se utilizan actualmente.

Además, el objetivo de una búsqueda es encontrar homólogos, incluidos homólogos distantes donde solo una pequeña fracción de los residuos de aminoácidos son idénticos o incluso similares. Incluso en homólogos cercanos, una región de alta similitud suele estar flanqueada por regiones diferentes como en la siguiente alineación de E. coli RpmJ con su ortólogo de Vibrio cholerae.

En este ejemplo, la región de mayor similitud se encuentra en el medio de la alineación, pero incluir las regiones menos conservadas en ambos lados mejora la puntuación general.

Más adelante en la alineación, la similitud casi desaparece, por lo que la inclusión de letras adicionales en la alineación no aumentaría la puntuación general o incluso la disminuiría. Tales fragmentos de la alineación de dos secuencias cuya puntuación de similitud no se puede mejorar añadiendo o recortando letras, se denominan pares de segmentos de puntuación alta (HSP). Para que este enfoque funcione, la expectativa de la puntuación para las secuencias aleatorias debe ser negativa y las matrices de puntuación utilizadas en las búsquedas en las bases de datos se escalan en consecuencia.

Entonces, en lugar de buscar coincidencias perfectas, los programas de comparación de secuencias en realidad buscan HSP. Una vez que se encuentra un conjunto de PAS, diferentes métodos, como Smith-Waterman, FASTA o BLAST, los tratan de diferentes maneras.

Sin embargo, la cuestión principal que debe abordar cualquier método de búsqueda en una base de datos es la identificación de las PAS que es poco probable que ocurran por casualidad y, por inferencia, es probable que pertenezcan a homólogos y sean biológicamente relevantes. Este problema ha sido resuelto por Samuel Karlin y Stephen Altschul, quienes demostraron que los puntajes máximos de HSP siguen la distribución de valores extremos. En consecuencia, si las longitudes de la secuencia de consulta (m) y la base de datos (n) son suficientemente altas, el número esperado de HSP con una puntuación de al menos S viene dado por la fórmula

Aquí, S es la denominada puntuación bruta calculada con un sistema de puntuación dado, y K y λ son parámetros de escala naturales para el tamaño del espacio de búsqueda y el sistema de puntuación, respectivamente. Normalizando la puntuación según la fórmula:

da el puntaje bi, que tiene una unidad estándar aceptada en teoría de la información e informática. Luego,

y, dado que se puede demostrar que el número de HSP aleatorios con puntuación _ S & # 8217 se describe mediante la distribución de Poisson, la probabilidad de encontrar al menos un HSP con puntuación de bits _ S & # 8217 es

La ecuación (V) vincula dos medidas de similitud de secuencia de uso común, la probabilidad (valor P) y la expectativa (valor E). Por ejemplo, si la puntuación S es tal que se espera que tres PAS con esta puntuación (o más) se encuentren por casualidad, la probabilidad de encontrar al menos una PAS es (1 –e -3),

Por definición, los valores P varían de 0 a 1, mientras que los valores E pueden ser mucho mayores que 1. Los programas BLAST informan valores E, en lugar de valores P, porque los valores E de, por ejemplo, 5 y 10 son mucho más fácil de comprender que los valores P de 0,993 y 0,99995. Sin embargo, para E & lt 0.01, el valor P y el valor E son casi idénticos.

El producto mn define el espacio de búsqueda, un parámetro de importancia crítica para cualquier búsqueda en una base de datos. Las ecuaciones (II) y (IV) codifican la noción intuitivamente obvia de que cuanto mayor es el espacio de búsqueda, mayor es la expectativa de encontrar un HSP con una puntuación mayor que cualquier valor dado. Hay dos corolarios de esto que pueden llevar más tiempo acostumbrarse a: (i) el mismo HSP puede resultar estadísticamente significativo en una base de datos pequeña y no significativo en una base de datos grande con el crecimiento natural de la base de datos, cualquier alineación dada se vuelve cada vez menos significativo (pero de ninguna manera menos importante debido a eso) y (ii) la misma HSP puede ser estadísticamente significativa en una proteína pequeña (usada como consulta) y no significativa en una proteína grande.

Claramente, uno puede disminuir fácilmente el valor E y el valor P asociado con la alineación de las dos secuencias dadas reduciendo n en la ecuación (II), es decir, buscando en una base de datos más pequeña. Sin embargo, el aumento de significación resultante es falso, aunque tal truco puede ser útil para detectar indicios iniciales de relaciones sutiles que deberían verificarse posteriormente utilizando otros enfoques.

Según la experiencia del autor, la simple noción de valor E (P) a menudo se malinterpreta e interpreta como si estos valores se aplicaran solo a una única comparación por pares (es decir, si un valor E de 0,001 para una PAS con puntuación S se informa, entonces, en una base de datos de solo unos pocos miles de secuencias, uno espera encontrar una puntuación & gt S por casualidad).

Es fundamental darse cuenta de que el tamaño del espacio de búsqueda ya está incluido en estos valores E, y el valor informado corresponde al tamaño de la base de datos en el momento de la búsqueda (por lo tanto, es ciertamente necesario indicar, en todos los informes de secuencia análisis, en qué base de datos se buscó y, deseablemente, también en qué fecha exacta).

Se ha demostrado rigurosamente que los estadísticos de Karlin-Altschul se aplican solo a alineaciones de secuencia que no contienen huecos, mientras que la teoría estadística para los alineamientos con huecos más realistas sigue siendo un problema abierto. Sin embargo, extensas simulaciones por computadora han demostrado que estas alineaciones también siguen la distribución de valores extremos con una alta precisión, por lo que, al menos para todos los propósitos prácticos, es aplicable el mismo formalismo estadístico.

Complejidad de la secuencia de proteínas: sesgo composicional:

La existencia de una teoría estadística sólida de comparación de secuencias, en principio, debería permitir a uno clasificar fácilmente los resultados de la búsqueda por significancia estadística y, en consecuencia, asignar un nivel de confianza a cualquier identificación de homología. Sin embargo, un aspecto importante de la organización de la molécula de proteína complica sustancialmente la interpretación de la búsqueda en la base de datos y puede conducir a errores graves en el análisis de la secuencia.

Muchas proteínas, especialmente en eucariotas, contienen regiones de baja complejidad (composicional), en las que la distribución de los residuos de aminoácidos no es aleatoria, es decir, se desvía del modelo estadístico estándar. En otras palabras, estas regiones normalmente tienen una composición de aminoácidos sesgada, p. son ricas en glicina o prolina, o en residuos de aminoácidos ácidos o básicos.

La noción de complejidad composicional se encapsuló en el algoritmo SEG y el programa correspondiente, que divide las secuencias de proteínas en segmentos de complejidad baja y alta (normal).

Las regiones de baja complejidad representan un problema importante para las búsquedas en bases de datos. Dado que el parámetro X de la ecuación (II) se calcula para toda la base de datos, las estadísticas de Karlin-Altschul se rompen cuando la composición de la consulta o una secuencia de la base de datos o ambas se desvía significativamente de la composición promedio de la base de datos.

El resultado es que las regiones de baja complejidad con una composición similar (por ejemplo, ácidas o básicas) a menudo producen alineaciones & # 8220 estadísticamente significativas & # 8221 que no tienen nada que ver con la homología y son completamente irrelevantes. El programa SEG se puede utilizar para superar este problema de una manera algo burda: la secuencia de consulta, la base de datos o ambas se pueden dividir en regiones de complejidad normal y de baja complejidad, y estas últimas se enmascaran (es decir, los símbolos de aminoácidos se reemplazan por el número correspondiente de X & # 8217s).

Para el propósito de una búsqueda en una base de datos, dicho filtrado se realiza generalmente usando ventanas cortas para que solo los segmentos con un sesgo de composición fuerte estén enmascarados. El filtrado de baja complejidad ha sido indispensable para convertir los métodos de búsqueda de bases de datos, en particular BLAST, en herramientas fiables.

Sin enmascarar las regiones de baja complejidad, se habrían producido resultados falsos para una fracción sustancial de proteínas, especialmente las eucariotas (una estimación temprana sostuvo que las regiones de baja complejidad comprenden

15% de las secuencias de proteínas en la base de datos SWISS-PROT). Estos resultados falsos habrían contaminado gravemente cualquier búsqueda en una base de datos a gran escala, y las proteínas respectivas habrían sido refractarias a cualquier análisis de secuencia significativo.

Por estas razones, durante varios años, el filtrado SEG se ha utilizado como predeterminado para las búsquedas BLAST para enmascarar segmentos de baja complejidad en la secuencia de consulta. Sin embargo, este procedimiento no está exento de inconvenientes. No se capturan todas las secuencias de baja complejidad y todavía se producen falsos positivos en las búsquedas de bases de datos.

El problema opuesto también dificulta las búsquedas en bases de datos de algunas proteínas cuando las secuencias cortas de baja complejidad forman parte de regiones conservadas. En tales casos, la importancia estadística de una alineación puede subestimarse, a veces de manera increíble.

En un trabajo reciente de Alejandro Schaffer y sus colegas, se introdujo un enfoque diferente y menos arbitrario para tratar con secuencias con sesgos composicionales. Este método, llamado estadísticas basadas en la composición, recalcula el parámetro λ y, en consecuencia, los valores E para cada consulta y cada secuencia de la base de datos, corrigiendo así los valores E excesivamente bajos (& # 8220 significativos & # 8221) para secuencias con aminoácidos sesgados de manera similar. composición. Esto mejora la precisión de los valores E informados y elimina la mayoría de los falsos positivos.

Identificación de genes y herramientas de software:

Como se discutió en la sección anterior, el reconocimiento de genes en las secuencias de ADN sigue siendo uno de los problemas más urgentes en el análisis del genoma. Se han desarrollado varios enfoques diferentes para la predicción de genes, y hay varios programas populares que se utilizan con más frecuencia para esta tarea: (i) Algunas herramientas realizan la predicción de genes ab initio, basándose únicamente en los parámetros estadísticos de la secuencia de ADN para la identificación de genes. (ii) Alternativamente, los métodos basados ​​en homología se basan principalmente en la identificación de secuencias homólogas en otros genomas y / o en bases de datos públicas utilizando algoritmos BLAST o Smith-Waterman. Muchos de los métodos comúnmente utilizados combinan estos dos enfoques.

La ausencia de intrones y una densidad genética relativamente alta en la mayoría de los genomas de procariotas y algunos eucariotas unicelulares proporciona un uso eficaz de búsquedas de similitud de secuencias como primer paso en la anotación del genoma. Los genes identificados por homología pueden usarse como el conjunto de entrenamiento para uno de los miembros estadísticos para el reconocimiento de genes, y el modelo estadístico resultante puede usarse luego para analizar las partes restantes del genoma.

En la mayoría de los eucariotas, la abundancia de intrones y regiones intrgénicas largas dificulta el uso de métodos basados ​​en homología como primer paso, a menos que, por supuesto, se pueda confiar en la similitud entre varios genomas estrechamente relacionados (por ejemplo, humano, ratón y rata). Como resultado, la predicción de genes para las secuencias del genoma de eucariotas multicelulares generalmente comienza con métodos ab initio, seguidos de búsquedas de similitud con los conjuntos de exones iniciales.

Cabe recordar que cada uno de estos métodos tiene sus propias ventajas y limitaciones, y ninguno de ellos es perfecto. Una comparación de las predicciones generadas por diferentes programas revela los casos en los que un programa determinado se desempeña mejor y ayuda a lograr una calidad constante de predicción genética.

Tal comparación se puede realizar, por ejemplo, usando el programa TIGR Combiner, que emplea un esquema de votación para combinar predicciones de diferentes programas de búsqueda de genes, como GeneMark, GlimmerM, GRAIL, GenScan y Fgenes.

Las herramientas computacionales que se utilizan con mayor frecuencia para la predicción de genes en proyectos de anotación genómica a gran escala se describen a continuación.

GeneMark:

GeneMark fue desarrollado por Mark Borodovsky y James Mclninch en 1993. GeneMark fue la primera herramienta para encontrar genes procarióticos que emplearon un modelo de Markov no homogéneo para clasificar las regiones de ADN en protecódigo, no codificante y no codificante pero complementario a la codificación.

Al igual que otros programas de predicción de genes, GeneMark se basa en parámetros de reconocimiento específicos del organismo para dividir la secuencia de ADN en regiones codificantes y no codificantes y, por lo tanto, requiere un conjunto de entrenamiento suficientemente grande de genes conocidos de un organismo dado para obtener el mejor rendimiento.

El programa se ha actualizado y modificado repetidamente y ahora existe en variantes separadas para la predicción de genes en secuencias de ADN procariotas, eucariotas y virales.

Luz tenue:

El localizador de genes y el modelador de Markov interpolado, desarrollado por Steven Salzberg y sus colegas de la Universidad Johns Hopkins y TIGR, es un sistema para encontrar genes en genomas procarióticos. Para identificar las regiones codificantes y distinguirlas del ADN no codificante, Glimmer utiliza modelos de Markov interpolados, es decir, series de modelos de Markov con el orden del modelo aumentando en cada paso y el poder predictivo de cada modelo evaluado por separado.

Al igual que GeneMark, Glimmer requiere un conjunto de entrenamiento, que generalmente se selecciona entre genes conocidos, genes que codifican proteínas con fuertes aciertos en la base de datos y / o simplemente ORF largos. Glimmer se utiliza como la principal herramienta de búsqueda de genes en TIGR, donde se ha aplicado a la anotación de numerosos genomas microbianos.

Recientemente, Salzberg y sus colaboradores desarrollaron GlimmerM, una versión modificada de Glimmer diseñada específicamente para el reconocimiento de genes en pequeños genomas eucariotas, como el parásito de la malaria Plasmodium falciparum.

Grial:

Gene Recognition and Assembly Internet Link, desarrollado por Ed Uberbacher y sus compañeros de trabajo en el Laboratorio Nacional de Oak Ridge, es una herramienta que identifica exones, sitios poliA, promotores, islas CpG, elementos repetitivos y errores de cambio de marco en las secuencias de ADN comparándolos con una base de datos. de elementos de secuencia humana y de ratón conocidos. La predicción de exones y elementos repetitivos también está disponible para las secuencias de Arabidopsis y Drosophila.

Grail se ha incorporado recientemente a la tubería de análisis del genoma de Oak Ridge, que proporciona una interfaz web unificada para una serie de herramientas de análisis convenientes.

Para los procariotas, ofrece predicción de genes utilizando los programas Glimmer y Generation, seguidos de búsquedas BLASTP de ORF pronosticados contra las bases de datos SWISS-PROT y NR y una búsqueda HMMer contra Pfam. También hay una opción de búsqueda BLASTN de la secuencia de ADN enviada contra una variedad de bases de datos de secuencias de nucleótidos.

Para secuencias humanas y de ratón, la tubería de Oak Ridge ofrece predicción de genes usando GrailEXP y GenScan, seguida también por búsquedas BLASTP de ORF predichos contra bases de datos SWISS-PROT y NR y una búsqueda HMMer contra Pfam. Nuevamente, el usuario puede realizar una búsqueda BLASTN de la secuencia de ADN enviada contra una variedad de bases de datos de secuencias de nucleótidos, así como buscar islas CpG, fragmentos repetidos, ARNt y pares de extremos BAC.

GenScan:

GenScan fue desarrollado por Chris Burge y Samuel Karlin en la Universidad de Stanford y actualmente está alojado en el laboratorio Burge en el Departamento de Biología del MIT. Este programa utiliza un modelo probabilístico complejo de la estructura genética que se basa en información biológica real sobre las propiedades de las señales de transcripción, traducción y empalme.

Además, utiliza varias propiedades estadísticas de regiones codificantes y no codificantes. Para tener en cuenta la heterogeneidad del genoma humano que afecta la estructura y la densidad de los genes, GenScan deriva diferentes conjuntos de modelos de genes para las regiones del genoma con diferente contenido de GC.

Su alta velocidad y precisión hacen de GenScan el método de elección para el análisis inicial de tramos grandes (en el rango de megabse) de ADN genómico eucariota. GenScan se ha utilizado como la principal herramienta para la predicción de genes en el Proyecto Internacional del Genoma Humano.

GeneBuilder:

GeneBuilder realiza la predicción de genes ab initio utilizando numerosos parámetros, como contenido de GC, frecuencias de dicodon, datos de sitios de empalme, islas CpG, elementos repetitivos y otros. También utiliza un enfoque único que es

basado en la evaluación de frecuencias relativas de sustituciones sinónimos y no sinónimos para identificar posibles secuencias codificantes.

Además, realiza búsquedas BLAST de genes predichos frente a bases de datos de proteínas y EST, lo que ayuda a refinar los límites de los exones predichos utilizando los aciertos BLAST como guías. El programa permite al usuario cambiar ciertos parámetros, lo que permite la predicción interactiva de la estructura genética. Como resultado, GeneBuilder a veces puede predecir la estructura del gen con una buena precisión, incluso cuando la similitud del ORF predicho con una secuencia de proteína homóloga es baja.

Software de predicción del sitio de empalme:

Los programas para predecir sitios de empalme de intrones, que se usan comúnmente como subrutinas en las herramientas de predicción de genes, también se pueden usar como programas independientes para verificar las posiciones de los sitios de empalme o predecir sitios de empalme alternativos. Tales programas pueden ser particularmente útiles para predecir exones no codificantes, que comúnmente se pasan por alto en los estudios de predicción de genes. El reconocimiento de los sitios de empalme por estos programas generalmente se basa en las propiedades estadísticas de los exones e intrones y en las secuencias de consenso de las señales de empalme.

Búsqueda de alineación y similitud de secuencia:

Los conceptos básicos de alineación y los algoritmos principales:

La similitud busca en el aire para identificar los homólogos de las secuencias de la proteína de consulta (o uncleótido) dada en la base de datos. En principio, la única forma de identificar homólogos es alineando la secuencia de la consulta con todas las secuencias en la base de datos (algunas heurísticas importantes que permiten que un algoritmo omita secuencias que obviamente no están relacionadas con la consulta se analizan a continuación), clasificando estos aciertos en función de el grado de similitud y la evaluación de su significación estadística que probablemente sea indicativa de homología. Primero, analicemos brevemente los métodos de alineación.

Es importante hacer una distinción entre una alineación global (es decir, de longitud completa) y una alineación local, que incluye solo partes de las secuencias analizadas (subsecuencias). Aunque, en teoría, una alineación global es mejor para describir relaciones entre secuencias, en la práctica, las alineaciones locales son de uso más general por dos razones: (i) es común que solo partes de proteínas comparadas sean homólogas (por ejemplo, comparten una conservada dominio, mientras que otros dominios son únicos), y (ii) a menudo, solo una parte de la secuencia se conserva lo suficiente como para transportar una señal detectable, mientras que el resto ha divergido más allá del reconocimiento. La alineación global óptima de dos secuencias se implementó por primera vez en el algoritmo Needleman-Wunsch, que emplea programación dinámica.

Más tarde, Smith y Waterman introdujeron la noción de alineación local óptima (la mejor alineación posible de dos subsecuencias de las secuencias comparadas) y el correspondiente algoritmo de programación dinámica. El costo de ambos es O (n 2), es decir, el tiempo y la memoria necesarios para generar una alineación óptima son proporcionales al producto de las longitudes de las secuencias comparadas (por conveniencia, se supone que las secuencias tienen la misma longitud n en esta notación).

Los algoritmos de alineación óptima para múltiples secuencias tienen la complejidad O (n k) (donde k es el número de secuencias comparadas). Tales algoritmos para k & gt 3 no son factibles en ninguna computadora existente, por lo tanto, todos los métodos disponibles para alineamientos de secuencia múltiple producen solo aproximaciones y no garantizan el alineamiento óptimo.

En este punto, podría ser útil aclarar la noción de alineación óptima. Algoritmos como Needleman-Wunsch y Smith-Waterman garantizan la alineación óptima (global y local, respectivamente) para dos secuencias comparadas.

Sin embargo, es importante tener en cuenta que esta optimización es una noción puramente formal, lo que significa que, dada una función de puntuación, el algoritmo genera la alineación con la puntuación más alta posible. Sin embargo, la significación estadística del alineamiento y su relevancia biológica deben estimarse por separado.

Para bien o para mal, los algoritmos de alineación tratan la proteína o el ADN como simples cadenas de letras sin recurrir a ninguna propiedad específica de las macromoléculas biológicas. Por tanto, podría resultar útil ilustrar los principios de las alineaciones locales utilizando un texto libre de contexto biológico como ejemplo. Revisemos el ejemplo proporcionado en el sitio web del NCBI (las regiones alineables se muestran en negrita):

& # 8220 Una vez en una triste medianoche, mientras reflexionaba, débil y cansado,

Sobre muchos volúmenes pintorescos y curiosos de tradiciones olvidadas,

Mientras asentía, casi durmiendo, de repente se escuchó un golpeteo,

Como si alguien golpeara suavemente, golpeara la puerta de mi habitación.

& # 8220 & # 8216 Es un visitante, & # 8221 murmuré, & # 8220 golpeando la puerta de mi habitación—

Solo esto, y nada más. & # 8221

& # 8220 En este momento mi alma se hizo más fuerte, dudando entonces ya no,

& # 8220Señor, & # 8221 dije yo, & # 8220o Señora, de verdad su perdón le imploro

Pero el hecho es que yo estaba durmiendo, y tan gentilmente viniste rapeando,

Y tan débilmente viniste tocando, tocando en la puerta de mi habitación,

Que apenas estaba seguro de haberte oído & # 8221 — aquí abrí la puerta de par en par, -

Oscuridad allí, y nada más. & # 8221

Es fácil ver que, en las dos primeras líneas de las dos estrofas, la cadena común más larga consta de solo cinco letras, con una falta de coincidencia:

Las segundas líneas se alinean mejor, con dos bloques similares separados por espaciadores de longitudes variables, lo que requiere la introducción de huecos para combinarlos en una alineación:

tu perdon te lo imploro

En las terceras líneas, hay palabras comunes de siete, cuatro y seis letras, nuevamente separadas por espacios:

& # 8230napping sud - den-ly vino un tapping, (III)

& # 8230 secuestrando y tan gentilmente tú ... viniste - rapeando

Las cuartas líneas se alinean muy bien, con una larga cadena de identidad cercana al final:

Como de alguien suavemente & # 8230 & # 8230 & # 8230 & # 8230 & # 8230 & # 8230 & # 8230 golpeando golpeando la puerta de mi habitación (IV)

Un d-so & # 8230 & # 8230 & # 8230. Lamentablemente viniste tocando golpeando en la puerta de mi habitación

Por el contrario, no hay una alineación razonable entre las quintas líneas, a excepción de la palabra idéntica & # 8216door & # 8217. Sin embargo, obviamente, la cuarta línea de la segunda estrofa puede estar alineada no solo con la cuarta (IV), sino también con la quinta línea de la primera estrofa:

… Murmuré tocando en la puerta de mi habitación (IV)

... vino golpeando golpeando en la puerta de mi habitación

Las alineaciones (IV) y (IV & # 8217) se pueden combinar para producir una alineación múltiple:

& # 8230 golpeando golpeando en la puerta de mi habitación (IV & # 8217)

& # 8230 tocando la puerta de mi habitación

Finalmente, las sextas líneas de las dos estrofas podrían alinearse en sus extremos:

Solo esto y nada más (V)

Oscuridad ahí y nada más

Ahora bien, ¿qué alineaciones reflejan realmente la homología de las respectivas líneas? Las alineaciones III, IV, IV y # 8217 (y la derivada IV y # 8221) y V parecen ser relevantes más allá de toda duda razonable. Sin embargo, ¿son realmente correctos? En particular, alinear en-ly / ently en III y ntly / ntly en IV requiere introducir espacios en ambas secuencias. ¿Está esto justificado? No podemos responder a esta simple pregunta sin una teoría estadística para evaluar la importancia de una alineación, incluida una forma de introducir algunas penalizaciones por brecha razonables.

El tratamiento de las lagunas es uno de los problemas más difíciles y aún sin resolver del análisis de alineación. No existe una base teórica para asignar penalizaciones por hueco en relación con las penalizaciones por sustitución (puntuaciones). Derivar estas penalizaciones empíricamente es una tarea mucho más complicada que derivar penalizaciones por sustitución como en las series PAM y BLOSUM porque, a diferencia de la alineación de residuos en bloques altamente conservados, el número y las posiciones de los huecos en las alineaciones tienden a ser muy inciertos.

Por lo tanto, las penalizaciones por brecha generalmente se asignan sobre la base de la comprensión existente de la estructura de la proteína y de los exámenes empíricos de las alineaciones de la familia de proteínas: (i) es mucho menos probable que ocurra una deleción o inserción que da como resultado una brecha que incluso la sustitución de aminoácidos más radical y debe ser fuertemente penalizado, y (ii) una vez que ha ocurrido una deleción (inserción) en una posición dada, la deleción o inserción de residuos adicionales (extensión de la brecha) se vuelve mucho más probable.

Por tanto una función lineal:

donde a es la penalización de apertura de la brecha, b es la penalización de extensión de la brecha yx es la longitud de la brecha que se usa para tratar los huecos en la mayoría de los métodos de alineación. Por lo general, a = 10 yb = 1 es una elección razonable de penalizaciones por espacio que se utilizará junto con la matriz BLOSUM62. Usando estos valores, el lector debería poder averiguar si se deberían haber introducido brechas en las alineaciones III y IV anteriores.

En principio, las penalizaciones por brecha objetivas podrían producirse mediante el análisis de distribuciones de brechas en alineaciones estructurales, y tal estudio sugirió el uso de funciones convexas para penalizaciones por brecha. Sin embargo, esto hace que los algoritmos de alineación sean mucho más costosos computacionalmente y las ventajas prácticas siguen siendo inciertas, por lo que las penalizaciones por espacios lineales todavía se emplean universalmente.

La viabilidad de las alineaciones (IV) y (IV & # 8217) crea el problema de elección: ¿Cuál de estas es la alineación correcta? La alineación (IV) gana porque claramente tiene una región conservada más larga. ¿Cuál es, entonces, el origen de la línea 5 en la primera estrofa y, en consecuencia, de la alineación (IV & # 8217)? No es demasiado difícil darse cuenta de que se trata de una repetición, resultado de la duplicación de la línea 4 (esto es lo que tenemos que concluir dado que la línea 4 es más similar a la línea homóloga de la segunda estrofa). Tales duplicaciones también son comunes en las secuencias de proteínas y, a menudo, crean problemas importantes para los métodos de alineación.

Concluimos que las líneas 3, 4 y 6 de cada estrofa de & # 8220Raven & # 8221 son homólogas, es decir, evolucionaron a partir de ancestros comunes con alguna divergencia posterior. En este caso, la conclusión también se ve corroborada por el hecho de que reconocemos las palabras en inglés en estas líneas y vemos que de hecho son casi iguales y transmiten significados similares, aunque con matices diferentes. ¿Qué pasa con las alineaciones (I) y (II)? El contenido aquí nos dice que no hay homología involucrada, aunque la alineación (II) parece & # 8220believable & # 8221.

Sin embargo, no se habría reconocido como estadísticamente significativo en una búsqueda en una base de datos considerable. Entonces, ¿esta similitud es pura coincidencia? obviamente, no lo es. Este es un caso de convergencia.

La mayoría de los métodos de alineación existentes utilizan modificaciones del algoritmo de Smith-Waterman. Una modificación reciente es BALSA, un algoritmo de alineación local bayesiano que explora series de matrices de sustitución y valores de penalización por brecha y evalúa sus probabilidades posteriores, superando así algunas de las deficiencias del algoritmo de Smith-Waterman.

Los métodos de alineación por pares son importantes en gran medida en el contexto de una búsqueda en una base de datos. Para el análisis de familias de proteínas individuales, los métodos de alineación múltiples son críticos. Feng y Doolittle introdujeron la idea de agrupamiento jerárquico que se aproxima aproximadamente al árbol filogenético y guía la alineación múltiple.

Las secuencias se comparan primero usando un método rápido (por ejemplo, FASTA, ver más abajo) y se agrupan por puntajes de similitud para producir un árbol guía. Luego, las secuencias se alinean paso a paso en una sucesión ascendente, comenzando desde los grupos terminales en el árbol y avanzando hacia los nodos internos hasta que se alcanza la raíz.

Una vez que se alinean dos secuencias, su alineación se fija y se trata esencialmente como una secuencia única con una modificación de la programación dinámica. Por lo tanto, los algoritmos jerárquicos esencialmente reducen el problema de alineación múltiple O (n k) a una serie de problemas O (n 2), lo que hace que el algoritmo sea factible pero potencialmente al precio de la calidad de la alineación.

Los algoritmos jerárquicos intentan minimizar este problema comenzando con la mayoría de secuencias similares donde la probabilidad de alineación incorrecta es mínima, con la esperanza de que el mayor peso de las posiciones alineadas correctamente excluya errores incluso en los pasos posteriores.

El método más comúnmente usado para alineamientos múltiples jerárquicos es Clustal, que se usa actualmente en las variantes ClustalW o ClustalX. Los programas T-Coffee son una modificación reciente de Clustal que incorpora heurísticas que resuelven parcialmente estos problemas.

Algoritmos de búsqueda de bases de datos de secuencias:

Smith-Waterman:

En principio, cualquier método de alineación de secuencias por pares se puede utilizar para la búsqueda en la base de datos de una manera sencilla. Todo lo que se necesita hacer es construir alineaciones de la consulta con cada secuencia en la base de datos, una por una, clasificar los resultados por similitud de secuencia y estimar la significancia estadística.

El algoritmo clásico de Smith-Waterman es una elección natural para dicha aplicación y se ha implementado en varios programas de búsqueda de bases de datos, siendo el más popular SSEARCH escrito por William Pearson y distribuido como parte del paquete FASTA. Actualmente está disponible en numerosos servidores de todo el mundo.

El principal problema que impide que SSEARCH y otras implementaciones del algoritmo Smith-Waterman se conviertan en la opción estándar para las búsquedas rutinarias de bases de datos es el costo computacional, que es órdenes de magnitud mayor que para los métodos heurísticos FASTA y BLAST.

Dado que las comparaciones extensivas del rendimiento de estos métodos en la detección de relaciones estructuralmente relevantes entre proteínas no demostraron una ventaja decisiva de SSEARCH, los métodos heurísticos rápidos dominan el campo. Sin embargo, caso por caso, es ciertamente aconsejable volver a la búsqueda completa de Smith-Waterman cuando otros métodos no revelen una imagen satisfactoria de la relación homóloga para una proteína de interés. En el programa MPSRCH se implementó una versión modificada y mucho más rápida del algoritmo Smith-Waterman.

FASTA:

FASTA, introducido en 1988 por William Pearson y David Lipman, fue el primer programa de búsqueda de bases de datos que logró una sensibilidad de búsqueda comparable a la de Smith-Waterman, pero fue mucho más rápido. FASTA busca alineaciones globales biológicamente relevantes escaneando primero la secuencia en busca de coincidencias exactas cortas llamadas & # 8220words & # 8221. La búsqueda de palabras es extremadamente rápida.

La idea es que se espera que casi cualquier par de secuencias homólogas tenga al menos una palabra corta en común. Bajo este supuesto, la gran mayoría de las secuencias en la base de datos que no tienen palabras comunes con la consulta se pueden omitir sin un examen adicional con una mínima pérdida de tiempo de computadora. La sensibilidad y la velocidad de la búsqueda en la base de datos con FASTA están inversamente relacionadas y dependen de la variable & # 8220k-tuple & # 8221, que especifica el tamaño de la palabra típicamente, las búsquedas se ejecutan con k = 3, pero, si es alta sensibilidad a expensas de la velocidad deseada, se puede cambiar a k = 2.

Posteriormente, Pearson introdujo varias mejoras al algoritmo FASTA, que se implementan en el programa FASTA3.

EXPLOSIÓN:

La herramienta básica de búsqueda de alineación local (BLAST) es el método más utilizado para la búsqueda de similitudes de secuencias, también es el más rápido y el único que se basa en una teoría estadística rigurosa y completa.

Al igual que FASTA y en contraste con el algoritmo Smith-Waterman, BLAST emplea la heurística de búsqueda de palabras para eliminar rápidamente secuencias irrelevantes, lo que reduce en gran medida el tiempo de búsqueda. El programa busca inicialmente una palabra de una longitud dada W (generalmente 3 aminoácidos u 11 nucleótidos) que puntúa al menos T cuando se compara con la consulta que usa una matriz de sustitución dada.

Luego, los aciertos de palabras se extienden en cualquier dirección en un intento de generar una alineación con una puntuación que exceda el umbral de S. Los parámetros W y T dictan la velocidad y sensibilidad de la búsqueda, que por lo tanto puede ser variada por el usuario.

La versión original de BLAST (conocida como BLAST 1.4) produjo solo alineaciones locales sin huecos, para las cuales se dispone de una teoría estadística rigurosa. Aunque este programa funcionó bien para muchos propósitos prácticos, demostró repetidamente una sensibilidad más baja que el algoritmo Smith-Waterman y el programa FASTA, al menos cuando se ejecuta con los parámetros predeterminados. La nueva generación de BLAST realiza alineaciones con huecos, para lo cual las simulaciones extensivas han demostrado las mismas propiedades estadísticas que las demostradas para los alineamientos sin huecos.

Los programas BLASTX, TBLASTN y TBLASTX se utilizan cuando la consulta o la base de datos o ambas son secuencias no caracterizadas y no se conoce la ubicación de las regiones codificantes de proteínas. Estos programas traducen la secuencia de uncleótidos de la consulta en los seis marcos posibles y ejecutan una comparación de secuencias de proteínas análoga a la de BLASTP.

Una versión de BLAST con huecos, conocida como WU-BLAST, con un modelo estadístico ligeramente diferente, que, en algunos casos, puede conducir a una mayor sensibilidad de búsqueda, cuenta con el apoyo de Waren Gish de la Universidad de Washington en St. Louis. Recientemente, la suite BLAST se complementó con secuencias BLAST2, una herramienta para comparar solo dos secuencias de nucleótidos o proteínas.

Debido a su velocidad, alta selectividad y flexibilidad, BLAST es el programa de primera elección en cualquier situación en la que se requiere una búsqueda de similitud de secuencia y, lo que es más importante, este método se usa con mayor frecuencia como base para la anotación del genoma. Por lo tanto, podemos considerar los aspectos prácticos del uso de BLAST con cierto detalle. Sin embargo, antes de eso, debemos introducir algunos conceptos adicionales que son críticos para el análisis de la secuencia de proteínas.

Motivos, dominios y perfiles:

Motivos de secuencia de proteínas y métodos para la detección de motivos:

A menudo tenemos una pregunta muy general: ¿Qué distingue las similitudes de secuencia biológicamente importantes de las falsas? Al observar solo una alineación de la consulta y el resultado de su base de datos que muestra residuos idénticos y similares más o menos dispersos, puede ser difícil distinguir uno del otro.

Sin embargo, tan pronto como alineemos más secuencias homólogas, particularmente de organismos relacionados lejanamente, tendremos una pista sobre la naturaleza de la distinción. La constelación de residuos de aminoácidos conservados asociados con una función particular se denomina motivo de secuencia. Normalmente, los motivos se limitan a tramos cortos de secuencias de proteínas, que normalmente abarcan de 10 a 30 residuos de aminoácidos.

La noción de motivo, posiblemente uno de los conceptos más importantes de la biología computacional, fue introducida explícitamente por Russell Doolittle en 1981. Al año siguiente, John Walker y sus colegas describieron probablemente el motivo de secuencia más prominente en todo el universo proteico, el fosfato. -sitio de unión de una amplia clase de enzimas que utilizan ATP / GTP, que ahora se ha denominado P-loop. El descubrimiento de los motivos de secuencia característicos de una amplia variedad de actividades enzimáticas y de unión de proteínas procedió primero a un ritmo creciente y luego, aparentemente, a un ritmo constante, y los motivos, en forma de patrones de aminoácidos, fueron incorporados rápidamente por Amos Bairoch en la base de datos PROSITE.

Hay dos residuos estrictamente conservados en el bucle P y dos posiciones en las que se permite uno de los dos residuos. Al ejecutar este patrón contra toda la base de datos de secuencias de proteínas, uno se da cuenta inmediatamente de cuán general y útil es este patrón.

De hecho, tal búsqueda recupera secuencias de miles de ATPasas y GTPasas caracterizadas experimentalmente y sus homólogos cercanos. Sin embargo, sólo alrededor de la mitad de las secuencias recuperadas son NTPasas conocidas o predichas de la clase de bucle P, mientras que el resto son falsos positivos. Esto no es sorprendente dado el pequeño número de residuos en este patrón, lo que da como resultado una probabilidad de ocurrencia casual de aproximadamente

(1/10) (1/20) (1/20) (1/10) = 2,5 x 10-5

Con el tamaño actual de la base de datos de aproximadamente 3,2 x 108 residuos, ¡el número esperado de coincidencias es de aproximadamente 8.000!

Este simple cálculo muestra que este y muchos otros patrones similares, aunque incluyen los residuos de aminoácidos más conservados de motivos importantes, son insuficientemente selectivos para ser buenas herramientas de diagnóstico. Aún así, esto no resuelve el problema de la identificación de motivos. Obviamente, ni siquiera se conserva un solo amino en todos los homólogos de proteínas.

Dada esta falta de conservación estricta de los residuos de aminoácidos en un motivo enzimático, esta tendencia es incluso más pronunciada en motivos asociados con interacciones macromoleculares, en las que los residuos invariantes son la excepción más que la norma. La búsqueda de patrones sigue siendo un método útil de primera aproximación para la identificación de motivos, especialmente porque se puede buscar una colección rica de patrones, PROSITE (ver 3.2.1), utilizando un programa rápido y sencillo como SCANPROSITE. Sin embargo, por la propia naturaleza del enfoque, los patrones son insuficientemente selectivos o demasiado específicos y, en consecuencia, no son descripciones adecuadas de los motivos.

La forma de capturar correctamente la información contenida en los motivos de secuencia es representarlos como perfiles de frecuencia de aminoácidos, que incorporan las frecuencias de cada uno de los 20 residuos de aminoácidos en cada posición del motivo.

Incluso en ausencia de residuos invariantes, la no aleatoriedad de un motivo puede ser bastante obvia en una representación de perfil. La utilización de perfiles de frecuencia para búsquedas en bases de datos tuvo un efecto profundo en la calidad y profundidad del análisis de secuencia y estructura. Los principios y métodos que hicieron esto posible se analizan en la siguiente sección.

Dominios de proteínas, PSSM y métodos avanzados para la búsqueda en bases de datos:

Los motivos de secuencia son descriptores extremadamente convenientes de porciones cortas de proteínas conservadas y funcionalmente importantes. Sin embargo, los motivos no son las unidades naturales de la estructura y evolución de las proteínas. Estas unidades distintas son dominios de proteínas. En biología estructural, los dominios se definen como partes de moléculas de proteína que se pliegan de forma independiente y estructuralmente compactas.

En genómica comparativa y análisis de secuencias en general, los objetos centrales, & # 8220atómicos & # 8221 son partes de proteínas que tienen trayectorias evolutivas distintas, es decir, ocurren como proteínas independientes o como partes de arquitecturas de dominio variable (nos referimos al orden lineal de dominios en secuencias de proteínas como arquitectura de dominio o multidominio), pero nunca se dividen en partes. Muy a menudo, probablemente en la mayoría de los casos, tales unidades de evolución de proteínas corresponden exactamente a dominios estructurales.

Sin embargo, en algunos grupos de proteínas, una unidad evolutiva puede constar de dos o más dominios. En raras ocasiones, un dominio consta de un solo motivo, como en el caso de los ganchos AT, pero con mucha más frecuencia, los dominios son relativamente grandes, comprenden de 100 a 300 residuos de aminoácidos e incluyen dos o más motivos distintos. Los motivos son parches muy conservados en múltiples alineaciones de dominios que tienden a estar separados por regiones de conservación de secuencia menos pronunciada y, a menudo, de longitud variable.

La noción de motivos proteicos se ha empleado directamente en algoritmos que construyen alineamientos de secuencias múltiples como una cadena de motivos separados por regiones no alineadas. El primero de estos métodos, el banco de trabajo de análisis y construcción de alineación múltiple (MACAW), originalmente utilizó un método similar a BLAST para delinear aproximadamente bloques de secuencia conservados (motivos) y luego permitió al usuario determinar si la inclusión de columnas de alineación adicionales aumenta la importancia de la alineación del bloque. MACAW es una herramienta de alineación muy conveniente, precisa y flexible, sin embargo, el algoritmo es O (n k) y, en consecuencia, resulta prohibitivamente costoso desde el punto de vista computacional para un gran número de secuencias. MACAW es una herramienta interactiva que encarna la importante noción de que es poco probable que los métodos completamente automáticos capturen todos los motivos importantes en casos de conservación de secuencia sutil, particularmente en proteínas que difieren sustancialmente en longitud.

En muchas ocasiones, sigue siendo el método de elección cuando se requiere un análisis de alineación cuidadoso, aunque, en la situación actual de crecimiento explosivo de los datos de secuencia, el costo computacional limita severamente la utilidad de MACAW. Posteriormente, Charles Lawrence, Andrew Neuwald y sus colaboradores adaptaron la estrategia de muestreo de Gibbs para la detección de motivos y desarrollaron el poderoso (si no necesariamente fácil de usar) método PROBE que permite delinear múltiples motivos sutiles en grandes conjuntos de secuencias. Es importante destacar que el muestreador de Gibbs en un algoritmo O (n), que permite el análisis de un gran número de secuencias. El muestreo de Gibbs se ha incorporado en MACAW como uno de los métodos para la detección de bloques conservados.

En principio, esto debería permitir que MACAW alinee eficazmente numerosas secuencias. En la práctica, los autores encuentran problemático identificar motivos relevantes entre los numerosos bloques detectados por el muestreador de Gibbs.

Podría decirse que el avance metodológico más importante basado en los conceptos de dominios y motivos fue el desarrollo de matrices de peso específicas de posición (PSSM) y su uso en búsquedas de bases de datos como un sustituto incomparablemente más poderoso de las matrices regulares, como BLOSUM y PAM. Un PSSM es una tabla rectangular, que consta de n columnas (n es el número de posiciones en la alineación múltiple para la que se hace el PSSM) y 20 filas y contiene, en cada celda, la puntuación (peso) para el aminoácido dado. en la posición dada de la alineación múltiple.

En el caso más simple, esta puntuación puede ser la frecuencia del aminoácido en la posición dada. Sin embargo, es fácil darse cuenta de que, en la mayoría de las ocasiones, es poco probable que las frecuencias de residuo tomadas de cualquier alineación dada describan adecuadamente la familia de dominios respectiva. En primer lugar, ciertamente nunca conocemos la gama completa de miembros de la familia y, además, no hay evidencia de que tengamos un conjunto representativo.

Por lo tanto, si falta un residuo en una columna de alineación particular, esto no justifica una puntuación de 0 en un PSSM. En realidad, un PSSM nunca incluye una puntuación de exactamente 0, aunque las puntuaciones de algunos residuos pueden ser extremadamente bajas y, en ocasiones, el redondeo puede dar como resultado valores de 0.

En su lugar, se asigna una puntuación finita al residuo faltante utilizando los llamados regularizados, es decir, varias técnicas matemáticas que se esfuerzan por derivar la distribución correcta de aminoácidos para una posición determinada sobre la base de una muestra limitada. Es fácil darse cuenta de que la puntuación otorgada a un residuo faltante depende de dos factores: la distribución que se encuentra realmente en la muestra de superfamiliares disponibles y el tamaño de la muestra.

Otro aspecto de la construcción de PSSM que requiere un tratamiento formal más allá de calcular y regularizar las puntuaciones de residuos de aminoácidos se deriva del hecho de que muchas familias de proteínas disponibles para nosotros están enriquecidas con secuencias estrechamente relacionadas (esto podría ser el resultado de una proliferación genuina de un subconjunto particular de un familia o podría deberse a un sesgo de secuenciación).

Obviamente, una subfamilia sobrerrepresentada influirá en todos los PSSM hacia la detección de secuencias adicionales estrechamente relacionadas y obstaculizará el rendimiento. Para superar este problema, se aplican diferentes esquemas de ponderación a los PSSM para reducir la ponderación de secuencias estrechamente relacionadas y aumentar la contribución de las diversas. La construcción óptima de PSSM sigue siendo un problema importante en el análisis de secuencias, e incluso las pequeñas mejoras tienen el potencial de mejorar significativamente el poder de los métodos de búsqueda de bases de datos.

Una vez que se construye un PSSM, usarlo en una búsqueda en una base de datos es sencillo y no es particularmente diferente de usar una secuencia de consulta única combinada con una matriz de sustitución regular, p. BLOSUM62.Los métodos de búsqueda de bases de datos comunes, como BLAST, pueden funcionar igualmente bien con un PSSM, y se aplican las mismas estadísticas.

Un avance decisivo en la evolución de los métodos basados ​​en PSSM para la búsqueda de bases de datos fue el desarrollo del programa Position-Specific Iterating (PSl) -BLAST. Este programa primero realiza una búsqueda BLAST regular de una consulta de proteínas contra una base de datos de proteínas. A continuación, utiliza todos los resultados con puntuaciones superiores a un determinado límite para generar una alineación múltiple y crear un PSSM, que se utiliza para la segunda iteración de búsqueda.

La búsqueda continúa hasta la convergencia o por un número deseado de iteraciones. Obviamente, la primera iteración de PSI-BLAST debe emplear una matriz de sustitución regular, como BLOSUM62, para calcular las puntuaciones de HSP. Para las iteraciones posteriores, el procedimiento de regularización de PSSM se diseñó de tal manera que la contribución de la matriz inicial a los cscores específicos de la posición disminuye, mientras que la contribución de las frecuencias de aminoácidos reales en la alineación aumenta con el crecimiento del número de secuencias recuperadas. PSI-BLAST también emplea un esquema de ponderación de secuencia simple, que se aplica para la construcción de PSSM en cada iteración.

Desde su aparición en 1997, PSI-BLAST se ha convertido en el método más común para el análisis de secuencias de proteínas en profundidad. El método debe su éxito a su alta velocidad (cada iteración toma solo un poco más de tiempo que una ejecución BLAST normal), la facilidad de uso (no se requieren pasos adicionales, la búsqueda comienza con una sola secuencia y las alineaciones y los PSSM se construyen automáticamente en the fly) y alta confiabilidad, especialmente cuando se invocan estadísticas basadas en composición.

Los modelos ocultos de Markov (HMM) de alineamientos de secuencia múltiple son una alternativa popular a los PSSM. Los HMM se pueden entrenar en una secuencia no alineada o en alineaciones múltiples preconstruidas y, de manera similar a PSI-BLAST, se pueden ejecutar de forma interactiva contra una base de datos en un régimen automático. El paquete HMMer2 incluye una variedad de programas de búsqueda basados ​​en HMM. La búsqueda de HMM es más lenta que la de PSI-BLAST, pero ha habido informes de una mayor sensibilidad de los HMM. En la amplia experiencia de los wprlers de anpratpru, los resultados del análisis de la superfamilia de proteínas utilizando PSI-BLAST y HMMer2 son notablemente similares.

La disponibilidad de técnicas para construir modelos de familias de proteínas y su uso en búsquedas en bases de datos conduce naturalmente a una visión del futuro del análisis de secuencias de proteínas. Los métodos discutidos anteriormente, como PSI-BLAST y HMMer, comienzan con una secuencia de proteínas y construyen gradualmente un modelo que permite la detección de homólogos con baja similitud de secuencia con la consulta. Claramente, este enfoque se puede revertir de manera que se ejecute una consulta de secuencia contra una colección prefabricada de modelos de familias de proteínas.

En principio, si se desarrollaran modelos para todas las familias de proteínas, el problema de clasificar una nueva secuencia de proteínas se habría resuelto esencialmente. Además de la clasificación familiar, las búsquedas regulares en bases de datos como BLAST también proporcionan información sobre los homólogos más estrechamente relacionados de la consulta, dando así una indicación de su afinidad evolutiva.

En sí misma, una búsqueda de una biblioteca de modelos familiares no arroja tal información, pero una extensión de este enfoque es fácilmente imaginable mediante la cual una secuencia de proteínas, después de ser asignada a una familia a través de la búsqueda de PSSM y HMM, se encaja en un árbol filogenético. . La búsqueda en la base de datos de la COG puede verse como un prototipo aproximado de este enfoque.

Tal sistema parece tener el potencial de reemplazar en gran medida los métodos actuales con un enfoque mucho más rápido y más informativo. Dado el crecimiento explosivo de las bases de datos de secuencias, la transición a la búsqueda de bases de datos de modelos de familias de proteínas como enfoque de análisis de secuencia primaria parece inevitable en un futuro relativamente cercano.

Solo para descubrir nuevos dominios será necesario volver a buscar en toda la base de datos, y dado que el universo de proteínas es finito, se espera que estas ocasiones sean cada vez más raras.

Actualmente, el análisis de secuencias no ha alcanzado un estado tan avanzado, pero las búsquedas en bases de datos grandes, aunque lejos de ser completas, de PSSM y HMM específicos de dominio ya se han convertido en enfoques extremadamente útiles en el análisis de secuencias. Pfam, SMART y CDD son las principales herramientas de este tipo. Pfam y SMART realizan búsquedas contra HMM generados a partir de alineaciones seleccionadas de una variedad de dominios de proteínas.

El servidor CDD compara una secuencia de consulta con la colección PSSM en el CDD utilizando el programa BLAST de posición invertida específica (RPS). Algorítmicamente, RPS-BLAST es similar a BLAST, con modificaciones menores, las estadísticas de Karlin-Altschul se aplican al cálculo del valor E para este método. RPS-BLST busca en la biblioteca de PSSM derivados de CDD, encuentra coincidencias de palabra simple (espacio) o doble y luego realiza una extensión sin espacios en estas coincidencias candidatas.

Si se produce una alineación sin huecos de puntuación suficientemente alta, se realiza una extensión con huecos y se informan las alineaciones con valores E por debajo del límite. Dado que el espacio de búsqueda es igual a nm, donde n es la longitud de la consulta ym es la longitud total de los PSSM en la base de datos (que, en el momento de escribir este artículo, contiene

100 veces más rápido que el BLAST normal.

BLAST iniciado por patrón-golpe (PHI-BLAST) es una variante de BLAST que busca homólogos de la consulta que contienen un patrón de secuencia particular. Como se mencionó anteriormente, la búsqueda de patrones a menudo no es suficientemente selectiva. PHI-BLAST rectifica parcialmente esto seleccionando primero el subconjunto de secuencias de la base de datos que contienen el patrón dado y luego buscando en esta base de datos limitada usando el algoritmo BLAST regular.

Aunque la importancia de este método no es comparable a la de PSI-BLAST, puede ser útil para detectar homólogos con una similitud general muy baja con la consulta que, no obstante, conservan un patrón específico.

BLAST independiente (no web). La discusión anterior se aplicó a la versión web de BLAST, que de hecho es más conveniente para el análisis de un pequeño número de secuencias y, por lo general, es la única forma de búsqueda de bases de datos utilizada por los biólogos experimentales. Sin embargo, el enfoque basado en la web no es adecuado para búsquedas a gran escala que requieren un procesamiento posterior extenso, que son comunes en el análisis del genoma.

Para estas tareas, se debe utilizar la versión independiente de BLAST, que se puede obtener de NCBI a través de ftp e instalar localmente en los sistemas operativos Unix o Windows. Aunque los programas BLAST independientes no ofrecen todas las comodidades disponibles en la web, brindan algunas oportunidades adicionales y útiles. En particular, PSI-BLAST independiente se puede ejecutar automáticamente para el número especificado de iteraciones o hasta la convergencia.

Con la ayuda de simples scripts adicionales, los resultados de BLAST independiente se pueden utilizar mucho más allá de la búsqueda sencilla en la base de datos. Las búsquedas con miles de consultas se pueden ejecutar automáticamente, seguidas de varios pasos de posprocesamiento.

El programa BLASTCLUST (escrito por Ilya Dondoshansky en colaboración con Yuri Wolf y EVK), que también está disponible en NCBI a través de ftp y funciona solo con BLAST independiente, permite agrupar secuencias por similitud utilizando los resultados de un BLAST de todos contra todos. buscar dentro de un conjunto analizado de secuencias como entrada.

Identifica grupos utilizando dos criterios: (i) nivel de similitud de secuencias, que puede expresarse como porcentaje de identidad o como densidad de puntuación (número de bits por posición alineada), y (ii) la longitud de HSP en relación con la longitud de la consulta y asunto (por ejemplo, uno puede requerir que, para que las dos secuencias dadas se agrupen, las HSP deben cubrir al menos el 70% de cada secuencia). BLASTCLUST se puede utilizar, por ejemplo, para eliminar fragmentos de proteínas de una base de datos o para identificar familias de parálogos.

El núcleo de los servicios BLAST de NCBI & # 8217s es BLAST 2.0, también conocido como & # 8220Gapped BLAST & # 8221. Este servicio está diseñado para tomar secuencias de proteínas y ácidos nucleicos y compararlas con una selección de bases de datos del NCBI.

El algoritmo BLAST se escribió para equilibrar la velocidad y la sensibilidad aumentada para las relaciones de secuencias distantes. En lugar de depender de alineamientos globales (comúnmente visto en programas de alineamiento de secuencia múltiple), BLAST enfatiza regiones de alineamiento local para detectar relaciones entre secuencias que comparten solo regiones aisladas de similitud (Altschul et al., 1990).

Por lo tanto, BLAST es más que una herramienta para ver secuencias alineadas entre sí o para encontrar homología, sino un programa para localizar regiones de similitud de secuencia con miras a comparar estructura y función.

Elección de parámetros BLAST: filtrado y estadísticas basadas en composición:

Como se señaló anteriormente, las secuencias de baja complejidad (por ejemplo, regiones ácidas, básicas o ricas en prolina) a menudo producen aciertos de bases de datos falsos en proteínas no homólogas. Actualmente, este problema se aborda mediante el uso de estadísticas basadas en la composición como opción predeterminada para el filtrado NCBI BLAST con SEG que está disponible como una opción, pero está desactivado de manera predeterminada. Como se muestra en las pruebas a gran escala, las estadísticas basadas en la composición eliminan los aciertos espurios para todos los casos, excepto los más graves, de baja complejidad de secuencia.

Valor esperado, tamaño de la palabra, penalización por espacios, matriz de sustitución:

El valor esperado (E) puede ser cualquier número positivo, el valor predeterminado es 10. Obviamente, es el número de coincidencias en la base de datos lo que uno debería esperar encontrar simplemente por casualidad. Normalmente, no hay ninguna razón para cambiar este valor. Sin embargo, en los casos en los que es necesario analizar una similitud extremadamente baja, el umbral puede aumentarse (por ejemplo, a 100) y, a la inversa, cuando es deseable limitar el tamaño de la salida, se pueden usar valores E más bajos.

El tamaño de la palabra (W) debe ser un número entero, los valores predeterminados son 3 para secuencias de proteínas y 11 para secuencias de nucleótidos. Este parámetro determina la longitud de las semillas iniciales recogidas por BLAST en busca de HSP. Los valores admitidos actualmente para la búsqueda de proteínas son solo 3 y 2. Cambiar el tamaño de la palabra a 2 aumenta la sensibilidad pero ralentiza considerablemente la búsqueda. Este es uno de los últimos recursos para los casos en los que no se detectan homólogos para una consulta determinada con parámetros de búsqueda regulares.

BLASTN tiene el tamaño de palabra predeterminado de 11, es decir, informa como HSP solo una serie de 11 nucleótidos idénticos. Incluso disminuyendo el tamaño de la palabra a 7, el tamaño de palabra más bajo permitido actualmente para BLASTN, no cambiaría el resultado si el tramo más largo de nucleótidos idénticos en esta alineación tiene solo 6 bases de largo.

Este ejemplo no solo muestra una vez más por qué las búsquedas de proteínas son superiores a las búsquedas de ADN-ADN. También demuestra que establecer que dos secuencias dadas no son homólogas requiere tanta precaución como demostrar que son homólogas.

En consecuencia, la afirmación de que la secuencia informada es & # 8220novel & # 8221 y no tiene homólogos en GenBank, que a menudo se encuentra en la literatura científica, siempre debe tratarse con un saludable escepticismo.

Como se describió anteriormente, se adaptan diferentes matrices de sustitución de aminoácidos para detectar similitudes entre secuencias con diferentes niveles de divergencia. Sin embargo, una sola matriz, BLOSUM62, es razonablemente eficiente en una amplia gama de cambios evolutivos, por lo que las situaciones en las que se requiere un cambio de matriz son raras.

Para alineaciones particularmente largas con muy baja similitud, se puede intentar un cambio a BLOSUM45, pero se debe tener en cuenta que esto también podría desencadenar un aumento en la tasa de falsos positivos. Por el contrario, las matrices PAM30, PAM70 o BLOSUM8O se pueden utilizar para consultas breves.

Cada matriz de sustitución debe utilizarse con el correspondiente conjunto de penalizaciones por hueco. Dado que no existe una teoría analítica para calcular los valores E para alineaciones con huecos, los parámetros de la ecuación II tuvieron que determinarse mediante extensas simulaciones por computadora por separado para cada combinación de una matriz, penalización de apertura de hueco y penalización de extensión de hueco.

Por lo tanto, solo está disponible para su uso un conjunto limitado de combinaciones. Sin embargo, no hay indicios de que cambios sustanciales en estos parámetros tengan un efecto positivo en el rendimiento de la búsqueda.

Una característica útil que se ha agregado recientemente a NCBI BLAST es la capacidad de guardar y marcar la URL con una configuración BLAST particular usando el botón & # 8216Get URL & # 8217 en la parte inferior de la página. Para un usuario habitual de BLAST, vale la pena guardar varias configuraciones personalizadas para diferentes tareas.

Ejecutando BLAST y formateando la salida:

Una búsqueda BLAST se puede iniciar con un número GI o con la propia secuencia. En la implementación actual en la página web de NCBI, el usuario puede ejecutar una búsqueda BLAST y luego probar varias formas diferentes de formatear la salida. La opción predeterminada implica alternar entre dos ventanas, lo que puede resultar confuso; puede ser conveniente cambiar a un formato de una ventana usando el botón de Diseño y guardar la configuración como se indica arriba.

La búsqueda CDD se ejecuta de forma predeterminada junto con BLAST. Como se mencionó anteriormente, esta búsqueda es mucho más rápida que BLAST normal y, a menudo, es más sensible. La búsqueda de CDD normalmente se completa mucho antes de que estén disponibles los resultados de BLAST convencional. Esto permite al usuario inspeccionar la salida de búsqueda de CDD y tener una idea de la arquitectura de dominio de la proteína de consulta mientras espera los resultados de BLAST.

En muchas ocasiones, todo lo que realmente se necesita de una búsqueda en una base de datos es reconocer una proteína en particular a través de su arquitectura de dominios característica o asegurarse de que una proteína de interés no contenga un dominio en particular. En tales situaciones, puede que no haya razón para esperar a que termine el BLAST normal.

La búsqueda CDD también se puede ejecutar como un programa independiente desde la página principal de BLAST. En este modo, es posible cambiar el umbral de valor E para informar sobre aciertos de dominio (predeterminado 0.01), lo que puede ser útil para detectar relaciones sutiles y nuevas versiones de dominios conocidos.

La configuración actual de BLAST incluye una limitación en el número de descripciones y el número de alineaciones incluidas en la salida, los valores predeterminados actuales son 250 y 100, respectivamente. Con el tamaño de la base de datos en rápido crecimiento, a menudo es necesario aumentar estos límites para investigar una familia de proteínas en particular. Sin embargo, si lo hace, es probable que genere grandes resultados que sean difíciles de descargar y navegar. Limitar el espacio de búsqueda como se describe anteriormente podría ser una opción viable y, a menudo, preferible.

La opción de descripción general gráfica permite al usuario seleccionar si se incluye en la salida una representación gráfica de los resultados de la base de datos alineados con la secuencia de consulta. Aunque ralentiza la carga de la página, esta opción es esencial para un examen rápido de la salida y tener una idea de la arquitectura de dominio de la consulta. Cada alineación en la ventana de vista gráfica está codificada por colores para indicar su similitud con la secuencia de consulta.

El menú de vistas de alineaciones permite al usuario elegir el modo de presentación de alineación. La alineación por pares predeterminada es la vista de alineación BLAST estándar de los pares entre la secuencia de consulta y cada uno de los resultados de la base de datos.

Todas las demás vistas son alineaciones pseudo-múltiples producidas al analizar los HSP utilizando la consulta como plantilla. La consulta anclada sin identidades es la misma vista con todos los residuos mostrados. La consulta plana anclada con identidades es una alineación múltiple que permite que los espacios en la secuencia de la consulta, los residuos que son idénticos a los de la secuencia de la consulta se muestren como guiones. La consulta plana anclada sin identidades también permite huecos en la secuencia de consulta pero muestra todos los residuos.

La alineación por pares es definitivamente más conveniente para la inspección de similitudes de secuencia, pero la opción & # 8220flat consulta anclada sin identidades & # 8221 permite generar múltiples alineaciones de calidad razonable que se pueden guardar para un análisis posterior. Esta opción se usa mejor con el número de descripciones y alineaciones (ver arriba) limitado a un número manejable (típicamente, no más de 50).

La opción Taxonomy Reports permite al usuario producir un desglose taxonómico de la salida BLAST. Dado que muchos resultados de BLAST son bastante grandes en estos días, esto es extremadamente útil, ya que permite evaluar rápidamente la distribución filética de la familia de proteínas dada e identificar homólogos de taxones distantes.

Formateo para PSI-BLAST:

La salida de BLAST se puede utilizar como entrada para PSI-BLAST. El parámetro crítico que generalmente se establece antes de comenzar la ejecución BLAST inicial es el umbral de inclusión; el valor predeterminado actual es E = 0.005. Este parámetro determina el valor E requerido para incluir un HSP en la alineación múltiple que se utiliza para construir el PSSM. Combinado con las estadísticas basadas en la composición, el valor E de 0,005 es un límite relativamente conservador. Los aciertos espurios con valores E más bajos son poco comunes: se observan con más o menos frecuencia con la frecuencia esperada según las estadísticas de Karlin-Altschul, es decir, aproximadamente una vez en 200 búsquedas.

Por lo tanto, explorar cuidadosamente los resultados con valores E más altos establecidos como umbral de inclusión a menudo permite descubrir relaciones sutiles que no son detectables con el límite predeterminado. Al estudiar familias de proteínas nuevas o poco conocidas, utilizamos de forma rutinaria umbrales de hasta 0,1.

En la versión de PSI-BLAST, que está disponible en la web, cada nueva iteración debe ser lanzada por el usuario. Las nuevas secuencias detectadas en la última iteración con un valor E por encima del corte se resaltan en la salida PSI-BLAST. PSI-BLAST también tiene la opción extremadamente útil de seleccionar o deseleccionar manualmente secuencias para su inclusión en el PSSM.

Seleccionar secuencias & # 8220 esperanzadoras & # 8221 con valores E por debajo del límite puede ayudar en una exploración preliminar de una familia de proteínas emergente deseleccionar secuencias que parecen ser falsas a pesar de que los valores E por encima del límite pueden prevenir la corrupción del PSSM. El PSSM producido por PSI-BLAST en cualquier iteración se puede guardar y utilizar para búsquedas posteriores en la base de datos.

Nos damos cuenta de que la recomendación anterior de investigar los resultados que no se informan como estadísticamente significativos es un llamado a la controversia. Sin embargo, creemos que existen varios argumentos a favor de este enfoque. Primero, tales análisis de similitudes sutiles han demostrado ser útiles en repetidas ocasiones, incluida la prueba original de la eficacia de PSI-BLAST. En segundo lugar, como en otros tipos de investigación, lo realmente crítico es el descubrimiento original.

Una vez que se vislumbra por primera vez lo que podría ser una nueva relación importante, a menudo se puede demostrar la significación estadística mediante una combinación de métodos adicionales. En tercer lugar, ciertamente no abogamos por reducir el límite estadístico para las búsquedas a gran escala, y mucho menos para las búsquedas automatizadas. Esto es seguro solo cuando se aplica en estudios de casos cuidadosamente controlados.

Análisis e interpretación de los resultados de BLAST:

A pesar de la sólida base estadística, incluidas las estadísticas basadas en la composición, las búsquedas BLAST producen inevitablemente tanto falsos positivos como falsos negativos. La principal causa de la aparición de falsos positivos, es decirLos aciertos de base de datos que tienen valores de E & # 8220 significativos & # 8221 pero, tras un análisis más detallado, resultan no reflejar homología, parece ser un sesgo de composición sutil que las estadísticas basadas en la composición o el filtrado de baja complejidad pasan por alto.

La razón por la que los falsos negativos son inevitables es, en cierto sentido, más fundamental: en muchos casos, los homólogos realmente tienen una similitud de secuencia baja que no se captura fácilmente en las búsquedas de bases de datos y, incluso si se informa, pueden no cruzar el umbral de significancia estadística. En un procedimiento iterativo como PSI-BLAST, tanto las oportunidades para detectar relaciones nuevas e interesantes como las trampas se exacerban aún más.

Más allá de las cuestiones (conceptualmente) sencillas de selectividad y sensibilidad, las asignaciones funcionales basadas en los resultados de búsqueda de la base de datos requieren una interpretación cuidadosa si queremos sacar el máximo provecho de este tipo de análisis y minimizar la posibilidad de predicciones falsas. A continuación, consideramos tanto las cuestiones de la selectividad de búsqueda como la sensibilidad y la interpretación funcional.

Ningún valor de corte es capaz de dividir con precisión los resultados de la base de datos para una consulta determinada en relevantes, indicativos de homología y falsos. Al considerar solo los resultados de la base de datos con una significancia estadística muy alta (por ejemplo, E & lt 10 10) y aplicar estadísticas basadas en la composición, los falsos positivos pueden eliminarse para la inmensa mayoría de las consultas, pero el precio a pagar es alto: numerosos homólogos, a menudo incluidos aquellos que son más importantes para la interpretación funcional, se perderán.

Ciertamente, esta breve discusión no puede cubrir todos los & # 8220secretos comerciales & # 8221 del análisis de secuencias. Sin embargo, lo anterior parece ser suficiente para formular algunas reglas empíricas que ayudan a un investigador a extraer la máxima cantidad de información de las búsquedas en la base de datos mientras minimizan la probabilidad de & # 8220descubrimientos & # 8221 falsos.

Algunos puntos más finos se mencionan a continuación:

1. Buscar en una biblioteca de dominios es a menudo más fácil y más informativo que buscar en toda la base de datos de secuencias. Sin embargo, este último proporciona información complementaria y no debe omitirse si los detalles son de interés.

2. Variando los parámetros de búsqueda, p. Ej. activar y desactivar las estadísticas basadas en composición puede marcar la diferencia.

3. Usando subsecuencias, preferiblemente elegidas de acuerdo con criterios objetivos, p. Ej. la separación del resto de la proteína mediante un enlazador de baja complejidad puede mejorar el rendimiento de la búsqueda.

4. Probar diferentes consultas es imprescindible al analizar (super) familias de proteínas.

5. Incluso los resultados por debajo del umbral de significación estadística a menudo merece la pena analizar, aunque con sumo cuidado.

6. La transferencia de información funcional entre homólogos basándose únicamente en la descripción de una base de datos es peligrosa. Es necesario analizar la conservación de arquitecturas de dominio, sitios activos y otras características (por lo tanto, la identificación automatizada de familias de proteínas es difícil y la predicción automatizada de funciones es extremadamente propensa a errores).

Bioinformática para aprender las complejidades de la biodiversidad:

Un dominio es la unidad más pequeña de evolución según la definición de la base de datos SCOP (Murzin et al., 1995) de estructuras proteicas conocidas. Las proteínas pequeñas constan de un solo dominio y algunas proteínas más grandes constan de más de un dominio. Una parte de una proteína solo se considera un dominio por derecho propio si se observa en otro lugar de la naturaleza por sí sola o en combinación con diferentes dominios asociados. Los dominios con evidencia estructural, funcional y de secuencia de un ancestro evolutivo común se clasifican dentro de la misma superfamilia en SCOP.

La arquitectura de dominio de una proteína se describe por el orden de los dominios y las superfamilias & # 8217 a las que pertenecen. El repertorio de arquitecturas presentes en los genomas ha surgido por la duplicación y recombinación (Miyata y Suga, 2001 Ohno, 1970) de los dominios de las superfamilias ancestrales (Chothia et al., 2003 Qian et al., 2001), a menudo formando múltiples proteínas de dominio (Rossmann et al., 1974).

Recientemente, Julian Gough (2005), en un estudio planteó la pregunta principal de hasta qué punto las arquitecturas observadas en los genomas se deben a la necesidad funcional o al descenso evolutivo, es decir, hasta qué punto los genes y los estrictos requisitos selectivos han conducido a idénticos arquitecturas en múltiples ocasiones. La evolución convergente se define aquí como más de un evento evolutivo independiente (recombinación) que conduce a la misma arquitectura de dominio en diferentes genomas.

Si la mezcla de dominios está impulsada funcionalmente, entonces esperamos encontrar una gran cantidad de evidencia de evolución convergente, ya que se llegaría a la misma arquitectura de forma independiente en varios genomas diferentes. La falta de detección de la evolución convergente apunta a que el descenso evolutivo es la explicación de la presencia observada de arquitecturas en los genomas.

Sus hallazgos incluyen el hecho de que entre el 0,4 y el 4% de las secuencias están involucradas en la evolución convergente de las arquitecturas de dominio y esperan que el número real esté cerca del límite inferior. Además, observaron que los eventos que conducen a la evolución convergente parecen ser aleatorios sin preferencias funcionales o estructurales, y los cambios en el número de dominios repetidos en tándem ocurren más fácilmente que los cambios que alteran la composición del dominio. Por lo tanto, su principal conclusión es que las arquitecturas de dominio observadas de las secuencias en los genomas están impulsadas por el descenso evolutivo más que por la necesidad funcional.


Contenido

El ADN no suele existir como una sola hebra, sino como un par de hebras que se mantienen juntas. [9] [12] Estos dos largos hilos se enrollan uno alrededor del otro, en forma de doble hélice. El nucleótido contiene tanto un segmento de la columna vertebral de la molécula (que mantiene unida la cadena) como una nucleobase (que interactúa con la otra hebra de ADN en la hélice). Una nucleobase ligada a un azúcar se llama nucleósido, y una base ligada a un azúcar y a uno o más grupos fosfato se llama nucleótido. Un biopolímero que comprende múltiples nucleótidos enlazados (como en el ADN) se denomina polinucleótido. [13]

La columna vertebral de la cadena de ADN está formada por grupos alternos de fosfato y azúcar. [14] El azúcar en el ADN es 2-desoxirribosa, que es un azúcar pentosa (cinco carbonos). Los azúcares están unidos por grupos fosfato que forman enlaces fosfodiéster entre el tercer y quinto átomos de carbono de los anillos de azúcar adyacentes. Estos se conocen como carbonos del extremo 3 '(tres extremos principales) y del extremo 5' (cinco extremos principales), y el símbolo principal se utiliza para distinguir estos átomos de carbono de los de la base con la que la desoxirribosa forma un enlace glicosídico. . Por lo tanto, cualquier hebra de ADN normalmente tiene un extremo en el que hay un grupo fosfato unido al carbono 5 'de una ribosa (el 5' fosforilo) y otro extremo en el que hay un grupo hidroxilo libre unido al carbono 3 'de una ribosa. ribosa (el 3 'hidroxilo). La orientación de los carbonos 3 'y 5' a lo largo del esqueleto de azúcar-fosfato confiere direccionalidad (a veces llamada polaridad) a cada cadena de ADN. En una doble hélice de ácido nucleico, la dirección de los nucleótidos en una hebra es opuesta a su dirección en la otra hebra: las hebras son antiparalelas. Se dice que los extremos asimétricos de las cadenas de ADN tienen una direccionalidad de cinco extremos primarios (5 ′) y tres extremos primarios (3 ′), teniendo el extremo 5 ′ un grupo fosfato terminal y el extremo 3 ′ un grupo hidroxilo terminal. Una diferencia importante entre el ADN y el ARN es el azúcar, y la 2-desoxirribosa en el ADN se reemplaza por la alternativa de azúcar pentosa ribosa en el ARN. [12]

Clasificación de nucleobase

Bases no canónicas

Las bases modificadas se encuentran en el ADN. El primero de ellos reconocido fue la 5-metilcitosina, que se encontró en el genoma de Tuberculosis micobacteriana en 1925. [20] La razón de la presencia de estas bases no canónicas en virus bacterianos (bacteriófagos) es evitar las enzimas de restricción presentes en las bacterias. Este sistema enzimático actúa, al menos en parte, como un sistema inmunológico molecular que protege a las bacterias de la infección por virus. [21] Las modificaciones de las bases citosina y adenina, las bases de ADN más comunes y modificadas, desempeñan un papel vital en el control epigenético de la expresión génica en plantas y animales. [22]

Listado de bases no canónicas encontradas en el ADN

Se sabe que existen varias bases no canónicas en el ADN. [23] La mayoría de estos son modificaciones de las bases canónicas más uracilo.

  • Modificado Adenosina
    • N6-carbamoil-metiladenina
    • N6-metiadenina
    • 7-Deazaguanina
    • 7-metilguanina
    • N4-metilcitosina
    • 5-carboxilcitosina
    • 5-formilcitosina
    • 5-glicosilhidroximetilcitosina
    • 5-hidroxicitosina
    • 5-metilcitosina
    • α-glutamitimidina
    • α-putresciniltilina
    • Base J
    • Uracil
    • 5-dihidroxipentauracilo
    • 5-hidroximetildesoxiuracilo
    • Desoxiarqueosina
    • 2,6-diaminopurina (2-aminoadenina)

    Surcos

    Las hebras helicoidales gemelas forman la columna vertebral del ADN. Se puede encontrar otra doble hélice trazando los espacios, o ranuras, entre las hebras. Estos huecos son adyacentes a los pares de bases y pueden proporcionar un sitio de unión. Como las hebras no están ubicadas simétricamente entre sí, las ranuras tienen un tamaño desigual. Un surco, el surco principal, tiene 22 ångströms (2,2 nm) de ancho y el otro, el surco menor, tiene 12 Å (1,2 nm) de ancho. [24] El ancho del surco mayor significa que los bordes de las bases son más accesibles en el surco mayor que en el menor. Como resultado, las proteínas, como los factores de transcripción, que pueden unirse a secuencias específicas en el ADN de doble hebra, suelen entrar en contacto con los lados de las bases expuestas en el surco principal. [25] Esta situación varía en conformaciones inusuales de ADN dentro de la célula. (vea abajo), pero los surcos mayor y menor siempre se nombran para reflejar las diferencias de tamaño que se verían si el ADN se retorciera a la forma B ordinaria.

    Emparejamiento de bases

    SsDNA frente a dsDNA

    En el laboratorio, la fuerza de esta interacción se puede medir encontrando la temperatura necesaria para romper la mitad de los enlaces de hidrógeno, su temperatura de fusión (también llamada Tmetro valor). Cuando todos los pares de bases en una doble hélice de ADN se funden, las hebras se separan y existen en solución como dos moléculas completamente independientes. Estas moléculas de ADN monocatenario no tienen una forma común única, pero algunas conformaciones son más estables que otras. [30]

    Sentido y antisentido

    Una secuencia de ADN se denomina secuencia "con sentido" si es la misma que la de una copia de ARN mensajero que se traduce en proteína. [31] La secuencia en la hebra opuesta se llama secuencia "antisentido". Tanto las secuencias sentido como las antisentido pueden existir en diferentes partes de la misma hebra de ADN (es decir, ambas hebras pueden contener secuencias tanto con sentido como antisentido). Tanto en procariotas como en eucariotas, se producen secuencias de ARN antisentido, pero las funciones de estos ARN no están del todo claras. [32] Una propuesta es que los ARN antisentido están involucrados en la regulación de la expresión génica a través del emparejamiento de bases ARN-ARN. [33]

    Algunas secuencias de ADN en procariotas y eucariotas, y más en plásmidos y virus, difuminan la distinción entre cadenas con sentido y antisentido al tener genes superpuestos. [34] En estos casos, algunas secuencias de ADN cumplen una doble función: codifican una proteína cuando se leen a lo largo de una hebra y una segunda proteína cuando se leen en la dirección opuesta a lo largo de la otra hebra. En las bacterias, esta superposición puede estar involucrada en la regulación de la transcripción de genes, [35] mientras que en los virus, la superposición de genes aumenta la cantidad de información que puede codificarse dentro del genoma viral pequeño. [36]

    Superenrollamiento

    El ADN se puede retorcer como una cuerda en un proceso llamado superenrollamiento del ADN. Con el ADN en su estado "relajado", una hebra generalmente rodea el eje de la doble hélice una vez cada 10,4 pares de bases, pero si el ADN se retuerce, las hebras se vuelven más apretadas o más flojas. [37] Si el ADN se tuerce en la dirección de la hélice, se trata de un superenrollamiento positivo y las bases se mantienen más juntas. Si se tuercen en la dirección opuesta, se trata de un superenrollamiento negativo y las bases se separan más fácilmente. En la naturaleza, la mayor parte del ADN tiene un ligero superenrollamiento negativo que es introducido por enzimas llamadas topoisomerasas. [38] Estas enzimas también son necesarias para aliviar las tensiones de torsión introducidas en las cadenas de ADN durante procesos como la transcripción y la replicación del ADN. [39]

    Estructuras de ADN alternativas

    El ADN existe en muchas conformaciones posibles que incluyen las formas A-ADN, B-ADN y Z-ADN, aunque solo se han observado directamente B-ADN y Z-ADN en organismos funcionales. [14] La conformación que adopta el ADN depende del nivel de hidratación, la secuencia del ADN, la cantidad y dirección del superenrollamiento, las modificaciones químicas de las bases, el tipo y concentración de iones metálicos y la presencia de poliaminas en solución. [40]

    Los primeros informes publicados sobre patrones de difracción de rayos X de ADN-A, y también ADN-B, utilizaron análisis basados ​​en transformaciones de Patterson que proporcionaron solo una cantidad limitada de información estructural para las fibras de ADN orientadas. [41] [42] Luego, Wilkins propuso un análisis alternativo. et al., en 1953, para el en vivo Patrones de dispersión de difracción de rayos X de ADN B de fibras de ADN altamente hidratadas en términos de cuadrados de funciones de Bessel. [43] En la misma revista, James Watson y Francis Crick presentaron su análisis de modelado molecular de los patrones de difracción de rayos X del ADN para sugerir que la estructura era una doble hélice. [9]

    Aunque el Forma de B-DNA es más común en las condiciones que se encuentran en las células, [44] no es una conformación bien definida, sino una familia de conformaciones de ADN relacionadas [45] que ocurren a los altos niveles de hidratación presentes en las células. Sus correspondientes patrones de difracción y dispersión de rayos X son característicos de los paracristales moleculares con un grado significativo de desorden. [46] [47]

    En comparación con B-DNA, la forma A-DNA es una espiral derecha más ancha, con un surco menor ancho y poco profundo y un surco mayor más estrecho y profundo. La forma A se presenta en condiciones no fisiológicas en muestras de ADN parcialmente deshidratadas, mientras que en la célula puede producirse en pares híbridos de cadenas de ADN y ARN y en complejos enzima-ADN. [48] ​​[49] Los segmentos de ADN donde las bases han sido modificadas químicamente por metilación pueden sufrir un cambio mayor en la conformación y adoptar la forma Z. Aquí, las hebras giran alrededor del eje helicoidal en una espiral hacia la izquierda, lo opuesto a la forma B más común. [50] Estas estructuras inusuales pueden ser reconocidas por proteínas de unión al ADN-Z específicas y pueden estar involucradas en la regulación de la transcripción. [51]

    Química alternativa del ADN

    Durante muchos años, los exobiólogos han propuesto la existencia de una biosfera en la sombra, una biosfera microbiana postulada de la Tierra que utiliza procesos bioquímicos y moleculares radicalmente diferentes a los de la vida actualmente conocida. Una de las propuestas fue la existencia de formas de vida que utilizan arsénico en lugar de fósforo en el ADN. Se anunció un informe en 2010 sobre la posibilidad de la bacteria GFAJ-1, [52] [53] aunque la investigación fue cuestionada, [53] [54] y la evidencia sugiere que la bacteria previene activamente la incorporación de arsénico en la columna vertebral del ADN. y otras biomoléculas. [55]

    Estructuras cuádruplex

    En los extremos de los cromosomas lineales hay regiones especializadas de ADN llamadas telómeros. La función principal de estas regiones es permitir que la célula replique los extremos de los cromosomas utilizando la enzima telomerasa, ya que las enzimas que normalmente replican el ADN no pueden copiar los extremos 3 ′ de los cromosomas. [56] Estos casquetes cromosómicos especializados también ayudan a proteger los extremos del ADN y evitan que los sistemas de reparación del ADN en la célula los traten como daños a corregir. [57] En las células humanas, los telómeros suelen ser longitudes de ADN monocatenario que contienen varios miles de repeticiones de una secuencia TTAGGG simple. [58]

    Estas secuencias ricas en guanina pueden estabilizar los extremos de los cromosomas formando estructuras de conjuntos apilados de unidades de cuatro bases, en lugar de los pares de bases habituales que se encuentran en otras moléculas de ADN. Aquí, cuatro bases de guanina, conocidas como tétrada de guanina, forman una placa plana. Estas unidades planas de cuatro bases se apilan una encima de la otra para formar una estructura G-quadruplex estable. [60] Estas estructuras se estabilizan mediante enlaces de hidrógeno entre los bordes de las bases y la quelación de un ión metálico en el centro de cada unidad de cuatro bases. [61] También se pueden formar otras estructuras, con el conjunto central de cuatro bases provenientes de una sola hebra doblada alrededor de las bases, o de varias hebras paralelas diferentes, cada una aportando una base a la estructura central.

    Además de estas estructuras apiladas, los telómeros también forman grandes estructuras de bucle llamadas bucles de telómeros o bucles en T. Aquí, el ADN monocatenario se enrolla en un círculo largo estabilizado por proteínas de unión a telómeros. [62] Al final del bucle en T, el ADN del telómero monocatenario se mantiene en una región del ADN bicatenario mediante la cadena del telómero que interrumpe el ADN de doble hélice y el apareamiento de bases con una de las dos cadenas. Esta estructura de triple hebra se llama bucle de desplazamiento o bucle en D. [60]

    ADN ramificado

    En el ADN, el deshilachado ocurre cuando existen regiones no complementarias al final de una doble hebra de ADN que de otro modo sería complementaria. Sin embargo, puede producirse ADN ramificado si se introduce una tercera hebra de ADN y contiene regiones contiguas capaces de hibridar con las regiones deshilachadas de la doble hebra preexistente. Aunque el ejemplo más simple de ADN ramificado involucra solo tres cadenas de ADN, también son posibles complejos que involucran cadenas adicionales y múltiples ramas. [63] El ADN ramificado se puede utilizar en nanotecnología para construir formas geométricas; consulte la sección sobre usos en tecnología a continuación.

    Bases artificiales

    Se han sintetizado varias nucleobases artificiales y se han incorporado con éxito en el análogo de ADN de ocho bases llamado ADN de Hachimoji. Denominadas S, B, P y Z, estas bases artificiales son capaces de unirse entre sí de forma predecible (S – B y P – Z), mantener la estructura de doble hélice del ADN y transcribirse a ARN. Su existencia podría verse como una indicación de que no hay nada especial en las cuatro nucleobases naturales que evolucionaron en la Tierra. [64] [65] Por otro lado, el ADN está estrechamente relacionado con el ARN, que no solo actúa como una transcripción del ADN, sino que también realiza muchas tareas en las células como máquinas moleculares. Para ello, tiene que plegarse formando una estructura. Se ha demostrado que para permitir la creación de todas las estructuras posibles se requieren al menos cuatro bases para el ARN correspondiente, [66] mientras que también es posible un número mayor, pero esto iría en contra del Principio natural del menor esfuerzo.

    Modificaciones de base y empaquetado de ADN

    La expresión de los genes está influenciada por cómo se empaqueta el ADN en los cromosomas, en una estructura llamada cromatina. Las modificaciones de las bases pueden estar implicadas en el empaquetamiento, con regiones que tienen una expresión génica baja o nula que normalmente contienen altos niveles de metilación de bases de citosina.El empaquetamiento de ADN y su influencia en la expresión génica también puede ocurrir por modificaciones covalentes del núcleo de la proteína histona alrededor del cual el ADN está envuelto en la estructura de la cromatina o bien por remodelación llevada a cabo por complejos de remodelación de cromatina (ver Remodelación de cromatina). Además, existe una diafonía entre la metilación del ADN y la modificación de histonas, por lo que pueden afectar de manera coordinada la cromatina y la expresión génica. [67]

    Por ejemplo, la metilación de citosina produce 5-metilcitosina, que es importante para la inactivación X de los cromosomas. [68] El nivel medio de metilación varía entre organismos: el gusano Caenorhabditis elegans carece de metilación de citosina, mientras que los vertebrados tienen niveles más altos, con hasta un 1% de su ADN que contiene 5-metilcitosina. [69] A pesar de la importancia de la 5-metilcitosina, puede desaminarse para dejar una base de timina, por lo que las citosinas metiladas son particularmente propensas a mutaciones. [70] Otras modificaciones de bases incluyen metilación de adenina en bacterias, la presencia de 5-hidroximetilcitosina en el cerebro, [71] y la glicosilación de uracilo para producir la "base J" en cinetoplastidos. [72] [73]

    Daño

    El ADN puede resultar dañado por muchos tipos de mutágenos, que cambian la secuencia del ADN. Los mutágenos incluyen agentes oxidantes, agentes alquilantes y también radiación electromagnética de alta energía, como luz ultravioleta y rayos X. El tipo de daño del ADN producido depende del tipo de mutágeno. Por ejemplo, la luz ultravioleta puede dañar el ADN al producir dímeros de timina, que son enlaces cruzados entre las bases de pirimidina. [75] Por otro lado, los oxidantes como los radicales libres o el peróxido de hidrógeno producen múltiples formas de daño, incluidas modificaciones de bases, particularmente de guanosina, y roturas de doble hebra. [76] Una célula humana típica contiene alrededor de 150.000 bases que han sufrido daño oxidativo. [77] De estas lesiones oxidativas, las más peligrosas son las roturas de doble hebra, ya que son difíciles de reparar y pueden producir mutaciones puntuales, inserciones, deleciones de la secuencia de ADN y translocaciones cromosómicas. [78] Estas mutaciones pueden causar cáncer. Debido a los límites inherentes a los mecanismos de reparación del ADN, si los humanos vivieran lo suficiente, eventualmente todos desarrollarían cáncer. [79] [80] Los daños al ADN que ocurren naturalmente, debido a procesos celulares normales que producen especies reactivas de oxígeno, las actividades hidrolíticas del agua celular, etc., también ocurren con frecuencia. Aunque la mayoría de estos daños se reparan, en cualquier célula puede quedar algo de daño en el ADN a pesar de la acción de los procesos de reparación. Estos daños restantes del ADN se acumulan con la edad en los tejidos postmitóticos de los mamíferos. Esta acumulación parece ser una importante causa subyacente del envejecimiento. [81] [82] [83]

    Muchos mutágenos caben en el espacio entre dos pares de bases adyacentes, esto se llama intercalación. La mayoría de los intercaladores son moléculas aromáticas y planas. Los ejemplos incluyen bromuro de etidio, acridinas, daunomicina y doxorrubicina. Para que un intercalador encaje entre pares de bases, las bases deben separarse, distorsionando las hebras de ADN al desenrollar la doble hélice. Esto inhibe tanto la transcripción como la replicación del ADN, provocando toxicidad y mutaciones. [84] Como resultado, los intercaladores de ADN pueden ser carcinógenos y, en el caso de la talidomida, un teratógeno. [85] Otros como el benzo [a] pireno diol epóxido y aflatoxina forman aductos de ADN que inducen errores en la replicación. [86] No obstante, debido a su capacidad para inhibir la transcripción y replicación del ADN, también se utilizan otras toxinas similares en la quimioterapia para inhibir las células cancerosas de crecimiento rápido. [87]

    El ADN generalmente se presenta como cromosomas lineales en eucariotas y cromosomas circulares en procariotas. El conjunto de cromosomas de una célula constituye su genoma; el genoma humano tiene aproximadamente 3 mil millones de pares de bases de ADN dispuestos en 46 cromosomas. [88] La información transportada por el ADN se mantiene en la secuencia de fragmentos de ADN llamados genes. La transmisión de información genética en genes se logra mediante el apareamiento de bases complementarias. Por ejemplo, en la transcripción, cuando una célula usa la información de un gen, la secuencia de ADN se copia en una secuencia de ARN complementaria mediante la atracción entre el ADN y los nucleótidos de ARN correctos. Por lo general, esta copia de ARN se usa para hacer una secuencia de proteína coincidente en un proceso llamado traducción, que depende de la misma interacción entre los nucleótidos de ARN. De manera alternativa, una célula puede simplemente copiar su información genética en un proceso llamado replicación del ADN. Los detalles de estas funciones se tratan en otros artículos, aquí el foco está en las interacciones entre el ADN y otras moléculas que median la función del genoma.

    Genes y genomas

    El ADN genómico se empaqueta de manera apretada y ordenada en el proceso llamado condensación de ADN, para adaptarse a los pequeños volúmenes disponibles de la célula. En eucariotas, el ADN se encuentra en el núcleo celular, con pequeñas cantidades en mitocondrias y cloroplastos. En los procariotas, el ADN se mantiene dentro de un cuerpo de forma irregular en el citoplasma llamado nucleoide. [89] La información genética de un genoma se encuentra dentro de los genes, y el conjunto completo de esta información en un organismo se denomina genotipo. Un gen es una unidad hereditaria y es una región del ADN que influye en una característica particular de un organismo. Los genes contienen un marco de lectura abierto que se puede transcribir y secuencias reguladoras, como promotores y potenciadores, que controlan la transcripción del marco de lectura abierto.

    En muchas especies, solo una pequeña fracción de la secuencia total del genoma codifica proteínas. Por ejemplo, solo alrededor del 1,5% del genoma humano consiste en exones que codifican proteínas, y más del 50% del ADN humano consiste en secuencias repetitivas no codificantes. [90] Las razones de la presencia de tanto ADN no codificante en los genomas eucariotas y las extraordinarias diferencias en el tamaño del genoma, o Valor C, entre las especies, representan un enigma de larga data conocido como el "enigma del valor C". [91] Sin embargo, algunas secuencias de ADN que no codifican proteínas aún pueden codificar moléculas de ARN no codificantes funcionales, que participan en la regulación de la expresión génica. [92]

    Algunas secuencias de ADN no codificantes desempeñan funciones estructurales en los cromosomas. Los telómeros y centrómeros suelen contener pocos genes, pero son importantes para la función y estabilidad de los cromosomas. [57] [94] Una forma abundante de ADN no codificante en humanos son los pseudogenes, que son copias de genes que han sido desactivados por mutación. [95] Estas secuencias suelen ser sólo fósiles moleculares, aunque ocasionalmente pueden servir como material genético en bruto para la creación de nuevos genes a través del proceso de duplicación y divergencia de genes. [96]

    Transcripción y traducción

    Un gen es una secuencia de ADN que contiene información genética y puede influir en el fenotipo de un organismo. Dentro de un gen, la secuencia de bases a lo largo de una hebra de ADN define una secuencia de ARN mensajero, que luego define una o más secuencias de proteínas. La relación entre las secuencias de nucleótidos de los genes y las secuencias de aminoácidos de las proteínas está determinada por las reglas de traducción, conocidas colectivamente como código genético. El código genético consta de 'palabras' de tres letras llamadas codones formado a partir de una secuencia de tres nucleótidos (por ejemplo, ACT, CAG, TTT).

    En la transcripción, los codones de un gen se copian en el ARN mensajero por la ARN polimerasa. Esta copia de ARN es luego decodificada por un ribosoma que lee la secuencia de ARN emparejando las bases del ARN mensajero para transferir ARN, que transporta aminoácidos. Dado que hay 4 bases en combinaciones de 3 letras, hay 64 codones posibles (4 3 combinaciones). Estos codifican los veinte aminoácidos estándar, dando a la mayoría de los aminoácidos más de un posible codón. También hay tres codones "de parada" o "sin sentido" que significan el final de la región codificante, estos son los codones TAA, TGA y TAG.

    Replicación

    La división celular es esencial para que un organismo crezca, pero, cuando una célula se divide, debe replicar el ADN en su genoma para que las dos células hijas tengan la misma información genética que su progenitor. La estructura bicatenaria del ADN proporciona un mecanismo simple para la replicación del ADN. Aquí, las dos hebras se separan y luego la secuencia de ADN complementaria de cada hebra es recreada por una enzima llamada ADN polimerasa. Esta enzima produce la hebra complementaria al encontrar la base correcta a través del emparejamiento de bases complementarias y unirla a la hebra original. Como las ADN polimerasas solo pueden extender una hebra de ADN en una dirección de 5 'a 3', se utilizan diferentes mecanismos para copiar las hebras antiparalelas de la doble hélice. [97] De esta manera, la base de la cadena antigua dicta qué base aparece en la nueva cadena, y la célula termina con una copia perfecta de su ADN.

    Ácidos nucleicos extracelulares

    El ADN extracelular desnudo (eDNA), la mayor parte liberado por la muerte celular, es casi omnipresente en el medio ambiente. Su concentración en el suelo puede ser tan alta como 2 μg / L, y su concentración en ambientes acuáticos naturales puede ser tan alta como 88 μg / L. [98] Se han propuesto varias funciones posibles para el eDNA: puede estar involucrado en la transferencia horizontal de genes [99] puede proporcionar nutrientes [100] y puede actuar como un amortiguador para reclutar o valorar iones o antibióticos. [101] El ADN extracelular actúa como un componente funcional de la matriz extracelular en las biopelículas de varias especies bacterianas. Puede actuar como un factor de reconocimiento para regular la unión y dispersión de tipos celulares específicos en el biofilm [102], puede contribuir a la formación del biofilm [103] y puede contribuir a la fuerza física del biofilm y la resistencia al estrés biológico. [104]

    El ADN fetal libre de células se encuentra en la sangre de la madre y se puede secuenciar para determinar una gran cantidad de información sobre el feto en desarrollo. [105]

    Bajo el nombre de ADN ambiental, el ADN electrónico se ha visto cada vez más utilizado en las ciencias naturales como una herramienta de estudio para la ecología, monitoreando los movimientos y la presencia de especies en el agua, el aire o la tierra, y evaluando la biodiversidad de un área. [106] [107]

    Todas las funciones del ADN dependen de las interacciones con las proteínas. Estas interacciones de proteínas pueden ser inespecíficas o la proteína puede unirse específicamente a una única secuencia de ADN. Las enzimas también pueden unirse al ADN y, de estos, las polimerasas que copian la secuencia de bases del ADN en la transcripción y replicación del ADN son particularmente importantes.

    Proteínas de unión al ADN

    Las proteínas estructurales que se unen al ADN son ejemplos bien conocidos de interacciones ADN-proteína no específicas. Dentro de los cromosomas, el ADN se mantiene en complejos con proteínas estructurales. Estas proteínas organizan el ADN en una estructura compacta llamada cromatina. En eucariotas, esta estructura implica la unión del ADN a un complejo de pequeñas proteínas básicas llamadas histonas, mientras que en los procariotas participan múltiples tipos de proteínas. [108] [109] Las histonas forman un complejo en forma de disco llamado nucleosoma, que contiene dos vueltas completas de ADN bicatenario envuelto alrededor de su superficie. Estas interacciones inespecíficas se forman a través de residuos básicos en las histonas, que forman enlaces iónicos con la estructura ácida de azúcar-fosfato del ADN y, por lo tanto, son en gran medida independientes de la secuencia de bases. [110] Las modificaciones químicas de estos residuos de aminoácidos básicos incluyen metilación, fosforilación y acetilación. [111] Estos cambios químicos alteran la fuerza de la interacción entre el ADN y las histonas, haciendo que el ADN sea más o menos accesible a los factores de transcripción y cambiando la tasa de transcripción. [112] Otras proteínas de unión al ADN no específicas en la cromatina incluyen las proteínas del grupo de alta movilidad, que se unen al ADN doblado o distorsionado. [113] Estas proteínas son importantes para doblar matrices de nucleosomas y organizarlas en las estructuras más grandes que forman los cromosomas. [114]

    Un grupo distinto de proteínas de unión al ADN son las proteínas de unión al ADN que se unen específicamente al ADN monocatenario. En los seres humanos, la proteína de replicación A es el miembro mejor entendido de esta familia y se utiliza en procesos en los que se separa la doble hélice, incluida la replicación, recombinación y reparación del ADN. [115] Estas proteínas de unión parecen estabilizar el ADN monocatenario y protegerlo de la formación de bucles madre o de ser degradado por nucleasas.

    Por el contrario, otras proteínas han evolucionado para unirse a secuencias de ADN particulares. El más estudiado de estos son los diversos factores de transcripción, que son proteínas que regulan la transcripción. Cada factor de transcripción se une a un conjunto particular de secuencias de ADN y activa o inhibe la transcripción de genes que tienen estas secuencias cercanas a sus promotores. Los factores de transcripción hacen esto de dos formas. En primer lugar, pueden unirse a la ARN polimerasa responsable de la transcripción, ya sea directamente o mediante otras proteínas mediadoras, lo que ubica a la polimerasa en el promotor y le permite comenzar la transcripción. [117] Alternativamente, los factores de transcripción pueden unirse a enzimas que modifican las histonas en el promotor. Esto cambia la accesibilidad de la plantilla de ADN a la polimerasa. [118]

    Como estos objetivos de ADN pueden ocurrir en todo el genoma de un organismo, los cambios en la actividad de un tipo de factor de transcripción pueden afectar a miles de genes. [119] En consecuencia, estas proteínas son a menudo los objetivos de los procesos de transducción de señales que controlan las respuestas a los cambios ambientales o la diferenciación y el desarrollo celular. La especificidad de las interacciones de estos factores de transcripción con el ADN proviene de las proteínas que hacen múltiples contactos con los bordes de las bases del ADN, lo que les permite "leer" la secuencia de ADN. La mayoría de estas interacciones de bases se realizan en el surco principal, donde las bases son más accesibles. [25]

    Enzimas modificadoras de ADN

    Nucleasas y ligasas

    Las nucleasas son enzimas que cortan las cadenas de ADN catalizando la hidrólisis de los enlaces fosfodiéster. Las nucleasas que hidrolizan los nucleótidos de los extremos de las cadenas de ADN se denominan exonucleasas, mientras que las endonucleasas cortan dentro de las cadenas. Las nucleasas más utilizadas en biología molecular son las endonucleasas de restricción, que cortan el ADN en secuencias específicas. Por ejemplo, la enzima EcoRV que se muestra a la izquierda reconoce la secuencia de 6 bases 5′-GATATC-3 ′ y hace un corte en la línea horizontal. En la naturaleza, estas enzimas protegen a las bacterias contra la infección por fagos al digerir el ADN del fago cuando ingresa a la célula bacteriana, actuando como parte del sistema de modificación de restricción. [121] En tecnología, estas nucleasas específicas de secuencia se utilizan en la clonación molecular y la toma de huellas dactilares de ADN.

    Las enzimas llamadas ADN ligasas pueden volver a unirse a las hebras de ADN cortadas o rotas. [122] Las ligasas son particularmente importantes en la replicación del ADN de la hebra rezagada, ya que unen los segmentos cortos de ADN producidos en la bifurcación de replicación en una copia completa de la plantilla de ADN. También se utilizan en la reparación del ADN y la recombinación genética. [122]

    Topoisomerasas y helicasas

    Las topoisomerasas son enzimas con actividad tanto nucleasa como ligasa. Estas proteínas cambian la cantidad de superenrollamiento del ADN. Algunas de estas enzimas funcionan cortando la hélice de ADN y permitiendo que una sección gire, lo que reduce su nivel de superenrollamiento de la enzima y luego sella la ruptura del ADN. [38] Otros tipos de estas enzimas son capaces de cortar una hélice de ADN y luego pasar una segunda hebra de ADN a través de esta ruptura, antes de volver a unirse a la hélice. [123] Las topoisomerasas son necesarias para muchos procesos que involucran al ADN, como la replicación y la transcripción del ADN. [39]

    Las helicasas son proteínas que son un tipo de motor molecular. Utilizan la energía química de los nucleósidos trifosfatos, predominantemente trifosfato de adenosina (ATP), para romper los enlaces de hidrógeno entre las bases y desenrollar la doble hélice del ADN en hebras simples. [124] Estas enzimas son esenciales para la mayoría de los procesos en los que las enzimas necesitan acceder a las bases del ADN.

    Polimerasas

    Las polimerasas son enzimas que sintetizan cadenas de polinucleótidos a partir de nucleósidos trifosfatos. La secuencia de sus productos se crea basándose en cadenas de polinucleótidos existentes, que se denominan plantillas. Estas enzimas funcionan añadiendo repetidamente un nucleótido al grupo hidroxilo 3 'al final de la cadena polinucleotídica en crecimiento. Como consecuencia, todas las polimerasas funcionan en una dirección de 5 ′ a 3 ′. [125] En el sitio activo de estas enzimas, los pares de bases de nucleósido trifosfato entrantes a la plantilla: esto permite que las polimerasas sinteticen con precisión la hebra complementaria de su plantilla. Las polimerasas se clasifican según el tipo de plantilla que utilizan.

    En la replicación del ADN, las ADN polimerasas dependientes de ADN hacen copias de las cadenas polinucleotídicas de ADN. Para preservar la información biológica, es esencial que la secuencia de bases en cada copia sea precisamente complementaria a la secuencia de bases en la hebra molde. Muchas ADN polimerasas tienen actividad de corrección de pruebas. Aquí, la polimerasa reconoce los errores ocasionales en la reacción de síntesis por la falta de apareamiento de bases entre los nucleótidos mal emparejados. Si se detecta un desajuste, se activa una actividad exonucleasa de 3 'a 5' y se elimina la base incorrecta. [126] En la mayoría de los organismos, las ADN polimerasas funcionan en un gran complejo llamado replisoma que contiene múltiples subunidades accesorias, como la pinza de ADN o las helicasas. [127]

    Las ADN polimerasas dependientes de ARN son una clase especializada de polimerasas que copian la secuencia de una cadena de ARN en ADN. Incluyen la transcriptasa inversa, que es una enzima viral involucrada en la infección de las células por retrovirus, y la telomerasa, que es necesaria para la replicación de los telómeros. [56] [128] Por ejemplo, la transcriptasa inversa del VIH es una enzima para la replicación del virus del SIDA. [128] La telomerasa es una polimerasa inusual porque contiene su propia plantilla de ARN como parte de su estructura. Sintetiza telómeros en los extremos de los cromosomas. Los telómeros evitan la fusión de los extremos de los cromosomas vecinos y protegen los extremos de los cromosomas del daño. [57]

    La transcripción se lleva a cabo mediante una ARN polimerasa dependiente de ADN que copia la secuencia de una hebra de ADN en ARN. Para comenzar a transcribir un gen, la ARN polimerasa se une a una secuencia de ADN llamada promotor y separa las hebras de ADN. Luego copia la secuencia del gen en una transcripción de ARN mensajero hasta que alcanza una región de ADN llamada terminador, donde se detiene y se separa del ADN. Al igual que con las ADN polimerasas dependientes de ADN humano, la ARN polimerasa II, la enzima que transcribe la mayoría de los genes en el genoma humano, opera como parte de un gran complejo de proteínas con múltiples subunidades reguladoras y accesorias. [129]

    Una hélice de ADN generalmente no interactúa con otros segmentos de ADN, y en las células humanas, los diferentes cromosomas incluso ocupan áreas separadas en el núcleo llamadas "territorios cromosómicos". [131] Esta separación física de diferentes cromosomas es importante para que el ADN funcione como un depósito estable de información, ya que una de las pocas veces que los cromosomas interactúan es en el cruce cromosómico que ocurre durante la reproducción sexual, cuando ocurre la recombinación genética. El cruce cromosómico es cuando dos hélices de ADN se rompen, intercambian una sección y luego se vuelven a unir.

    La recombinación permite que los cromosomas intercambien información genética y produce nuevas combinaciones de genes, lo que aumenta la eficiencia de la selección natural y puede ser importante en la rápida evolución de nuevas proteínas. [132] La recombinación genética también puede estar involucrada en la reparación del ADN, particularmente en la respuesta de la célula a las roturas de doble hebra. [133]

    La forma más común de cruce cromosómico es la recombinación homóloga, donde los dos cromosomas involucrados comparten secuencias muy similares. La recombinación no homóloga puede dañar las células, ya que puede producir translocaciones cromosómicas y anomalías genéticas. La reacción de recombinación es catalizada por enzimas conocidas como recombinasas, como RAD51. [134] El primer paso en la recombinación es una ruptura de doble hebra causada por una endonucleasa o daño al ADN. [135] Una serie de pasos catalizados en parte por la recombinasa conduce a la unión de las dos hélices por al menos una unión de Holliday, en la que un segmento de una sola hebra en cada hélice se hibrida con la hebra complementaria en la otra hélice. La unión de Holliday es una estructura de unión tetraédrica que se puede mover a lo largo del par de cromosomas, intercambiando una hebra por otra. A continuación, la reacción de recombinación se detiene mediante la escisión de la unión y el reenlace del ADN liberado. [136] Solo hebras de ADN de intercambio de polaridad similar durante la recombinación. Hay dos tipos de hendidura: hendidura este-oeste y hendidura norte-sur. La división norte-sur corta ambas cadenas de ADN, mientras que la división este-oeste tiene una cadena de ADN intacta. La formación de una unión de Holliday durante la recombinación hace posible que la diversidad genética, el intercambio de genes en los cromosomas y la expresión de genomas virales de tipo salvaje.

    El ADN contiene la información genética que permite que todas las formas de vida funcionen, crezcan y se reproduzcan. Sin embargo, no está claro cuánto tiempo en los 4 mil millones de años de historia de la vida, el ADN ha realizado esta función, ya que se ha propuesto que las primeras formas de vida pueden haber utilizado ARN como su material genético. [137] [138] El ARN puede haber actuado como la parte central del metabolismo celular temprano, ya que puede transmitir información genética y llevar a cabo catálisis como parte de las ribozimas. [139] Este antiguo mundo de ARN donde el ácido nucleico se habría utilizado tanto para la catálisis como para la genética puede haber influido en la evolución del código genético actual basado en cuatro bases de nucleótidos. Esto ocurriría, ya que el número de bases diferentes en tal organismo es un compromiso entre un pequeño número de bases que aumentan la precisión de la replicación y un gran número de bases que aumentan la eficacia catalítica de las ribozimas. [140] Sin embargo, no hay evidencia directa de sistemas genéticos antiguos, ya que la recuperación del ADN de la mayoría de los fósiles es imposible porque el ADN sobrevive en el medio ambiente durante menos de un millón de años y se degrada lentamente en pequeños fragmentos en solución. [141] Se han hecho afirmaciones de ADN más antiguo, sobre todo un informe del aislamiento de una bacteria viable a partir de un cristal de sal de 250 millones de años, [142] pero estas afirmaciones son controvertidas. [143] [144]

    Los bloques de construcción de ADN (adenina, guanina y moléculas orgánicas relacionadas) pueden haberse formado extraterrestre en el espacio exterior. [145] [146] [147] Los compuestos orgánicos complejos de ADN y ARN de la vida, incluidos uracilo, citosina y timina, también se han formado en el laboratorio en condiciones que imitan las que se encuentran en el espacio exterior, utilizando sustancias químicas iniciales, como pirimidina, encontrado en meteoritos. La pirimidina, como los hidrocarburos aromáticos policíclicos (HAP), la sustancia química más rica en carbono que se encuentra en el universo, puede haberse formado en gigantes rojas o en nubes de gas y polvo cósmico interestelar. [148]

    En febrero de 2021, los científicos informaron, por primera vez, de la secuenciación de ADN de restos de animales, un mamut en este caso de más de un millón de años, el ADN más antiguo secuenciado hasta la fecha. [149] [150]

    Ingeniería genética

    Se han desarrollado métodos para purificar el ADN de organismos, como la extracción con fenol-cloroformo, y para manipularlo en el laboratorio, como la digestión de restricción y la reacción en cadena de la polimerasa. La biología y la bioquímica modernas hacen un uso intensivo de estas técnicas en la tecnología del ADN recombinante. El ADN recombinante es una secuencia de ADN artificial que se ha ensamblado a partir de otras secuencias de ADN. Pueden transformarse en organismos en forma de plásmidos o en el formato apropiado, utilizando un vector viral. [151] Los organismos modificados genéticamente producidos pueden utilizarse para producir productos como proteínas recombinantes, utilizarse en investigación médica [152] o cultivarse en la agricultura. [153] [154]

    Perfil de ADN

    Los científicos forenses pueden usar el ADN de la sangre, el semen, la piel, la saliva o el cabello que se encuentran en la escena del crimen para identificar un ADN coincidente de un individuo, como un perpetrador. [155] Este proceso se denomina formalmente perfil de ADN, también llamado huella de ADN. En la elaboración de perfiles de ADN, las longitudes de secciones variables de ADN repetitivo, como las repeticiones cortas en tándem y los minisatélites, se comparan entre personas. Este método suele ser una técnica extremadamente confiable para identificar un ADN coincidente. [156] Sin embargo, la identificación puede ser complicada si la escena está contaminada con ADN de varias personas. [157] La ​​elaboración de perfiles de ADN fue desarrollada en 1984 por el genetista británico Sir Alec Jeffreys, [158] y se utilizó por primera vez en la ciencia forense para condenar a Colin Pitchfork en el caso de asesinatos de Enderby de 1988. [159]

    El desarrollo de la ciencia forense y la capacidad de obtener ahora compatibilidad genética en muestras diminutas de sangre, piel, saliva o cabello ha llevado a volver a examinar muchos casos. Ahora se pueden descubrir pruebas que eran científicamente imposibles en el momento del examen original. Combinado con la eliminación de la ley de doble incriminación en algunos lugares, esto puede permitir la reapertura de casos en los que los juicios anteriores no han producido pruebas suficientes para convencer a un jurado. Es posible que se solicite a las personas acusadas de delitos graves que proporcionen una muestra de ADN para fines de comparación. La defensa más obvia para las coincidencias de ADN obtenidas de forma forense es afirmar que se ha producido una contaminación cruzada de las pruebas. Esto ha resultado en procedimientos meticulosos y estrictos de manejo con nuevos casos de delitos graves.

    La elaboración de perfiles de ADN también se utiliza con éxito para identificar positivamente a las víctimas de incidentes con víctimas masivas [160], cuerpos o partes de cuerpos en accidentes graves y víctimas individuales en fosas de guerra masivas, mediante el emparejamiento con miembros de la familia.

    El perfil de ADN también se usa en las pruebas de paternidad de ADN para determinar si alguien es el padre biológico o el abuelo de un niño con la probabilidad de que la paternidad sea típicamente del 99,99% cuando el presunto padre está relacionado biológicamente con el niño. Los métodos normales de secuenciación del ADN ocurren después del nacimiento, pero existen nuevos métodos para probar la paternidad mientras la madre aún está embarazada. [161]

    Enzimas de ADN o ADN catalítico

    Las desoxirribozimas, también llamadas ADNzimas o ADN catalítico, se descubrieron por primera vez en 1994. [162] En su mayoría son secuencias de ADN monocatenarias aisladas de un gran conjunto de secuencias de ADN aleatorias mediante un enfoque combinatorio llamado selección in vitro o evolución sistemática de ligandos por enriquecimiento exponencial. (SELEX). Las ADNzimas catalizan una variedad de reacciones químicas, incluida la escisión de ARN-ADN, la ligadura de ARN-ADN, la fosforilación-desfosforilación de aminoácidos, la formación de enlaces carbono-carbono, etc. Las ADNzimas pueden mejorar la velocidad catalítica de las reacciones químicas hasta 100.000.000.000 veces más que la reacción no catalizada. [163] La clase de ADNzimas más estudiada son los tipos de escisión de ARN que se han utilizado para detectar diferentes iones metálicos y diseñar agentes terapéuticos. Se han informado varias ADNzimas específicas de metales, incluida la ADNzima GR-5 (específica del plomo), [162] las ADNzimas CA1-3 (específicas del cobre), [164] la ADNzima 39E (específica de uranilo) y la ADNzima NaA43 ( específico de sodio). [165] La ADNzima NaA43, que se informa que es más de 10.000 veces selectiva para el sodio sobre otros iones metálicos, se utilizó para fabricar un sensor de sodio en tiempo real en las células.

    Bioinformática

    La bioinformática implica el desarrollo de técnicas para almacenar, extraer datos, buscar y manipular datos biológicos, incluidos los datos de la secuencia de ácidos nucleicos del ADN. Estos han llevado a avances ampliamente aplicados en ciencias de la computación, especialmente algoritmos de búsqueda de cadenas, aprendizaje automático y teoría de bases de datos. [166] Se desarrollaron algoritmos de búsqueda o coincidencia de cadenas, que encuentran una ocurrencia de una secuencia de letras dentro de una secuencia de letras más grande, para buscar secuencias específicas de nucleótidos. [167] La ​​secuencia de ADN puede alinearse con otras secuencias de ADN para identificar secuencias homólogas y localizar las mutaciones específicas que las hacen distintas. Estas técnicas, especialmente la alineación de secuencias múltiples, se utilizan para estudiar las relaciones filogenéticas y la función de las proteínas. [168] Los conjuntos de datos que representan el valor de secuencias de ADN de genomas completos, como los producidos por el Proyecto Genoma Humano, son difíciles de usar sin las anotaciones que identifican la ubicación de los genes y los elementos reguladores en cada cromosoma. Las regiones de la secuencia de ADN que tienen los patrones característicos asociados con genes que codifican proteínas o ARN pueden identificarse mediante algoritmos de búsqueda de genes, que permiten a los investigadores predecir la presencia de productos genéticos particulares y sus posibles funciones en un organismo incluso antes de que hayan sido aislados. experimentalmente. [169] También se pueden comparar genomas completos, lo que puede arrojar luz sobre la historia evolutiva de un organismo en particular y permitir el examen de eventos evolutivos complejos.

    Nanotecnología de ADN

    La nanotecnología del ADN utiliza las propiedades únicas de reconocimiento molecular del ADN y otros ácidos nucleicos para crear complejos de ADN ramificado autoensamblados con propiedades útiles. [170] Por tanto, el ADN se utiliza como material estructural más que como portador de información biológica. Esto ha llevado a la creación de celosías periódicas bidimensionales (tanto basadas en mosaicos como utilizando el Origami de ADN método) y estructuras tridimensionales en forma de poliedros. [171] También se han demostrado dispositivos nanomecánicos y autoensamblaje algorítmico, [172] y estas estructuras de ADN se han utilizado para moldear la disposición de otras moléculas, como nanopartículas de oro y proteínas de estreptavidina. [173]

    Historia y antropología

    Debido a que el ADN recopila mutaciones a lo largo del tiempo, que luego se heredan, contiene información histórica y, al comparar las secuencias de ADN, los genetistas pueden inferir la historia evolutiva de los organismos, su filogenia. [174] Este campo de la filogenética es una herramienta poderosa en biología evolutiva. Si se comparan las secuencias de ADN dentro de una especie, los genetistas de poblaciones pueden aprender la historia de poblaciones particulares. Esto se puede utilizar en estudios que van desde la genética ecológica hasta la antropología.

    Almacenamiento de informacion

    El ADN como dispositivo de almacenamiento de información tiene un potencial enorme, ya que tiene una densidad de almacenamiento mucho mayor en comparación con los dispositivos electrónicos. Sin embargo, los altos costos, los tiempos de lectura y escritura lentos (latencia de la memoria) y la confiabilidad insuficiente han impedido su uso práctico. [175] [176]

    El ADN fue aislado por primera vez por el médico suizo Friedrich Miescher, quien, en 1869, descubrió una sustancia microscópica en el pus de los vendajes quirúrgicos desechados. Como residía en los núcleos de las células, lo llamó "nucleína". [177] [178] En 1878, Albrecht Kossel aisló el componente no proteico de "nucleína", el ácido nucleico, y luego aisló sus cinco nucleobases primarias. [179] [180]

    En 1909, Phoebus Levene identificó la unidad de nucleótidos base, azúcar y fosfato del ARN (entonces llamado "ácido nucleico de levadura"). [181] [182] [183] ​​En 1929, Levene identificó el azúcar desoxirribosa en el "ácido nucleico del timo" (ADN). [184] Levene sugirió que el ADN consistía en una cadena de cuatro unidades de nucleótidos unidas entre sí a través de los grupos fosfato ("hipótesis del tetranucleótido"). Levene pensó que la cadena era corta y las bases se repetían en un orden fijo. En 1927, Nikolai Koltsov propuso que los rasgos heredados se heredarían a través de una "molécula hereditaria gigante" formada por "dos hebras de espejo que se replicarían de forma semiconservadora utilizando cada hebra como plantilla". [185] [186] En 1928, Frederick Griffith en su experimento descubrió que los rasgos de la forma "suave" de Neumococo podría transferirse a la forma "rugosa" de la misma bacteria mezclando bacterias "lisas" muertas con la forma viva "rugosa". [187] [188] Este sistema proporcionó la primera sugerencia clara de que el ADN transporta información genética.

    En 1933, mientras estudiaba huevos vírgenes de erizo de mar, Jean Brachet sugirió que el ADN se encuentra en el núcleo celular y que el ARN está presente exclusivamente en el citoplasma. En ese momento, se pensaba que el "ácido nucleico de levadura" (ARN) se producía solo en plantas, mientras que el "ácido nucleico del timo" (ADN) solo en animales. Se pensaba que este último era un tetrámero, con la función de amortiguar el pH celular. [189] [190]

    En 1937, William Astbury produjo los primeros patrones de difracción de rayos X que mostraron que el ADN tenía una estructura regular. [191]

    En 1943, Oswald Avery, junto con sus colaboradores Colin MacLeod y Maclyn McCarty, identificaron el ADN como el principio transformador, apoyando la sugerencia de Griffith (experimento de Avery-MacLeod-McCarty). [192] A fines de 1951, Francis Crick comenzó a trabajar con James Watson en el Laboratorio Cavendish de la Universidad de Cambridge. El papel del ADN en la herencia se confirmó en 1952 cuando Alfred Hershey y Martha Chase en el experimento Hershey-Chase mostraron que el ADN es el material genético del fago T2 de las enterobacterias. [193]

    En mayo de 1952, Raymond Gosling, un estudiante de posgrado que trabajaba bajo la supervisión de Rosalind Franklin, tomó una imagen de difracción de rayos X, etiquetada como "Foto 51", [194] con altos niveles de hidratación del ADN. Esta foto fue entregada a Watson y Crick por Maurice Wilkins y fue fundamental para que obtengan la estructura correcta del ADN. Franklin les dijo a Crick y Watson que la columna vertebral tenía que estar en el exterior. Antes de eso, Linus Pauling, Watson y Crick, tenían modelos erróneos con las cadenas adentro y las bases apuntando hacia afuera. Su identificación del grupo espacial para los cristales de ADN le reveló a Crick que las dos cadenas de ADN eran antiparalelas. [195]

    En febrero de 1953, Linus Pauling y Robert Corey propusieron un modelo para ácidos nucleicos que contiene tres cadenas entrelazadas, con los fosfatos cerca del eje y las bases en el exterior. [196] Watson y Crick completaron su modelo, que ahora se acepta como el primer modelo correcto de la doble hélice del ADN. El 28 de febrero de 1953, Crick interrumpió la hora del almuerzo de los clientes en el pub The Eagle en Cambridge para anunciar que él y Watson habían "descubierto el secreto de la vida". [197]

    El número de la revista del 25 de abril de 1953 Naturaleza publicó una serie de cinco artículos que proporcionan el ADN de estructura de doble hélice de Watson y Crick y la evidencia que lo respalda. [198] La estructura se informó en una carta titulada "ESTRUCTURA MOLECULAR DE LOS ÁCIDOS NUCLEICOS Una estructura para el ácido nucleico desoxirribosa", en el que dijeron:" No ha pasado desapercibido que el emparejamiento específico que hemos postulado sugiere inmediatamente un posible mecanismo de copia del material genético ". [9] Esta carta fue seguida por una carta de Franklin y Gosling, que fue la primera publicación de sus propios datos de difracción de rayos X y de su método de análisis original. [42] [199] Luego siguió una carta de Wilkins y dos de sus colegas, que contenía un análisis de en vivo Patrones de rayos X de ADN B, y que respaldaron la presencia en vivo de la estructura de Watson y Crick. [43]

    En 1962, después de la muerte de Franklin, Watson, Crick y Wilkins recibieron conjuntamente el Premio Nobel de Fisiología o Medicina. [200] Los premios Nobel se otorgan solo a los beneficiarios vivos. Continúa el debate sobre quién debería recibir crédito por el descubrimiento. [201]

    En una influyente presentación en 1957, Crick expuso el dogma central de la biología molecular, que predijo la relación entre el ADN, el ARN y las proteínas, y articuló la "hipótesis del adaptador". [202] La confirmación final del mecanismo de replicación que estaba implícito en la estructura de doble hélice siguió en 1958 a través del experimento Meselson-Stahl. [203] Otros trabajos de Crick y colaboradores mostraron que el código genético se basaba en tripletes de bases que no se superponen, llamados codones, lo que permite a Har Gobind Khorana, Robert W. Holley y Marshall Warren Nirenberg descifrar el código genético. [204] Estos hallazgos representan el nacimiento de la biología molecular. [205]


    Ver el vídeo: BQ Metabolismo de los ácidos nucleicos 1a Parte (Agosto 2022).