Escuchando cómo las proteínas hablan y aprendiendo su idioma

Estructuras moleculares de las proteínas. / Science.
Estructuras moleculares de las proteínas. / Science.
El aprendizaje automático acelera el diseño de proteínas sintéticas con las funciones deseadas, facilitando futuras aplicaciones terapéuticas de diagnóstico y biotecnológicas.
Escuchando cómo las proteínas hablan y aprendiendo su idioma

Un equipo de investigación ha creado un tercer enfoque para diseñar proteínas que utiliza el aprendizaje profundo para destilar las características fundamentales de las proteínas directamente de su secuencia de aminoácidos sin la necesidad de información adicional.

Los biólogos sintéticos han tomado la evolución de las proteínas en sus propias manos cambiando algunas que ocurren en la naturaleza o incluso sintetizándolas desde cero. Dichas proteínas modificadas se utilizan como fármacos altamente eficaces, componentes de circuitos genéticos sintéticos que detectan señales biológicas, o en la producción de productos químicos de alto valor de formas más efectivas y sostenibles que los métodos basados ​​en el petróleo.

Para diseñarlos, utilizan dos enfoques muy diferentes. En la "evolución dirigida", varían aleatoriamente la secuencia lineal de bloques de construcción de aminoácidos que codifican una proteína natural y seleccionan variantes con la actividad deseada; o usan un "diseño racional" para modelar proteínas basadas en sus estructuras 3D reales para identificar aminoácidos que probablemente impactarán en la función de las proteínas. Sin embargo, la evolución dirigida solo puede cubrir una pequeña parte del enorme espacio de posibles secuencias de proteínas, mientras que los enfoques de diseño racional están limitados por la relativa escasez de estructuras de proteínas 3D cuidadosamente resueltas.

Ahora, un equipo de investigación dirigido por el Dr. George Church, el Instituto Wyss de Harvard para Ingeniería Biológicamente Inspirada y la Escuela de Medicina de Harvard (HMS) han creado un tercer enfoque para diseñar proteínas que utiliza el aprendizaje profundo para destilar las características fundamentales de las proteínas directamente de su secuencia de aminoácidos sin la necesidad de información adicional. El enfoque predice con firmeza las funciones de las proteínas naturales y de diseño de novo, y traslada muchos experimentos de laboratorio laboriosos a la computadora, logrando una reducción de costos de hasta dos órdenes de magnitud en comparación con los enfoques existentes. El estudio se publica en Nature Methods.

Church es miembro fundador de la Facultad Core del Instituto Wyss y líder de su plataforma de Biología Sintética. También es profesor de genética Robert Winthrop en la Facultad de medicina de Harvard y profesor de ciencias y tecnología de la salud en la Universidad de Harvard y el Instituto de Tecnología de Massachusetts (MIT).

"En lugar de caracterizar ampliamente las proteínas para comprender sus principios de diseño, utilizamos una red neuronal para aprender esas reglas de manera imparcial, buscando sistemáticamente patrones en un vasto tesoro de secuencias de proteínas crudas en bases de datos públicas", dijo Surojit Biswas, uno de los tres primeros autores en el estudio que es un estudiante graduado en el grupo de Church. "La red neuronal aprendió muchas de las reglas que nosotros, como humanos, hemos aprendido previamente a través de muchos estudios minuciosos, y más allá de eso, también descubrió nuevas características en las proteínas".

El enfoque de la red neuronal, que los investigadores denominaron "representación unificada" (UniRep), puede compararse con el aprendizaje de un idioma en el que el alumno desarrolla una comprensión semántica de cómo se construyen oraciones complejas a partir de cadenas de letras y palabras. En lenguaje de proteínas, UniRep fue entrenado para predecir el siguiente aminoácido en una secuencia de proteínas a partir de la primera mediante la exploración de todas las posibilidades en secuencias de proteínas contenidas en bases de datos públicas. 

Es importante destacar que, mientras avanza por el resto de la proteína, un aminoácido a la vez, UniRep elabora y recurre a un "resumen" interno de la secuencia que ha visto hasta ahora en la proteína, que el equipo llama su "estado oculto" para tener en cuenta su secuencia individual y sus características estructurales. Alimentando esa información, y los resultados de muchas otras proteínas, de nuevo en su algoritmo, UniRep revisa gradualmente la forma en que construye estados ocultos, lo que mejora sus capacidades predictivas con el tiempo. En la analogía del lenguaje, el alumno podrá predecir la próxima palabra de una oración que está leyendo con mayor probabilidad, basándose en una comprensión constantemente mejorada de la sintaxis y la elección de palabras.

"Capacitamos a UniRep en aproximadamente 24 millones de secuencias de proteínas durante aproximadamente 3 semanas para permitirle predecir secuencias y su relación con características como la estabilidad de la proteína, la estructura secundaria y la accesibilidad de las secuencias internas a los solventes circundantes dentro de las proteínas que nunca había visto antes", dijo Grigory Khimulya, que era estudiante en el Harvard College y también es coautor junto con Biswas y Ethan Alley. "UniRep describió con precisión estas características en proteínas de familias de proteínas muy diferentes cuyas estructuras habían sido bien caracterizadas en estudios previos, incluso en proteínas sintéticas que no tienen una contraparte en la naturaleza".

El equipo llevó a UniRep un paso más allá y lo utilizó como herramienta para predecir cómo las sustituciones de aminoácidos individuales afectan la función de las proteínas. La red neuronal cuantificó de manera sólida los efectos de las mutaciones de aminoácidos individuales en ocho proteínas diferentes con diversas funciones biológicas, incluidas la catálisis enzimática, la unión al ADN y la detección molecular. Además, utilizando la proteína fluorescente verde Aequorea victoria (GFP) como modelo, le encargaron a UniRep analizar 64.800 variantes de la proteína, cada una con 1-12 mutaciones, lo que demostró que podía anticipar con precisión cómo la distribución y la carga relativa de las mutaciones cambió el brillo de la proteína.

"En comparación con otras estrategias, nuestro enfoque basado en datos alcanza un rendimiento avanzado o superior en la predicción de múltiples propiedades de proteínas a costos mucho más bajos que otros métodos", dijo Church. "Esto lo convierte en una herramienta verdaderamente poderosa para los ingenieros de proteínas en muchas áreas".

"Este nuevo enfoque computacional basado en el aprendizaje profundo para la ingeniería de proteínas tiene el potencial de acelerar el diseño de proteínas sintéticas con funciones adaptadas a cualquier aplicación deseada, ya sea antes para terapéutica, diagnóstico, biofabricación, biocatálisis o cualquier otra aplicación. Literalmente puede cambiar la forma en que llevamos a cabo el diseño molecular en el futuro ", dijo el Director Fundador de Wyss, Donald Ingber, quien también es el Profesor Judah Folkman de Biología Vascular en HMS y el Programa de Biología Vascular en el Boston Children's Hospital, como así como profesor de bioingeniería en la escuela de ingeniería y ciencias aplicadas John A. Paulson de Harvard.   @mundiario

 

 

 

Comentarios