Aceleración de los flujos de trabajo de genómica y análisis de datos en Azure
La genómica es fundamental para el desarrollo de tratamientos personalizados y la medicina de precisión.
La genómica es fundamental para el desarrollo de tratamientos personalizados y la medicina de precisión.
La genómica es fundamental para el desarrollo de tratamientos personalizados y la medicina de precisión. Los avances en las tecnologías de secuenciación del ADN han impulsado una revolución en la investigación basada en la genómica y están facilitando un mayor conocimiento de la biología humana y las enfermedades. Este conocimiento ampliado está dando lugar a una proliferación de las estrategias médicas personalizadas para evitar, diagnosticar y tratar las enfermedades. La tendencia continuará acelerándose en la próxima década, a medida que el uso de la información genómica resulte fundamental para tomar decisiones médicas y prestar asistencia sanitaria.
La secuenciación de genomas a nivel de población será necesaria para descifrar la huella genómica de una enfermedad, predecir la variabilidad de la evolución y la respuesta al tratamiento entre las personas y desarrollar modelos que ayuden a la toma de decisiones médicas. La enorme cantidad de datos genómicos resultante y la capacidad informática necesaria para analizarlos (decenas de exabytes y billones de horas de núcleo en los próximos cinco años1) precisarán agilidad, una administración más sencilla, seguridad de los datos y acceso a una capacidad escalable de almacenamiento y proceso.
La demanda de soluciones basadas en la nube es evidente. Hay un reconocimiento cada vez mayor de que las herramientas de código abierto y los estándares promovidos por la comunidad serán necesarios para habilitar la accesibilidad de los datos, la interoperabilidad de las herramientas y la confiabilidad de los resultados y los modelos. Microsoft no solo admite proyectos de código abierto y estándares abiertos, sino que ha contribuido activamente a estos trabajos de la comunidad al facilitar el uso de estas herramientas y el software en Azure.
Con ese fin, Microsoft Genomics ha lanzado varios proyectos de código abierto en GitHub, incluidos Cromwell on Azure, Genomics Notebooks y la compatibilidad de Bioconductor con Azure. También hemos puesto a disposición de los usuarios una lista creciente de conjuntos de datos públicos de genómica en la plataforma Azure Open Datasets.
Cromwell es un sistema de administración de flujos de trabajo de código abierto orientado a los flujos de trabajo científicos, desarrollado originalmente por Broad Institute. Con Cromwell on Azure, los usuarios pueden acelerar la investigación genómica gracias a la capacidad de proceso a hiperescala de Azure. Cromwell organiza el aprovisionamiento dinámico de los recursos informáticos a través de Azure Batch y se integra con la cuenta de Azure Blob Storage de los clientes para facilitar el acceso a los datos.
Biotia es una startup dedicada a la creación de una plataforma que aprovecha la secuenciación de ADN de próxima generación (NGS) y la inteligencia artificial (IA) para la detección y el diagnóstico de precisión de enfermedades. Estaban buscando una solución de flujos de trabajo basada en la nube para administrar sus canalizaciones de NGS y Cromwell on Azure pudo satisfacer sus requisitos principales.
“En Biotia, hemos logrado una paralelización sustancial, un control de versiones exhaustivo y nuevos resultados en la detección de la COVID-19 mediante el uso de Cromwell on Azure para respaldar nuestros flujos de trabajo de genómica, que hacen un uso intensivo de la capacidad de proceso. Estamos encantados de incluir Cromwell on Azure en nuestra pila de software bioinformático”. —Joe Barrows, director de ingeniería de software en Biotia
Jupyter Notebooks proporciona a los usuarios un entorno para analizar los datos con R o Python, y permitir la reutilización de los métodos y la reproducibilidad de los resultados. Los investigadores biomédicos y los científicos de datos usan cada vez más cuadernos para el análisis de datos genómicos y para crear modelos de aprendizaje automático basados en conjuntos de datos multimodales (genómicos, fenotípicos, clínicos, de HCe, demográficos, etc.).
El proyecto de código abierto Genomics Notebooks de Microsoft proporciona una colección cada vez más amplia de cuadernos preconfigurados que los usuarios pueden iniciar y usar fácilmente en su área de trabajo de Azure. Estos cuadernos preconfigurados abarcan escenarios desde la detección de variantes genómicas, la filtración y la anotación hasta la transformación de los datos genómicos, fenotípicos y clínicos en marcos de datos multimodales necesarios para la consulta de los datos y la creación de modelos de aprendizaje automático.
El Departamento de Pesca y Océanos (DFO) de Canadá se ocupa de la conservación de los recursos naturales acuáticos de Canadá. Los investigadores del DFO del Instituto Oceanográfico de Bedford en Dartmouth (Nueva Escocia) utilizan la genómica para conocer el impacto del cambio climático y la actividad humana en los patrones de migración, la diversidad genética y la demografía poblacional de especies marinas como el salmón y el bacalao del Atlántico, que pueden tener un importante efecto socioeconómico en las comunidades que dependen de estos recursos.
Los equipos de investigación están empezando a secuenciar el genoma de cientos de peces y estaban buscando soluciones basadas en Azure para escalar y simplificar su creciente necesidad de análisis de datos y genómicos. El equipo implementó y probó Cromwell on Azure a gran escala satisfactoriamente y ahora quiere adoptarlo como plataforma común de flujos de trabajo de genómica en las distintas instituciones.
“El uso de Cromwell on Azure para ejecutar nuestras canalizaciones genómicas nos ofrece la capacidad de escalar los análisis a miles de genomas para cualquier especie de pez con automatización. Básicamente, podemos eliminar los tres meses de trabajo manual que supondría generar todas las llamadas de variantes que necesitamos y pasar directamente a conectar los datos con otros orígenes de datos que tenemos. Las herramientas de ciencia de datos nos ayudarán a crear y entrenar fácilmente modelos de datos multimodales complejos para obtener información más detallada sobre el impacto de la interacción entre los factores genéticos, la información sobre el clima y el impacto de la actividad humana en estas especies, y predecir cómo podrían responder a situaciones climáticas difíciles en el futuro”. —Dr. Marco Kess, investigador del Laboratorio de Genómica Poblacional de Bradbury, que forma parte del Instituto Oceanográfico de Bedford en Dartmouth (Nueva Escocia)
Bioconductor es un proyecto de desarrollo de código abierto que se centra en proporcionar un repositorio de paquetes de software gráfico y estadístico extensibles, desarrollados en R, para el análisis de datos genómicos y biomédicos de alto rendimiento. Microsoft colabora con el equipo principal de Bioconductor para incorporar la compatibilidad con Azure a este extenso repositorio de software OSS.
Ahora, los bioinformáticos y los científicos de datos pueden usar fácilmente en Azure los paquetes de software de Bioconductor que prefieran, mediante la implementación de la imagen preconfigurada de Docker para Bioconductor hospedada en Microsoft Container Registry en Docker Hub. Además, los usuarios pueden usar también plantillas de Azure Virtual Machines (VM) para implementar instancias de Data Science VM para genómica preconfiguradas con herramientas populares para la exploración de datos, análisis, aprendizaje automático y el desarrollo de modelos de aprendizaje profundo.
El lago de datos Genomics Data Lake de la plataforma Azure Open Datasets proporciona un compendio cada vez mayor de conjuntos de datos genómicos seleccionados y disponibles públicamente. Estos conjuntos de datos se han generado gracias a importantes trabajos de colaboración internacional cuyo objetivo es proporcionar recursos para la comunidad de investigación biomédica. Los usuarios del sector de la asistencia sanitaria, las farmacéuticas y las ciencias biosanitarias ahora pueden usar Genomics Data Lake en Azure para acceder a estos conjuntos de datos de forma gratuita e integrar fácilmente los datos en sus flujos de trabajo de análisis genómicos.
Microsoft Genomics es un servicio de Azure con una gran escalabilidad para realizar análisis secundarios del genoma humano con el software de código abierto Burrows-Wheeler Aligner (BWA) y Genome Analysis Toolkit (GATK). El servicio cuenta con la certificación ISO, permite que los clientes cumplan la norma HIPAA y está cubierto por el contrato de socio empresarial (BAA) de Microsoft. Microsoft sigue optimizando el rendimiento del servicio aprovechando las innovaciones de la infraestructura de proceso de alto rendimiento de Azure, lo que permite a los clientes generar datos de variantes genómicas duraderos a partir de los datos de secuencias de genomas completos (WGS) en cuestión de horas. El cumplimiento normativo, el rendimiento y la durabilidad y la procedencia de los datos hacen que el servicio sea ideal para integrarlo en flujos de trabajo de ayuda a la toma de decisiones médicas basadas en la genómica.
La secuenciación del genoma completo ofrece la evaluación más completa de las diferencias entre el genoma normal y el genoma con cáncer de los pacientes. El acceso en tiempo real a la información genómica no solo es importante para ayudar en la toma de decisiones médicas, sino que también puede acelerar la investigación y nuevos descubrimientos y tratamientos. St. Jude Children’s Research Hospital colabora con Microsoft y DNAnexus para crear St. Jude Cloud, el repositorio público más grande del mundo de datos genómicos pediátricos.
Esta iniciativa pionera proporciona a los investigadores de todo el mundo acceso a datos de genomas y exomas completos y transcriptomas de alta calidad de pacientes del hospital St. Jude (con el correspondiente consentimiento) que se han sometido a la elaboración de su perfil genómico clínico. St. Jude Cloud utiliza Azure y el servicio Microsoft Genomics para cargar, analizar y armonizar rápidamente los datos genómicos, que después estarán disponibles a través del explorador de datos de St. Jude Cloud para los investigadores de todo el mundo.
“El acceso a los datos genómicos clínicos de alta calidad, generados con el servicio Microsoft Genomics y transmitidos a St. Jude Cloud, ayudará a ampliar la investigación del cáncer infantil y otras enfermedades en la medicina de precisión”. —Dr. Jinghui Zhang, jefe del departamento de biología computacional en St. Jude Children’s Research Hospital
Microsoft Genomics y los proyectos de código abierto cuenta con soporte técnico completo ofrecido por un equipo de desarrolladores y científicos de Microsoft comprometidos con promover la innovación necesaria para avanzar en la genómica y la medicina de precisión. Si desea obtener más información sobre las soluciones de Microsoft Genomics y contribuir a los proyectos de código abierto, visite nuestros repositorios de GitHub.
1 Big Data: Astronomical or Genomical?
Azure. Invente con un objetivo.