Passer la navigation

Accélération des flux de travail et de l’analyse des données de Gemonics sur Azure

Publié le 25 septembre, 2020

Director, Genomics, Microsoft Health

La génomique est fondamentale pour le développement de thérapies ciblées et la médecine de précision. Les progrès des technologies de séquençage de l’ADN ont entraîné une révolution de la recherche basée sur la génomique et aident à mieux comprendre la biologie de l’être humain et les maladies qui l’affectent. Cette extension des connaissances conduit à une augmentation du nombre de stratégies médicales personnalisées visant à prévenir, à diagnostiquer et à traiter les maladies. Cette tendance va continuer sa progression au cours de la prochaine décennie, car l’utilisation des informations génomiques est cruciale dans l’aide à la décision clinique et les soins de santé.

Le séquençage du génome au niveau de la population est nécessaire pour déchiffrer l’empreinte génomique des maladies, prédire la variabilité entre personnes en matière de progression et de réaction au traitement et développer des modèles pour l’aide à la décision. L’explosion de données génomiques qui en résulte et la puissance de calcul requise pour ces analyses (des dizaines d’exaoctets et des milliards d’heures au cours des cinq prochaines années1) exigeront agilité, gestion simplifiée, sécurité des données et accès évolutif au stockage et à la capacité de calcul.

La demande de solutions basées dans le cloud est évidente. Il est de plus en plus reconnu que les normes et les outils open source créés par la communauté seront nécessaires pour permettre l’accessibilité aux données, l’interopérabilité des outils et la fiabilité des résultats et des modèles. Microsoft soutient non seulement les normes ouvertes et les projets open source, mais contribue aussi activement aux efforts menés par la communauté en facilitant l’utilisation de ces outils et de ces logiciels sur Azure.

Dans ce but, Microsoft Genomics a publié plusieurs projets open source sur GitHub, notamment Cromwell sur Azure, Genomics Notebooks et la prise en charge de Bioconductor pour Azure. Nous publions aussi une liste croissante de jeux de données génomiques publics sur la plateforme Azure Open DataSet.

Mise à l’échelle et automatisation des flux de travail génomiques sur Azure avec Cromwell

Cromwell est un système de gestion de flux de travail open source destiné aux flux de travail scientifiques et développé à l’origine par le Broad Institute. Avec Cromwell sur Azure, les utilisateurs peuvent accélérer leurs recherches génomiques avec les fonctionnalités de calcul hyperscale d’Azure. Cromwell orchestre la configuration dynamique des ressources de calcul via Azure Batch et s’intègre au compte de stockage d’objets blob Azure des clients pour faciliter l’accès aux données.

Exemple d’architecture pour les flux de travail génomiques avec Cromwell sur Azure.

Nouvelle détection basée sur le séquençage de nouvelle génération (NGS) et du test de caractérisation pour COVID-19 avec Biotia

Biotia est une start-up axée sur la création d’une plateforme exploitant le séquençage d’ADN nouvelle génération et l’intelligence artificielle pour améliorer la précision de la détection et du diagnostic des maladies. Elle est à la recherche d’une solution de flux de travail basée dans le cloud pour gérer les pipelines de séquençage et Cromwell sur Azure répondait à ces exigences.

« Chez Biotia, nous avons atteint un certain niveau de parallélisation, avec un contrôle minutieux des versions et obtenu de nouveaux résultats de détection COVID-19 avec Cromwell sur Azure pour sauvegarder les flux de travail génomiques nécessitant beaucoup de ressources système. Nous sommes heureux de pouvoir inclure Cromwell sur Azure dans notre pile de logiciels bio-informatiques. » Joe Barrows, directeur de l’ingénierie logicielle chez Biotia

Analyse des données collaborative et reproductible de Genomics Notebooks avec Jupyter Notebook sur Azure

Jupyter Notebook fournit aux utilisateurs un environnement pour l’analyse des données via R ou Python et assure la réutilisation des méthodes et la reproductibilité des résultats. Les chercheurs dans le domaine biomédical et les scientifiques des données utilisent de plus en plus de notebooks pour l’analyse des données génomiques et la création de modèles d’apprentissage automatique basés sur des jeux de données multimodales (génomique, phénotypique, clinique, REM, démographique, etc.).

Le projet open source Genomics Notebooks de Microsoft propose un ensemble croissant de notebooks préconfigurés que les utilisateurs peuvent facilement lancer et utiliser dans leur espace de travail Azure. Ces notebooks préconfigurés couvrent les scénarios de détection de variantes génomiques, de filtrage, d’annotation, de transformation des données génomiques, phénotypiques et cliniques en trames de données multimodales nécessaires à l’interrogation des données et à la création de modèles d’apprentissage automatique.

Exploitation des données génomiques pour évaluer l’impact des changements de l’environnement avec le ministère des Pêches et Océans Canada

Le ministère des Pêches et Océans du Canada est responsable de la préservation des ressources aquatiques naturelles du Canada. Les chercheurs du ministère au Bedford Institute of Oceanography à Dartmouth, en Nouvelle-Écosse, utilisaient la génomique pour comprendre l’impact du changement climatique et de l’activité humaine sur les systèmes de migration, la diversité génétique et la population de certains poissons tels que le saumon et la morue, ce qui peut avoir des implications socio-économiques importantes pour les groupes qui comptent sur ces ressources.

Ces équipes de recherche commencent à séquencer des centaines de génomes de poisson et cherchent des solutions basées sur Azure pour mettre à l’échelle et optimiser de leurs besoins croissants en matière d’analyse génomique et d’analyse des données. Cette équipe a réussi à déployer et à tester à grande échelle Cromwell sur Azure cherche maintenant à l’adopter comme plateforme de flux de travail génomique pour ses différentes institutions.

« L’exploitation de Cromwell sur Azure pour l’exécution de nos pipelines génomiques nous offre la possibilité d’automatiser l’analyse à grande échelle de milliers de génomes de différentes espèces de poissons. Nous pouvons de ce fait éliminer trois mois de travail manuel pour générer tous les appels de variantes dont nous avons besoin et passer directement à la connexion de ces données avec d’autres sources de données. Les outils de science des données nous aideront à créer et à former facilement des modèles de données multimodales complexes afin d’extraire des informations plus détaillées sur l’impact résultant des interactions entre les facteurs génétiques, les informations climatiques et l’impact de l’homme sur ces espèces, et prédire comment ils peuvent faire face aux défis de l’environnement à venir. » Dr Tony Kess, chercheur au laboratoire Bradbury Population Genomics Lab, qui fait partie du Bedford Institute of Oceanography de Dartmouth, en Nouvelle-Écosse

Accédez facilement à la vaste collection d’outils bio-informatiques créés par la communauté avec le Bioconductor sur Azure

Bioconductor est un projet open source de développement ouvert qui se concentre sur la création d’un référentiel de packages de logiciels graphiques et statistiques extensibles, développés en R, pour l’analyse rapide de données génomiques et biomédicales. Microsoft collabore avec l’équipe de Bioconductor pour obtenir un support Azure pour ce référentiel de logiciels de grande envergure.

Les bio-informaticiens et les scientifiques des données peuvent désormais facilement utiliser leurs logiciels Bioconductor préférés sur Azure en déployant l’image préconfigurée Bioconductor Docker hébergée dans le Docker Hub Microsoft Container Registry. En outre, les utilisateurs peuvent également utiliser des modèles de machines virtuelles Azure pour déployer des machines virtuelles génomiques préconfigurées avec des outils d’exploration de données, d’analyse, d’apprentissage automatique et de développement de modèles d’apprentissage profond.

Analyse des données et modèles d’apprentissage automatique avec jeux de données génomiques disponibles via la plateforme de données Azure Open Data

La source Genomics Data Lake sur la plateforme Azure Open DataSet constitue une source en pleine croissance de jeux de données génomiques accessibles publiquement. Ces jeux de données ont été générés par certains travaux de collaboration au niveau international, avec un accent sur les ressources pour la recherche biomédicale. Les utilisateurs dans les soins de santé, le secteur pharmaceutique et les sciences de la vie peuvent désormais utiliser la source Genomics Data Lake sur Azure pour accéder gratuitement à ces jeux de données et les facilement dans leurs flux de travail d’analyse génomique.

Accélérez le traitement des exomes et du génome avec le service Microsoft Genomics clé en main sur Azure

Microsoft Genomics est un service Azure hautement évolutif permettant d’effectuer une analyse secondaire du génome humain à l’aide de Burrows-Wheeler Aligner (BWA) et du logiciel open source Genome Analysis Toolkit (GATK). Ce service certifié ISO permet aux clients de se conformer à la législation HIPAA et est couvert par le contrat Microsoft Business Associate Agreement (BAA). Microsoft poursuit l’optimisation des performances du service avec les innovations de l’infrastructure de calcul hautes performances d’Azure, ce qui permet aux clients de générer des données de variante génétique durables à partir de données de séquence de génome entier en quelques heures. La conformité, les performances, la durabilité et la provenance des données en font un service idéal pour l’intégration dans les flux de travail de décision clinique basés sur la génomique.

Accélération des découvertes scientifiques afin de faire progresser le traitement des cancers chez les enfants via l’accès en temps réel au séquençage du génome clinique à l’hôpital St. Jude Children’s Research Hospital

Le séquençage complet du génome entier offre l’évaluation la plus complète des différences entre les génomes normaux et les génomes cancéreux. L’accès en temps réel aux informations génomiques n’est pas seulement important pour l’aide à la décision clinique, il peut également accélérer les recherches et les nouvelles découvertes et la création de médicaments. L’hôpital St. Jude Children’s Research Hospital a conclu un partenariat avec Microsoft et DNAnexus pour créer St. Jude Cloud, le plus grand référentiel public au monde de données génomiques pédiatriques.

Cette initiative, la première en son genre, propose aux chercheurs du monde entier l’accès à des données de génome, d’exome et de transcriptome provenant de patients consentants de l’hôpital St. Jude ayant subi un profilage génomique clinique. Le St. Jude Cloud utilise Azure et le service Microsoft Genomics pour charger, analyser et harmoniser rapidement les données génomiques, qui sont ensuite mises à disposition pour les chercheurs du monde entier via l’explorateur de données du St. Jude Cloud.

« L’accès à des données génomiques cliniques de haute qualité, qui tirent parti du service Microsoft Genomics et transmises en continu au St. Jude Cloud, contribuera à améliorer les recherches sur le cancer chez les enfants et autres maladies. » Dr Jinghui Zhang, Président du service de biologie informatique au St. Jude Children’s Research Hospital

En savoir plus et bien démarrer

Microsoft Genomics et les projets open source sont soutenus par une équipe de développeurs et de scientifiques de Microsoft qui s’engagent à susciter l’innovation nécessaire pour faire progresser la génomique et la médecine de précision. Pour en savoir plus sur les solutions Microsoft Genomics et pour contribuer aux projets open source, consultez nos référentiels GitHub.

1 Big Data : Astronomie ou génome ?


Azure. Inventez en ayant un but.