Navigation überspringen

Beschleunigen von Genomikworkflows und Datenanalyse in Azure

Veröffentlicht am 25 September, 2020

Director, Genomics, Microsoft Health

Die Genomik ist ein Eckpfeiler der Entwicklung zielgenauer Therapien und der Präzisionsmedizin. Fortschritte bei DNA-Sequenzierungstechnologien haben eine Revolution in der Genomforschung bewirkt und helfen dabei, die menschliche Biologie und Erkrankungen besser zu verstehen. Dieses erweiterte Wissen trägt zur Verbreitung personalisierter Medikamentierungsstrategien und damit zur Prävention, Diagnose und Behandlung von Krankheiten bei. Dieser Trend wird sich in den kommenden zehn Jahren noch beschleunigen, da die Verwendung von Genominformationen als medizinische Entscheidungshilfe und für die Gesundheitsversorgung von zentraler Bedeutung werden wird.

Das Sequenzieren von Genomdaten auf Populationsebene ist erforderlich, um den genomischen Fingerabdruck einer Krankheit zu entschlüsseln, interpersonelle Varianten beim Krankheitsverlauf und Behandlungsansprache vorherzusagen und Modelle für klinische Entscheidungsfindung zu entwickeln. Die resultierende Explosion der Erbgutdaten und die für die Analyse erforderliche Rechenleistung (Dutzende von Exabytes und Billionen Kernstunden in den kommenden fünf Jahren1) erfordern Agilität, eine vereinfachte Verwaltung, Datensicherheit und Zugriff auf skalierbare Speicher- und Computekapazität.

Der Bedarf an cloudbasierten Lösungen ist offensichtlich. Es wird zunehmend erkannt, dass communitygesteuerte Standards und Open-Source-Tools erforderlich sind, um Datenzugriff, Toolinteroperabilität und Zuverlässigkeit bei Ergebnissen und Modellen in den Griff zu bekommen. Microsoft unterstützt nicht nur Open-Standards- und Open-Source-Projekte, sondern trägt durch die vereinfachte Nutzung dieser Tools und Software in Azure auch aktiv zu diesen communityorientierten Anstrengungen bei.

Hierzu hat Microsoft Genomics verschiedene Open-Source-Projekte auf GitHub veröffentlicht, namentlich Cromwell on Azure und Genomics Notebooks sowie Bioconductor-Unterstützung für Azure. Wir haben ferner eine wachsende Liste mit Genomdatasets auf der Azure Open Dataset-Plattform zur Verfügung gestellt.

Skalieren und Automatisieren von Genomikworkflows in Azure mit Cromwell

Cromwell ist ein Open-Source-System zur Verwaltung wissenschaftlicher Workflows, das ursprünglich vom Broad Institute entwickelt wurde. Mit Cromwell on Azure können Benutzer Genomforschung dank der Hyperscale-Computefunktionen von Azure beschleunigen. Cromwell orchestriert die dynamische Bereitstellung von Computingressourcen über Azure Batch und wird zur Vereinfachung des Datenzugriffs in das Azure Blob Storage-Konto des jeweiligen Kunden integriert.

Beispielarchitektur für Genomikworkflows mit Cromwell on Azure.

NGS-basierte COVID-19-Erkennung und -Analyse mit Biotia

Biotia ist ein aufstrebendes Startup, das sich dem Aufbau einer Plattform verschrieben hat, die DNA-Sequenzierung der nächsten Generation (Next-Generation Sequencing, NGS) und künstliche Intelligenz (KI) zur präzisen Erkennung und Diagnose von Krankheiten nutzt. Das Unternehmen suchte nach einer cloudbasierten Workflowlösung für die Verwaltung seiner NGS-Pipelines, und Cromwell on Azure konnte die zentralen Anforderungen erfüllen.

„Wir verwenden Cromwell on Azure bei Biotia als Grundlage für unsere rechenintensiven Genomikworkflows und haben so eine beträchtliche Parallelisierung, eine umfassende Versionskontrolle und neuartige Ergebnisse bei der COVID-19-Erkennung erzielt. Wir sind sehr glücklich darüber, Cromwell on Azure in unseren bioinformatischen Softwarestapel integrieren zu können.“ – Joe Barrows, Director of Software Engineering bei Biotia

Kollaborative und reproduzierbare Datenanalyse mit Genomics Notebooks, unterstützt von Jupyter Notebooks in Azure

Jupyter Notebooks stellt Benutzern eine Umgebung zur Datenanalyse mit R oder Python zur Verfügung und gestattet es, Methoden wiederzuverwenden und Ergebnisse zu reproduzieren. Forscher und Data Scientists aus dem Bereich Biomedizin verwenden Notebooks immer häufiger zur Analyse von Genomdaten und zum Entwickeln von Machine Learning-Modellen auf Grundlage multimodaler Datasets (Gen- und Phänotypdaten, klinische Daten, EMR-Daten, demographische Daten usw.).

Das Open-Source-Projekt Genomics Notebooks von Microsoft stellt eine wachsende Sammlung vorkonfigurierter Notebooks bereit, die Benutzer einfach in ihrem Azure-Arbeitsbereich starten und nutzen können. Diese vorkonfigurierten Notebooks decken Szenarien von der Erkennung von Genvarianten, Filterung und Anmerkung bis hin zur Transformation der Gen-, Phänotyp- und klinischen Daten in multimodale Datenrahmen ab, wie sie für Datenabfragen und das Entwickeln von Machine-Learning-Modellen erforderlich sind.

Nutzen von Genomdaten zur Bewertung der Auswirkungen von Umweltveränderungen beim kanadischen DFO

Das kanadische Ministerium für Fischerei- und Meeresangelegenheiten (Department of Fisheries and Oceans, DFO) ist für den Schutz der natürlichen Meeresressourcen Kanadas verantwortlich. Forscher des DFO am Bedford Institute of Oceanography in Dartomics in der kanadischen Provinz Nova Scotia haben mithilfe von Gendaten die Auswirkungen des Klimas und menschlicher Aktivitäten auf die Wanderungsmuster, die genetische Diversität und die Populationsdemografie von Fischen wie dem Atlantischen Lachs und dem Kabeljau untersucht, die erhebliche sozioökonomische Auswirkungen auf Gemeinschaften haben können, die auf diese Ressourcen angewiesen sind.

Die Forschungsteams sequenzieren gegenwärtig mehrere hundert Chromosomensätze und benötigten dafür Azure-basierte Lösungen für die Skalierung und Optimierung der immer höheren Genomik- und Datenanalyseanforderungen. Mittlerweile hat das Team Cromwell on Azure erfolgreich bereitgestellt und umfassend getestet und beabsichtigt nun, es einrichtungsübergreifend als gemeinsame Plattform für Genomikworkflows zu implementieren.

„Dank der Möglichkeit, unsere Genomikpipelines mit Cromwell on Azure ausführen zu können, erhalten wir die Möglichkeit, unsere Analyse für jede Fischspezies automatisiert auf Tausende von Genen zu skalieren. Statt also drei Monate lang manuell alle erforderlichen Variantenaufrufe zu generieren, können wir direkt eine Verbindung dieser Daten mit anderen uns vorliegenden Datenquellen herstellen. Die datenwissenschaftlichen Tools helfen uns dabei, komplexe multimodale Datenmodelle unkompliziert zu erstellen und zu trainieren, um aussagekräftige Informationen zu den Auswirkungen zu erhalten, die sich aus Interaktionen zwischen verschiedenen genetischen Faktoren, Klimainformationen und dem Einfluss des Menschen auf diese Arten ergeben, und vorherzusagen, wie sie auf künftige Umweltbelastungen reagieren könnten.“ – Dr. Tony Kess, Forscher am Bradbury Population Genomics Lab, einer Einrichtung des Bedford Institute of Oceanography in Dartmouth, Nova Scotia, Kanada

Einfacher Zugang zu einer riesigen Sammlung von in der Community erstellten Bioinformatiktools mit Bioconductor on Azure

Bioconductor ist ein Open-Source-Open-Development-Projekt, dessen Zweck die Bereitstellung eines Repositorys mit erweiterbaren Statistik- und Grafiksoftwarepaketen ist. Die Entwicklung erfolgt in R, und das Projekt soll die Analyse von Gen- und biomedizinischen Daten mit hohem Durchsatz ermöglichen. Gemeinsam mit dem Bioconductor-Coreteam implementiert Microsoft Azure-Support für dieses umfassende OSS-Softwarerepository.

Bioinformatiker und Data Scientists können jetzt problemlos ihre bevorzugten Bioconductor-Softwarepakete in Azure verwenden. Hierzu müssen sie lediglich das vorkonfigurierte Bioconductor Docker-Image bereitstellen, das in der Microsoft Container Registry im Docker-Hub gehostet wird. Außerdem können Benutzer auch Azure Virtual Machine-Vorlagen (VM-Vorlagen) verwenden, um die Genomics Data Science VM bereitzustellen, die mit beliebten Tools zum Erkunden und Analysieren von Daten, für maschinelles Lernen und die Entwicklung von Deep-Learning-Modellen vorkonfiguriert ist.

Leistungsstarke Datenanalyse und Machine Learning-Modelle mit Genomdatasets, die auf der Azure Open Data-Plattform verfügbar sind

Der Genomics Data Lake auf der Azure Open Dataset-Plattform bietet ein wachsendes Kompendium kuratierter und öffentlich verfügbarer Genomdatasets. Diese Datasets wurden von wichtigen internationalen Kooperationen generiert, wobei der Schwerpunkt auf der Bereitstellung von Ressourcen für die biomedizinische Forschungsgemeinschaft lag. Benutzer im Gesundheitswesen, in der Pharmabranche und in den Biowissenschaften können den Genomics Data Lake in Azure jetzt nutzen, um kostenlos auf diese Datasets zuzugreifen und die Daten unkompliziert in ihre Workflows zur Genomanalyse zu integrieren.

Schnellere Verarbeitung vollständiger Exome und Genome mithilfe des schlüsselfertigen Microsoft Genomics-Diensts in Azure

Microsoft Genomics ist ein hochgradig skalierbarer Azure-Dienst zum Durchführen einer Sekundäranalyse des menschlichen Genoms mithilfe der Open-Source-Software Burrows-Wheeler Aligner (BWA) und Genome Analysis Toolkit (GATK). Der Dienst ist ISO-zertifiziert, bietet den Kunden HIPAA-Compliance und unterliegt dem Microsoft Business Associate Agreement (BAA). Microsoft wird die Leistung des Diensts auch künftig unter Verwendung der Innovationen in der leistungsstarken Azure-Computeinfrastruktur optimieren, damit Kunden aus WGS-Daten (Whole Genome Sequencing) innerhalb weniger Stunden belastbare Daten zu Genomvarianten generieren können. Compliance, Leistung, Datenbeständigkeit und Provenienz machen den Dienst ideal für die Integration in Workflows, die zur klinischen Entscheidungsfindung auf Basis von Genomdaten beitragen sollen.

Beschleunigung wissenschaftlicher Entdeckungen zur Entwicklung von Therapien bei Krebs im Kindesalter dank Zugriff auf klinische Genomsequenzierung am St. Jude Children’s Research Hospital

Das Whole Genome Sequencing gestattet die umfassendste Bewertung von Unterschieden zwischen normal- und Krebsgenomen der Patienten. Der Echtzeitzugriff auf die Genomdaten ist nicht nur wichtig für die Unterstützung klinischer Entscheidungen, sondern kann auch die Forschung voranbringen und die Gewinnung neuer Erkenntnisse und die Entwicklung von Therapien beschleunigen. Gemeinsam mit Microsoft und DNAnexus hat das St. Jude Children’s Research Hospital die St. Jude Cloud erstellt, das größte öffentliche Repository mit pädiatrischen Gendaten weltweit.

Diese beispiellose Initiative bietet Forschern aus der ganzen Welt Zugriff auf hochwertige Daten aus Gesamtgenomen, Gesamtexomen und Transkriptomen von Patienten am St. Jude, die sich einer klinischen Genomprofilerstellung unterzogen und die erforderliche Einwilligung gegeben haben. Die St. Jude Cloud verwendet Azure und den Microsoft Genomics-Dienst, um die Gendaten schnell hochzuladen, zu analysieren und zu harmonisieren und sie anschließend über den St. Jude Cloud-Datenbrowser Forschern in aller Welt zur Verfügung zu stellen.

„Der Zugriff auf hochwertige klinische Gendaten, die mithilfe des Microsoft Genomics-Diensts generiert und in die St. Jude Cloud gestreamt werden, hilft bei der weiteren Forschung im Bereich der Präzisionsmedizin für Krebs im Kindesalter und weitere Krankheiten.“ – Dr. Jinghui Zhang, Chair of Department of Computational Biology am St. Jude Children’s Research Hospital

Mehr erfahren und sofort loslegen

Microsoft Genomics und die Open-Source-Projekte werden vollständig von einem Team von Microsoft-Entwicklern und -Wissenschaftlern unterstützt, die ihre Aufgabe darin sehen, die für den Fortschritt in der Genomik und der Präzisionsmedizin erforderliche Innovation voranzutreiben. Erfahren Sie mehr über Microsoft Genomics-Lösungen, und besuchen Sie unsere GitHub-Repositorys, um Ihren Beitrag zu den Open-Source-Projekten zu leisten.

1 vgl. „Big Data: Astronomical or Genomical?“


Azure. Erfinden mit dem Ziel im Blick.