• 6 min read

Azure でゲノミクスのワークフローとデータ分析を加速させる

Microsoft Genomics は、Cromwell on Azure、Genomics Notebooks、Bioconductor support for Azure などのオープン ソース プロジェクトを GitHub でリリースしました。また、Azure Open Dataset プラットフォームでは、ゲノミクスのパブリック データセットが次々と公開されています。

ゲノミクスは、標的治療薬の開発や精密医療の基盤となるものです。DNA シーケンシング技術の進歩により、ゲノミクスに基づく研究に革命が起こり、人間の生物学や疾病の状態についての理解が深まっています。このような知識の拡大により、疾病の予防、診断、治療を目的とした、パーソナライズされた医療戦略が普及してきています。この傾向は今後 10 年間でさらに加速し、ゲノミクス情報の利用が臨床上の意思決定支援や医療提供の中心となっていくでしょう。

疾病のゲノム フィンガープリントを解読し、進行や治療効果の個人差を予測し、臨床上の意思決定支援のためのモデルを開発するためには、集団レベルでのゲノム シーケンシングが必要となります。その結果、ゲノミクス データと解析に必要なコンピューティング能力が爆発的に増加し (今後 5 年間で数十エクサバイト、数兆コア時間1)、アジリティ、容易な管理、データ セキュリティ、スケーラブルなストレージとコンピューティング容量へのアクセスが必要となります。

クラウドベースのソリューションへの需要は明らかです。データのアクセス性、ツールの相互運用性、結果やモデルの信頼性を実現するためには、コミュニティ主導の標準やオープンソースのツールが必要であることがますます認識されています。Microsoft はオープン標準やオープンソース プロジェクトをサポートするだけでなく、これらのツールやソフトウェアを Azure 上で簡単に使用できるようにすることで、このコミュニティ主導の取り組みに積極的に貢献しています。

それに向けて、Microsoft Genomics は、Cromwell on Azure、Genomics Notebooks、Bioconductor support for Azure などのオープンソース プロジェクトを GitHub でリリースしました。また、Azure Open Dataset プラットフォームでは、ゲノミクスのパブリック データセットが次々と公開されています。

Cromwell による Azure 上でのゲノミクス ワークフローのスケーリングと自動化

Cromwell は、当初 Broad Institute が開発した科学向けワークフローに特化した、オープンソースのワークフロー管理システムです。Cromwell on Azure により、ユーザーは Azure のハイパースケール コンピューティング機能を利用して、ゲノミクス研究を加速することができます。Cromwell は、Azure Batch を介してコンピューティング リソースの動的なプロビジョニングを調整し、顧客の Azure Blob ストレージ アカウントと統合することで、データに簡単にアクセスできるようにしています。

Cromwell on Azure を使用したゲノミクス ワークフローのアーキテクチャ例。

Biotia と共同で COVID-19 の検出と特性評価のための次世代シーケンシング (NGS) ベースの新しいアッセイを提案

Biotia は、次世代 DNA シーケンシング (NGS) と人工知能 (AI) を活用して、疾病の精密な検出と診断のためのプラットフォームを構築することに注力している新興スタートアップ企業です。同社は、NGS パイプラインを管理するためのクラウドベースのワークフロー ソリューションを探しており、Cromwell on Azure はその主要な要件を満たすことができました。

「Biotia では、Cromwell on Azure を使用してコンピューティング負荷の高いゲノミクス ワークフローを支えることで、大幅な並列化、徹底したバージョン管理、そしてまったく新しい COVID-19 の検出結果を達成しました。Cromwell on Azure を当社のバイオインフォマティクス ソフトウェア スタックに組み込めることを嬉しく思います。」- Joe Barrows 氏 (ソフトウェア エンジニアリング担当ディレクター、Biotia)

Jupyter Notebooks on Azure を利用した Genomics Notebooks を使用して、共同作業に対応し反復可能なデータ解析を実現

Jupyter Notebooks は、R や Python を使用してデータを分析する環境をユーザーに提供し、手法の再利用や結果の再現性を実現できます。バイオメディカル研究者やデータ サイエンティストは、ゲノミクス データ解析のニーズや、マルチモーダル データセット (ゲノミクス、表現型、臨床、EMR、人口統計など) に基づく機械学習モデルの構築にノートブックをますます使用するようになっています。

Microsoft の Genomics Notebooks オープンソース プロジェクトでは、ユーザーが Azure ワークスペースで簡単に起動して使用できる、事前構成済みノートブックのコレクションを増やしています。これらの事前構成済みノートブックは、ゲノミクスのバリアント検出、濾過、アノテーションから、ゲノミクス、表現型、臨床のデータをデータ クエリや機械学習モデルの構築に必要なマルチモーダル データ フレームに変換するまでのシナリオをカバーしています。

ゲノミクス データを活用した環境変化の影響評価 (カナダの水産海洋省との共同研究)

カナダの水産海洋省 (DFO) は、カナダの水生天然資源を保護する責任を負っています。ノバスコシア州ダートマスのベッドフォード海洋研究所に所属する DFO の研究者は、気候変動や人間の活動が、アトランティック サーモンやアトランティック コッドなど、これらの資源に依存する地域社会に大きな社会経済的影響を与える可能性がある魚類の移動パターン、遺伝的多様性、人口動態に与える影響を、ゲノミクスを利用して解明しています。

研究チームは、数百単位の魚類ゲノムのシーケンシングを開始しており、増大するゲノミクスとデータ解析のニーズを拡張し、合理化するための Azure ベースのソリューションを探していました。チームは、Cromwell on Azure のデプロイとスケーリングのテストに成功し、現在はさまざまな機関で共通のゲノミクス ワークフロー プラットフォームとして採用することを検討しています。

「Cromwell on Azure を活用してゲノミクス パイプラインを実行することで、あらゆる魚類の数千のゲノムに分析を自動的に拡大することができます。必要なすべてのバリアント コールを生成するための 3 か月間の手動作業は実質的に排除され、そのデータを他のデータ ソースと直接接続することができるようになりました。このデータ サイエンス ツールにより、複雑なマルチモーダル データ モデルの構築とトレーニングが簡単になり、遺伝的要因、気候情報、人間の影響の相互作用がこれらの種に与える影響について、より深い分析情報を得ることができ、将来の環境問題への対応を予測することができます。」Tony Kess 博士 (Bradbury Population Genomics Lab 研究者、ノバスコシア州ダートマス ベッドフォード海洋研究所)

Bioconductor on Azure により、コミュニティが構築した膨大なバイオインフォマティクス ツールに簡単にアクセス

Bioconductor はオープン ソースのオープン開発プロジェクトで、高スループットのゲノミクスおよびバイオメディカル データを解析できるよう、R で開発された拡張可能な統計およびグラフィック ソフトウェア パッケージのリポジトリを提供することに力を注いでいます。Microsoft は Bioconductor のコア チームと協力して、この広範な OSS ソフトウェア リポジトリを Azure でサポートしています。

バイオインフォマティクス研究者やデータ サイエンティストは、Docker Hub の Microsoft Container Registry にホストされている事前構成済みの Bioconductor Docker イメージをデプロイすることで、Azure 上で好みの Bioconductor ソフトウェア パッケージを簡単に使用できるようになりました。さらに、ユーザーは、Azure Virtual Machine (VM) テンプレートを使用して、データ探索、分析、機械学習、ディープ ラーニング モデル開発のための一般的なツールを備え、事前構成済みの Genomics Data Science VM をデプロイすることもできます。

Azure Open Data プラットフォームで利用可能なゲノミクス データセットを使用したデータ解析や機械学習モデルの強化

Azure Open Dataset プラットフォームの Genomics Data Lake は、厳選され、一般提供が開始されているさまざまなゲノミクス データセットを提供しています。これらのデータセットは、バイオメディカル研究コミュニティにリソースを提供することを目的とした、主要な国際的な共同作業によって作成されています。医療、製薬、ライフ サイエンス分野のユーザーは、Azure 上の Genomics Data Lake を利用してこれらのデータセットに無料でアクセスし、使用しているゲノミクス解析ワークフローに簡単に統合することができます。

Azure 上の Microsoft Genomics ターンキー サービスによる全エクソームおよびゲノム処理の高速化

Microsoft Genomics は、Burrows-Wheeler Aligner (BWA) と Genome Analysis Toolkit (GATK) のオープンソース ソフトウェアを使用してヒトゲノムの二次解析を行う、高度にスケーラブルな Azure サービスです。本サービスは ISO 認証を取得しており、お客様の HIPAA へのコンプライアンス順守を可能にするとともに、Microsoft ビジネス アソシエイト契約 (BAA) の対象となります。Microsoft は、Azure のハイパフォーマンス コンピューティング インフラストラクチャのイノベーションを活用してサービスのパフォーマンスを最適化し、お客様が数時間以内に全ゲノム配列データ (WGS) から耐久性のある遺伝子変異データを生成できるようにしています。本サービスは、コンプライアンス、パフォーマンス、データの耐久性、実証性に優れているため、ゲノミクスに基づく臨床上の意思決定支援ワークフローへの統合に最適です。

セント・ジュード・チルドレンズ・リサーチ病院でのリアルタイムの臨床ゲノム解析により、小児がんの治療法の確立に向けた科学的発見を加速させる

全ゲノム シーケンシングは、患者の正常およびがんのゲノムの違いを最も包括的に評価することができます。ゲノミクス情報にリアルタイムでアクセスすることは、臨床上の意思決定をサポートするために重要であるだけでなく、研究を加速させ、新しい発見や治療法を生み出すことにもつながります。セント・ジュード・チルドレンズ・リサーチ病院は Microsoft および DNAnexus と提携して、小児ゲノム データの世界最大の公開レポジトリである St.Jude Cloud を構築しました。

この世界初の取り組みにより、世界中の研究者が、適切な同意を得て臨床ゲノム プロファイリングを受けたセント・ジュードの患者の高品質な全ゲノム、全エクソーム、トランスクリプトームのデータにアクセスできるようになります。St. Jude Cloud は、Azure と Microsoft Genomics サービスを利用して、ゲノミクス データの迅速なアップロード、解析、整合化を行い、その後、St. Jude Cloud のデータ ブラウザーを通じて世界中の研究者に提供されます。

「Microsoft Genomics サービスを活用して作成され、St.Jude Cloud にストリーミングされた高品質な臨床ゲノム データへのアクセスは、小児がんやその他の疾病に対する精密医療の研究を促進することにつながります。」- Jinghui Zhang 博士 (計算生物学部門責任者、セント・ジュード・チルドレンズ・リサーチ病院)

詳細情報と利用開始

Microsoft Genomics とそのオープンソース プロジェクトは、Microsoft の開発者と科学者のチームによって全面的にサポートされており、ゲノミクスと精密医療の発展に必要なイノベーションを推進することをお約束します。Microsoft Genomics ソリューションの詳細とオープンソース プロジェクトへの貢献については、GitHub リポジトリをご覧ください。

1 Big Data: Astronomical or Genomical?


Azure。目的を持って創造する。