Trace Id is missing
メイン コンテンツにスキップ

Data Lake

インテリジェントなアクションを実現する無制限のデータ レイクです。

  • ペタバイト規模のファイルと数兆個のオブジェクトを保存して分析
  • ビッグ データ プログラムのデバッグおよび最適化を簡単に
  • 数秒で起動、瞬時にスケーリング、ジョブ単位の従量課金
  • 超並列プログラムを簡単に開発
  • 企業向け仕様のセキュリティ、監査、サポート
  • YARN ベースで、クラウド向けの設計

Azure Data Lake には、開発者、データ サイエンティスト、アナリスト向けに、あらゆるサイズ、形式、スピードのデータを容易に保存し、複数のプラットフォームと言語ですべての種類の処理と分析を簡単に実行するために必要な機能がすべて組み込まれています。すべてのデータの取り込みや保存における複雑さが解消され、バッチ処理、ストリーミング、対話型の分析を迅速に立ち上げて実行することができます。Azure Data Lake なら、ID、管理、セキュリティを目的とした既存の IT 投資を活かすことができるため、データの管理とガバナンスがシンプルになります。また、オペレーショナル ストアやデータ ウェアハウスとシームレスに統合できるので、既存のデータ アプリケーションを拡張できます。エンタープライズのお客様と協力し、Office 365、Xbox Live、Azure、Windows、Bing、Skype などの Microsoft のビジネスで最大規模の処理と分析を実行してきた Microsoft の経験が活かされています。Azure Data Lake は、現在と将来のビジネス ニーズをすぐに満たせるサービスによって、データ資産の価値を最大限に引き出すのを妨げている生産性とスケーラビリティの問題の多くを解決します。

Azure Data Lake には、開発者、データ サイエンティスト、アナリスト向けに、あらゆるサイズ、形式、スピードのデータを容易に保存し、複数のプラットフォームと言語ですべての種類の処理と分析を簡単に実行するために必要な機能がすべて組み込まれています。すべてのデータの取り込みや保存における複雑さが解消され、バッチ処理、ストリーミング、対話型の分析を迅速に立ち上げて実行することができます。Azure Data Lake なら、ID、管理、セキュリティを目的とした既存の IT 投資を活かすことができるため、データの管理とガバナンスがシンプルになります。また、オペレーショナル ストアやデータ ウェアハウスとシームレスに統合できるので、既存のデータ アプリケーションを拡張できます。エンタープライズのお客様と協力し、Office 365、Xbox Live、Azure、Windows、Bing、Skype などの Microsoft のビジネスで最大規模の処理と分析を実行してきた Microsoft の経験が活かされています。Azure Data Lake は、現在と将来のビジネス ニーズをすぐに満たせるサービスによって、データ資産の価値を最大限に引き出すのを妨げている生産性とスケーラビリティの問題の多くを解決します。

Data Lake の図

Data Lake Analytics - インテリジェントなアクションを実現する無制限の分析ジョブ サービス

ペタバイト規模のデータを扱う超並列データ変換処理プログラムを U-SQL、R、Python、.Net で容易に開発および実行することができる、初めてのクラウド分析サービスです。管理しなければならないインフラストラクチャはありません。オンデマンドでデータを処理し、瞬時にスケーリングができ、お支払いはジョブ単位の従量課金のみです。 詳細情報

「分散システムの設計」という書籍のカバー

HDInsight - エンタープライズ向けのクラウド Apache Spark および Hadoop® サービス

HDInsight は、Spark、Hive、MapReduce、HBase、Storm、Kafka、R Server 向けに最適化されたオープン ソース分析クラスターを備え、99.9% の SLA が保証された唯一のフル マネージド クラウド Hadoop オファリングです。これらのビッグ データ テクノロジと ISV アプリケーションはそれぞれ、企業向け仕様のセキュリティと監視機能を備えたマネージド クラスターとして簡単にデプロイ可能です。 詳細情報

Data Lake Store - ビッグ データ分析を実現する無制限のデータ レイク

安全性と高度なスケーラビリティを備え、HDFS のオープン標準に基づいて構築された、初めてのエンタープライズ向けクラウド データ レイクです。データのサイズに制限はなく、超並列分析を実行できるため、非構造化、半構造化、構造化を問わずあらゆるデータからすぐに価値を引き出すことができます。 詳細情報

ビッグ データ プログラムの開発、デバッグ、最適化を簡単に

ビッグ データ クエリを設計し調整するための適切なツールを見つけることは、難しい場合があります。Data Lake ならそれが簡単です。Visual Studio、Eclipse、IntelliJ と密に統合されているため、使い慣れているツールを使ってコードを実行、デバッグ、調整できます。U-SQL、Apache Spark、Apache Hive、Apache Storm のジョブが視覚化されているので、コードがどのように大規模に実行されるのかを見て、パフォーマンスのボトルネックを特定し、コストを最適化することができ、クエリの調整が楽になります。Microsoft の実行環境では、プログラムが実行中にアクティブに分析され、パフォーマンス向上やコスト削減のための推奨事項が提案されます。データ エンジニア、DBA、データ アーキテクトは、SQL、Apache Hadoop、Apache Spark、R、Python、Java、.NET など、既存のスキルを活用できるので、使用を開始したその日から生産性を発揮できます。

既存の IT 投資とシームレスに統合

ビッグ データに関する最大の課題の 1 つは、これまでの IT 投資とどのように融合させるかという点です。Data Lake は Cortana Intelligence の重要な一部であり、Azure Synapse Analytics、Power BI、Data Factory と連携して、クラウド ビッグ データと高度な分析に対応した包括的なプラットフォームを実現します。このプラットフォームを使用して、データの準備から大規模データセットの対話型分析に至るまで、あらゆることを実行できます。Data Lake Analytics では、Azure SQL Server on Virtual Machines、Azure SQL Database、Azure Synapse Analytics などのリレーショナル ソースのデータ仮想化が最適化され、すべてのデータに対応できます。データを移動することなく、ソース データの近くに処理を移動することで、クエリが自動的に最適化されるため、パフォーマンスが最大限に向上すると共に、待機時間が最小限に抑えられます。さらに、Data Lake は Azure の一部なので、アプリケーションによって生成されたデータにも、モノのインターネット (IoT) のシナリオにおいてデバイスによって取り込まれたデータにも接続できます。

ペタバイト規模のファイルと数兆個のオブジェクトを保存して分析

Data Lake のアーキテクチャは、クラウドのスケールとパフォーマンスのために一から構築されたものです。Azure Data Lake Store を利用すると、人工的な制限を受けずに組織のデータすべてを単一の場所で分析できます。Data Lake Store では数兆個のファイルを保存でき、単一のファイルのサイズは、他のクラウド ストアの 200 倍に相当する 1 PB 以上の場合もあります。つまり、保存するデータのサイズや使用するコンピューティングの量を増やしたり減らしたりする際に、コードを書き直す必要はありません。そのため、大規模なデータセットの処理や保存の仕方に悩むことなく、ビジネス ロジックに集中できます。Data Lake なら、クラウドのビッグ データにありがちな複雑さもないため、現在と将来のビジネス ニーズに確実に対応できます。

リーズナブルでコスト効率が良い

Data Lake は、ビッグ データのワークロードを実行するコスト効率の良いソリューションです。オンデマンド クラスターかデータ処理時のジョブ単位課金モデルを選択できます。どちらの場合も、ハードウェア、ライセンス、サービス固有のサポート契約は必要ありません。ビジネス ニーズに合わせてシステムがスケールアップしたりスケールダウンしたりするので、余分な支払いが発生することはありません。また、ストレージとコンピューティングを別個にスケーリングすることもできるので、従来のビッグ データ ソリューションよりも経済的な柔軟性が得られます。さらに、ビッグ データ インフラストラクチャの運用には通常、専門の運用チームを雇うことが必要になりますが、その必要性を最小限に抑えることができます。Data Lake によって、コストを最小限に抑えながら、データ投資から生まれる利益を最大化することができます。最近の調査では、オンプレミスに Hadoop を 5 年間デプロイするよりも HDInsight の方が TCO を 63% 低減できることが示されました。

企業向け仕様のセキュリティ、監査、サポート

Data Lake は Microsoft により完全に管理およびサポートされており、企業向け仕様の SLA とサポートが提供されます。24 時間 365 日対応のカスタマー サポートを利用できるので、ビッグ データ ソリューション全体においてどのような問題に直面した場合でもお問い合わせいただくことができます。デプロイは、お客様に代わって Microsoft のチームが監視するため、継続的な稼働が保証されます。Data Lake では、データ資産が保護され、オンプレミスのセキュリティとガバナンス コントロールを簡単にクラウドへ拡張することができます。データは、転送中は SSL を使用して、保存時には Azure Key Vault で HSM に保管されたサービスまたはユーザー管理型キーにより、常に暗号化されます。Azure Active Directory を通じて、シングル サインオン (SSO)、多要素認証、数百万の ID のシームレスな管理などの機能が組み込まれています。ストア内のすべてのデータについて、POSIX ベースの ACL によってユーザーとグループをきめ細かく承認できるので、ロールベースのアクセス制御を実現できます。また、システムへのアクセスや構成の変更をすべて監査することにより、セキュリティや規制遵守のニーズに対応することができます。

これらの強力なソリューションを使用して Data Lake ソリューションを構築しましょう

HDInsight

クラウド Hadoop、Spark、R Server、HBase、Storm クラスターをプロビジョニングできます。

Data Lake Analytics

ビッグ データを簡単にする分散分析サービスです。

Azure Data Lake Storage

高パフォーマンス分析のためのスケーラブルで安全なデータ レイクです。

Apache Hadoop® および関連するオープン ソース プロジェクトの名称は、Apache Software Foundation の商標です。