Data Lake とは

データレイクとデータウェアハウスの違いについて説明します。Azure を使用して、すべての分析のためのスケーラブルな基盤を構築する方法について説明します。

データレイクの定義

この入門ガイドでは、データレイクの多くの利点と使用例について説明します。データレイクとは何か、なぜそれが重要なのかを学び、データレイクとデータウェアハウスの違いを見つけてください。まず、データレイクを用語として定義しましょう。

データレイクは、大量のデータを元の形式で取り込んで保存する集中型リポジトリです。その後、データを処理して、さまざまな分析ニーズの基礎として使用できます。オープンでスケーラブルなアーキテクチャにより、データレイクは、構造化 (データベーステーブル、Excel シート) から半構造化 (XML ファイル、Web ページ)、非構造化 (画像、音声ファイル、ツイート) まで、あらゆるソースからのあらゆる種類のデータを忠実度を犠牲にすることなく収容できます。データファイルは通常、未加工、クレンジングされた、キュレートされた段階的なゾーンに保存されるため、さまざまな種類のユーザーがニーズに合わせてさまざまな形式でデータを使用できます。データレイクは、さまざまなアプリケーションにわたってコアデータの一貫性を提供し、ビッグデータ分析、機械学習、予測分析、その他の形式のインテリジェントアクションを強化します。

データレイクが企業にとって重要な理由

今日の高度に接続された分析情報主導の世界は、データレイクソリューションが登場しなければ実現できません。これは、組織が生データを統合され、セキュリティで保護され、アクセス可能な状態に維持するために、Azure Data Lake などの包括的なデータレイクプラットフォームに依存しているためです。Azure Data Lake Storage のようなスケーラブルなストレージツールは、データを中央の 1 か所に保持して保護できるため、最適なコストでサイロを排除できます。これにより、ユーザーがビッグデータ処理、SQL クエリ、テキストマイニング、ストリーミング分析、機械学習などのさまざまなワークロードカテゴリを実行するための基盤が築かれます。このデータは、上流のデータ視覚化やアドホックレポートのニーズに応えるために使用できます。Azure Synapse Analytics のような最新のエンドツーエンドデータプラットフォームは、データレイクを中心としたビッグデータアーキテクチャの完全なニーズに対応します。

データレイクのユースケース

適切に設計されたソリューションがあれば、イノベーションの可能性は無限大です。以下に、さまざまな業界の組織がデータレイクプラットフォームを使用して成長を最適化する方法の例をいくつか示します。

ストリーミングメディア。サブスクリプションベースのストリーミング企業は、顧客の行動に関する分析情報を収集して処理し、推奨アルゴリズムを改善するために使用できます。
金融。投資会社は、リアルタイムで収集および保存される最新の市場データを使用して、ポートフォリオのリスクを効率的に管理します。
医療。医療機関はビッグデータを活用して患者のケアの質を向上させています。病院は、膨大な過去のデータを使用して患者の経路を合理化し、結果を改善し、治療コストを削減します。
オムニチャネル小売業者。小売業者はデータレイクを使用して、モバイル、ソーシャル、チャット、口コミ、対面などの複数のタッチポイントから入ってくるデータを取得して統合します。
IoT。ハードウェアセンサーは、周囲の物理世界に関する膨大な量の半構造化データから非構造化データを生成します。データレイクは、将来の分析のためにこの情報が保存される中央リポジトリを提供します。
デジタルサプライチェーン。データレイクは、メーカーが EDI システム、XML、JSON などの異種倉庫データを統合するのに役立ちます。
営業。データ科学者やセールスエンジニアは、顧客の行動を判断し、全体的な解約を減らすために予測モデルを構築することがよくあります。

データレイクとデータウェアハウスの比較

データレイクとは何か、それがなぜ重要なのか、さまざまな組織でどのように使用されているのかがわかりました。しかし、データレイクとデータウェアハウスの違いは何でしょうか? また、一方を他方よりも使用するのが適切なのはどのような場合でしょうか?

データレイクとデータウェアハウスは、データの保存と処理の両方を行うという点で似ていますが、それぞれに独自の専門分野があり、したがって独自のユースケースがあります。そのため、エンタープライズレベルの組織では、分析エコシステムにデータレイクとデータウェアハウスを含めるのが一般的です。両方のリポジトリが連携して、ストレージ、処理、分析情報を得るまでの時間を短縮するための安全なエンドツーエンドシステムを形成します。

データレイクは、読み取られるまでデータの構造やスキーマを定義することなく、ビジネスアプリケーション、モバイルアプリ、IoT デバイス、ソーシャルメディア、ストリーミングなどのさまざまなソースからリレーショナルデータと非リレーショナルデータの両方をキャプチャします。スキーマオンリードにより、あらゆる種類のデータを生の形式で保存できるようになります。その結果、データレイクは、構造化データから半構造化データ、非構造化データまで、あらゆる規模でさまざまなデータの種類を保持できます。柔軟でスケーラブルな性質を備えているため、 Apache Spark や Azure Machine Learning などのさまざまな種類のコンピューティング処理ツールを使用して、複雑な形式のデータ分析を実行するのに不可欠です。

これに対し、データウェアハウスは本質的にリレーショナルです。構造またはスキーマは、SQL クエリ操作用に精選、適合、最適化されたビジネス要件と製品要件によってモデル化または事前定義されます。データレイクには生のデータや未処理のデータを含むあらゆる構造の種類のデータが保持されますが、データウェアハウスには、特定の目的を念頭に置いて処理および変換されたデータが保存され、分析レポートや運用レポートのソースとして使用できます。そのため、データウェアハウスは、より標準化された形式の BI 分析を作成したり、すでに定義されているビジネスユースケースに対応したりするのに最適です。

	データレイク	データウェアハウス
種類	構造化、半構造化、非構造化	構造化
	リレーショナル、非リレーショナル	リレーショナル
スキーマ	スキーマオンリード	スキーマオンライト
形式	生、フィルター処理なし	処理済み、審査済み
ソース	ビッグデータ、IoT、ソーシャルメディア、ストリーミングデータ	アプリケーション、ビジネス、トランザクションデータ、バッチレポート
拡張性	スケーリングは簡単で低コスト	スケーリングは難しくコストがかかる
ユーザー	データ科学者、データエンジニア	データウェアハウスプロフェッショナル、ビジネスアナリスト
ユースケース	機械学習、予測分析、リアルタイム分析	コアレポート、BI

データレイクとデータレイクハウスの比較

これで、データレイクとデータウェアハウスの違いがわかりました。しかし、データレイクとデータレイクハウスの違いは何でしょうか? そして両方を持つ必要があるのでしょうか？

従来のデータレイクには多くの利点がありますが、欠点がないわけではありません。データレイクはあらゆる種類のソースからのあらゆる種類のデータに対応できるため、品質管理、データ破損、不適切なパーティショニングに関連する問題が発生する可能性があります。データレイクの管理が不十分だと、データの整合性が損なわれるだけでなく、ボトルネック、パフォーマンスの低下、セキュリティリスクが発生する可能性があります。

そこでデータレイクハウスが登場します。データレイクハウスは、本質的に多面的なオープンスタンダードベースのストレージソリューションです。これは、詳細なデータ分析と処理を行うデータ科学者やエンジニアのニーズに加え、ビジネスインテリジェンスやレポート作成を目的としてデータをキュレーションおよび公開する従来のデータウェアハウス専門家のニーズにも対応できます。レイクハウスの利点は、構造的に事前定義された別のデータベースにデータを複製する必要がなく、各ワークロードがデータレイク上でシームレスに動作できることです。これにより、冗長性を削減しながら、全員が最新のデータを使用して作業できるようになります。

データレイクハウスは、クラウドデータレイクの上に Delta Lake ストレージレイヤーを直接追加することで、従来のデータレイクの課題に対処します。ストレージレイヤーは、データの信頼性、ストリーミング統合、データのバージョン管理やスキーマの強制などの高度な機能を実現するために、ACID (原子性、一貫性、分離、耐久性) トランザクションを処理できる柔軟な分析アーキテクチャを提供します。これにより、コアデータの一貫性を損なうことなく、レイク上でのさまざまな分析アクティビティが可能になります。レイクハウスの必要性はニーズがどれだけ複雑かによって異なりますが、その柔軟性と範囲は多くの企業組織にとって最適なソリューションになります。

	データレイク	データレイクハウス
種類	構造化、半構造化、非構造化	構造化、半構造化、非構造化
	リレーショナル、非リレーショナル	リレーショナル、非リレーショナル
スキーマ	スキーマオンリード	スキーマオンリード、スキーマオンライト
形式	未加工、フィルターなし、処理済み、キュレーション済み	未加工、フィルターなし、処理済み、キュレーション済み、デルタ形式ファイル
ソース	ビッグデータ、IoT、ソーシャルメディア、ストリーミングデータ	ビッグデータ、IoT、ソーシャルメディア、ストリーミングデータ、アプリケーション、ビジネス、トランザクションデータ、バッチレポート
拡張性	スケーリングは簡単で低コスト	スケーリングは簡単で低コスト
ユーザー	データ科学者	ビジネスアナリスト、データエンジニア、データ科学者
ユースケース	機械学習、予測分析	コアレポート、BI、機械学習、予測分析

データレイクアーキテクチャとは

基本的に、データレイクは、独自のアーキテクチャが設定されていないストレージリポジトリです。その機能を最大限に活用するには、データの統合、保存、処理の最適化に役立つ幅広いツール、テクノロジー、コンピューティングエンジンが必要です。これらのツールは連携して、ビッグデータから情報を得てデータレイク上で実行される、緊密に階層化されたアーキテクチャを作成します。このアーキテクチャは、データレイクハウスの運用構造を形成することもあります。すべての組織には独自の構成がありますが、ほとんどのデータレイクハウスアーキテクチャには次のような特徴があります。

リソース管理とオーケストレーション。リソースマネージャーを使用すると、適切な量のデータ、リソース、コンピューティング能力を適切な場所に割り当てることで、データレイクが一貫してタスクを実行できるようになります。
簡単にアクセスできるコネクタ。さまざまなワークフローにより、ユーザーは必要な形式で必要なデータに簡単にアクセスし、共有することができます。
信頼性の高い分析。優れた分析サービスは、高速でスケーラブルで分散型である必要があります。また、複数の言語にわたる多様なワークロードカテゴリをサポートする必要もあります。
データ分類。データのプロファイリング、カタログ化、アーカイブは、組織がデータの内容、品質、場所、履歴を追跡するのに役立ちます。
抽出、読み込み、変換 (ELT) プロセス。 ELT とは、データを複数のソースから抽出してデータレイクの RAW ゾーンに読み込み、抽出後にクリーンアップして変換して、アプリケーションがすぐに使用できるようにするプロセスを指します。
セキュリティとサポート。マスキング、監査、暗号化、アクセス監視などのデータ保護ツールにより、データの安全性とプライバシーが確保されます。
ガバナンスと戦略。データレイクプラットフォームをできるだけスムーズに実行するには、そのアーキテクチャ構成と、データと運用管理のベストプラクティスについてユーザーに教育する必要があります。

その他のリソース

よく寄せられる質問

データレイクは、大量のデータを元の形式で取り込み、保存し、処理できるようにする集中型リポジトリです。あらゆる種類のデータに対応でき、ビッグデータ分析、機械学習、その他の形式のインテリジェントアクションを強化するために使用されます。

データレイクについてさらに学ぶ
小売、金融、エンターテインメントなどのさまざまな業界の組織は、データレイクプラットフォームを使用してデータを保存し、分析情報を収集し、サービスの全体的な品質を向上させています。たとえば、投資会社はデータレイクを使用して最新の市場データを収集および処理し、ポートフォリオのリスクをより効率的に管理できるようにします。
データレイクにはあらゆる種類の生データが保存され、データ科学者はこれらのデータをさまざまなプロジェクトに使用できます。データウェアハウスには、クリーンアップおよび処理されたデータが保存され、分析レポートや運用レポート、特定の BI ユースケースのソースとして使用できます。

データレイクとデータウェアハウスの比較を検討する
データレイクハウスは、データレイクとデータウェアハウスの要素を組み合わせて、データサイエンスとビジネスインテリジェンスを目的とした柔軟なエンドツーエンドのソリューションを形成します。

データレイクハウスについてさらに学ぶ
はい、あります。あらゆる業界の主要組織は、インテリジェントなアクションを強化し、分析情報を獲得し、成長するために、データレイクに保存されている大量のデータに依存しています。

データレイクの利点を発見する
未加工データや非構造化データを含む大量のデータは管理が難しく、ボトルネック、データ破損、品質管理の問題、パフォーマンスの問題につながる可能性があります。そのため、データレイクプラットフォームをスムーズに実行するには、適切なガバナンスと管理慣行を維持することが重要です。
データレイクアーキテクチャとは、データレイクからのデータを統合、アクセス、整理、安全に保つのに役立つツールとテクノロジーの特定の構成を指します。

データレイクアーキテクチャのベストプラクティスを検討する

無料アカウント

Azure のクラウドコンピューティングのサービスを最大 30 日間無料で試すことができます。

Azure を無料で試す

従量課金制

従量課金制の価格で利用を始めましょう。事前コミットメントはなく、いつでもキャンセルできます。

従量課金制の詳細情報

Data Lake とは

データ レイクの定義

データ レイクが企業にとって重要な理由

データ レイクのユース ケース

データ レイクとデータ ウェアハウスの比較

データ レイクとデータ レイクハウスの比較

データ レイク アーキテクチャとは

その他のリソース

探索

ソリューションのアイデア

ガイド

ウェビナー

よく寄せられる質問

データ レイクとは

データ レイクの例を教えてください。

データレイクとデータ ウェアハウスの違いは何でしょうか?

データ レイクハウスとは

データ レイクは重要ですか?

データ レイクの課題は何ですか?