Data Lake とは
データ レイクとデータ ウェアハウスの違いについて説明します。Azure を使用して、すべての分析のためのスケーラブルな基盤を構築する方法について説明します。
データ レイクの定義
この入門ガイドでは、データ レイクの多くの利点と使用例について説明します。データ レイクとは何か、なぜそれが重要なのかを学び、データ レイクとデータ ウェアハウスの違いを見つけてください。まず、データ レイクを用語として定義しましょう。
データ レイクは、大量のデータを元の形式で取り込んで保存する集中型リポジトリです。その後、データを処理して、さまざまな分析ニーズの基礎として使用できます。オープンでスケーラブルなアーキテクチャにより、データ レイクは、構造化 (データベース テーブル、Excel シート) から半構造化 (XML ファイル、Web ページ)、非構造化 (画像、音声ファイル、ツイート) まで、あらゆるソースからのあらゆる種類のデータを忠実度を犠牲にすることなく収容できます。データ ファイルは通常、未加工、クレンジングされた、キュレートされた段階的なゾーンに保存されるため、さまざまな種類のユーザーがニーズに合わせてさまざまな形式でデータを使用できます。データ レイクは、さまざまなアプリケーションにわたってコア データの一貫性を提供し 、ビッグ データ分析、 機械学習、予測分析、その他の形式のインテリジェント アクションを強化します。
データ レイクが企業にとって重要な理由
今日の高度に接続された分析情報主導の世界は、データ レイク ソリューションが登場しなければ実現できません。これは、組織が生データを統合され、セキュリティで保護され、アクセス可能な状態に維持するために、Azure Data Lake などの包括的なデータ レイク プラットフォームに依存しているためです。Azure Data Lake Storage のようなスケーラブルなストレージ ツールは、データを中央の 1 か所に保持して保護できるため、最適なコストでサイロを排除できます。これにより、ユーザーがビッグ データ処理、SQL クエリ、テキスト マイニング、ストリーミング分析、機械学習などのさまざまなワークロード カテゴリを実行するための基盤が築かれます。このデータは、上流のデータ視覚化やアドホック レポートのニーズに応えるために使用できます。Azure Synapse Analytics のような最新のエンドツーエンド データ プラットフォームは、データ レイクを中心としたビッグ データ アーキテクチャの完全なニーズに対応します。
データ レイクのユース ケース
適切に設計されたソリューションがあれば、イノベーションの可能性は無限大です。以下に、さまざまな業界の組織がデータ レイク プラットフォームを使用して成長を最適化する方法の例をいくつか示します。
- ストリーミング メディア。 サブスクリプションベースのストリーミング企業は、顧客の行動に関する分析情報を収集して処理し、推奨アルゴリズムを改善するために使用できます。
- 金融。 投資会社は、リアルタイムで収集および保存される最新の市場データを使用して、ポートフォリオのリスクを効率的に管理します。
- 医療。 医療機関はビッグデータを活用して患者のケアの質を向上させています。病院は、膨大な過去のデータを使用して患者の経路を合理化し、結果を改善し、治療コストを削減します。
- オムニチャネル小売業者。 小売業者はデータ レイクを使用して、モバイル、ソーシャル、チャット、口コミ、対面などの複数のタッチポイントから入ってくるデータを取得して統合します。
- IoT。 ハードウェア センサーは、周囲の物理世界に関する膨大な量の半構造化データから非構造化データを生成します。データ レイクは、将来の分析のためにこの情報が保存される中央リポジトリを提供します。
- デジタル サプライ チェーン。 データ レイクは、メーカーが EDI システム、XML、JSON などの異種倉庫データを統合するのに役立ちます。
- 営業。 データ科学者やセールス エンジニアは、顧客の行動を判断し、全体的な解約を減らすために予測モデルを構築することがよくあります。
データ レイクとデータ ウェアハウスの比較
データ レイクとは何か、それがなぜ重要なのか、さまざまな組織でどのように使用されているのかがわかりました。しかし、データレイクとデータ ウェアハウスの違いは何でしょうか? また、一方を他方よりも使用するのが適切なのはどのような場合でしょうか?
データ レイクと データ ウェアハウス は、データの保存と処理の両方を行うという点で似ていますが、それぞれに独自の専門分野があり、したがって独自のユース ケースがあります。そのため、エンタープライズレベルの組織では、分析エコシステムにデータレイクとデータウェアハウスを含めるのが一般的です。両方のリポジトリが連携して、ストレージ、処理、分析情報を得るまでの時間を短縮するための安全なエンドツーエンド システムを形成します。
データ レイクは、読み取られるまでデータの構造やスキーマを定義することなく、ビジネス アプリケーション、モバイル アプリ、IoT デバイス、ソーシャル メディア、ストリーミングなどのさまざまなソースからリレーショナル データと非リレーショナル データの両方をキャプチャします。スキーマオンリードにより、あらゆる種類のデータを生の形式で保存できるようになります。その結果、データ レイクは、構造化データから半構造化データ、非構造化データまで、あらゆる規模でさまざまなデータの種類を保持できます。柔軟でスケーラブルな性質を備えているため、 Apache Spark や Azure Machine Learning などのさまざまな種類のコンピューティング処理ツールを使用して、複雑な形式のデータ分析を実行するのに不可欠です。
これに対し、データ ウェアハウスは本質的にリレーショナルです。構造またはスキーマは、SQL クエリ操作用に精選、適合、最適化されたビジネス要件と製品要件によってモデル化または事前定義されます。データ レイクには生のデータや未処理のデータを含むあらゆる構造の種類のデータが保持されますが、データ ウェアハウスには、特定の目的を念頭に置いて処理および変換されたデータが保存され、分析レポートや運用レポートのソースとして使用できます。そのため、データ ウェアハウスは、より標準化された形式の BI 分析を作成したり、すでに定義されているビジネス ユース ケースに対応したりするのに最適です。
データ レイク | データ ウェアハウス | |
---|---|---|
種類 | 構造化、半構造化、非構造化 | 構造化 |
リレーショナル、非リレーショナル | リレーショナル | |
スキーマ | スキーマ オン リード | スキーマ オン ライト |
形式 | 生、フィルター処理なし | 処理済み、審査済み |
ソース | ビッグ データ、IoT、ソーシャル メディア、ストリーミング データ | アプリケーション、ビジネス、トランザクション データ、バッチ レポート |
拡張性 | スケーリングは簡単で低コスト | スケーリングは難しくコストがかかる |
ユーザー | データ科学者、データ エンジニア | データ ウェアハウス プロフェッショナル、ビジネス アナリスト |
ユース ケース | 機械学習、予測分析、リアルタイム分析 | コア レポート、BI |
データ レイクとデータ レイクハウスの比較
これで、データ レイクとデータ ウェアハウスの違いがわかりました。しかし、データ レイクとデータ レイクハウスの違いは何でしょうか? そして両方を持つ必要があるのでしょうか?
従来のデータレイクには多くの利点がありますが、欠点がないわけではありません。データ レイクはあらゆる種類のソースからのあらゆる種類のデータに対応できるため、品質管理、データ破損、不適切なパーティショニングに関連する問題が発生する可能性があります。データレイクの管理が不十分だと、データの整合性が損なわれるだけでなく、ボトルネック、パフォーマンスの低下、セキュリティリスクが発生する可能性があります。
そこでデータ レイクハウスが登場します。データ レイクハウスは、本質的に多面的なオープン スタンダード ベースのストレージ ソリューションです。これは、詳細なデータ分析と処理を行うデータ科学者やエンジニアのニーズに加え、ビジネス インテリジェンスやレポート作成を目的としてデータをキュレーションおよび公開する従来のデータ ウェアハウス専門家のニーズにも対応できます。レイクハウスの利点は、構造的に事前定義された別の データベースにデータを複製する必要がなく、各ワークロードがデータ レイク上でシームレスに動作できることです。これにより、冗長性を削減しながら、全員が最新のデータを使用して作業できるようになります。
データ レイクハウスは、クラウド データ レイクの上に Delta Lake ストレージ レイヤー を直接追加することで、従来のデータ レイクの課題に対処します。ストレージ レイヤーは、データの信頼性、ストリーミング統合、データのバージョン管理やスキーマの強制などの高度な機能を実現するために、ACID (原子性、一貫性、分離、耐久性) トランザクションを処理できる柔軟な分析アーキテクチャを提供します。これにより、コア データの一貫性を損なうことなく、レイク上でのさまざまな分析アクティビティが可能になります。レイクハウスの必要性はニーズがどれだけ複雑かによって異なりますが、その柔軟性と範囲は多くの企業組織にとって最適なソリューションになります。
データ レイク | データ レイクハウス | |
---|---|---|
種類 | 構造化、半構造化、非構造化 | 構造化、半構造化、非構造化 |
リレーショナル、非リレーショナル | リレーショナル、非リレーショナル | |
スキーマ | スキーマ オン リード | スキーマ オン リード、スキーマ オン ライト |
形式 | 未加工、フィルターなし、処理済み、キュレーション済み | 未加工、フィルターなし、処理済み、キュレーション済み、デルタ形式ファイル |
ソース | ビッグ データ、IoT、ソーシャル メディア、ストリーミング データ | ビッグ データ、IoT、ソーシャル メディア、ストリーミング データ、アプリケーション、ビジネス、トランザクション データ、バッチ レポート |
拡張性 | スケーリングは簡単で低コスト | スケーリングは簡単で低コスト |
ユーザー | データ科学者 | ビジネス アナリスト、データ エンジニア、データ科学者 |
ユース ケース | 機械学習、予測分析 | コア レポート、BI、機械学習、予測分析 |
データ レイク アーキテクチャとは
基本的に、データ レイクは、独自のアーキテクチャが設定されていないストレージ リポジトリです。その機能を最大限に活用するには、データの統合、保存、処理の最適化に役立つ幅広いツール、テクノロジー、コンピューティング エンジンが必要です。これらのツールは連携して、ビッグ データから情報を得てデータ レイク上で実行される、緊密に階層化されたアーキテクチャを作成します。このアーキテクチャは、データ レイクハウスの運用構造を形成することもあります。すべての組織には独自の構成がありますが、ほとんどのデータ レイクハウス アーキテクチャには次のような特徴があります。
- リソース管理とオーケストレーション。 リソース マネージャーを使用すると、適切な量のデータ、リソース、コンピューティング能力を適切な場所に割り当てることで、データ レイクが一貫してタスクを実行できるようになります。
- 簡単にアクセスできるコネクタ。 さまざまなワークフローにより、ユーザーは必要な形式で必要なデータに簡単にアクセスし、共有することができます。
- 信頼性の高い分析。 優れた分析サービスは、高速でスケーラブルで分散型である必要があります。また、複数の言語にわたる多様なワークロード カテゴリをサポートする必要もあります。
- データ分類。 データのプロファイリング、カタログ化、アーカイブは、組織がデータの内容、品質、場所、履歴を追跡するのに役立ちます。
- 抽出、読み込み、変換 (ELT) プロセス。 ELT とは、データを複数のソースから抽出してデータ レイクの RAW ゾーンに読み込み、抽出後にクリーンアップして変換して、アプリケーションがすぐに使用できるようにするプロセスを指します。
- セキュリティとサポート。 マスキング、監査、暗号化、アクセス監視などのデータ保護ツールにより、データの安全性とプライバシーが確保されます。
- ガバナンスと戦略。 データ レイク プラットフォームをできるだけスムーズに実行するには、そのアーキテクチャ構成と、データと運用管理のベスト プラクティスについてユーザーに教育する必要があります。
よく寄せられる質問
-
データ レイクは、大量のデータを元の形式で取り込み、保存し、処理できるようにする集中型リポジトリです。あらゆる種類のデータに対応でき、ビッグ データ分析、機械学習、その他の形式のインテリジェント アクションを強化するために使用されます。
-
小売、金融、エンターテインメントなどのさまざまな業界の組織は、データ レイク プラットフォームを使用してデータを保存し、分析情報を収集し、サービスの全体的な品質を向上させています。たとえば、投資会社はデータレイクを使用して最新の市場データを収集および処理し、ポートフォリオのリスクをより効率的に管理できるようにします。
-
データ レイクにはあらゆる種類の生データが保存され、データ科学者はこれらのデータをさまざまなプロジェクトに使用できます。データ ウェアハウスには、クリーンアップおよび処理されたデータが保存され、分析レポートや運用レポート、特定の BI ユースケースのソースとして使用できます。
-
データ レイクハウスは、データ レイクとデータ ウェアハウスの要素を組み合わせて、 データ サイエンス とビジネス インテリジェンスを目的とした柔軟なエンドツーエンドのソリューションを形成します。
-
はい、あります。あらゆる業界の主要組織は、インテリジェントなアクションを強化し、分析情報を獲得し、成長するために、データ レイクに保存されている大量のデータに依存しています。
-
未加工データや非構造化データを含む大量のデータは管理が難しく、ボトルネック、データ破損、品質管理の問題、パフォーマンスの問題につながる可能性があります。そのため、データ レイク プラットフォームをスムーズに実行するには、適切なガバナンスと管理慣行を維持することが重要です。
-
データ レイク アーキテクチャとは、データ レイクからのデータを統合、アクセス、整理、安全に保つのに役立つツールとテクノロジーの特定の構成を指します。