データ ウェアハウスとは?
データ ウェアハウスとは何か、データ ウェアハウスを使用することの利点、設計フェーズで考慮すべきベスト プラクティス、最終的に構築するタイミングに組み込むツールについて説明します。
データ ウェアハウスとは?
まず、データ ウェアハウスとは何か、組織でデータ ウェアハウスを使用する理由を定義しましょう。
データ ウェアハウスは、レポートと分析のために構造化データ (データベース テーブル、Excel シート) と半構造化データ (XML ファイル、Web ページ) を格納する一元的なリポジトリです。データは、販売時点管理システム、ビジネス アプリケーション、リレーショナル データベースなど、さまざまなソースから流れ込み、通常はウェアハウスに到達する前にクリーンアップおよび標準化されます。データ ウェアハウスは大量の情報を格納できるため、豊富な履歴データに簡単にアクセスできるので、ータ マイニング、データの視覚化、その他の形式のビジネス インテリジェンス レポートに利用できます。
データ ウェアハウスの利点
信頼性の高いデータ (特に時間の経過と共に集計される場合) は、ユーザーが組織の運営方法に関するよりスマートで情報に基づいた意思決定を行うのに役立ちます。データ ウェアハウスがその実現を可能にします。エンタープライズ データ ウェアハウスの利点は無数ですが、最も影響を与える利点の一部は次のとおりです:
- 複数のソースのデータを 1 つの信頼できるソースに統合する
- 何年、何か月にもわたる長期的な履歴データの格納と分析
- データをクレンジングおよび変換して、構造と形式で正確で一貫性があり、標準化されるようにする
- データの収集と分析の処理時のクエリ時間を短縮し、システム全体のパフォーマンスを向上させます
- デプロイやインフラストラクチャのコストを処理することなく、データを効率的に読み込む
- プライベートで保護された安全なデータをセキュリティで保護する
- データ マイニング、視覚化ツール、およびその他の形式の高度な分析を使用して分析用にデータを準備する
データ レイクとデータ ウェアハウス
データ ウェアハウスは、組織の分析操作に不可欠であることは明らかです。しかし、データ ウェアハウスと、データ レイクなど他の種類のデータ リポジトリとの違いは何ですか? また、どちらを使用すればよいでしょうか?
リポジトリとして、データ ウェアハウスと データ レイク は、データの格納と処理の両方を行います。ただし、同じ機能を提供しているように見えるかもしれませんが、それぞれに固有のユース ケースがあります。このため、組織は一般的に両方のシステムを組み込んで、幅広い目的に対応できる完全なエンドツーエンド ソリューションを形成しています。
データ ウェアハウスは本質的にリレーショナルです。つまり、データの構造またはスキーマは、SQL クエリ操作用にキュレーション、準拠、最適化された定義済みのビジネス要件と製品要件によって決まります。そのため、データ ウェアハウスは、BI 分析用のデータ マイニングや、既に特定されているビジネス ユース ケースのソーシングなど、特定の目的を念頭に置いて処理されたデータを格納するために最適に使用されます。
データ ウェアハウスと同様に、データ レイクには構造化データと半構造化データが保持されます。ただし、モバイル アプリ、IoT デバイス、ソーシャル メディア、ストリーミングなど、さまざまな非リレーショナル ソースからの生データと未処理データに対応することもできます。これは、データ レイク内の構造またはスキーマが、データが読み取されるまで定義されないためです。柔軟でスケーラブルな性質の結果として、データ レイクは、機械学習などのインテリジェントな形式のデータ分析を実行するためによく使用されます。
データ レイク | データ ウェアハウス | |
---|---|---|
種類 |
構造化、半構造化、非構造化 リレーショナル、非リレーショナル |
構造化 リレーショナル |
スキーマ | 読み取り時のスキーマ | 書き込み時のスキーマ |
形式 | 未加工、フィルター処理なし | 処理済み, 審査済み |
ソース | ビッグ データ, IoT, ソーシャル メディア, ストリーミング データ | アプリケーション、ビジネス、トランザクション データ、バッチ レポート |
拡張性 | 低コストで簡単にスケーリング | スケーリングが困難でコストがかかる |
ユーザー | データ サイエンティスト、データ エンジニア | データ ウェアハウスの専門家、ビジネス アナリスト |
ユース ケース | 機械学習、予測分析、リアルタイム分析 | コア レポート、BI |

データ ウェアハウスのアーキテクチャと設計
データ ウェアハウスを使用する理由とタイミングを理解したので、データ ウェアハウスの設計を見て、そのしくみを詳しく見てみましょう。データ ウェアハウスは、単独で動作する単一のサイロだけではありません。これは、さまざまな方法でデータとやり取りする複数の層で構成される、高度に構造化された慎重に設計されたシステムです。通常、これらのレベルは次のとおりです:
最下位層
データは複数のソースから取り込まれ、抽出、変換、読み込み (ETL) と呼ばれるプロセスで他のアプリケーションが使用できるようにクレンジングおよび変換されます。一番下の層は、データが格納され最適化される場所でもあります。これにより、クエリ時間が短縮され、全体的なパフォーマンスが向上します。
中間層
ここで分析エンジン (オンライン分析処理 (OLAP) サーバーとも呼ばれます) が表示されます。OLAP サーバーは、高速でデータ ウェアハウスから大量のデータにアクセスするため、非常に高速な結果が得られます。
最上位レベル
最上位層は、フロントエンド インターフェイスが処理されたデータを視覚的に表示する場所です。アナリストは、レポート作成とセルフサービス BI のすべてのニーズにアクセスして使用できます。
データ ウェアハウスを構築する方法
データ ウェアハウスを設計して構築する場合は、組織の長期目標とアドホック目標、およびデータの性質を考慮することが重要です。統合するデータ ソースはいくつありますか? ワークフローを自動化する計画はありますか? データの探索、分析方法は? ビルドアウトは、ニーズの複雑さによって異なりますが、一般的なエンタープライズ データベース ウェアハウスは、次のコンポーネントで構成されるでしょう。
- 販売時点管理システム、ビジネス アプリケーション、その他のリレーショナル データベースから運用データを抽出するデータ ソース
- ウェアハウスまたは一元化されたレポジトリ用にデータがクリーンアップおよび変換されるステージング領域
- ユーザーがアクセスしやすいように処理済みの運用データ、メタデータ、サマリー データ、生データを格納するウェアハウスまたは一元化されたレポジトリ
- 一元化されたリポジトリからデータを取得し、選択したユーザー グループにサブセットで提供するデータ マートの追加
- データ サイエンティストは、保護された環境で新しい形式のデータ探索をテストするために使用できるサンドボックス
- 統合、ストレージ、パフォーマンス、分析のためのさまざまなデータ ウェアハウス ツール、フレームワーク、および API

データ ウェアハウス のツール、ソフトウェア、リソース
今日のデータ中心の世界では、多くの主要なソフトウェア企業が、それぞれ固有のユース ケースを持つ、一見無限の範囲のデータ ウェアハウス ソフトウェアを所有しています。困難に思われるかもしれませんが、まとまりのある高パフォーマンスソリューションを構築するには、適切なツールとテクノロジに投資する必要があります。組織のニーズはそれぞれ異なりますが、以下に、調査する必要のある重要なデータ ウェアハウス製品をいくつか提示します:
クラウドとハイブリッド クラウドのデータ ウェアハウス
Azure Synapse Analytics などの統合されたクラウドベースのデータ ウェアハウス ソリューションにより、組織は高速かつ低コストでスケーリング、コンピューティング、および格納を行うことができます。
データ統合ツール
ETL パイプラインを使用すると、ユーザーはワークフローの作成、スケジュール設定、調整を行い、ソース データが自動的に統合、クレンジング、標準化されるようにすることができます。
オブジェクト ストレージ
オブジェクト ストレージ ソリューションは、大量の構造化データ、半構造化データ、非構造化データを保持できるため、ソース データをウェアハウスに読み込む前にステージングするのに最適です。
ウェアハウジング ツール
分散ストレージ ソリューションは、列形式ストレージを使用してリレーショナル テーブルに大量のデータ セットを保持します。これにより、コストが大幅に削減され、クエリのパフォーマンスが向上し、分析情報への時間が短縮されます。
パフォーマンス ツール
アプリケーションのパフォーマンスを向上させるには、メモリ内処理をサポートするオープンソースの並列処理フレームワークである Apache Spark を組み込むことができます。
リソースとワークロードの管理
リソース マネージャーは、それに応じてデータを読み込み、分析、管理、エクスポートできるように、ワークロードにコンピューティング能力を割り当てます。
データ モデリング
データ モデリングは、複数のデータ ソースを 1 つのセマンティック モデルに結合し、データの構造化・合理化されたビューを提供します。
ビジネス インテリジェンス ツール
ビジネス分析ツールは、ダッシュボード、レポート、およびその他の視覚化ツールの形式でユーザーに分析情報を提供するのに役立ちます。
セキュリティとプライバシーの機能
データ暗号化、ユーザー認証、アクセス監視などのセキュリティとコンプライアンス機能により、データが確実に保護されます。

Azure SQL Data Warehouse はどうなりましたか?
Azure SQL Data Warehouseに関連付けられている機能は、専用 SQL プールと呼ばれる Azure Synapse Analytics の機能になりました。既存の Azure SQL Data Warehouse のお客様は、変更を行うことなく、Azure Synapse Analytics の専用 SQL プール機能を使用して、既存の Azure SQL Data Warehouse のワークロードを引き続き実行できます。お客様は、Azure Synapse Analytics を使用して既存のウェアハウス データの管理を開始して、サーバーレス データ レイク探索や統合された SQL や Apache Spark™エンジンなどの高度な分析機能を利用することもできます。
よく寄せられる質問
-
データ ウェアハウスは、レポート、分析の目的、およびその他のビジネス インテリジェンスの形式で、構造化データ (データベース テーブル、Excel シート) と半構造化データ (XML ファイル、Web ページ) を保持する一元化されたリポジトリです。
-
データ ウェアハウスを使用すると、多くの利点があります。たとえば、データ ウェアハウスは、複数のデータ ソースを 1 つの信頼できるソースに統合するので、組織はビジネスと運用に関するより多くの情報に基づいた意思決定を行えます。
-
データ ウェアハウスには、構造化データと半構造化データが格納されます。このデータは、データ マイニング、データ視覚化、およびその他の特定の BI ユース ケースをソース化するために使用できます。データ レイクにはさまざまな種類の生データが格納されます。このデータ サイエンティストは、さまざまなプロジェクトをソース化するために使用できます。
-
通常、データ ウェアハウスは複数の層で構成されます。一番下の層では、データが収集されて格納され、中間層ではデータの分析が行われ、最上位層ではユーザーがアクセスして解析するためのデータが表示されます。
-
データ ウェアハウス インフラストラクチャを設計して構築する場合は、データの性質と変換方法を考慮することが重要です。一般的なビルドアウトの一般的な要素には、データ ソース、ステージング領域、ウェアハウス自体、データ マート、サンドボックス、さまざまな統合ツールがあります。
-
現在、多くの主要なソフトウェア企業が幅広いデータ ウェアハウス製品を提供しています。
-
これらの機能は、専用 SQL プールと呼ばれる Azure Synapse Analytics の機能になりました。既存の Azure SQL Data Warehouse のお客様は、何の変更もなしに、ここでワークロードを実行し続けることができます。
その他の資料
無料アカウント
Azure クラウド コンピューティングサービスを最大 30 日間無料で試すことができます。
従量課金制
従量課金制の価格で開始できます。前払いの手数料はありません。いつでもキャンセルできます。