Trace Id is missing
跳到主要內容
Azure
在膝上型電腦上使用簡報面對面討論的四個人

什麼是資料倉儲?

了解什麼是資料倉儲、使用資料倉儲的優點、在設計階段需考量的最佳做法,以及最後建立時要結合哪些工具。

什麼是資料倉儲?

首先,讓我們定義什麼是資料倉儲,以及為何您應考慮為貴組織使用資料倉儲。

資料倉儲是集中式存放庫,可儲存結構化資料 (資料庫資料表、Excel 工作表) 和半結構化資料 (XML 檔案、網頁),以用於報告與分析用途。資料會從各種來源 (例如銷售點系統、商務應用程式和關聯式資料庫) 流入,而且通常會在到達倉儲之前清除及標準化。由於資料倉儲能夠儲存大量資訊,因此可讓使用者輕鬆地存取豐富的歷史資料,這些資料可用於資料採礦、資料視覺化,以及其他形式的商業智慧報告。

正在檢查表格中報表資料的兩個人

資料倉儲的優點

可靠的資料 (特別是經過一段時間的彙總資料) 可協助使用者針對組織運作做出更聰明、更明智的決策,而資料倉儲能夠幫助實現這一切。企業資料倉儲有許多優點,但其中一些影響最大的優點包括:

資料倉儲與資料湖的比較

資料倉儲明顯是任何組織分析作業的基本工作。但資料倉儲和其他類型的資料存放庫 (例如資料湖) 有何不同? 兩者的使用時機又有何差異?

做為存放庫使用時,資料倉儲和資料湖都會儲存及處理資料。雖然它們似乎提供了相同的功能,但各自有特定的適用情況。因此,組織通常會結合這兩個系統,以形成能夠處理各種用途的完整端對端解決方案。

資料倉儲本質上是關聯式的。這表示資料的結構或結構描述是由預先定義的商務和產品需求所決定的,而這些需求經過策劃、符合規範,並針對 SQL 查詢作業最佳化。因此,資料倉儲最適合用來儲存已考量用於特定用途的資料,例如用於 BI 分析,或用於獲取已識別的企業使用情況的資料採礦。

資料湖和資料倉儲一樣,會保留結構化和半結構化的資料。但是,資料湖也能夠處理來自各種非關聯式來源 (包括行動裝置應用程式、IoT 裝置、社交媒體或串流) 的原始和未處理資料。這是因為資料湖中的結構或結構描述,在讀取資料之前都不會被定義。由於資料湖本質上具有彈性和可擴縮性,因此通常用於執行智慧型資料分析形式,例如機器學習。

全組織支援計劃
資料湖 資料倉儲
類型

結構化、半結構化、非結構化
關聯式、非關聯式

結構化
關聯式

結構描述

讀取時結構描述

寫入時結構描述

格式

原始、未篩選的

已處理、經過審查

來源

巨量資料、IoT、社交媒體、串流資料

應用程式、商務、交易資料、批次報告

可擴縮性

以低成本輕鬆地調整

難以擴縮且昂貴

使用者人數

資料科學家、資料工程師

資料倉儲專業人員、商務分析師

使用案例

機器學習、預測性分析、即時分析

核心報告、BI

坐在椅子上並在電腦上工作的人

資料倉儲結構與設計

現在,您已經知道使用資料倉儲的原因和時機了,接著讓我們透過檢視資料倉儲的設計來了解其如何運作。資料倉儲不只是一個獨立運作的儲存位置。相反地,它是一個高度結構化、由多層組成且精心架構的系統,能夠以不同方式與您的資料互動,而且不同層之間也能彼此互動。一般來說,這些層包括:

最底層

資料會從多個來源注入,然後進行清除並轉換以供其他應用程式在稱為解壓縮、轉換和載入 (ETL) 的程序中使用。最底層也是儲存和最佳化資料的所在位置,這可加快查詢時間並提升整體效能。

中介層

您可以在此找到分析引擎,也稱為線上分析處理 (OLAP) 伺服器。OLAP 伺服器會迅速從資料倉儲存取大量的資料,並以閃電般的高速產生結果。

最上層

前端介面會在最上層這個位置以視覺化方式呈現已處理資料,分析師可以存取此資料並用於所有報告和自助 BI 需求。

如何建立資料倉儲

設計和建置資料倉儲時,必須考量組織的長期和特定目標,以及資料的本質。您正在整合多少的資料來源? 您是否計劃將工作流程自動化? 您將如何探索及分析您的資料? 您的建置情況將會視您的需求複雜度而改變,但典型的企業資料庫倉儲可能會包含以下元件:

  1. 資料來源:從銷售點系統、商務應用程式和其他關聯式資料庫擷取操作資料
  2. 暫存區:清除及轉換資料以用於倉儲或集中式存放庫的位置
  3. 倉儲或集中式存放庫:儲存已處理的操作資料、中繼資料、摘要資料和原始資料,以方便使用者存取
  4. 新增資料超市:這會從集中式存放庫取得資料,並以子集的方式提供給選擇的使用者群組
  5. 沙箱:資料科學家可能會使用沙箱以便在受保護的環境中測試新的資料探索形式
  6. 各種不同的資料倉儲工具、架構和 API:可用於整合、儲存、效能及分析
正在分析膝上型電腦上圖表和兩個螢幕上顯示的資料報告的人
開啟圖表的膝上型電腦螢幕畫面

資料倉儲工具、軟體和資源

在現今以資料為中心的世界中,許多主要軟體公司都看似擁有包羅萬象的資料倉儲軟體,且每一個都有特定的適用情況。這看起來可能令人生畏,但為了建立一個一致、高效能的解決方案,您會想要投資適當的工具和技術。每個組織的需求不盡相同,但以下提供一些要了解的基本資料倉儲產品:

雲端和混合式雲端資料倉儲

整合的雲端式資料倉儲解決方案 (例如 Azure Synapse Analytics) 讓組織能夠以更快的速度和更低的成本擁有擴縮、計算及儲存的能力。

資料整合工具

ETL 管線可讓使用者建立、排程及協調其工作流程,讓來源資料能夠自動整合、清除及標準化。

物件儲存體

物件儲存體解決方案可以保存大量的結構化、半結構化和非結構化資料,使其非常適合用來在將來源資料載入到倉庫之前先暫存資料。

倉儲工具

分散式儲存體解決方案可在具備分欄儲存功能的關聯式資料表中保留大型資料集。這可以大幅降低成本、改善查詢效能,並加快深入解析的時間。

效能工具

若要大幅提升應用程式的效能,可以考慮結合 Apache Spark,這是一個開放原始碼平行處理架構,可支援記憶體內部處理。

資源和工作負載管理

資源管理員會配置運算能力給工作負載,讓您能夠據以載入、分析、管理及匯出資料。

資料模型化

資料模型化可將多個資料來源結合成單一語意模型,可提供結構化、簡化的資料檢視。

商業智慧工具

商務分析工具可協助以儀表板、報告及其他視覺效果工具的形式,為使用者提供深入解析。

安全性與隱私權功能

安全性與合規性功能 (例如資料加密、使用者驗證和存取監控) 可確保您的資料持續受到保護。

正在討論的兩個人,位於右側的人拿著膝上型電腦

Azure SQL 資料倉儲有什麼改變?

與 Azure SQL 資料倉儲相關聯的功能現在屬於 Azure Synapse Analytics,名為專用 SQL 集區。現有的 Azure SQL 資料倉儲客戶可以使用 Azure Synapse Analytics 中的專用 SQL 集區功能,繼續執行現有的 Azure SQL 資料倉儲工作負載,不需要進行任何變更。客戶也可以開始使用 Azure Synapse Analytics 管理現有的倉儲資料,以利用進階分析功能,例如無伺服器資料湖探索以及整合的 SQL 和 Apache Spark 引擎。

常見問題集

  • 資料倉儲是集中式存放庫,可儲存結構化資料 (資料庫資料表、Excel 工作表) 和半結構化資料 (XML 檔案、網頁),以用於報告、分析及其他形式的商業智慧用途。

  • 使用資料倉儲有許多優點。例如,資料倉儲可將多個資料來源合併為單一事實來源,讓組織用來針對企業與營運做出更明智的相關決策。

  • 資料倉儲會儲存結構化和半結構化資料,可用於來源資料採礦、資料視覺效果,以及其他特定 BI 使用情況。資料湖會儲存各種類型的原始資料,讓資料科學家用來做為各種專案的資料來源。

  • 資料倉儲通常是由多層組成:最底層會收集和儲存資料;中介層會分析資料;最上層會顯示資料以供使用者存取和剖析。

  • 設計和建置資料倉儲基礎結構時,必須考量資料的本質和要如何轉換。某些典型資料倉儲的一般建置元素包括資料來源、暫存區域、倉儲本身、資料超市、沙箱,以及各種整合工具。

  • 許多主要軟體公司現在都擁有各種資料倉儲產品。

  • 這些功能現在是 Azure Synapse Analytics 中稱為專用 SQL 集區的功能。現有的 Azure SQL 資料倉儲客戶可以繼續在這裡執行其工作負載,不需要進行任何變更。

免費帳戶

免費試用 Azure 雲端運算服務,最多 30 天。

隨用隨付

透過隨用隨付的定價方式開始使用。無需前期承諾用量,且隨時都能取消。