使用最佳化的 Apache Spark 進行巨量資料分析和 AI
透過 Azure Databricks 來發掘所有資料的見解並建置人工智慧 (AI) 解決方案;短短幾分鐘內即可設定好 Apache Spark™ 環境;可自動調整;並可在互動式工作區內協作共用專案。Azure Databricks 支援 Python、Scala、R、JAVA 和 SQL,以及 TensorFlow、PyTorch 和 scikit-learn 等資料科學架構與程式庫。
Apache Spark™ 是 Apache Software Foundation 的商標。
可靠的資料工程
適用於批次及串流工作負載的大規模資料處理。
分析所有的資料
啟用分析以取得最完整且最新的資料。
共同作業資料科學
簡化並加速大型資料集上的資料科學。
以開放原始碼為根基
快速、最佳化的 Apache Spark 環境。
快速使用最佳化的 Apache Spark 環境
Azure Databricks 提供最新版本的 Apache Spark,可讓您與開放原始碼程式庫順暢整合。Azure 的規模與供應區域遍及全球,可讓您在完全受控的 Apache Spark 環境中啟動叢集並快速建置。叢集經過安裝、設定和微調,以確保可靠性和效能,而不需予以監視。利用自動調整和自動終止來提高擁有權總成本 (TCO)。
使用共用工作區和通用語言來提高生產力
不論您是資料科學家、資料工程師或商務分析師,都能在開放且整合的平台上有效率地共同作業,以執行所有類型的分析工作負載。使用您所選的語言來建置,包括 Python、Scala、R 和 SQL。使用 GitHub 和 Azure DevOps 輕鬆控制筆記本的版本。
運用巨量資料提升機器學習
使用整合式 Azure Machine Learning 存取進階自動化機器學習功能,以快速找出合適的演算法和超參數。簡化從雲端部署到邊緣之機器學習模型的管理、監視與更新。Azure Machine Learning 也可以為您的實驗、機器學習管線和模型提供中央登錄。
獲得高效能的新式資料倉儲
透過分析儀表板與操作報表,結合任何規模的資料並取得見解。使用 Azure Data Factory 自動執行資料移動,然後將資料載入 Azure Data Lake Storage,使用 Azure Databricks 進行轉換與清理,並使用 Azure Synapse Analytics 對資料進行分析。在雲端中將資料倉儲現代化,獲得無與倫比的效能與可擴縮性。
主要服務功能
-
最佳化的 Spark 引擎
自動調整基礎結構的簡單資料處理,由高度最佳化的 Apache Spark™ 提供支援,可將效能提高多達 50 倍。
-
機器學習執行階段
按一下即可存取預先設定的機器學習環境,以使用最先進且熱門的架構 (例如 PyTorch、TensorFlow 和 scikit-learn) 來增強機器學習。
-
MLflow
從中央存放庫追蹤與共用實驗、重現執行,以及共同管理模型。
-
語言選擇
不論是使用無伺服器或佈建的計算資源,都能利用偏好的語言,包括 Python、Scala、R、Spark SQL 和 .NET。
-
共同作業筆記本
快速存取並探索資料、尋找與共用新的見解,以及使用自選語言及工具共同建置模型。
-
Delta Lake
透過專為完整資料生命週期設計的開放原始碼交易式儲存層,為您現有的資料湖帶來資料可靠性與可擴縮性。
-
與 Azure 服務原生整合
透過與 Azure 服務 (例如 Azure Data Factory、Azure Data Lake Storage、Azure Machine Learning 與 Power BI) 的深入整合,完成端對端分析與機器學習解決方案。
-
互動式工作區
讓資料科學家、資料工程師與商務分析師之間的共同作業順暢進行。
-
企業級安全性
簡易原生安全性可保護您的資料安全,在數以千計的使用者與資料集中執行並建立符合規範、非公開及隔離的分析工作區。
-
已準備好用於生產環境
透過適用於 CI/CD 和監視的生態系統整合,在信任的資料平台上放心地執行與調整您最重要的任務關鍵性資料工作負載。
透過解決方案架構範例深入了解
使用 Azure Databricks 的資料科學與機器學習
輕鬆取得即時串流資料的見解。持續擷取任何 IoT 裝置的資料,或網站點選流的記錄,並即時處理。
使用 Azure Databricks 的新式分析架構
使用頂級的機器學習工具將資料轉換成可操作的見解。此架構可讓您合併任何規模的資料,以及大規模建置和部署自訂機器學習模型。
透過 Azure Databricks 利用擷取、ETL 及串流處理管線
使用 Azure Databricks、MLflow 和 Azure Machine Learning 來加速與管理端對端機器學習生命週期,以建置、共用、部署及管理機器學習應用程式。
內建全方位安全性與合規性
-
Microsoft 每年斥資超過 USD10 億研究與開發網路安全性。
-
我們聘請了超過 3,500 名資訊安全專家專門保護資料安全性和隱私權。
-
Azure 獲得的認證遠多於其他任何雲端提供者。檢視完整清單。
深入了解 Azure Databricks 產品與服務
Azure Data Factory
大規模簡化 ETL 的混合式資料整合服務。
Azure Data Lake Storage Gen 2
建基於 Azure Blob 儲存體,能夠大幅調整且安全的資料湖功能。
Azure Machine Learning
更快建置及部署模型的企業級機器學習服務。
Power BI
將分析和互動式報告新增至應用程式。
開始使用 Azure 免費帳戶
2
在點數用盡後,請轉為隨用隨付以繼續利用相同的免費服務進行建置。只有當您使用超過每月免費數量時,才需支付費用。
3
社群與 Azure 支援
在 MSDN 論壇與 Stack Overflow 中提問並取得 Microsoft 工程師和 Azure 社群專家的支援,或連絡 Azure 支援。
熱門實驗室與範本
探索自學型實驗室,以及 Microsoft 與社群製作的熱門常用設定快速入門範本。
探索 Azure Databricks 資源
Azure Databricks 的常見問題集
-
Azure Databricks SLA 保證正常運作時間達 99.95%。
-
一個 Databricks 單位 (DBU) 即為一單位的每小時處理功能,依每秒使用量計費。
-
資料工程工作負載是自動啟動與終止其執行所在叢集的作業。例如,工作負載可能會由 Azure Databricks 工作排程器觸發,然後單獨為作業啟動 Apache Spark 叢集,並在作業完成後自動終止叢集。
資料分析工作負載不會自動進行。例如,Azure Databricks 筆記本中的命令會在 Apache Spark 叢集上執行,直到手動將其終止為止。多位使用者可以共用叢集以共同分析。