Apache Spark for Azure HDInsight

適用於任務關鍵性部署的雲端 Apache Spark

什麼是 Apache Spark?

Apache Spark 是一種開放原始碼處理架構,可執行大規模資料分析應用程式。Spark 是利用記憶體內部計算引擎建立而成,能夠對巨量資料展現高度的查詢效能。其運用平行資料處理架構,可視需要將資料永久保存在記憶體內部和磁碟中。這讓 Spark 不僅能展現快 100 倍的速度,還提供一個共通執行模式,對 Apache Hadoop 分散式檔案系統 (HDFS) 中的資料進行各種工作,像是解壓縮、轉換、載入 (ETL)、批次、互動式查詢等等。Azure 使得 Apache Spark 部署起來輕鬆又便宜,無須購買硬體、也無須設定軟體,可提供完整的 Notebook 體驗來編寫吸引人的敘事作品,以及與合作夥伴商業智慧工具整合。

觀看 Apache Spark 概觀影片

Apache Spark 核心引擎提供處理架構,能夠結合不同類型的處理,包括 Spark SQL、Spark Streaming、MLlib (機器學習服務) 及 GraphX (圖表運算)。

一個執行模式、適用於多種工作

Apache Spark 運用一種共通執行模式,對 Azure Data Lake Store 中儲存的資料進行多種工作,像是 ETL、批次查詢、互動式查詢、即時串流、機器學習,以及圖表處理。這可讓您使用 Spark for HDInsight 近乎即時地解決巨量資料挑戰,像是詐騙偵測、點選串流分析、財務警示、來自物聯網 (IoT) 感應器與裝置的遙測、社交分析、永遠可用的 ETL 管線以及網路監視。

互動式案例適用的記憶體內處理

現今使用者期待問題能快速得到解答,而不需要等上幾分鐘、幾小時甚至幾天。Apache Spark 透過將資料永久保存在記憶體內部來達到最高快 100 倍的查詢速度,同時處理 Hadoop 中的大型資料集,而能協助實現這個理想。這讓 Spark for Azure HDInsight 非常適合用於讓耗用大量資源的巨量資料應用程式加快執行速度。

使用 IntelliJ IDEA 取得原生開發人員體驗及遠端偵錯

為了讓 Spark 的部署更加輕鬆,我們引入了與 IntelliJ IDEA 的深層整合,讓您能夠使用 Scala 與 Java 的原生撰寫支援來撰寫程式碼。您可以執行遠端偵錯,藉此在開發生命週期中取得彈性,並能夠在就緒時將應用程式提交到 Azure。Spark for HDInsight 叢集也預先裝載最熱門的 Python 程式庫 (Anaconda) 來進行機器學習。

利用 Power BI 工具以互動方式分析巨量資料

對於商務分析師,我們提供與 Power BI 的整合,並隨附其他商業智慧工具,像是 Tableau、SAP BusinessObjects Lumira 及 QlikView。這可讓您為任何大小的資料建置互動式視覺效果。除了傳統儀表板外,Power BI 還提供已經與 Spark 整合的串流連接器,讓您能夠將即時事件直接從 Spark Streaming 發佈到 Power BI。

現成 Notebook 體驗

其他 Spark 供應項目會要求您安裝自己的 Notebook 或利用專屬 Notebook,Spark for HDInsight 則不同,其與市場上最熱門的開放原始碼 Notebook Jupyter (iPython) 整合,可供您直接使用。這讓您可以結合程式碼、統計方程式及呈現資料脈絡的視覺效果來建立說明。為了讓您更輕易進行整合,我們與 Jupyter 社群合作來增強核心並讓 Spark 可透過 REST 端點執行,進而為資料科學家提供令人讚嘆的體驗。

與 R 伺服器整合 – 與 R 相容的最大型平行分析與機器學習程式庫

使用 Spark for Azure HDInsight,將其作為執行 R 伺服器的引擎,該伺服器具備最大型的平行分析及機器學習程式庫,可用來與開放原始碼 R 語言搭配使用。如此您便可善用熟悉的 R,以及在 Spark 上執行的 R 伺服器所帶來的企業級規模。Spark 搭配 R 伺服器中的多執行緒數學程式庫與透明的並行作業,最多可處理比開放原始碼 R 多 1000 倍的資料,且速度快 50 倍,有助於您定型更準確的模型,讓預測效果突破過往極限。

為商務持續性提供的最高可用性

為了讓 Spark 以最高規模執行,Microsoft 提供您領先業界的 99.9% 可用性 SLA,以確保您的商務持續性,並針對重大事件提供保護。我們與 Cloudera 共同主導 Livy 專案,建立經開放原始碼 Apache 授權的 REST Web 服務,以管理長時間執行的 Spark 內容及提交 Spark 作業。這項新功能的目的在於讓 Spark 成為更強固的後端,以執行互動式 Notebook,並允許其他應用程式在其互動式工作負載中利用 Spark。

隨資料成長,無須變動即可分析任何大小的任意資料

為了確保 Spark 以高規模執行,我們將 Spark 與 Azure Data Lake Store 整合。這項整合只在 Microsoft 提供,且讓 Spark 能夠儲存及處理縮放至任何大小的資料,即使資料成長,應用程式也不必進行變更。透過這項整合,您便可實作儲存體層級的角色型資料存取控制。

即時案例所需的即時處理

在網路無所不在的現代社會中,一切都以巨量資料能否即時抵達來定勝負。Spark Stream for HDInsight 非常適合極富挑戰性的即時案例。這帶來了各種不同商機,包括物聯網 (IoT) 案例、即時遠端管理與監視,以及從行動電話或連網汽車等裝置獲取深入剖析資訊。

架設簡易、收效快速

Spark for HDInsight 沒有耗時煩人的安裝或設定工作。Azure 為您代勞。一切在幾分鐘內即可啟動並執行,而且部署 Spark 無須購買新硬體,也無須支付任何需在事前一次付清的成本。

可容納巨量資料的彈性容量

Spark for HDInsight 運用 Azure 的威力,讓您更輕鬆地視需要建立任何大小的叢集來處理任何數量的資料。您只需要為所使用的計算及儲存空間收費。

免費試用 HDInsight