Hadoop

什麼是 Hadoop?

Apache Hadoop 是開放原始碼的軟體,可儲存和分析大量的結構化和非結構化資料:大小達 TB 以上,種類包羅萬象,包括電子郵件、感應器數據、伺服器記錄、Twitter 動態消息、GPS 訊號等,您能想像的幾乎應有盡有。Hadoop 可處理大量凌亂的資料集,深入核心找出解答;而這解釋了所有的傳言。

Hadoop 簡史

Hadoop 在 2005 年由 Mike Cafarella 和 Doug Cutting 建立 (以他小孩的玩具象命名),最初是針對 Web 相關的搜尋資料而設計。現在是 Apache 軟體基金會裡的一個開放原始碼、社群建置的專案,由各種組織和產業廣為採用。Microsoft 是投入此社群開發的積極參與者。

Microsoft
Microsoft 在去年就記錄超過 6,000 小時的工程時數,與開放原始碼社群合作展開各種 Hadoop 專案,提交程式碼並推動改革。此外,我們在 Hadoop 有提交者,Microsoft 員工 Chris Douglas 擔任 Apache 的 Hadoop 工作小組主席。

–David Campbell,Microsoft Fellow 和 CTO

專為巨量資料、日常伺服器而打造

其中一項 Hadoop 受歡迎的理由在於其經濟誘因。以前處理巨量資料集需要超級電腦和其他昂貴的特殊硬體。Hadoop 可在業界標準伺服器上實現可靠、可調整的分散式運算,讓您以較低的預算處理數 PB 以上的資料。Hadoop 的設計還可以從單一伺服器擴充到數以千計的機器,並偵測和處理應用程式層的失敗來提高可靠性。

Virginia Tech
維吉尼亞理工學院的研究員為了開發新的癌症療法和抗生素,利用 Hadoop 來篩選數 PB 的 DNA 資料。

洞察所有類型的資料

經過估計,現今組織處理的資料,有將近 80% 並不是以欄和列整齊組成的類型。反而是一大堆凌亂不堪的電子郵件、社交媒體動態消息、衛星影像、GPS 訊號、伺服器記錄及其他非結構化、非關聯式的資料。Hadoop 幾乎可以處理任何檔案或格式 (這是另外的重要優勢),所以組織可以提出他們以前認為不可能的問題。

Barcelona
Windows Azure、HDInsight 及 SQL Server 2012 可讓我們根據從社交媒體動態消息、GPS 訊號及政府系統中的資料收集而來的巨量資料,以收集、分析和產生近乎即時的 BI。

–Luis Sanz Marco,巴塞隆納市

了解巴塞隆納市如何在 Microsoft Azure 上使用 Hadoop

為什麼在雲端中使用 Hadoop?

您可以將 Hadoop 部署在傳統的本地資料中心。有些公司 (包括 Microsoft) 也以雲端式服務來提供 Hadoop。有個基本的問題是:為什麼要在雲端中使用 Hadoop? 以下說明為什麼越來越多組織會選擇此作法。

雲端節省時間與金錢

開放原始碼不等同免費。在內部部署 Hadoop 時,仍然需要伺服器和技術熟練的 Hadoop 專家來設定、調整和維護。雲端服務可讓您不必支付預付費用,就能快速啟動 Hadoop 叢集。

Virginia Tech
了解維吉尼亞理工學院如何利用 Microsoft 的雲端來建立自己的超級運算中心,而不是花費數百萬美元。

雲端很有彈性且可以快速擴充

在 Microsoft Azure 雲端中,您只在使用計算和儲存體時才需要針對使用量付費。啟動 Hadoop 叢集、分析資料,然後關閉,就會停止計費。

NHS
我們快速啟動 Azure HDInsight 叢集,在幾小時內處理完長達六年的資料,然後關閉叢集;在雲端中處理資料實在非常划算。

–Paul Henderson,英國國家健保局

雲端讓您變得更敏捷。

快速建立 Hadoop 叢集,並依需求新增節點。雲端可讓組織立即創造產值。

Chr Hansen
使用 Windows Azure 在雲端中這樣做就是這麼地快速。我們能夠在一週以內實作解決方案並開始處理資料。

–Morten Meldgaard, Chr.Hansen

了解 HDInsight:Azure 雲端中的 Hadoop

Microsoft Azure HDInsight 是 Azure 雲端中 100% 以 Apache Hadoop 為基礎的服務。除了具備 Hadoop 的所有優點,還能夠與 Excel、內部部署 Hadoop 叢集,以及 Microsoft 商務軟體與服務的生態系統整合在一起。

了解 HDInsight 的用途

觀看 HDInsight 簡介