略過導覽

Hadoop

什麼是 Hadoop?

Apache Hadoop 是開放原始碼的軟體,可儲存和分析大量的結構化和非結構化資料:大小達 TB 以上,種類包羅萬象,包括電子郵件、感應器數據、伺服器記錄、Twitter 動態消息、GPS 訊號等,您能想像的幾乎應有盡有。Hadoop 可處理大量凌亂的資料集,深入核心找出解答;而這解釋了所有的傳言。

Hadoop 簡史

Hadoop 在 2005 年由 Mike Cafarella 和 Doug Cutting 建立 (以他小孩的玩具象命名),最初是針對 Web 相關的搜尋資料而設計。現在是 Apache 軟體基金會裡的一個開放原始碼、社群建置的專案,由各種組織和產業廣為採用。Microsoft 是投入此社群開發的積極參與者。

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell,Microsoft Fellow 和 CTO

專為巨量資料、日常伺服器而打造

其中一項 Hadoop 受歡迎的理由在於其經濟誘因。以前處理巨量資料集需要超級電腦和其他昂貴的特殊硬體。Hadoop 可在業界標準伺服器上實現可靠、可調整的分散式運算,讓您以較低的預算處理數 PB 以上的資料。Hadoop 的設計還可以從單一伺服器擴充到數以千計的機器,並偵測和處理應用程式層的失敗來提高可靠性。

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

洞察所有類型的資料

經過估計,現今組織處理的資料,有將近 80% 並不是以欄和列整齊組成的類型。反而是一大堆凌亂不堪的電子郵件、社交媒體動態消息、衛星影像、GPS 訊號、伺服器記錄及其他非結構化、非關聯式的資料。Hadoop 幾乎可以處理任何檔案或格式 (這是另外的重要優勢),所以組織可以提出他們以前認為不可能的問題。

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco,巴塞隆納市

了解巴塞隆納市如何在 Microsoft Azure 上使用 Hadoop

為什麼在雲端中使用 Hadoop?

您可以將 Hadoop 部署在傳統的本地資料中心。有些公司 (包括 Microsoft) 也以雲端式服務來提供 Hadoop。有個基本的問題是:為什麼要在雲端中使用 Hadoop?以下說明為什麼越來越多組織會選擇此作法。

雲端節省時間與金錢

開放原始碼不等同免費。在內部部署 Hadoop 時,仍然需要伺服器和技術熟練的 Hadoop 專家來設定、調整和維護。雲端服務可讓您不必支付預付費用,就能快速啟動 Hadoop 叢集。

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

雲端很有彈性且可以快速擴充

在 Microsoft Azure 雲端中,您只在使用計算和儲存體時才需要針對使用量付費。啟動 Hadoop 叢集、分析資料,然後關閉,就會停止計費。

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson,英國國家健保局

雲端讓您變得更敏捷。

快速建立 Hadoop 叢集,並依需求新增節點。雲端可讓組織立即創造產值。

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr.Hansen

了解 HDInsight:Azure 雲端中的 Hadoop

Microsoft Azure HDInsight 是 Azure 雲端中 100% 以 Apache Hadoop 為基礎的服務。除了具備 Hadoop 的所有優點,還能夠與 Excel、內部部署 Hadoop 叢集,以及 Microsoft 商務軟體與服務的生態系統整合在一起。

了解 HDInsight 的用途

觀看 HDInsight 簡介