Hadoop

什么是 Hadoop?

Apache Hadoop 是一个开放源软件,用于存储和分析海量的结构化和非结构化数据,其处理能力达到数 TB 甚至更多,包括你能够想到的几乎所有类型数据,从电子邮件到传感器读数,再到服务器日志和 Twitter 源以及 GPS 信号。Hadoop 能够处理混杂的大数据集,为你挖掘新的见解并寻找问题答案,帮助解释让你困惑的所有相关问题。

Hadoop 简史

Hadoop 在 2005 年由 Mike Cafarella 和 Doug Cutting 创建,名称来源于 Doug Cutting 儿子的玩具大象,其初衷是用于与 Web 相关的搜索数据。它目前是 Apache 软件基金会的由社区构建的开放源项目,在所有类型的组织和行业中有采用。Microsoft 积极投入这项社区开发工作。

Microsoft
去年,Microsoft 记录了 6,000 多个工程小时,提交代码,推动创新,在一系列 Hadoop 项目中与开源社区合作。此外,我们在 Hadoop 中有提交者,并且 Microsoft 的员工 Chris Douglas 担任了 Apache Hadoop 工作小组的组长。

–David Campbell,Microsoft 员工,首席技术官

针对大数据和日常服务器而构建

Hadoop 受到广泛欢迎的原因之一是它的经济性。以前处理大数据集需要超级计算机和其他昂贵的专门硬件。Hadoop 实现了在行业标准的服务器上进行可靠、可缩放的分布式计算,让你能够以较低的预算跟踪数 PB 以上的数据。Hadoop 还能够从单台服务器扩展到数千台计算机,检测和处理应用程序层上的故障,从而提高可靠性。

Virginia Tech
Virginia Tech 的研究人员使用 Hadoop 对数千万亿字节的 DNA 数据进行筛选,寻找新的癌症治疗方法和抗生素。

从所有类型的数据获得见解

据估计,当今组织处理的多达 80% 的数据没有采用行和列的规范格式。而是杂乱混合着电子邮件、社交媒体源、卫星图片、GPS 信号、服务器日志以及其他非结构化、非关系型的文件。Hadoop 的另外一大优点是能够处理几乎任何文件或格式,因而组织能够提出他们从未想过的问题。

Barcelona
通过使用 Microsoft Azure、HDInsight 和 SQL Server 2012,以及从社交媒体源、GPS 信号和政府系统中收集来的大数据,我们可以收集、分析并生成近乎实时的商业智能

–Luis Sanz Marco,巴塞罗那市

观看巴塞罗那市如何使用 Microsoft Azure 上的 Hadoop

为什么在云中使用 Hadoop?

你可以在传统的现场数据中心部署 Hadoop。一些公司(包括 Microsoft )也将 Hadoop 作为一项基于云的服务而提供。有个明显的问题是:为什么要在云中使用 Hadoop? 下面就是越来越多的组织选择这种服务的原因。

云能够节省时间和资金

开放源并不意味着免费。在本地部署 Hadoop 仍然需要服务器和有经验的 Hadoop 专家对其进行设置、调试和维护。云服务让你能够在几分钟之内快速创建 Hadoop 群集,而无需前期投资成本。

Virginia Tech
了解 Virginia Tech 如何使用 Microsoft 云(而不是通过花费数百万美元)来建立其自己的超级计算中心。

云具有灵活和快速扩展的优点

在 Microsoft Azure 云中,你只需为自己使用的计算和存储空间付费。快速创建 Hadoop 群集,分析你的数据,然后关闭服务以停止计费。

NHS
我们快速运行了 Azure HDInsight 群集并在几小时内就处理了积累六年的数据,然后我们就可以关闭集群,因此在云中处理数据非常实惠。

–Paul Henderson,(英国)国民医疗服务体系

云具有快捷灵活的优势

在几分钟之内创建 Hadoop 群集,并根据需要添加节点。云为组织提供即时价值。

Chr Hansen
使用 Azure 在云中可以更加快速地实现目标。我们能在一周内实施解决方案并开始处理数据。

–Morten Meldgaard,Chr.Hansen

了解 HDInsight:Azure 云中的 Hadoop

Microsoft Azure HDInsight 是 Azure 云中 100% 基于 Apache Hadoop 的服务。它具备 Hadoop 的所有优点,并且能够与 Excel、本地 Hadoop 群集、Microsoft 商业软件和服务生态系统相集成。

观看 HDInsight 简介