Apache Spark for Azure HDInsight

Apache Spark 在云中用于任务关键型部署

什么是 Apache Spark?

Apache Spark 是一个开源处理框架,可运行大型数据分析应用程序。Spark 基于内存中计算引擎,可对大数据执行高性能查询。它利用并行数据处理框架,可按需将数据保留在内存或磁盘中。对于针对 Apache Hadoop 分布式文件系统 (HDFS) 中的数据进行的各种任务,如提取、转换、加载 (ETL)、批处理和交互式查询等,这让 Spark 提供的速度提高了 100 倍,还可提供通用执行模型。Azure 使 Apache Spark 的部署变得非常简单且经济高效,无需购买任何硬件,也无需配置任何软件,还可以使用完整的笔记本体验来创造极具吸引力的叙述,并与第三方商业智能工具集成。

观看 Apache Spark 概述视频

Apache Spark 核心引擎提供了一个处理框架,可结合不同类型的处理,包括 Spark SQL、Spark Streaming、MLlib(机器学习)和 GraphX(图形计算)。

一个执行模型,用于多个任务

Apache Spark 利用通用执行模型对存储在 Azure Data Lake Store 中的数据执行多种任务,如 ETL、批量查询、交互式查询、实时流式处理、机器学习和图形处理。这让你能使用 Spark for Azure HDInsight 近乎实时地解决大数据挑战,如欺诈检测、点击流分析、财务警报、来自物联网 (IoT) 传感器和设备的遥测、社交分析、“始终可用”ETL 管道和网络监视。

交互式方案的内存中处理

当今的用户期望能够快速得到答案,不希望等待数分钟、数小时,甚至数天。在 Hadoop 中处理大型数据集时,Apache Spark 将数据保留在内存中,将查询速度提高多达 100 倍,从而实现这一期望。这使 Spark for Azure HDInsight 非常适合于为密集型大数据应用程序加速。

使用 IntelliJ IDEA 获得本机开发人员体验并进行远程调试

为简化 Spark 部署,我们进一步集成了 IntelliJ IDEA,让你可与 Scala 和 Java 的本机创作支持人员一起编码。你还可以执行远程调试,远程调试可使开发生命周期变得灵活,并能够在准备就绪后将应用程序提交到 Azure。Spark for HDInsight 群集还将预加载最常用的 Python 库·(Anaconda) 以便进行机器学习。

利用 BI 工具交互式分析大数据

对于业务分析师,我们提供与 Power BI 以及其他商业智能工具(如 Tableau、SAP BusinessObjects Lumira 和 QlikView)的集成。这可让你对任何规模的数据构建交互式可视化。除传统仪表板外,Power BI 还提供集成了 Spark 的流式处理连接器,让你能直接将 Spark 流式处理中的实时事件发布到 Power BI。

开箱即用笔记本体验

与要求安装自己的笔记本或利用专有笔记的其他 Spark 产品/服务不同,Spark for HDInsight 开箱即集成了市场上最常见的开源笔记本 Jupyter (iPython)。这可让你创建结合代码、统计公式和可视化的叙述,从而更生动地展示数据。为简化集成,我们已与 Jupyter 社区合作,以改进内核,实现通过 REST 终结点的 Spark 执行,这为数据科学家带来了超凡的体验。

与 R Server 集成 – 兼容 R 的大型并行分析和机器学习库

利用 Spark for Azure HDInsight 作为引擎来运行 R Server,它拥有大型并行分析和机器学习库,该库旨在与开源 R 语言协作。这让你能够利用对 R 的熟知,以及来自 Spark 上运行的 R Server 的企业规模。将 R Server 中的多线程数学库和透明并行与结合 Spark 后,相比开源 R,其处理的数据最多可增加 1000 倍且处理速度最高可提高 50 倍,有助于定型更准确的模型,获得比之前更好的预测。

最高可用性以确保业务连续性

为以最大规模运行 Spark,Microsoft 提供了高达 99.9% 的业内最高可用性 SLA,确保业务连续性,预防灾难性事件。我们与 Cloudera 共同领导 Livy 项目,创建 Apache 许可的开源 REST Web 服务,管理长时间运行的 Spark 环境并提交 Spark 作业。此新功能旨在使 Spark 成为运行交互式笔记本的更可靠后端,并允许其他应用程序利用 Spark 来处理其交互式工作负荷。

分析任何规模的数据,即使数据增长,也无需进行更改

为确保大规模运行 Spark,我们集成了 Spark 与 Azure Data Lake Store。仅 Microsoft 才提供这种集成,这种集成可让 Spark 存储和处理可扩展到任何规模的数据,即使数据增长,也无需对应用程序进行更改。通过这种集成,还可在存储级别实现基于角色的数据访问控制。

实时方案的实时处理

大数据是当今互连世界的直接体现。Spark Stream for HDInsight 是应对实时方案挑战的理想之选。它可带来多种机遇,包括物联网 (IoT) 方案,实时远程管理和监视,以及从移动电话或连接的汽车等设备获得见解。

轻松安装,快速获得结果

使用 Spark for HDInsight,无需花时间进行安装或设置。Azure 替你完成操作。只需几分钟即可启动并运行,并且无需购买新硬件或投入其他前期成本即可部署 Spark。

针对大数据的灵活容量

Spark for HDInsight 借助了 Azure 的力量,让你能轻松创建任意大小的群集,按需处理任意数量的数据。你仅需为使用的计算和存储付费。

免费试用 HDInsight