Apache Spark for Azure HDInsight

Apache Spark 在云中用于任务关键型部署

什么是 Apache Spark?

Apache Spark 是一个开放源代码处理框架,用于运行大型数据分析应用程序。Spark 基于内存中计算引擎,可对大数据执行高性能查询。它利用并行数据处理框架,可将数据保留在内存中,或在需要时保留到磁盘中。这可让 Spark 将针对 Hadoop 分布式文件系统 (HDFS) 中的数据的各种任务(如,提取、转换、加载 (ETL)、批处理和交互式查询等)的速度提高 100 倍,并提供这些任务的通用执行模型。Azure 使 Apache Spark 的部署变得非常简单且经济高效,无需购买任何硬件,也无需配置任何软件,还可以使用完整的笔记本体验来创造极具吸引力的叙述,并与第三方商业智能工具集成。

观看概述视频

Apache Spark 核心引擎提供了一个处理框架,可结合不同类型的处理,包括 Spark SQL、Spark Streaming、MLlib(机器学习)和 GraphX(图形计算)。

适用于多个任务的一个执行模型

Apache Spark 利用通用执行模型对存储在 Azure 数据湖存储中的数据执行多种任务,如 ETL、批处理查询、交互式查询、实时流式处理、机器学习和图形处理。这可让你使用 Spark for Azure HDInsight 近乎实时地解决大数据挑战,如欺诈检测、点击流分析、财务分析、从连接的传感器和设备(物联网,IoT)遥测、社交分析、“始终可用”ETL 管道和网络监视。

交互式方案的内存中处理

当今的用户期望能够快速解答他们的问题,而不是等待数分钟、数小时,甚至数天。Apache Spark 将数据保留在内存中,在处理 Hadoop 中的大型数据集时可将查询速度提高多达 100 倍,从而实现了这一期望。这使 Spark for Azure HDInsight 非常适合于为密集型大数据应用程序加速。

使用 IntelliJ IDEA 获得本机开发人员体验以及执行远程调试

为了实现更简单的 Spark 部署,我们进一步集成了 IntelliJ IDEA,让开发人员可与 Scala 和 Java 的本机创作支持人员一起编码。你还可以执行远程调试,远程调试可使开发生命周期变得灵活,并能够在准备就绪后将应用程序提交到 Azure。Spark for HDInsight 群集还将预加载最常用的 Python 库·(Anaconda) 以便于进行机器学习。

利用 BI 工具交互式分析大数据

对于业务分析师,我们提供与 Power BI 以及其他商业智能工具(如 Tableau、SAP Lumira 和 QlikView)的集成。这可让你对任何规模的数据构建交互式可视化。除传统仪表板外,Power BI 还提供集成了 Spark 的流式处理连接器,因此你可以直接将 Spark 流式处理中的实时事件发布到 Power BI。

开箱即用笔记本体验

与要求安装自己的笔记本或利用专有笔记的其他 Spark 产品/服务不同,Spark for HDInsight 开箱即集成了市场上最常见的开放源代码笔记本 Jupyter (iPython)。这可让你创建结合代码、统计公式和可视化的叙述,从而更生动地展示数据。为了简化客户的集成,我们已与 Jupyter 社区紧密合作,以改进内核,从而实现通过 REST 终结点执行 Spark,这为数据科学家带来了超凡的体验。

与 R Server 集成 – 最大的兼容 R 的并行分析和机器学习库

可以利用 Spark for Azure HDInsight 作为引擎来运行 R Server,它拥有最大的并行分析和机器学习库,其被构建来与开放源 R 语言协作。这让你能够利用对 R 的熟悉度,且拥有来自 Spark 上运行的 R Server 的企业规模。R Server 中的多线程数学库和透明并行结合 Spark 意味着比开放源 R 能够多处理达 1000 倍的数据且其处理速度也能快达 50 倍,从而帮助你定型更准确的模型以获得比之前更好的预测。

最高的可用性保证,确保业务连续性

为了运行规模最大的 Spark,Microsoft 提供了高达 99.9% 的业内最高可用性 SLA 保证,以确保业务连续性以及预防灾难性事件。我们通过共同领导 Cloudera 的 Livy 项目来创建开放源代码 Apache 许可的 REST Web 服务,以管理长时间运行的 Spark 环境并提交 Spark 作业来实现此目的。此新功能旨在使 Spark 成为用于运行交互式笔记本的更可靠后端,并允许其他应用程序利用 Spark 来处理其交互式工作负荷。

分析任何规模的数据,即使数据增长,也无需进行更改

为了确保大规模运行 Spark,我们将 Spark 与 Azure 数据湖存储集成在了一起。仅 Microsoft 才提供这种集成,这种集成可让 Spark 存储和处理可扩展到任何规模的数据,即使数据增长,也无需对应用程序进行更改。通过这种集成,你还可以在存储级别实现基于角色的数据访问控制。

实时方案的实时处理

大数据是当今互连世界的直接体现。Spark Stream for HDInsight 是应对实时方案挑战的理想之选。它可实现各种机遇,包括 IoT 方案(如实时远程管理和监视,或是从移动电话或连接的汽车等设备进行深入了解)。

轻松安装,快速获得结果

使用 Spark for HDInsight,无需花时间进行安装或设置。Azure 替你完成操作。只需几分钟即可启动并运行,并且无需购买新硬件和投入其他前期成本即可部署 Spark。

针对大数据的灵活容量

借助 Azure 云的强大功能,Spark for HDInsight 可更轻松地创建任意大小的群集来按需处理任意数量的数据。我们只对你实际使用的计算和存储收取费用。

免费试用 HDInsight