R Server for HDInsight

对大数据进行预测分析、机器学习和统计建模

R Server for HDInsight

什么是 R Server for HDInsight?

通过将企业级 R 分析软件与 Apache Hadoop 和 Apache Spark 的强大功能相结合,Microsoft R Server for HDInsight 能为你提供所需的规模和性能。与开源 R 相比,R Server 中的多线程数学库和透明并行能够多处理达 1000 倍的数据并且处理速度也能加快至 50 倍,从而帮助你定型更准确的模型以获得更好的预测。由于 R Server 用于开源 R 语言,因此所有的 R 脚本都无需进行更改即可运行。

借助 R 的强大功能和对其的熟悉性进行工作

作为数据科学家的最佳选择,R 编程语言拥有一个全球社区,在全世界范围内拥有 200 多万的用户,并且开源分析包的总数量每年都在增长。R Server for HDInsight 能实现完全兼容在 Hadoop 和 Spark 上大规模运行的 R 语言。

R 的使用量一直在上涨。据报告从 2007 年到 2013 年,使用 R 的数据挖掘者数量从 20% 增加至了 70%。从 2008 年到 2013 年,将 R 用作其主要工具的数据挖掘者数量从不足 5% 增加到了 24%。
近几年发布的 CRAN 包数量显著增加。2005 年的数量极少。2012 年,数量增加到了 1000,2014 年增加到了 3000,而到 2016 年则超过了 8000。
R 分析和机器学习库

大型的可移植 R 并行分析和机器学习库

利用大型的并行分析和机器学习库,构建为可使用开源 R 语言,并可在常用数据平台之间移植,包括决策树和集合、回归模型、群集、数据准备、可视化和统计函数。

通过 R Server for HDInsight 使用 TB 级的数据

TB 级机器学习可处理超过 1,000 倍的数据

通过 Hadoop 和 Spark 基础之上的透明并行,R Server for HDInsight 能够处理 TB 级的数据,这是单独使用开源 R 语言所能处理量的 1,000 倍以上。针对任意量的数据训练逻辑回归模型、树和集合。唯一的限制是 Spark 群集的大小。

通过 R Server for HDInsight 提升性能

实现高达 50 倍速的性能

结合 Spark、多线程向量和矩阵数学库,以及 R Server for HDInsight,可体验比先前通过开源 R 所能实现的快达 50 倍速的性能。

运行开放源 R 函数

通过现有 R 函数运行分布式参数整理和模拟

在数百个节点上运行开源 R 函数,以便进行并行参数整理和模拟。探索和优化模型,实现更快、更轻松、更准确的预测。

通过 Spark SQL 访问 Spark 数据源

使用 Apache Spark SQL 作为 R Server 的数据源,在 Hadoop 和 Spark 中分析数据。将针对 Apache Hive 和 Apache Parquet 等源的 Spark SQL 查询结果加载到 Spark 数据框架,并使用任何 R Server 分布式计算算法直接进行分析。

选择开发工具

R Server on HDInsight 包括 R Studio Server 社区版,使你能轻松快速地开始使用。免费下载针对 Visual Studio 的 R 工具,以构建方便的本地开发环境。

启用企业级安全来保护 R Server for HDInsight

企业级安全和支持

依赖 Azure 提供的企业级安全和支持,包括版本包、修补、安全更新和持续群集监视。Microsoft 服务级别协议 (SLA) 保证 99.9% 的连接性,以帮助防止 R Server for HDInsight 群集发生灾难性事件。

快速设置,没有前期费用

轻松安装,快速获得结果

无需花时间安装或设置 R Server for HDInsight。Azure 替你完成操作。只需几分钟即可开始运行,并可定型统计和机器学习模型,而无需购买新硬件或花费其他前期成本。你仅需为使用的计算和存储付费。

Apache Hadoop® 和关联的开放源项目名称都是 Apache Software Foundation 的商标。

试用 R Server for HDInsight