你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Spark 中的库管理

重要

此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 Azure HDInsight on AKS 预览版信息。 如有疑问或功能建议,请在 AskHDInsight 上提交请求并附上详细信息,并在 Azure HDInsight Community 上关注我们以了解更多更新。

库管理的目的是使开放源代码或自定义代码可用于群集上运行的笔记本和作业。 可以从 PyPI 存储库上传 Python 库。 本文重点介绍如何在群集 UI 中管理库。 Azure HDInsight on AKS 已在群集中包含许多常见库。 要查看 HDI on AKS 群集中包含哪些库,请查看库管理页面。

安装库

可通过下面两种模式安装库:

  • 群集安装的库
  • 笔记本范围的库

群集安装的库

群集上运行的所有笔记本都可以使用群集库。 可以直接从公共存储库(如 PyPi)安装群集库。 从 Maven 存储库上传和从云存储上传自定义库都在路线图中有所提及。

屏幕截图显示了“群集已安装的库”管理器页面。

笔记本范围的库

笔记本范围的库可用于 Python 和 Scala,你可通过它们安装库并创建笔记本会话范围的环境。 这些库不会影响在同一群集上运行的其他笔记本。 笔记本范围的库不会保留,且必须对每个会话重新安装它们。

注意

需要对特定笔记本使用自定义环境时,请使用笔记本范围的库。

库安装模式

PyPI:通过在安装 UI 中提及库名称和版本,从开源 PyPI 存储库中提取库。

查看已安装的库

  1. 从概述页面导航到库管理器。

    屏幕截图显示了库管理器页面。

  2. 在 Spark 群集管理器中,单击“库管理器”。

  3. 可以从此处查看已安装的库的列表。

    屏幕截图显示了如何查看已安装的库。

添加库小组件

PyPI

  1. 在“PyPI”选项卡中,输入包名称和包版本。

  2. 单击“安装” 。

    屏幕截图显示了如何安装 PyPI。

卸载库

如果决定不再使用库,可通过库管理页中的“卸载”按钮轻松删除库包。

  1. 选择并单击库名称

    屏幕截图显示了如何选择库。

  2. 单击小组件中的“卸载”

    屏幕截图显示了如何卸载库。

    注意

    • 从 Jupyter Notebook 安装的包只能从 Jupyter Notebook 中删除。
    • 从库管理器安装的包只能从库管理器中卸载。
    • 若要升级库/包,请卸载库的当前版本,并安装所需的库版本。
    • 从 Jupyter 笔记本安装库尤其适用于会话。 它不是持久性的。
    • 由于包的大小和复杂性,安装繁重的包可能需要一些时间。