你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:设置适用于 Linux (Ubuntu) 的 Data Science Virtual Machine

使用 Ubuntu 20.04 Data Science Virtual Machine (DSVM) 和 Azure DSVM for PyTorch 启动并运行。

先决条件

需要 Azure 订阅才能创建 Ubuntu 20.04 Data Science Virtual Machine 或 Azure DSVM for PyTorch。 免费试用 Azure

注意

Azure 免费帐户不支持由 GPU 提供支持的虚拟机 SKU。

创建适用于 Linux 的数据科学虚拟机

以下步骤介绍如何创建 Ubuntu 20.04 Data Science Virtual Machine (DSVM) 或适用于 PyTorch 的 Azure DSVM 实例:

  1. 转到 Azure 门户。 如果尚未登录,则可能会收到登录 Azure 帐户的提示

  2. 查找虚拟机列表。 首先键入“数据科学虚拟机”,然后选择“Data Science Virtual Machine- Ubuntu 20.04”或“Azure DSVM for PyTorch”

  3. 在下一个窗口上选择“创建”

  4. 你应该被重定向到“创建虚拟机”边栏选项卡

  5. 输入以下信息,以配置向导的每个步骤:

    1. 基本信息:

      • 订阅:如果有多个订阅,请选择要在其上创建虚拟机并对其计费的订阅。 必须具有此订阅的资源创建权限。

      • 资源组:创建一个新组,或使用现有组

      • 虚拟机名称:输入虚拟机的名称。 此名称在 Azure 门户中使用。

      • 区域:选择最合适的数据中心。 为获得最快的网络访问速度,请选择包含大部分数据,或者最接近实际位置的数据中心。 有关详细信息,请访问 Azure 区域

      • 图像:请勿更改默认值。

      • 大小:此选项应自动填充为适合一般工作负荷的大小。 有关详细信息,请参阅 Azure 中的 Linux VM 大小

      • 身份验证类型:为了更快地设置,请选择“密码”。

        注意

        如果计划使用 JupyterHub,请确保选择“密码”,因为 JupyterHub 未配置为使用 SSH 公钥。

      • 用户名:输入管理员用户名。 你使用此用户名登录你的虚拟机。 此用户名不需要与 Azure 用户名匹配。 不要使用大写字母。

        重要

        如果在用户名中使用大写字母,JupyterHub 将无法正常工作,并且你将遇到 500 内部服务器错误。

      • 密码:输入将用于登录到虚拟机的密码。

    2. 选择“查看 + 创建”。

    3. 查看 + 创建

      • 验证输入的所有信息是否正确。
      • 选择创建

    预配过程大约需要 5 分钟。 Azure 门户会显示状态。

如何访问 Ubuntu Data Science Virtual Machine

可以通过以下四种方式之一访问 Ubuntu DSVM:

  • 终端会话 SSH
  • 图形会话 xrdp
  • X2Go 图形会话
  • Jupyter 笔记本的 JupyterHub 和 JupyterLab

SSH

如果使用 SSH 身份验证配置了 VM,可以使用在步骤 3 的“基本信息”部分中为文本 shell 接口创建的帐户凭据进行登录。 有关详细信息,请访问“详细了解如何连接到 Linux VM”。

xrdp

xrdp 是用于访问 Linux 图形会话的标准工具。 虽然发行版默认不包含此工具,但这些说明说明了如何安装它。

X2Go

注意

在测试中,X2Go 客户端的性能优于 X11 转发。 建议对图形桌面界面使用 X2Go 客户端。

Linux VM 已预配了 X2Go Server,并且已准备好接受客户端连接。 若要连接到 Linux VM 图形桌面,请在客户端上完成以下过程:

  1. X2Go 为客户端平台下载并安装 X2Go 客户端。

  2. 记下虚拟机的公共 IP 地址。 在 Azure 门户中,打开创建的虚拟机以查找此信息。

    显示虚拟机的公共 IP 地址的屏幕截图。

  3. 运行 X2Go 客户端。 如果“新建会话”窗口未自动弹出,请转到“会话”->“新建会话”。

  4. 在显示的配置窗口中,输入以下配置参数:

    • 会话选项卡
      • 主机:输入你之前记下的 VM 的 IP 地址。
      • 登录名:输入 Linux VM 上的用户名。
      • SSH 端口:将其保留为 22。 这是默认值。
      • 会话类型:将值更改为“XFCE”。 Linux VM 目前仅支持 XFCE 桌面。
    • 媒体选项卡:如果无需使用声音支持和客户端打印功能,可将其关闭。
    • 共享文件夹:使用此选项卡添加要装载到 VM 上的客户端计算机目录。

    显示新 X2Go 会话首选项的屏幕截图。

  5. 选择“确定”

  6. 选择 X2Go 窗口右窗格中的框以调出 VM 的登录屏幕。

  7. 输入 VM 的密码。

  8. 选择“确定”

  9. 可能需要授予 X2Go 权限才能绕过防火墙来完成连接过程。

  10. 现在应会看到 Ubuntu DSVM 的图形界面。

JupyterHub 和 JupyterLab

Ubuntu DSVM 运行 JupyterHub,一个多用户 Jupyter 服务器。 若要连接,请执行以下步骤:

  1. 记下 VM 的公共 IP 地址。 若要查找此值,请在 Azure 门户中搜索并选择 VM,如以下屏幕截图所示:

    突出显示 VM 的公共 IP 地址的屏幕截图。

  2. 在本地计算机上,打开 Web 浏览器,然后导航到 https://your-vm-ip:8000,将“your-vm-ip”替换为之前记下的 IP 地址。

  3. 浏览器可能会阻止你直接打开页面。 它可能会告诉你存在证书错误。 DSVM 会提供自签名证书的安全性。 大多数浏览器都允许你在此警告后选择浏览余下内容。 许多浏览器会继续在整个 Web 会话中提供有关证书的某种视觉警告。

    注意

    如果在浏览器中看到 ERR_EMPTY_RESPONSE 错误消息,请确保通过显式使用 HTTPS 协议来访问计算机。 HTTP 或仅 Web 地址不适用于此步骤。 如果在地址行中键入不带 https:// 的 web 地址,则大多数浏览器将默认为 http,并会显示错误。

  4. 输入用于创建 VM 的用户名和密码,然后登录,如以下屏幕截图所示

    JupyterHub 登录屏幕的屏幕截图。

    注意

    如果在此阶段收到 500 错误,则很可能是因为在用户名中使用了大写字母。 这是 Jupyter 中心与其使用的 PAMAuthenticator 之间的一种已知交互。 如果收到“无法访问此页面”错误,很可能需要调整你的网络安全组权限。 在 Azure 门户中,查找资源组中的网络安全组资源。 若要从公共 Internet 访问 JupyterHub,必须打开端口 8000。 (以下图像显示此 VM 已配置为实时访问,强烈建议使用此配置。有关详细信息,请访问使用实时访问保护管理端口。)

    网络安全组配置值的截图。

  5. 浏览可用的示例笔记本。

也会提供 JupyterLab(下一代的 Jupyter 笔记本和 JupyterHub)。 若要访问它,请登录到 JupyterHub,然后浏览到 URL https://your-vm-ip:8000/user/your-username/lab,将“your-username”替换为在配置 VM 时选择的用户名。 同样,潜在的证书错误最初可能会阻止你访问站点。

若要将 JupyterLab 设置为默认笔记本服务器,请将此行添加到 /etc/jupyterhub/jupyterhub_config.py

c.Spawner.default_url = '/lab'

后续步骤

  • 适用于 Linux 的 Data Science Virtual Machine 上的数据科学演练演示了如何使用此处预配的 Linux DSVM 执行多种常见的数据科学任务。
  • 请尝试本文介绍的工具以探索 DSVM 上的各种数据科学工具。 还可以在虚拟机上的 shell 中运行 dsvm-more-info,获取有关 VM 上安装的工具的基本介绍和信息指南。
  • 了解如何使用 Team Data Science Process 系统地生成分析解决方案。
  • 访问 Azure AI 库,获取使用 Azure AI 服务的机器学习和数据分析示例。
  • 请访问此虚拟机的相应参考文档