Руководство. Запись в разностную таблицу, хранящуюся в Azure Data Lake Storage 2-го поколения (общедоступная предварительная версия)

В этом руководстве показано, как создать задание Stream Analytics для записи в таблицу Delta в Azure Data Lake Storage 2-го поколения. В этом руководстве описано следующее:

  • Развертывание генератора событий, отправляющего примеры данных в концентратор событий
  • Создание задания Stream Analytics
  • Настройка Azure Data Lake Storage 2-го поколения с помощью разностной таблицы
  • Выполнение задания Stream Analytics

Необходимые компоненты

Прежде чем начать, выполните следующие действия.

Создание задания Stream Analytics

  1. Войдите на портал Azure.

  2. В меню слева выберите Все службы.

  3. Переместите указатель мыши на задания Stream Analytics в разделе "Аналитика" и выберите + (плюс).

    Screenshot that shows the selection of Stream Analytics jobs in the All services page.

  4. Щелкните Создать ресурс в верхнем левом углу окна портала Azure.

  5. В списке результатов выберите Аналитика>Задание Stream Analytics.

  6. На странице Новое задание New Stream Analytics сделайте следующее:

    1. Подписка — выберите подписку Azure.
    2. Для группы ресурсов выберите тот же ресурс, который использовался ранее в развертывании TollApp.
    3. В качестве имени введите имя задания. Имя задания Stream Analytics может содержать только буквенно-цифровые символы, дефисы и знаки подчеркивания. Длина должна составлять от 3 до 63 символов.
    4. В качестве среды размещения выберите значение Облако.
    5. В качестве единиц потоковой передачи выберите 1. Единица потоковой передачи предоставляет вычислительные ресурсы, которые необходимы для выполнения задания. Чтобы узнать о масштабировании единиц потоковой передачи, ознакомьтесь со статьей Обзор и настройка единиц потоковой передачи.

    Screenshot that shows the Create Stream Analytics job page.

  7. В нижней части страницы выберите Review + create (Проверить и создать).

  8. На странице Просмотр и создание проверьте параметры и выберите Создать, чтобы создать страницу Stream Analytics.

  9. На странице развертывания выберите Перейти к ресурсу, чтобы перейти на страницу Задание Stream Analytics.

Настройка входных данных для задания

Следующим шагом является определение источника входных данных для задания для чтения данных с помощью концентратора событий, созданного в развертывании TollApp.

  1. Найдите задание Stream Analytics, созданное в предыдущем разделе.

  2. В разделе Топология задания задания Stream Analytics выберите Входные данные.

  3. Выберите +Добавить входные данные и концентратор событий.

    Screenshot that shows the Inputs page.

  4. Заполните входную форму следующими значениями, созданными с помощью шаблона Azure TollApp:

    1. Для псевдонима входных данных введите запись.

    2. Выберите "Выбрать концентратор событий" из подписок.

    3. Подписка — выберите подписку Azure.

    4. Для пространства имен Концентратора событий выберите пространство имен концентратора событий, созданное в предыдущем разделе.

    5. Используйте значения по умолчанию для оставшихся параметров и нажмите кнопку Сохранить.

      Screenshot that shows the selection of the input event hub.

Настройка выходных данных для задания

Следующим шагом является определение приемника выходных данных, в который задание может записывать данные. В этом руководстве вы записываете выходные данные в таблицу Delta в Azure Data Lake Storage 2-го поколения.

  1. В разделе Топология задания задания Stream Analytics выберите вариант Выходные данные.

  2. Выберите +Добавить выходное>хранилище BLOB-объектов/ADLS 2-го поколения.

    Screenshot that shows the Outputs page.

  3. Заполните форму следующими сведениями и нажмите кнопку Сохранить:

    1. Для псевдонима вывода введите DeltaOutput.

    2. Выберите хранилище BLOB-объектов или ADLS 2-го поколения из подписок.

    3. Подписка — выберите подписку Azure.

    4. Для учетной записи служба хранилища выберите созданную учетную запись ADLS 2-го поколения (которая начинается с платных приложений).

    5. Для контейнера выберите "Создать" и укажите уникальное имя контейнера.

    6. Для формата сериализации событий выберите Delta Lake (предварительная версия). Хотя delta lake указан в качестве одного из вариантов здесь, это не формат данных. Delta Lake использует версии файлов Parquet для хранения данных. Дополнительные сведения о разностном озере.

    7. Для пути к таблице Delta введите папку руководства или разностную таблицу.

    8. Используйте значения по умолчанию для оставшихся параметров и нажмите кнопку Сохранить.

      Screenshot that shows configuration of the output.

Создание запросов

На этом этапе задание Stream Analytics настроено на считывание входящего потока данных. Далее необходимо создать запрос для анализа данных в режиме реального времени. В запросах используется язык на основе SQL, который содержит некоторые расширения, характерные для Stream Analytics.

  1. Теперь выберите Запрос в разделе Топология задания в меню слева.

  2. Введите следующий запрос в окно запроса. В этом примере запрос считывает данные из Центров событий и копирует выбранные значения в таблицу Delta в ADLS 2-го поколения.

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. На панели инструментов выберите Сохранить запрос.

    Screenshot that shows query for the job.

Запуск задания Stream Analytics и просмотр выходных данных

  1. Вернитесь на страницу обзора задания на портале Azure и нажмите кнопку Запуск.

    Screenshot that shows the selection of Start job button on the Overview page.

  2. На странице начального задания убедитесь, чтовыбрано время начала выходных данных задания, а затем нажмите кнопку "Пуск" в нижней части страницы.

    Screenshot that shows the selection of Start job page.

  3. Через несколько минут на портале найдите учетную запись хранения и контейнер, настроенный в качестве выходных данных для задания. Теперь можно увидеть разностную таблицу в папке, указанной в контейнере. Задание запустится через несколько минут и после запуска будет продолжать работать по мере поступления данных.

    Screenshot that shows output data files in the container.

Очистка ресурсов

Ставшие ненужными группу ресурсов, задание Stream Analytics и все связанные ресурсы можно удалить. При удалении задания будет прекращена тарификация за единицы потоковой передачи, потребляемые заданием. Если вы планируете использовать это задание в будущем, вы можете остановить и перезапустить его позже. Если вы не собираетесь продолжать использовать это задание, удалите все ресурсы, созданные этим руководством, выполнив следующие действия.

  1. В меню слева на портале Azure выберите Группы ресурсов, а затем выберите имя созданного ресурса.
  2. На странице группы ресурсов выберите Удалить, в текстовом поле введите имя ресурса для удаления и щелкните Удалить.

Следующие шаги

В этом руководстве вы создали простое задание Stream Analytics, отфильтровали входящие данные и напишите результаты в таблице Delta в учетной записи ADLS 2-го поколения. Дополнительные сведения о заданиях Stream Analytics: