Руководство. Сбор данных Центров событий в формате Parquet и их анализ с помощью Azure Synapse Analytics

В этом руководстве показано, как с помощью редактора кода Stream Analytics создать задание, которое записывает данные Центров событий в Azure Data Lake Storage 2-го поколения в формате Parquet.

В этом руководстве описано следующее:

  • Развертывание генератора событий, который отправляет примеры событий в концентратор событий
  • Создание задания Stream Analytics с помощью портала Microsoft Azure
  • Проверка входных данных и схемы
  • Настройка Azure Data Lake Storage 2-го поколения, в которую будут записываться данные концентратора событий
  • Выполнение задания Stream Analytics
  • Использование Azure Synapse Analytics для запроса файлов Parquet

Предварительные требования

Прежде чем начать работу, нужно сделать следующее:

Не используйте редактор кода для создания задания Stream Analytics

  1. Найдите группу ресурсов, в которой развернут генератор событий TollApp.

  2. Выберите пространство имен Центров событий.

  3. На странице Пространство имен Центров событий выберите Центры событий в разделе Объекты в меню слева.

  4. Выберите entrystream экземпляр.

    Снимок экрана: выбор концентратора событий.

  5. На странице Экземпляр Центров событий выберите Обрабатывать данные в разделе Функции в меню слева.

  6. Выберите Начать на плитке Запись данных в ADLS 2-го поколения в формате Parquet.

    Снимок экрана: выбор плитки **Запись данных в ADLS 2-го поколения в формате Parquet**.

  7. Присвойте задание parquetcapture имя и нажмите кнопку Создать.

    Снимок экрана: страница

  8. На странице конфигурации концентратора событий подтвердите следующие параметры и выберите Подключить.

    • Группа потребителей: по умолчанию

    • Тип сериализации входных данных: JSON

    • Режим проверки подлинности, который задание будет использовать для подключения к концентратору событий: строка подключения.

      Снимок экрана: страница конфигурации для концентратора событий.

  9. Через несколько секунд вы увидите пример входных данных и схему. Вы можете удалить поля, переименовать их или изменить тип данных.

    Снимок экрана: поля и предварительный просмотр данных.

  10. Выберите элемент Azure Data Lake Storage 2-го поколения на панели холста и настройте его, указав

    • Подписку, в которой находится учетная запись Azure Data Lake 2-го поколения
    • Имя учетной записи хранения, которое должна совпадать с учетной записью ADLS 2-го поколения, используемой с рабочей областью Azure Synapse Analytics, выполненной в разделе "Предварительные требования".
    • Контейнер, в котором будут созданы файлы Parquet.
    • Шаблон пути: {date}/{time}
    • Шаблон даты и времени в качестве даты и времени по умолчанию гггг-мм-дд и ЧЧ.
    • Щелкните Подключиться.

    Снимок экрана: параметры конфигурации для Data Lake Storage.

  11. Нажмите кнопку Сохранить на верхней ленте, чтобы сохранить задание, а затем нажмите кнопку Запустить , чтобы запустить задание. После запуска задания выберите X в правом углу, чтобы закрыть страницу задания Stream Analytics .

    Снимок экрана: страница запуска задания Stream Analytics.

  12. Затем вы увидите список всех заданий Stream Analytics, созданных с помощью редактора кода. И в течение двух минут задание перейдет в состояние Выполняется. Нажмите кнопку Обновить на странице, чтобы увидеть, что состояние изменено с Создано —>Запуск> — Выполняется.

    Снимок экрана: список заданий Stream Analytics.

Просмотр выходных данных в учетной записи Azure Data Lake Storage 2-го поколения

  1. Найдите учетную запись Azure Data Lake Storage 2-го поколения, использованную на предыдущем шаге.

  2. Выберите контейнер, использованный на предыдущем шаге. Вы увидите файлы Parquet, созданные на основе шаблона пути {date}/{time}, используемого на предыдущем шаге.

    Снимок экрана: захваченные файлы Parquet в Azure Data Lake Storage 2-го поколения.

Запрос собранных данных в формате Parquet с помощью Azure Synapse Analytics

Запрос с использованием Azure Synapse Spark

  1. Найдите рабочую область Azure Synapse Analytics и откройте Synapse Studio.

  2. Создайте бессерверный пул Apache Spark в рабочей области, если таковой еще не существует.

  3. В Synapse Studio перейдите в центр Разработка и создайте новую Записную книжку.

  4. Создайте новую ячейку кода и вставьте в нее следующий код. Замените контейнер и adlsname именем контейнера и учетной записи ADLS 2-го поколения, используемой на предыдущем шаге.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Для параметра Присоединиться к на панели инструментов выберите пул Spark из раскрывающегося списка.

  6. Снова нажмите кнопку Выполнить все, чтобы просмотреть результаты.

    Снимок экрана: результаты выполнения Spark в Azure Synapse Analytics.

Запрос с использованием бессерверных SQL Azure Synapse

  1. В центре Разработка создайте новый скрипт SQL.

    Снимок экрана: страница

  2. Вставьте следующий скрипт и запустите его с помощью встроенной бессерверной конечной точки SQL. Замените контейнер и adlsname именем контейнера и учетной записи ADLS 2-го поколения, используемой на предыдущем шаге.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Снимок экрана: результаты выполнения скрипта SQL в Azure Synapse Analytics.

Очистка ресурсов

  1. Найдите экземпляр Центров событий и просмотрите список заданий Stream Analytics в разделе Обработка данных. Остановите все работающие задания.
  2. Перейдите в группу ресурсов, которую вы использовали при развертывании генератора событий TollApp.
  3. Выберите Удалить группу ресурсов. Введите имя группы ресурсов, чтобы подтвердить удаление.

Дальнейшие действия

В этом руководстве вы узнали, как создать задание Stream Analytics с помощью редактора кода для записи потоков данных Центров событий в формате Parquet. Затем вы использовали Azure Synapse Analytics для запроса файлов Parquet с помощью Synapse Spark и Synapse SQL.