Предложение тегов содержимого с помощью NLP с помощью глубокого обучения

Реестр контейнеров Azure
Поиск по искусственному интеллекту Azure
Служба Azure Kubernetes (AKS)
Машинное обучение Azure

Идеи решения

Эта статья является идеей решения. Если вы хотите расширить содержимое с дополнительными сведениями, такими как потенциальные варианты использования, альтернативные службы, рекомендации по реализации или рекомендации по ценам, сообщите нам, предоставив отзыв GitHub.

В этой статье описывается, как использовать Microsoft AI для повышения точности добавления тегов на веб-сайт, сочетая глубокое обучение и обработку естественного языка (NLP) с данными в условиях поиска на сайте.

Архитектура

Схема архитектуры: обзор использования Машинное обучение Azure для предложения тегов контента для веб-сайтов.

Скачайте файл Visio для этой архитектуры.

Поток данных

  1. Данные хранятся в различных форматах в зависимости от исходного источника. Данные можно хранить в виде файлов в Azure Data Lake служба хранилища или в табличной форме в Azure Synapse или База данных SQL Azure.

  2. Машинное обучение Azure (ML) может подключать и читать данные из таких источников, чтобы получать данные в конвейер NLP для предварительной обработки, обучения моделей и последующей обработки.

  3. Предварительная обработка NLP включает несколько шагов для использования данных с целью обобщения текста. После того как текст разбивается на предложения, методы NLP, такие как лемматизация или стебливание, позволяют языку токенизироваться в общей форме.

  4. Так как модели NLP уже доступны предварительно обучены, подход к обучению передачи рекомендует скачать внедрения на языке и использовать стандартную модель отрасли для многоклассовой классификации текста, таких как варианты BERT.

  5. После обработки NLP рекомендует хранить модель в регистре модели в Машинном обучении Azure для отслеживания метрик модели. Кроме того, текст можно выполнить после обработки с определенными бизнес-правилами, детерминированными на основе бизнес-целей. Корпорация Майкрософт рекомендует использовать этические средства ИИ для обнаружения предвзятого языка, что обеспечивает справедливое обучение языковой модели.

  6. Модель можно развернуть с помощью Служба Azure Kubernetes при запуске управляемого Kubernetes кластера, в котором контейнеры развертываются из образов, хранящихся в Реестр контейнеров Azure. Конечные точки можно сделать доступными для интерфейсного приложения. Модель можно развернуть с помощью Служба Azure Kubernetes как конечные точки в режиме реального времени.

  7. Результаты модели можно записать в параметр хранилища в файле или табличном формате, а затем правильно индексироваться Когнитивный поиск Azure. Модель будет выполняться как пакетное вывод и хранить результаты в соответствующем хранилище данных.

Компоненты

Подробности сценария

Социальные сайты, форумы и другие текстовые службы Q&A сильно зависят от тегов контента, что обеспечивает хороший индексирование и поиск пользователей. Однако часто теги содержимого остаются на усмотрение пользователей. Так как у пользователей нет списков часто используемых терминов или глубокого понимания структуры сайта, они часто неправильно используют содержимое. Неправильное содержимое трудно или невозможно найти, когда это необходимо позже.

Потенциальные варианты использования

Используя обработку естественного языка (NLP) с глубоким обучением для тегов содержимого, можно включить масштабируемое решение для создания тегов в содержимом. По мере того как пользователи ищут содержимое по ключевое слово, этот процесс классификации с несколькими классами обогащает неуправляемое содержимое метками, что позволяет выполнять поиск по существенным частям текста, что улучшает процессы извлечения информации. Новое входящее содержимое будет соответствующим образом помечено при выполнении вывода NLP.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

  • Луи Ли | Старший инженер клиента

Следующие шаги

См. документацию по продукту:

Попробуйте использовать следующие модули Microsoft Learn:

См. следующие связанные архитектурные статьи: