Пропустить навигацию

Извлечение пользовательских сущностей с помощью текстовой аналитики

Introduction

Распознавание именованных сущностей является ключевой областью исследования в машинном обучении и обработке естественного языка. Функция извлечения сущностей извлекает доступные для поиска именованные сущности из неструктурированного текста. На практике она позволяет отвечать на многие вопросы из реальной жизни: содержит ли твит имя и местоположение определенного человека, указывается ли название компании в новостях, упоминается ли название конкретного продукта в обзоре и так далее. Извлечение сущностей особенно полезно при применении к областям с интенсивным использованием терминологии определенной отрасли, такой как здравоохранение, нормативно-правовая документация или различные науки.

Prepare data

Неструктурированный текст, например документы, твиты или обзоры продуктов, обычно требует предобработки перед анализом. Предобработка может включать в себя такие операции, как удаление повторяющихся или специальных символов, замена флективных слов на их базовую форму, замена регистра и так далее. После очистки текст обрабатывается для извлечения самых важных или частых терминов. Это важный шаг в упрощении самого решения, так как каждое слово является признаком, который модель должна обрабатывать, а этот шаг уменьшает количество признаков с миллиардов до тысяч. Далее создается словарь. Словарь объединяет слова (униграммы), которые будут использованы для обучения модели, и число появлений униграмм в совокупности текстов. Затем вычисляются метрики для измерения периодичности и значимости каждой униграммы.

Build and train

После создания словаря данные разбиваются на наборы для обучения и проверки, после чего можно приступать к созданию модели. Стандартные алгоритмы извлечения сущностей находятся в диапазоне от двухклассовой логистической регрессии до многоклассовых лесов решений. Совсем недавно для решений извлечения сущностей использовались эффективные методы глубокого обучения, такие как рекуррентные нейронные сети на основе долгой краткосрочной памяти с неконтролируемым векторным представлением слов — алгоритмами обучения, с помощью которых нейронная сеть обучается на совокупности данных для обучения без меток. Для оценки моделей применяются полнота, точность и показатели F1. В конечном счете хорошо работающая модель извлечения сущностей, обученная на небольшом наборе примеров, сможет распознать любой текст, переданный в систему.

Deploy

После определения самого эффективного варианта модели она будет развернута таким образом, чтобы ее могли использовать приложения. Часто это означает, что модель будет развернута как веб-служба с конечной точкой REST. После этого модель смогут вызывать бизнес-приложения или программное обеспечение для аналитики. В зависимости от потребностей бизнеса веб-службы используются в двух режимах: "запрос и ответ" и пакетный режим. Обработка текста в реальном времени — это отличная возможность оценить текст, поступающий в виде твитов или комментариев на веб-сайте продукта, если такой текст необходимо оценить для использования в приложении. Для эффективной обработки больших объемов данных лучше использовать пакетный режим, позволяющий проанализировать, например, совокупность нормативных текстов или крупные наборы исторических данных.

Customers are doing great things with AI