Sugerencia de etiquetas de contenido con NLP mediante aprendizaje profundo.

Azure Container Registry
Azure AI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

Ideas de solución

Este artículo es una idea de solución. Si te gustaría que ampliemos este artículo con más información, como posibles casos de uso, servicios alternativos, consideraciones de implementación o una guía de precios, comunícalo a través de los Comentarios de GitHub.

En este artículo se describe cómo puede usar la inteligencia artificial de Microsoft para mejorar la precisión del etiquetado del contenido del sitio web mediante la combinación del aprendizaje profundo y el procesamiento de lenguaje natural (NLP) con datos sobre términos de búsqueda específicos del sitio.

Architecture

Architecture diagram: overview of using Azure Machine Learning to help suggest content tags for websites.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

  1. Los datos se almacenan en varios formatos, dependiendo de su origen. Los datos pueden almacenarse como archivos en Azure Data Lake Storage o en forma de tabla en Azure Synapse o Azure SQL Database.

  2. Azure Machine Learning (ML) puede conectarse y leer desde estos orígenes, para ingerir los datos en la canalización de NLP para el preprocesamiento, el entrenamiento del modelo y el postprocesamiento.

  3. El preprocesamiento de NLP incluye varios pasos para consumir los datos, con el propósito de generalizar el texto. Una vez que el texto está dividido en frases, las técnicas de NLP, como la lematización o el stemming, permiten tokenizar el lenguaje de forma general.

  4. Como los modelos de NLP ya están disponibles preentrenados, el enfoque de aprendizaje de transferencia recomienda descargar las incrustaciones específicas del idioma y usar un modelo estándar de la industria, para la clasificación de textos de varias clases, como las variaciones de BERT.

  5. El postprocesamiento NLP recomienda almacenar el modelo en un registro de modelos en Azure ML, para hacer un seguimiento de las métricas del modelo. Además, el texto también se puede posprocesar con reglas de negocio específicas que se definen de forma determinista, en función de los objetivos de negocio. Microsoft recomienda el uso de herramientas de IA ética para detectar el lenguaje sesgado, lo que garantiza el entrenamiento justo de un modelo de lenguaje.

  6. El modelo puede implementarse a través de Azure Kubernetes Service, mientras se ejecuta un clúster administrado por Kubernetes en el que los contenedores se implementan a partir de imágenes que se almacenan en Azure Container Registry. Los puntos de conexión pueden ponerse a disposición de una aplicación front-end. El modelo puede implementarse a través de Azure Kubernetes Service como puntos de conexión en tiempo real.

  7. Los resultados del modelo pueden escribirse en una opción de almacenamiento en formato de archivo o tabular, y luego indexarse adecuadamente por Azure Cognitive Search. El modelo se ejecutaría como inferencia por lotes y almacenaría los resultados en el almacén de datos correspondiente.

Componentes

Detalles del escenario

Los sitios web sociales, los foros y otros servicios de preguntas y respuestas con mucha actividad dependen en gran medida del etiquetado del contenido, que facilita una correcta indexación y búsqueda por parte de los usuarios. Sin embargo, el etiquetado del contenido a menudo se deja a elección de los usuarios. Como no tienen listas de términos buscados con frecuencia o un conocimiento profundo de la estructura de un sitio web, suelen etiquetar mal el contenido. El contenido etiquetado de forma errónea es difícil o imposible de encontrar cuando se necesita más adelante.

Posibles casos de uso

Al utilizar el procesamiento del lenguaje natural (NLP) con el aprendizaje profundo para el etiquetado de contenidos, se habilita una solución escalable para crear etiquetas en todo el contenido. A medida que los usuarios buscan contenido por palabras clave, este proceso de clasificación multiclase enriquece el contenido no etiquetado con etiquetas que le permitirán buscar en porciones sustanciales de texto, lo que mejora los procesos de recuperación de información. El nuevo contenido entrante se etiquetará de forma adecuada mediante la ejecución de la inferencia de NLP.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

  • Louis Li | Ingeniero sénior de clientes

Pasos siguientes

Consulte la documentación del producto:

Pruebe estos módulos de Microsoft Learn:

Consulte los siguientes artículos de arquitectura relacionados: