Arquitectura de solución: Detección de información con aprendizaje profundo y NLP

Sitios sociales, foros y otros servicios de preguntas y respuestas con un gran uso de texto dependen mucho del etiquetado, que permite la indexación y búsquedas de usuario. Sin un etiquetado adecuado, estos sitios son mucho menos eficaces. No obstante, el etiquetado se deja a menudo a discreción del usuario. Y, puesto que los usuarios no tienen listas de los términos más buscados ni un conocimiento profundo de la categorización o de la arquitectura de la información de un sitio, es frecuente que las publicaciones estén mal etiquetadas. Esto dificulta o imposibilita la búsqueda de ese contenido cuando se necesita más adelante.

Al combinar aprendizaje profundo y procesamiento de lenguaje natural (NLP) con datos de términos de búsqueda específicos del sitio, esta solución mejora notablemente la precisión del etiquetado. Cuando un usuario comienza a escribir una publicación, la solución sugiere etiquetas de términos muy utilizados, lo que facilita que otros encuentren la información que se está proporcionando.

Guía sobre la implementación

Productos Documentación

Microsoft SQL Server

Los datos se almacenan, estructuran e indexan con Microsoft SQL Server.

Máquina virtual de ciencia de datos de Azure basada en GPU

El entorno de desarrollo central es la máquina virtual de ciencia de datos (DS) NC24 basada en GPU con Microsoft Windows Server 2016.

Azure Machine Learning Workbench

Workbench se utiliza para la limpieza y la transformación de datos. Actúa como interfaz principal para los servicios Experimentación y Administración de modelos.

Servicio Experimentación de Azure Machine Learning

El servicio Experimentación se utiliza para el entrenamiento de modelos, incluido el ajuste de hiperparámetros.

Servicio Administración de modelos de Azure Machine Learning

El servicio Administración de modelos se utiliza para implementar el modelo final, incluido el escalado horizontal a un clúster de Azure administrado por Kubernetes.

Jupyter Notebook en máquinas virtuales de ciencia de datos de Azure

Jupyter Notebook se utiliza como IDE básico para el modelo, desarrollado en Python.

Azure Container Registry

El servicio Administración de modelos crea y empaqueta servicios web como contenedores de Docker en tiempo real. Estos contenedores se cargan y registran a través de Azure Container Registry.

Clúster de Azure Container Service

La implementación de esta solución utiliza Azure Container Service ejecutándose en un clúster administrado por Kubernetes. Los contenedores se implementan en Azure Container Registry desde las imágenes almacenadas.