Édition

Suggérer des étiquettes de contenu avec NLP à l’aide du deep learning

Azure Container Registry
Azure AI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

Idées de solution

Cet article présente une idée de solution. Si vous souhaitez que nous développions le contenu avec d’autres informations, telles que des cas d’usage potentiels, d’autres services, des considérations d’implémentation ou un guide des prix, adressez-nous vos commentaires GitHub.

Cet article décrit comment vous pouvez utiliser Microsoft AI pour améliorer la précision du balisage du contenu des sites Web en combinant l’apprentissage profond et le traitement du langage naturel (NLP) avec des données sur les termes de recherche spécifiques aux sites.

Architecture

Diagramme d’architecture : vue d’ensemble de l’utilisation d’Azure Machine Learning pour pouvoir suggérer des étiquettes de contenu pour les sites web.

Téléchargez un fichier Visio de cette architecture.

Dataflow

  1. Les données sont stockées dans différents formats, en fonction de la source d’origine. les données peuvent être stockées sous forme de fichiers dans Azure Data Lake Storage ou sous forme de tableau dans Azure Synapse ou Azure SQL Database.

  2. Azure Machine Learning (ML) peut se connecter et lire à partir de ces sources, pour ingérer les données dans le pipeline NLP pour le prétraitement, la formation du modèle et le traitement postérieur.

  3. Le prétraitement NLP comprend plusieurs étapes pour consommer des données, à des fins de généralisation du texte. Une fois que le texte est divisé en phrases, les techniques de NLP, comme que la lemmatisation ou la recherche de radical, permettent à la langue d’être mise sous forme de jeton dans une forme générale.

  4. Comme les modèles de NLP sont déjà préformés, l’approche d’apprentissage de transfert vous recommande de télécharger des incorporations spécifiques à une langue et d’utiliser un modèle standard, pour la classification de texte multiclasse, comme les variantes de BERT.

  5. Le post-traitement du NLP recommande de stocker le modèle dans un registre de modèle dans Azure ML, pour suivre les métriques du modèle. En outre, le texte peut être traité avec des règles d’entreprise spécifiques qui sont définies de manière déterministe, en fonction des objectifs de l’entreprise. Microsoft recommande d’utiliser des outils d’intelligence artificielle éthiques pour détecter la langue biaisée, ce qui garantit une formation équitable d’un modèle de langage.

  6. Le modèle peut être déployé via Azure Kubernetes Service, tout en exécutant un cluster géré par Kubernetes dans lequel les conteneurs sont déployés à partir d’images stockées dans Azure Container Registry. Les points de terminaison peuvent être mis à la disposition d’une application frontale. Le modèle peut être déployé via Azure Kubernetes Service en tant que points de terminaison en temps réel.

  7. Les résultats du modèle peuvent être écrits dans une option de stockage dans un fichier ou sous forme tabulaire, puis correctement indexés par Recherche cognitive Azure. Le modèle s’exécute en tant qu’inférence de lot et stocke les résultats dans le magasin de stockage respectif.

Composants

Détails du scénario

Les sites sociaux, les forums et autres services de questions et réponses contenant beaucoup de texte utilisent abondamment l’étiquetage de contenu qui facilite l’indexation de qualité et la recherche. Toutefois, il est fréquent que l’étiquetage de contenu soit laissé à la discrétion de l’utilisateur. Étant donné que les utilisateurs n’ont pas de liste de termes fréquemment recherchés ou une compréhension approfondie de la structure des sites, ils attribuent souvent une mauvaise étiquette au contenu. Le contenu mal étiqueté est difficile, voire impossible, à trouver au moment voulu.

Cas d’usage potentiels

En utilisant le traitement en langage naturel (NLP) avec le Deep Learning l’étiquetage de contenu, vous activez une solution évolutive pour créer des étiquettes dans le contenu. À mesure que les utilisateurs recherchent du contenu par mots clés, ce processus de classification multiclasse enrichit le contenu non étiqueté avec des étiquettes qui vous permettront d’effectuer des recherches sur des portions importantes de texte, ce qui améliore les processus d’extraction d’informations. Le nouveau contenu entrant sera correctement marqué en exécutant l’inférence NLP.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes

Consultez la documentation du produit :

Essayez ces modules Microsoft Learn :

Voir les articles architecturaux connexes suivants :