Idées de solution
Cet article présente une idée de solution. Si vous souhaitez que nous développions le contenu avec d’autres informations, telles que des cas d’usage potentiels, d’autres services, des considérations d’implémentation ou un guide des prix, adressez-nous vos commentaires GitHub.
Cet article décrit comment vous pouvez utiliser Microsoft AI pour améliorer la précision du balisage du contenu des sites Web en combinant l’apprentissage profond et le traitement du langage naturel (NLP) avec des données sur les termes de recherche spécifiques aux sites.
Architecture
Téléchargez un fichier Visio de cette architecture.
Dataflow
Les données sont stockées dans différents formats, en fonction de la source d’origine. les données peuvent être stockées sous forme de fichiers dans Azure Data Lake Storage ou sous forme de tableau dans Azure Synapse ou Azure SQL Database.
Azure Machine Learning (ML) peut se connecter et lire à partir de ces sources, pour ingérer les données dans le pipeline NLP pour le prétraitement, la formation du modèle et le traitement postérieur.
Le prétraitement NLP comprend plusieurs étapes pour consommer des données, à des fins de généralisation du texte. Une fois que le texte est divisé en phrases, les techniques de NLP, comme que la lemmatisation ou la recherche de radical, permettent à la langue d’être mise sous forme de jeton dans une forme générale.
Comme les modèles de NLP sont déjà préformés, l’approche d’apprentissage de transfert vous recommande de télécharger des incorporations spécifiques à une langue et d’utiliser un modèle standard, pour la classification de texte multiclasse, comme les variantes de BERT.
Le post-traitement du NLP recommande de stocker le modèle dans un registre de modèle dans Azure ML, pour suivre les métriques du modèle. En outre, le texte peut être traité avec des règles d’entreprise spécifiques qui sont définies de manière déterministe, en fonction des objectifs de l’entreprise. Microsoft recommande d’utiliser des outils d’intelligence artificielle éthiques pour détecter la langue biaisée, ce qui garantit une formation équitable d’un modèle de langage.
Le modèle peut être déployé via Azure Kubernetes Service, tout en exécutant un cluster géré par Kubernetes dans lequel les conteneurs sont déployés à partir d’images stockées dans Azure Container Registry. Les points de terminaison peuvent être mis à la disposition d’une application frontale. Le modèle peut être déployé via Azure Kubernetes Service en tant que points de terminaison en temps réel.
Les résultats du modèle peuvent être écrits dans une option de stockage dans un fichier ou sous forme tabulaire, puis correctement indexés par Recherche cognitive Azure. Le modèle s’exécute en tant qu’inférence de lot et stocke les résultats dans le magasin de stockage respectif.
Composants
- Data Lake Storage pour l’analytique du Big Data
- Azure Machine Learning
- Recherche cognitive Azure
- Azure Container Registry
- Azure Kubernetes Service (AKS)
Détails du scénario
Les sites sociaux, les forums et autres services de questions et réponses contenant beaucoup de texte utilisent abondamment l’étiquetage de contenu qui facilite l’indexation de qualité et la recherche. Toutefois, il est fréquent que l’étiquetage de contenu soit laissé à la discrétion de l’utilisateur. Étant donné que les utilisateurs n’ont pas de liste de termes fréquemment recherchés ou une compréhension approfondie de la structure des sites, ils attribuent souvent une mauvaise étiquette au contenu. Le contenu mal étiqueté est difficile, voire impossible, à trouver au moment voulu.
Cas d’usage potentiels
En utilisant le traitement en langage naturel (NLP) avec le Deep Learning l’étiquetage de contenu, vous activez une solution évolutive pour créer des étiquettes dans le contenu. À mesure que les utilisateurs recherchent du contenu par mots clés, ce processus de classification multiclasse enrichit le contenu non étiqueté avec des étiquettes qui vous permettront d’effectuer des recherches sur des portions importantes de texte, ce qui améliore les processus d’extraction d’informations. Le nouveau contenu entrant sera correctement marqué en exécutant l’inférence NLP.
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Louis Li | Ingénieur client senior
Étapes suivantes
Consultez la documentation du produit :
- Présentation d'Azure Data Lake Storage Gen2
- Azure Machine Learning
- Documentation sur la Recherche cognitive Azure
- En savoir plus sur Azure Container Registry
- Azure Kubernetes Service
Essayez ces modules Microsoft Learn :
- Présentation du traitement en langage naturel avec PyTorch
- Entraîner et évaluer des modèles de Machine Learning
- Implémenter l’exploration de connaissances avec Recherche cognitive Azure
Ressources associées
Voir les articles architecturaux connexes suivants :
- Technologie de traitement du langage naturel
- Création d’un Delta Lake prenant en charge les requêtes ad hoc dans la réservation en ligne de loisirs et de voyages
- Interroger un lac de données ou lakehouse avec Azure Synapse serverless
- Framework des opérations de Machine Learning (MLOps) pour améliorer le cycle de vie du Machine Learning avec Azure Machine Learning
- Vue d’ensemble de la maintenance prédictive dans le secteur de l’industrie
- Solution de maintenance prédictive