Inhoudstags voorstellen met NLP met behulp van Deep Learning

Azure Container Registry
Azure AI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

Oplossingsideeën

Dit artikel is een oplossingsidee. Als u wilt dat we de inhoud uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsrichtlijnen, laat het ons dan weten door GitHub-feedback te geven.

In dit artikel wordt beschreven hoe u Microsoft AI kunt gebruiken om de nauwkeurigheid van website-inhoud te verbeteren door deep learning en natuurlijke taalverwerking (NLP) te combineren met gegevens op sitespecifieke zoektermen.

Architectuur

Architectuurdiagram: overzicht van het gebruik van Azure Machine Learning om inhoudstags voor websites voor te stellen.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

  1. Gegevens worden opgeslagen in verschillende indelingen, afhankelijk van de oorspronkelijke bron. Gegevens kunnen worden opgeslagen als bestanden in Azure Data Lake Storage of in tabelvorm in Azure Synapse of Azure SQL Database.

  2. Azure Machine Learning (ML) kan verbinding maken met en lezen uit dergelijke bronnen om de gegevens op te nemen in de NLP-pijplijn voor preverwerking, modeltraining en naverwerking.

  3. NLP-voorverwerking omvat verschillende stappen om gegevens te gebruiken, met als doel tekstgeneralisatie. Zodra de tekst is opgesplitst in zinnen, kunnen NLP-technieken, zoals lemmatisatie of stemming, de taal in een algemene vorm worden getokeniseerd.

  4. Omdat NLP-modellen al vooraf zijn getraind, raadt de overdrachtsleermethode u aan taalspecifieke insluitingen te downloaden en een industriestandaardmodel te gebruiken voor tekstclassificatie met meerdere klassen, zoals variaties van BERT.

  5. Naverwerking van NLP raadt u aan het model op te slaan in een modelregister in Azure ML om metrische modelgegevens bij te houden. Bovendien kan tekst na verwerking worden verwerkt met specifieke bedrijfsregels die deterministisch zijn gedefinieerd, op basis van de bedrijfsdoelen. Microsoft raadt u aan ethische AI-hulpprogramma's te gebruiken om bevooroordeste taal te detecteren, wat zorgt voor een eerlijke training van een taalmodel.

  6. Het model kan worden geïmplementeerd via Azure Kubernetes Service, terwijl een door Kubernetes beheerd cluster wordt uitgevoerd waarin de containers worden geïmplementeerd vanuit installatiekopieën die zijn opgeslagen in Azure Container Registry. Eindpunten kunnen beschikbaar worden gesteld voor een front-endtoepassing. Het model kan worden geïmplementeerd via Azure Kubernetes Service als realtime-eindpunten.

  7. Modelresultaten kunnen worden geschreven naar een opslagoptie in bestands- of tabelvorm en vervolgens correct geïndexeerd door Azure Cognitive Search. Het model wordt uitgevoerd als batchdeductie en slaat de resultaten op in het respectieve gegevensarchief.

Onderdelen

Scenariodetails

Sociale sites, forums en andere tekstzware Q&A-services zijn sterk afhankelijk van inhoudstags, waardoor goede indexering en gebruikerszoekopdrachten mogelijk zijn. Vaak is inhoudstags echter naar eigen goeddunken van gebruikers overgelaten. Omdat gebruikers geen lijsten met veelgebruikte zoektermen of een grondige kennis van de sitestructuur hebben, worden inhoud vaak verkeerd gelabeld. Verkeerd gelabelde inhoud is moeilijk of onmogelijk te vinden wanneer deze later nodig is.

Potentiële gebruikscases

Door gebruik te maken van natuurlijke taalverwerking (NLP) met deep learning voor inhoudstags, kunt u een schaalbare oplossing inschakelen om tags voor alle inhoud te maken. Wanneer gebruikers inhoud zoeken op trefwoorden, verrijkt dit classificatieproces met meerdere klassen inhoud met labels waarmee u kunt zoeken op aanzienlijke delen van tekst, waardoor de processen voor het ophalen van gegevens worden verbeterd. Nieuwe binnenkomende inhoud wordt op de juiste wijze getagd door NLP-deductie uit te voeren.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Volgende stappen

Raadpleeg de productdocumentatie:

Probeer deze Microsoft Learn-modules:

Zie de volgende gerelateerde architecturale artikelen: