Föreslå innehållstaggar med NLP med djupinlärning

Azure Container Registry
Azure AI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

Lösningsidéer

Den här artikeln är en lösningsidé. Om du vill att vi ska utöka innehållet med mer information, till exempel potentiella användningsfall, alternativa tjänster, implementeringsöverväganden eller prisvägledning, kan du meddela oss genom att ge GitHub-feedback.

Den här artikeln beskriver hur du kan använda Microsoft AI för att förbättra noggrannheten för webbplatsinnehållstaggning genom att kombinera djupinlärning och bearbetning av naturligt språk (NLP) med data på platsspecifika söktermer.

Arkitektur

Arkitekturdiagram: Översikt över hur du använder Azure Machine Learning för att föreslå innehållstaggar för webbplatser.

Ladda ned en Visio-fil med den här arkitekturen.

Dataflöde

  1. Data lagras i olika format, beroende på dess ursprungliga källa. Data kan lagras som filer i Azure Data Lake Storage eller i tabellform i Azure Synapse eller Azure SQL Database.

  2. Azure Machine Learning (ML) kan ansluta och läsa från sådana källor för att mata in data i NLP-pipelinen för förbearbetning, modellträning och efterbearbetning.

  3. NLP-förbearbetning innehåller flera steg för att använda data, med syftet med textgeneralisering. När texten har delats upp i meningar tillåter NLP-tekniker, till exempel lemmatisering eller härstamning, språket att tokeniseras i en allmän form.

  4. Eftersom NLP-modeller redan är förtränade rekommenderar metoden för överföringsinlärning att du laddar ned språkspecifika inbäddningar och använder en branschstandardmodell för textklassificering i flera klasser, till exempel varianter av BERT.

  5. NLP-efterbearbetning rekommenderar att du lagrar modellen i ett modellregister i Azure ML för att spåra modellmått. Dessutom kan text efterbehandlas med specifika affärsregler som är deterministiskt definierade, baserat på affärsmålen. Microsoft rekommenderar att du använder etiska AI-verktyg för att identifiera partiskt språk, vilket säkerställer en rättvis utbildning av en språkmodell.

  6. Modellen kan distribueras via Azure Kubernetes Service när du kör ett Kubernetes-hanterat kluster där containrarna distribueras från avbildningar som lagras i Azure Container Registry. Slutpunkter kan göras tillgängliga för ett klientdelsprogram. Modellen kan distribueras via Azure Kubernetes Service som realtidsslutpunkter.

  7. Modellresultat kan skrivas till ett lagringsalternativ i fil- eller tabellformat och sedan indexeras korrekt av Azure Cognitive Search. Modellen skulle köras som batchinferens och lagra resultaten i respektive datalager.

Komponenter

Information om scenario

Sociala webbplatser, forum och andra textintensiva Q&A-tjänster är starkt beroende av innehållstaggning, vilket möjliggör bra indexering och användarsökning. Ofta lämnas dock innehållstaggning till användarnas gottfinnande. Eftersom användarna inte har listor med vanliga söktermer eller en djup förståelse för webbplatsstrukturen felstavar de ofta innehållet. Felmärkt innehåll är svårt eller omöjligt att hitta när det behövs senare.

Potentiella användningsfall

Genom att använda bearbetning av naturligt språk (NLP) med djupinlärning för innehållstaggning aktiverar du en skalbar lösning för att skapa taggar i innehåll. När användarna söker efter innehåll efter nyckelord berikar den här klassificeringsprocessen med flera klasser otagkt innehåll med etiketter som gör att du kan söka efter stora delar av texten, vilket förbättrar informationshämtningsprocesserna. Nytt inkommande innehåll taggas korrekt genom att nlp-slutsatsdragningen körs.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Nästa steg

Se produktdokumentationen:

Prova dessa Microsoft Learn-moduler:

Se följande relaterade arkitekturartiklar: