Lösningsidéer
Den här artikeln är en lösningsidé. Om du vill att vi ska utöka innehållet med mer information, till exempel potentiella användningsfall, alternativa tjänster, implementeringsöverväganden eller prisvägledning, kan du meddela oss genom att ge GitHub-feedback.
Den här artikeln beskriver hur du kan använda Microsoft AI för att förbättra noggrannheten för webbplatsinnehållstaggning genom att kombinera djupinlärning och bearbetning av naturligt språk (NLP) med data på platsspecifika söktermer.
Arkitektur
Ladda ned en Visio-fil med den här arkitekturen.
Dataflöde
Data lagras i olika format, beroende på dess ursprungliga källa. Data kan lagras som filer i Azure Data Lake Storage eller i tabellform i Azure Synapse eller Azure SQL Database.
Azure Machine Learning (ML) kan ansluta och läsa från sådana källor för att mata in data i NLP-pipelinen för förbearbetning, modellträning och efterbearbetning.
NLP-förbearbetning innehåller flera steg för att använda data, med syftet med textgeneralisering. När texten har delats upp i meningar tillåter NLP-tekniker, till exempel lemmatisering eller härstamning, språket att tokeniseras i en allmän form.
Eftersom NLP-modeller redan är förtränade rekommenderar metoden för överföringsinlärning att du laddar ned språkspecifika inbäddningar och använder en branschstandardmodell för textklassificering i flera klasser, till exempel varianter av BERT.
NLP-efterbearbetning rekommenderar att du lagrar modellen i ett modellregister i Azure ML för att spåra modellmått. Dessutom kan text efterbehandlas med specifika affärsregler som är deterministiskt definierade, baserat på affärsmålen. Microsoft rekommenderar att du använder etiska AI-verktyg för att identifiera partiskt språk, vilket säkerställer en rättvis utbildning av en språkmodell.
Modellen kan distribueras via Azure Kubernetes Service när du kör ett Kubernetes-hanterat kluster där containrarna distribueras från avbildningar som lagras i Azure Container Registry. Slutpunkter kan göras tillgängliga för ett klientdelsprogram. Modellen kan distribueras via Azure Kubernetes Service som realtidsslutpunkter.
Modellresultat kan skrivas till ett lagringsalternativ i fil- eller tabellformat och sedan indexeras korrekt av Azure Cognitive Search. Modellen skulle köras som batchinferens och lagra resultaten i respektive datalager.
Komponenter
- Data Lake Storage för stordataanalys
- Azure Machine Learning
- Azure Cognitive Search
- Azure Container Registry
- Azure Kubernetes Service (AKS)
Information om scenario
Sociala webbplatser, forum och andra textintensiva Q&A-tjänster är starkt beroende av innehållstaggning, vilket möjliggör bra indexering och användarsökning. Ofta lämnas dock innehållstaggning till användarnas gottfinnande. Eftersom användarna inte har listor med vanliga söktermer eller en djup förståelse för webbplatsstrukturen felstavar de ofta innehållet. Felmärkt innehåll är svårt eller omöjligt att hitta när det behövs senare.
Potentiella användningsfall
Genom att använda bearbetning av naturligt språk (NLP) med djupinlärning för innehållstaggning aktiverar du en skalbar lösning för att skapa taggar i innehåll. När användarna söker efter innehåll efter nyckelord berikar den här klassificeringsprocessen med flera klasser otagkt innehåll med etiketter som gör att du kan söka efter stora delar av texten, vilket förbättrar informationshämtningsprocesserna. Nytt inkommande innehåll taggas korrekt genom att nlp-slutsatsdragningen körs.
Deltagare
Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.
Huvudförfattare:
- Louis Li | Senior kundtekniker
Nästa steg
Se produktdokumentationen:
- Introduktion till Azure Data Lake Storage Gen2
- Azure Machine Learning
- Dokumentation om Azure Cognitive Search
- Läs mer om Azure Container Registry
- Azure Kubernetes Service
Prova dessa Microsoft Learn-moduler:
- Introduktion till bearbetning av naturligt språk med PyTorch
- Träna och utvärdera djupinlärningsmodeller
- Implementera kunskapsutvinning med Azure Cognitive Search
Relaterade resurser
Se följande relaterade arkitekturartiklar:
- Teknik för bearbetning av naturligt språk
- Skapa en deltasjö för att stödja ad hoc-frågor i online-fritids- och resebokningar
- Fråga en datasjö eller lakehouse med hjälp av Azure Synapse serverlös
- Ramverk för maskininlärningsåtgärder (MLOps) för att skala upp livscykeln för maskininlärning med Azure Machine Learning
- Introduktion till förutsägande underhåll inom tillverkningsindustrin
- Lösning för förutsägande underhåll