Tartalomcímkék ajánlása az NLP használatával mély tanulással

Azure Container Registry
Azure AI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

Megoldási ötletek

Ez a cikk egy megoldási ötlet. Ha azt szeretné, hogy további információkkal bővítsük a tartalmat, például a lehetséges használati eseteket, alternatív szolgáltatásokat, megvalósítási szempontokat vagy díjszabási útmutatást, a GitHub visszajelzésével tudassa velünk.

Ez a cikk azt ismerteti, hogyan javíthatja a webhelyek tartalomcímkézési pontosságát a Microsoft AI használatával a mély tanulás és a természetes nyelvi feldolgozás (NLP) és a webhelyspecifikus keresési kifejezések adatainak kombinálásával.

Architektúra

Architektúradiagram: az Azure Machine Tanulás használatának áttekintése a webhelyek tartalomcímkék javaslatához.

Töltse le az architektúra Visio-fájlját.

Adatfolyam

  1. Az adatok tárolása az eredeti forrástól függően különböző formátumban történik. Az adatok tárolhatók fájlként az Azure Data Lake Storage-ban, vagy táblázatos formában az Azure Synapse-ban vagy az Azure SQL Database-ben.

  2. Az Azure Machine Tanulás (ML) képes csatlakozni és olvasni az ilyen forrásokból, hogy az adatokat az NLP-folyamatba betöltse előfeldolgozás, modellbetanítás és utófeldolgozás céljából.

  3. Az NLP előfeldolgozása több lépést is tartalmaz az adatok felhasználásához, szöveges általánosítás céljából. Miután a szöveget mondatokra bontották, az NLP-technikák, például a lemmatizálás vagy a lemmatizálás lehetővé teszik a nyelv általános formában történő tokenizálását.

  4. Mivel az NLP-modellek már előre betanítottak, a transzfertanulási megközelítés azt javasolja, hogy töltse le a nyelvspecifikus beágyazásokat, és használjon iparági szabványmodellt a többosztályos szövegbesoroláshoz, például a BERT változataihoz.

  5. Az NLP utófeldolgozása azt javasolja, hogy a modell egy modellregisztrációs adatbázisba legyen tárolva az Azure ML-ben a modellmetrikák nyomon követése érdekében. Ezenkívül a szöveg az üzleti célok alapján meghatározott, determinisztikusan meghatározott üzleti szabályokkal utólag is feldolgozható. A Microsoft etikus AI-eszközök használatát javasolja az elfogult nyelvek észleléséhez, ami biztosítja a nyelvi modell tisztességes betanítását.

  6. A modell üzembe helyezhető az Azure Kubernetes Service-ben, miközben egy Kubernetes által felügyelt fürtöt futtat, ahol a tárolók az Azure Container Registryben tárolt rendszerképekből vannak üzembe helyezve. A végpontok elérhetővé tehetők egy előtérbeli alkalmazás számára. A modell valós idejű végpontként üzembe helyezhető az Azure Kubernetes Service-ben.

  7. A modelleredmények fájl- vagy táblázatos formátumban írhatók egy tárolási beállításba, majd megfelelően indexelhetők az Azure Cognitive Search által. A modell kötegelt következtetésként futna, és az eredményeket a megfelelő adattárban tárolná.

Összetevők

Forgatókönyv részletei

A közösségi webhelyek, fórumok és más, szövegigényes Q&A-szolgáltatások nagymértékben támaszkodnak a tartalomcímkézésre, ami lehetővé teszi a jó indexelést és a felhasználói keresést. A tartalomcímkézés azonban gyakran a felhasználók saját belátása szerint történik. Mivel a felhasználók nem rendelkeznek a gyakran keresett kifejezések listájával vagy a webhelyszerkezet alapos ismeretével, gyakran helytelenül címkéznek tartalmat. A helytelenül címkézett tartalmat nehéz vagy lehetetlen megtalálni, amikor később szükség van rá.

Lehetséges használati esetek

Ha természetes nyelvi feldolgozást (NLP) használ a tartalomcímkézés mélytanításával, lehetővé teszi a méretezhető megoldásokat a címkék tartalomközi létrehozásához. Ahogy a felhasználók kulcsszavak alapján keresnek tartalmat, ez a többosztályos besorolási folyamat címkékkel egészíti ki a címkézetlen tartalmakat, amelyek lehetővé teszik a szöveg jelentős részének keresését, ami javítja az információlekérési folyamatokat. Az új bejövő tartalom megfelelően lesz megjelölve NLP-következtetés futtatásával.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

Következő lépések

Tekintse meg a termék dokumentációját:

Próbálja ki az alábbi Microsoft Learn-modulokat:

Tekintse meg a következő kapcsolódó architekturális cikkeket: