Návrhy značek obsahu s využitím NLP s využitím hloubkového učení

Azure Container Registry
Azure AI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

Nápady na řešení

Tento článek je myšlenkou řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu k GitHubu.

Tento článek popisuje, jak můžete pomocí umělé inteligence Microsoftu zlepšit přesnost označování obsahu webu kombinováním hloubkového učení a zpracování přirozeného jazyka (NLP) s daty na hledaných termínech specifických pro web.

Architektura

Diagram architektury: Přehled použití služby Azure Machine Učení, která pomáhá navrhovat značky obsahu pro weby.

Stáhněte si soubor aplikace Visio s touto architekturou.

Tok dat

  1. Data se ukládají v různých formátech v závislosti na původním zdroji. Data se dají ukládat jako soubory ve službě Azure Data Lake Storage nebo v tabulkové podobě ve službě Azure Synapse nebo Azure SQL Database.

  2. Azure Machine Učení (ML) se může z těchto zdrojů připojit a číst, aby ingestovat data do kanálu NLP pro předběžné zpracování, trénování modelů a následné zpracování.

  3. Předběžné zpracování NLP zahrnuje několik kroků pro zpracování dat s účelem zobecnění textu. Jakmile se text rozdělí na věty, techniky NLP, jako je lemmatizace nebo stemming, umožňují tokenizaci jazyka v obecné podobě.

  4. Vzhledem k tomu, že modely NLP jsou již k dispozici předem vytrénované, doporučuje přístup pro transferové učení stahovat vkládání specifické pro jazyk a používat oborový standardní model pro klasifikaci textu s více třídami, jako jsou varianty BERT.

  5. Po zpracování NLP doporučujeme uložit model do registru modelů v Azure ML, aby bylo sledovat metriky modelu. Text lze navíc po zpracování zpracovat pomocí konkrétních obchodních pravidel, která jsou deterministicky definovaná na základě obchodních cílů. Microsoft doporučuje používat etické nástroje AI k detekci zkresleného jazyka, což zajišťuje spravedlivé trénování jazykového modelu.

  6. Model je možné nasadit prostřednictvím služby Azure Kubernetes Service při spuštění clusteru spravovaného kubernetes, ve kterém jsou kontejnery nasazené z imagí uložených ve službě Azure Container Registry. Koncové body je možné zpřístupnit front-endové aplikaci. Model je možné nasadit prostřednictvím služby Azure Kubernetes Service jako koncové body v reálném čase.

  7. Výsledky modelu je možné zapsat do možnosti úložiště v souboru nebo tabulkovém formátu a pak je správně indexovat pomocí služby Azure Cognitive Search. Model by se spustil jako dávkové odvozování a uložil výsledky do příslušného úložiště dat.

Komponenty

Podrobnosti scénáře

Sociální weby, fóra a další služby Q&A náročné na text spoléhají na označování obsahu, což umožňuje dobré indexování a vyhledávání uživatelů. Označování obsahu je ale často ponecháno na uvážení uživatelů. Protože uživatelé nemají seznamy běžně hledaných termínů nebo hluboké porozumění struktuře webu, často nesprávně označují obsah. Nesprávně označený obsah je obtížné nebo nemožné najít, když je později potřeba.

Potenciální případy použití

Pomocí zpracování přirozeného jazyka (NLP) s hloubkovým učením pro označování obsahu umožňuje škálovatelné řešení vytvářet značky napříč obsahem. Když uživatelé hledají obsah podle klíčových slov, tento proces klasifikace s více třídami rozšiřuje neoznačené obsah popisky, které vám umožní vyhledávat na podstatných částech textu, což zlepšuje procesy načítání informací. Nový příchozí obsah bude odpovídajícím způsobem označen spuštěním odvození NLP.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

  • Louis Li | Vedoucí zákaznický inženýr

Další kroky

Projděte si dokumentaci k produktu:

Vyzkoušejte tyto moduly Microsoft Learn:

Projděte si následující související články o architektuře: