Suggerire tag di contenuto con NLP con Deep Learning

Registro Azure Container
Ricerca di intelligenza artificiale di Azure
Servizio Azure Kubernetes
Azure Machine Learning

Idee per le soluzioni

Questo articolo è un'idea di soluzione. Per espandere il contenuto con altre informazioni, ad esempio potenziali casi d'uso, servizi alternativi, considerazioni sull'implementazione o indicazioni sui prezzi, inviare commenti e suggerimenti su GitHub.

Questo articolo descrive come usare l'intelligenza artificiale Microsoft per migliorare l'accuratezza dell'assegnazione di tag ai contenuti del sito Web combinando l'apprendimento avanzato e l'elaborazione del linguaggio naturale (NLP) con i dati in termini di ricerca specifici del sito.

Architettura

Diagramma dell'architettura: panoramica dell'uso di Azure Machine Learning per suggerire tag di contenuto per i siti Web.

Scaricare un file di Visio di questa architettura.

Flusso di dati

  1. I dati vengono archiviati in vari formati, a seconda dell'origine originale. I dati possono essere archiviati come file in Azure Data Lake Archiviazione o in formato tabulare in Azure Synapse o database SQL di Azure.

  2. Azure Machine Learning (ML) può connettersi e leggere da tali origini per inserire i dati nella pipeline NLP per la pre-elaborazione, il training del modello e la post-elaborazione.

  3. La pre-elaborazione NLP include diversi passaggi per utilizzare i dati, allo scopo della generalizzazione del testo. Una volta suddiviso il testo in frasi, tecniche di prevenzione della perdita di dati, ad esempio lemmatizzazione o stemming, consentono di tokenizzare la lingua in un formato generale.

  4. Poiché i modelli NLP sono già disponibili in precedenza, l'approccio di apprendimento per il trasferimento consiglia di scaricare incorporamenti specifici del linguaggio e di usare un modello standard del settore, per la classificazione di testo multiclasse, ad esempio le varianti di BERT.

  5. La post-elaborazione NLP consiglia di archiviare il modello in un registro di modelli in Azure ML per tenere traccia delle metriche del modello. Inoltre, il testo può essere post-elaborato con regole business specifiche definite in modo deterministico, in base agli obiettivi aziendali. Microsoft consiglia di usare strumenti di intelligenza artificiale etici per rilevare un linguaggio distorto, che garantisce un training equo di un modello linguistico.

  6. Il modello può essere distribuito tramite servizio Azure Kubernetes, durante l'esecuzione di un cluster gestito da Kubernetes in cui i contenitori vengono distribuiti da immagini archiviate in Registro Azure Container. Gli endpoint possono essere resi disponibili per un'applicazione front-end. Il modello può essere distribuito tramite servizio Azure Kubernetes come endpoint in tempo reale.

  7. I risultati del modello possono essere scritti in un'opzione di archiviazione in formato file o tabulare, quindi indicizzati correttamente da Ricerca cognitiva di Azure. Il modello viene eseguito come inferenza batch e archivia i risultati nel rispettivo archivio dati.

Componenti

Dettagli dello scenario

I siti di social networking, i forum e altri servizi di domande e risposte pesanti per il testo si basano principalmente sull'assegnazione di tag ai contenuti, che consentono una buona indicizzazione e la ricerca degli utenti. Spesso, tuttavia, l'assegnazione di tag al contenuto viene lasciata alla discrezione degli utenti. Poiché gli utenti non hanno elenchi di termini di ricerca comune o una conoscenza approfondita della struttura del sito, spesso non etichettano il contenuto. Il contenuto etichettato in modo non crittografato è difficile o impossibile da trovare quando è necessario in un secondo momento.

Potenziali casi d'uso

Usando l'elaborazione del linguaggio naturale (NLP) con Deep Learning per l'assegnazione di tag ai contenuti, è possibile abilitare una soluzione scalabile per creare tag in tutto il contenuto. Quando gli utenti cercano contenuto per parole chiave, questo processo di classificazione multiclasse arricchisce il contenuto senza tag con etichette che consentono di cercare parti sostanziali di testo, migliorando così i processi di recupero delle informazioni. Il nuovo contenuto in ingresso verrà contrassegnato in modo appropriato eseguendo l'inferenza NLP.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Passaggi successivi

Vedere la documentazione del prodotto:

Provare questi moduli di Microsoft Learn:

Vedere gli articoli relativi all'architettura seguenti: