Sugerir marcas de conteúdo com NLP usando aprendizado profundo

Registro de Contêiner do Azure
Azure AI Search
AKS (Serviço de Kubernetes do Azure)
Azure Machine Learning

Ideias de solução

Esse artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou diretrizes de preços, informe-nos fornecendo comentários do GitHub.

Esse artigo descreve como você pode usar a IA da Microsoft para melhorar a precisão da marcação de conteúdo do site combinando o NLP (aprendizado profundo e o processamento de linguagem natural) com dados em termos de pesquisa específicos do site.

Arquitetura

Diagrama de arquitetura: visão geral do uso do Aprendizado de Máquina do Azure para ajudar a sugerir marcas de conteúdo para sites.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

  1. Os dados são armazenados em vários formatos, dependendo da fonte original. Os dados podem ser armazenados como arquivos no Azure Data Lake Storage ou em formato tabular no Azure Synapse ou no Banco de Dados SQL do Azure.

  2. O Azure Machine Learning (ML) pode se conectar e ler dessas fontes para ingerir os dados no pipeline NLP para pré-processamento, treinamento de modelo e pós-processamento.

  3. O pré-processamento de NLP inclui várias etapas para consumir dados, com a finalidade de generalização de texto. Depois que o texto é dividido em frases, as técnicas de NLP, como lematização ou lematização, permitem que o idioma seja transformado em token de forma geral.

  4. Como os modelos NLP já estão disponíveis previamente treinados, a abordagem de aprendizado de transferência recomenda que você baixe inserções específicas do idioma e use um modelo padrão do setor para classificação de texto de várias classes, como variações de BERT.

  5. O pós-processamento do NLP recomenda armazenar o modelo em um registro de modelo no Azure ML para acompanhar as métricas do modelo. Além disso, o texto pode ser pós-processado com regras de negócios específicas definidas deterministicamente, com base nas metas de negócios. A Microsoft recomenda usar ferramentas de IA éticas para detectar linguagem tendenciosa, o que garante o treinamento justo de um modelo de linguagem.

  6. O modelo pode ser implantado por meio do Serviço de Kubernetes do Azure, enquanto executa um cluster gerenciado pelo Kubernetes em que os contêineres são implantados a partir de imagens armazenadas no Registro de Contêiner do Azure. Os pontos de extremidade podem ser disponibilizados para um aplicativo front-end. O modelo pode ser implantado por meio do Serviço de Kubernetes do Azure como pontos de extremidade em tempo real.

  7. Os resultados do modelo podem ser gravados em uma opção de armazenamento no formato de arquivo ou de tabela e indexados corretamente pelo Azure Cognitive Search. O modelo é executado como inferência em lote e armazena os resultados no respectivo armazenamento de dados.

Componentes

Detalhes do cenário

Sites sociais, fóruns e outros serviços de P&R pesados de texto dependem fortemente da marcação de conteúdo, o que permite uma boa indexação e pesquisa de usuários. Muitas vezes, no entanto, a marcação de conteúdo é deixada a critério dos usuários. Como os usuários não têm listas de termos comumente pesquisados ou uma compreensão profunda da estrutura do site, eles frequentemente rotulam incorretamente o conteúdo. É difícil, ou impossível, encontrar conteúdo rotulado incorretamente quando ele é necessário mais tarde.

Possíveis casos de uso

Usando o processamento de linguagem natural (NLP) com aprendizado profundo para marcação de conteúdo, você habilita uma solução escalonável para criar marcas em todo o conteúdo. À medida que os usuários pesquisam conteúdo por palavras-chave, esse processo de classificação de várias classes enriquece o conteúdo não registrado com rótulos que permitirão que você pesquise partes substanciais do texto, o que melhora os processos de recuperação de informações. O novo conteúdo de entrada será marcado adequadamente executando a inferência NLP.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

  • Louis Li | Engenheiro sênior de clientes

Próximas etapas

Leia a documentação do produto:

Experimente esses módulos do Microsoft Learn:

Consulte os seguintes artigos relacionados sobre arquitetura: