Trace Id is missing
Pular para o conteúdo principal
Azure

O que são os grandes modelos de linguagem (LLMs)?

Obtenha uma visão geral de como os LLMs funcionam e explore como eles são usados para criar soluções baseadas em IA.

Significado de LLM

Os grandes modelos de linguagem (LLMs) são sistemas avançados de IA que entendem e geram linguagem natural ou texto semelhante ao humano, usando os dados em que foram treinados por meio de técnicas de aprendizado de máquina. Os LLMs podem gerar automaticamente conteúdo baseado em texto, que pode ser aplicado a uma infinidade de casos de uso em vários setores, resultando em maior eficiência e economia de custos para organizações em todo o mundo. 

Principais conclusões

  • Os LLMs são sistemas avançados de IA que podem entender e gerar linguagem natural.
  • Os LLMs dependem de arquiteturas de aprendizado profundo e técnicas de aprendizado de máquina para processar e incorporar informações provenientes de diferentes fontes de dados.
  • Os LLMs trazem grandes benefícios, como geração de linguagem e tradução, para um conjunto diversificado de campos.
  • Embora sejam inovadores, os LLMs enfrentam desafios que podem incluir requisitos computacionais, preocupações éticas e limitações na compreensão do contexto.
  • Apesar desses desafios, as organizações já estão usando a série de transformadores generativos pré-treinados (GPT) e representações de codificador bidirecional de transformadores (BERT) para tarefas como criação de conteúdo, chatbots, tradução e análise de sentimento.

Como funcionam os LLMs

Breve histórico dos LLMs

Os LLMs são um desenvolvimento moderno, mas o estudo do processamento de linguagem natural (NLP) data de 1950, quando Alan Turing lançou o teste de Turing para medir o comportamento inteligente de computadores. No teste, um avaliador humano fala com um computador usando um conjunto de perguntas e deve determinar se ele está falando com um computador ou com um humano.
Nas décadas de 1980 e 1990, o NLP se afastou dos experimentos lógicos em direção a uma abordagem mais controlada por dados. Com a capacidade de prever quais palavras em uma frase provavelmente virão em seguida com base nas palavras antes delas, modelos estatísticos de linguagem, como os n-gramas, abriram o caminho para uma nova era. No início dos anos 2010, as redes neurais mais recentes expandiram ainda mais as funcionalidades desses modelos de linguagem, permitindo que eles se movessem além de apenas determinar a ordem das palavras em direção a uma compreensão mais profunda da representação e do significado das palavras.
Esses novos desenvolvimentos culminaram em uma inovação em 2018, quando oito cientistas do Google publicaram "A atenção é tudo o que você precisa", um estudo de referência sobre aprendizado de máquina. Mais notavelmente, o documento introduziu a arquitetura do transformador, uma estrutura de rede neural inovadora que poderia gerenciar e entender informações textuais complexas com maior precisão e escala. Os transformadores agora são fundamentais para alguns dos LLMs mais poderosos de hoje, incluindo a série GPT, bem como o BERT.

Arquitetura básica

Os LLMs de última geração de hoje usam arquiteturas de aprendizado profundo, como transformadores e outras estruturas de rede neural profunda, para processar informações de diferentes fontes de dados. Os transformadores são especialmente eficazes no tratamento de dados sequenciais, como texto, o que permite que eles compreendam e gerem linguagem natural para tarefas como geração de linguagem e tradução. 
Os transformadores consistem em dois componentes principais: codificadores e decodificadores. Esses componentes geralmente trabalham juntos para processar e gerar sequências. O codificador usa dados textuais brutos e transforma essa entrada em elementos discretos que podem ser analisados pelo modelo. Em seguida, o decodificador processa esses dados por meio de uma série de camadas para produzir a saída final, que pode, por exemplo, consistir em uma frase gerada. Os transformadores também podem consistir apenas em codificadores ou apenas em decodificadores, dependendo do tipo de modelo ou tarefa.

Processo de treinamento

O processo de treinamento de LLMs consiste em três estágios principais: coleta de dados, treinamento do modelo e ajuste fino. 
Durante a fase de coleta de dados, o modelo é exposto a grandes volumes de dados textuais de uma ampla variedade de fontes, incluindo recursos da Internet, livros, artigos e bancos de dados. Os dados também são limpos, processados, padronizados e armazenados em um banco de dados NoSQL para que possam ser usados para treinar o modelo em padrões de linguagem, gramática, informações e contexto. 
Na fase de pré-treinamento, o modelo começa a criar uma compreensão da linguagem contida nos dados. Isso é feito por meio de tarefas não supervisionadas em larga escala em que o modelo aprende a prever o texto com base em seu contexto. Algumas técnicas incluem a modelagem autorregressiva, em que o modelo aprende a prever a próxima palavra em uma sequência, bem como a modelagem de linguagem mascarada, em que o modelo preenche palavras mascaradas para entender o contexto. 
Por fim, durante a fase de ajuste fino, o modelo é treinado ainda mais em um conjunto de dados menor e mais específico de tarefa. Esse processo refina o conhecimento do modelo e aprimora seu desempenho para tarefas específicas, como análise de sentimento ou tradução, para que ele possa ser usado para uma variedade de aplicativos.

Principais componentes

O modelo de transformador divide o texto bruto em unidades básicas menores de texto chamadas tokens. Os tokens podem consistir em palavras, partes de palavras ou até mesmo caracteres individuais, dependendo do caso de uso. Esses tokens são convertidos em representações numéricas densas que capturam a ordem, o significado semântico e o contexto. Essas representações, chamadas de incorporações, são passadas por uma pilha de camadas que consistem em duas sub-camadas: auto-atenção e redes neurais.
Embora ambas as camadas auxiliem na conversão de texto em um formato que o modelo possa processar efetivamente, o mecanismo de auto-atenção é um componente fundamental para a arquitetura do transformador. O mecanismo de auto-atenção é o que permite ao modelo se concentrar em diferentes partes de uma sequência de texto e avaliar dinamicamente o valor das informações em relação a outros tokens na sequência, independentemente de sua posição. Esse mecanismo também é o que dá aos LLMs a capacidade de capturar as dependências, as relações e as nuances contextuais complexas da linguagem escrita.

Benefícios e desafios

Benefícios

Os LLMs oferecem muitos benefícios que contribuíram para avanços significativos no trabalho e na sociedade.

Geração de linguagem e tradução aprimoradas

Como os LLMs podem entender e capturar as relações sutis entre as palavras, eles se destacam na produção de texto natural e semelhante ao humano, resultando em uma geração de linguagem aprimorada. Eles podem gerar respostas criativas e contextualmente apropriadas de forma fluente e consistente e podem fazer isso em vários formatos, incluindo romances.
Como eles podem contextualizar e encontrar sutilezas no significado, os LLMs treinados em dados multilíngues também podem executar traduções altamente precisas. Treinar um modelo em um conjunto específico de idiomas pode ajudá-los a ajustar sua capacidade de lidar com expressões idiomáticas, figuras de linguagem e outros recursos linguísticos complexos, resultando em traduções que soam orgânicas e fluentes.

Aplicação em campos diversificados

OS LLMs são ferramentas versáteis que têm muitas aplicações em vários campos, incluindo serviços de saúde, finanças e atendimento ao cliente.
 
Nos serviços de saúde, os LLMs podem: 
  • Analisar relatórios de pacientes para detectar possíveis doenças e fornecer diagnósticos preliminares. 
  • Gerar anotações sobre o paciente e resumos de alta, simplificando as tarefas administrativas. 
  • Sugerir planos de tratamento personalizados e assistência médica com base no histórico do paciente.  
  No setor financeiro, os LLMs podem:
  • Identificar atividades incomuns em dados financeiros que podem apontar para fraudes. 
  • Avaliar os riscos financeiros analisando tendências de mercado e relatórios financeiros. 
  • Sugerir recomendações personalizadas com base em seu histórico financeiro e metas pessoais.  
  No atendimento ao cliente, os LLMs podem:
  • Promover o suporte automatizado ao cliente por meio de agentes de conversação e chatbots. 
  • Expandir o escopo do serviço de uma organização fornecendo aos clientes suporte a qualquer hora do dia.
  • Ajudar a criar e atualizar a documentação gerando conteúdo com base nas perguntas mais comuns.  

Desafios

Os LLMs oferecem benefícios cruciais, mas também trazem desafios a serem considerados.

Requisitos computacionais e de energia

Embora os LLMs sejam poderosos, eles exigem quantidades substanciais de recursos computacionais, armazenamento e consumo de energia para operar. Durante o treinamento, os transformadores são dimensionados de acordo com o comprimento da sequência de entrada, portanto, quanto mais longo for o texto, mais memória você precisará. Essas demandas não só são caras, mas também emitem uma quantidade significativa de carbono no ambiente.
As plataformas de computação em nuvem podem dar suporte à carga computacional pesada dos LLMs, fornecendo uma infraestrutura flexível e escalonável, tornando mais acessível para as organizações começarem a desenvolver seus próprios modelos. Ainda assim, o impacto ambiental dos LLMs representa um desafio e indica a necessidade de técnicas e modelos com maior eficiência energética.

Preocupações éticas (por exemplo, vieses, desinformação)

Os LLMs são tão bons quanto os dados nos quais são treinados. Se houver algum viés discriminatório em relação a determinados grupos nos dados de treinamento, o modelo destacará essas posturas. Identificar e atenuar esses vieses para que o modelo permaneça justo é uma tarefa contínua, que requer monitoramento humano frequente e consistente.
Os LLMs também podem produzir informações convincentes, mas factualmente enganosas, resultando na propagação de informações incorretas, notícias falsas, emails de phishing e outras formas de conteúdo prejudicial. As diretrizes de moderação de conteúdo também podem variar entre regiões, o que dificulta lidar com elas. Como resultado, muitas organizações podem achar difícil criar e manter a confiança em seus usuários ao introduzir LLMs em suas operações de negócios.

Limitações na compreensão do contexto e das nuances

Embora os LLMs sejam excelentes na identificação de padrões em linguagem, eles ainda podem ter dificuldades com contextos novos ou desconhecidos que exigem uma compreensão mais sutil. Como resultado, os LLMs treinados em dados confidenciais proprietários podem acidentalmente gerar ou revelar informações confidenciais de seus dados de treinamento. 
Resolver esse problema pode representar um desafio significativo, especialmente porque o funcionamento interno dos LLMs geralmente não tem transparência. Isso pode contribuir para uma falta geral de responsabilização, bem como problemas relacionados à criação de confiança. 

Tipos e casos de uso

Série GPT

Desenvolvida pela primeira vez pela OpenAI em 2018, a série GPT introduziu o conceito básico de coleta de dados, pré-treinamento e ajuste fino para LLMs. O GPT-2, lançado em 2019, aumentou significativamente os recursos do modelo e melhorou sua capacidade de gerar uma linguagem mais contextualmente relevante. O GPT-3 aprimora a capacidade do modelo para lidar com tarefas e solicitações complexas. A iteração mais recente, o GPT-4, foi lançada em 2023 e fornece respostas ainda mais precisas e diferenciadas às solicitações, ao mesmo tempo que aborda alguns dos desafios anteriores do modelo, incluindo vieses. 
Hoje, o GPT continua a ampliar os limites do que é possível no campo da geração de linguagem natural. Cada modelo da série se baseia no anterior, impulsionando a inovação baseada em IA. 

BERT e suas variantes

Desenvolvido pela Google em 2018, o BERT é um modelo inovador que definiu o padrão para o que é possível com LLMs. Ao contrário da série GPT, que processa o texto de maneira unidirecional (da esquerda para a direita ou da direita para a esquerda), o BERT assume uma abordagem bidirecional. Um modelo bidirecional processa o contexto de cada palavra de ambas as direções simultaneamente, o que permite que o BERT execute a modelagem de linguagem mascarada, além de previsões de próxima frase. Pesquisadores também contribuíram para avanços adicionais no campo ajustando o BERT em tarefas como análise de sentimento, definindo novos parâmetros de comparação como resultado.  

Outros modelos notáveis

Desenvolvida pela Facebook AI em 2019, a abordagem Robustamente otimizada do BERT (RoBERTa) é uma variante do modelo BERT que expande a arquitetura de transformador bidirecional do BERT otimizando o processo de pré-treinamento. O RoBERTa é treinado com um conjunto de dados maior e por mais tempo. Ele também se concentra apenas na modelagem de linguagem mascarada. Isso permite que o RoBERTa demonstre sua capacidade robusta de capturar o contexto e as nuances. 
O Transformador de Transferência de Texto para Texto (T5), que foi desenvolvido pela Google Research, é outro LLM importante. Assim como os modelos tradicionais, o T5 baseia-se na arquitetura do transformador e usa codificadores e decodificadores para processar texto durante a fase de pré-treinamento. Ao contrário dos modelos tradicionais, o T5 trata as entradas e saídas como cadeias de caracteres de texto, simplificando a arquitetura e simplificando o processo de treinamento. Os modelos T5 são um modelo de uso geral adaptável que pode lidar com uma variedade versátil de tarefas.

Criação e resumo de conteúdo

Os LLMs podem gerar conteúdo envolvente, informativo e contextualmente apropriado em uma variedade de estilos e formatos. Quando solicitado, eles podem gerar artigos, relatórios, postagens de blog, emails, copy para marketing digital e até mesmo snippets de código.   
Quando se trata de resumos, os LLMs se destacam em sua capacidade exclusiva de extrair grandes volumes de texto em instantâneos concisos e precisos. Eles podem apresentar pontos-chave enquanto ainda mantêm o contexto original e o significado do conteúdo original. Pesquisadores já estão economizando tempo e aumentando a produtividade usando LLMs para resumir artigos de pesquisa, artigos, apresentações e anotações de reuniões.

Agentes de conversação e chatbots

Agentes de conversação e chatbots dependem dos recursos avançados de processamento de linguagem natural dos LLMs para gerar interações semelhantes às humanas. Eles interpretam as entradas do usuário e respondem de maneira fluente, natural e contextualmente relevante. Eles não só podem responder a perguntas, mas também podem se envolver em diálogos longos e complexos. 
Com a adição de chatbots e assistentes virtuais, as empresas agora podem fornecer suporte 24 horas aos seus clientes, expandindo sua disponibilidade de serviço, melhorando os tempos de resposta e aumentando a satisfação geral do cliente.

Tradução de idioma e análise de sentimento

Os LLMs que são amplamente treinados em conjuntos de dados multilíngues produzem traduções altamente precisas em vários idiomas. Ao contrário dos modelos tradicionais, os LLMs podem capturar as sutilezas e complexidades da linguagem, como expressões idiomáticas, resultando em traduções fluentes e contextualmente apropriadas. 
Os LLMs também são capazes de executar a análise de sentimento, que analisa o tom emocional implícito de um texto. Ao processar e interpretar as sutilezas da linguagem, os LLMs fornecem avaliações de sentimento mais precisas e perspicazes. Eles podem até mesmo detectar sentimentos mais sutis, como o sarcasmo. 

Recomendações personalizadas

Os LLMs podem analisar dados do usuário, incluindo o histórico e as preferências do usuário, e gerar recomendações personalizadas e sob medida que refletem os interesses e as necessidades do usuário, aprimorando a experiência geral do usuário. 
Essa funcionalidade é amplamente usada em comércio eletrônico, streaming de conteúdo e mídias sociais, em que a entrega de recomendações personalizadas impulsiona interações mais significativas. Os LLMs também podem ser usados como uma ferramenta educacional fornecendo experiências de aprendizado personalizado aos alunos.

O que vem a seguir

À medida que os pesquisadores continuam a melhorar a compreensão, a eficiência e a escalabilidade dos LLMs, espera-se que eles se tornem ainda mais adaptáveis ao lidar com tarefas de linguagem complexas. Com a adoção de LLMs em crescimento, cada vez mais organizações terão automação simplificada, maior personalização e melhores processos de tomada de decisão em geral. 
Os pesquisadores continuam explorando novas maneiras de lidar com vieses, um problema contínuo. Isso inclui algoritmos que lidam com vieses durante o treinamento, incorporando dados sintéticos que podem rebalancear conjuntos de dados para refletir a imparcialidade, ferramentas de explicação para entender melhor as decisões do modelo e parâmetros de comparação de detecção que ajudam a identificar e quantificar os vieses com mais precisão. 
Modelos multimodais, que processam dados de texto, imagem, áudio e vídeo, também estão se tornando cada vez mais sofisticados. Embora os LLMs processem dados textuais avaliando a sintaxe e o significado, os modelos multimodais analisam dados visuais por meio de técnicas de pesquisa visual computacional, bem como dados de áudio por meio do processamento temporal. Os modelos multimodais de formulário estão aprimorando as tecnologias de hoje e, ao mesmo tempo, abrindo caminho para as inovações de amanhã.
RECURSOS

Saiba mais sobre a IA do Azure

Uma pessoa sentada em frente a um computador
Recursos

Recursos para desenvolvedores estudantes

Aproveite os materiais e os programas de aprendizagem que ajudarão você a impulsionar sua carreira.
Um grupo de pessoas sentadas em um círculo
Recursos

Recursos do Azure

Acesse todos os recursos do Azure de que você precisa, incluindo tutoriais, white papers e exemplos de código.
Uma pessoa sorrindo para um computador
Recursos

Hub de aprendizagem do Azure

Desenvolva suas habilidades de IA com treinamento personalizado para a sua função ou tecnologia específica.
FAQ

Perguntas frequentes

  • A sigla LLM significa grande modelo de linguagem.
  • A IA é um campo amplo que abrange uma ampla variedade de usos além da linguagem. Ele inclui todas as tecnologias que visam replicar a inteligência humana. Como um tipo específico de modelo de IA, os LLMs são um subconjunto do panorama mais amplo da IA, que se concentra no processamento e na geração de texto em linguagem natural.
  • O NLP (processamento de idioma natural) refere-se ao campo de substituição focado no processamento de linguagem, enquanto os grandes modelos de linguagem (LLMs) são um tipo específico e avançado de modelo dentro do campo do NLP que usa técnicas de aprendizado profundo para lidar com tarefas de linguagem.
  • Transformador generativo pré-treinado (GPT) refere-se a uma série específica de grandes modelos de linguagem (LLMs) desenvolvidos pela OpenAI. Eles são um tipo de LLM, com um foco específico na geração de linguagem.