Principais conclusões
- Os pequenos modelos de linguagem (SLMs) são um subconjunto de modelos de linguagem que executam tarefas específicas com menos recursos do que os modelos maiores.
- Os SLMs são construídos com menos parâmetros e arquiteturas neurais mais simples do que os grandes modelos de linguagem (LLMs), permitindo uma preparação mais rápida, um consumo de energia reduzido e a implementação de modelos em dispositivos com recursos limitados.
- As potenciais limitações dos SLMs incluem uma capacidade limitada para idiomas complexos e uma precisão reduzida em tarefas complexas.
- As vantagens de utilizar SLMs incluem custos mais baixos e melhor desempenho em aplicações de domínio específico.
Como é que os SLMs funcionam?
Arquitetura básica
Os pequenos modelos de linguagem são construídos com versões simplificadas das redes neurais artificiais encontradas nos LLMs. Os modelos de linguagem têm um conjunto de parâmetros-essencialmente, definições ajustáveis-que utilizam para aprender com os dados e fazer predições. Os SLMs contêm muito menos parâmetros do que os LLMs, tornando-os mais rápidos e mais eficientes do que os modelos maiores. Enquanto os LLMs como o GPT-4 podem conter mais de um bilião de parâmetros, um SLM pode conter apenas algumas centenas de milhões. Uma arquitetura mais pequena permite que os SLMs executem tarefas de processamento de linguagem natural em aplicações específicas de um domínio, como chatbots de apoio ao cliente e assistentes virtuais, com muito menos potência computacional do que os LLMs.
Componentes principais
Os modelos de linguagem dividem o texto em incorporações de palavras - representações numéricas que capturam o significado das palavras - que são processadas por um transformador utilizado num codificador. Um descodificador produz, em seguida, uma resposta exclusiva ao texto.
Processo de preparação
A preparação de um modelo de linguagem envolve expô-lo a um grande conjunto de dados denominado corpus de texto. Os SLMs são preparados em conjuntos de dados que são mais pequenos e mais especializados do que os utilizados por LLMs relativamente pequenos. O conjunto de dados em que os SLMs são preparados é tipicamente específico para a sua função. Após a preparação de um modelo, este pode ser adaptado a várias tarefas específicas através de otimização.
As vantagens de utilizar pequenos modelos de linguagem
Requisitos computacionais mais baixos
Redução do tempo de preparação
Implementação simplificada em dispositivos edge
Consumo de energia reduzido
Precisão melhorada
Reduzir os custos
Desafios e limitações dos SLMs
Eis alguns desafios comuns associados aos SLMs:
Se os LLMs solicitam informações de uma biblioteca vasta e abrangente, os SLMs fazem-no numa pequena secção da biblioteca, ou talvez até de alguns livros altamente específicos. Isto limita o desempenho, a flexibilidade e a criatividade dos SLMs na realização de tarefas complexas que beneficiam dos parâmetros adicionais e do poder dos LLMs. Os SLM podem ter dificuldade em compreender as nuances, as subtilezas contextuais e as relações intrincadas da linguagem, o que pode levar a mal-entendidos ou a interpretações demasiado simplificadas do texto.
Os pequenos modelos de linguagem enfrentam muitas vezes desafios para manter a precisão quando têm de resolver problemas complexos ou tomar decisões. O seu poder de processamento limitado e os conjuntos de dados de preparação mais pequenos podem resultar numa precisão reduzida e num aumento das taxas de erro em tarefas que envolvem raciocínios multifacetados, padrões de dados intrincados ou níveis elevados de abstração. Consequentemente, podem não ser a melhor escolha para aplicações que procuram uma elevada precisão, como a investigação científica ou o diagnóstico médico.
O desempenho global dos pequenos modelos de linguagem é frequentemente limitado pelo seu tamanho e eficiência computacional. Embora sejam vantajosos para soluções rápidas e económicas, podem não apresentar o desempenho robusto procurado para tarefas exigentes.
Estas e outras limitações tornam os SLM menos eficazes em aplicações que requerem aprendizagem profunda. Os programadores devem considerar as limitações dos SLMs em relação às suas necessidades específicas.
Tipos de pequenos modelos de linguagem
Versões destiladas de modelos maiores
Modelos específicos de tarefas
Modelos ligeiros
Casos de utilização de SLMs
Aplicações no dispositivo
Processamento de linguagem em tempo real
Definições com poucos recursos
Tendências e avanços emergentes em SLM
Espera-se que a investigação em curso produza modelos mais eficientes com técnicas de compressão melhoradas. Estes avanços irão aumentar ainda mais as capacidades dos SLMs, permitindo-lhes lidar com tarefas mais complexas, mantendo a sua dimensão mais pequena. Por exemplo, a versão mais recente do SLM Phi-3 tem agora capacidades de imagem digitalizada.
À medida que a computação edge se torna mais preponderante, os SLMs encontrarão aplicações numa gama mais vasta de campos, respondendo a necessidades diversas e expandindo o seu alcance. A capacidade de processar dados localmente em dispositivos edge abre novas possibilidades para soluções de IA em tempo real e sensíveis ao contexto.
Estão a ser desenvolvidos esforços para melhorar a precisão e lidar com diversos idiomas. Ao abordar estas limitações, os investigadores pretendem melhorar o desempenho dos SLMs em diferentes idiomas e contextos, tornando-os mais versáteis e capazes.
A aprendizagem federada e os modelos híbridos estão a preparar o caminho para SLMs mais robustos e versáteis. A aprendizagem federada permite que os modelos sejam preparados em vários dispositivos sem partilhar dados confidenciais, aumentando a privacidade e a segurança. Os modelos híbridos, que combinam os pontos fortes de diferentes arquiteturas, oferecem novas oportunidades para otimizar o desempenho e a eficiência.
Estas tendências sublinham o impacto crescente dos pequenos modelos de linguagem para tornar a IA mais acessível, eficaz e adaptável a uma vasta gama de aplicações. À medida que continuam a evoluir, os SLMs tornar-se-ão ferramentas essenciais, impulsionando a inovação em IA em diferentes ambientes e indústrias.
Aprenda novas competências e explore a mais recente tecnologia para programadores.
Inicie a sua carreira tecnológica
Explore o centro de recursos do Azure
Centro de aprendizagem do Azure AI
FAQ
FAQ
-
Os SLMs foram concebidos para tarefas que exigem menos recursos computacionais. Os LLMs oferecem maiores capacidades, mas exigem muito mais poder de processamento. Os SLMs são ideais para computação edge e ambientes com poucos recursos, ao passo que os LLMs se destacam no processamento de tarefas complexas.
-
Os pequenos modelos de linguagem são ideais para tarefas que requerem eficiência, como a execução de aplicações em ambientes com poucos recursos ou onde as respostas rápidas são cruciais. Também são úteis para tarefas específicas que não requerem as capacidades alargadas de um grande modelo de linguagem.
-
As vantagens de utilizar um SLM em vez de um LLM incluem requisitos computacionais mais baixos, tempos de resposta mais rápidos e adequação para implementação em dispositivos edge. Os SLMs são mais eficientes e económicos para tarefas que não requerem as capacidades abrangentes de um grande modelo de linguagem. Isto torna-os ideais para aplicações em tempo real e ambientes com recursos limitados.