Trace Id is missing
Passa a contenuti principali
Azure

Che cosa sono i piccoli modelli linguistici?

Scopri come usare piccoli modelli linguistici per innovare in modo più rapido ed efficiente con l'intelligenza artificiale. 

Panoramica dei piccoli modelli linguistici (SLM)

I piccoli modelli linguistici sono modelli di calcolo in grado di rispondere e generare il linguaggio naturale. I piccoli modelli linguistici vengono sottoposti a training per eseguire attività specifiche usando meno risorse rispetto ai modelli più grandi.

Risultati principali

  • I piccoli modelli linguistici sono un sottoinsieme di modelli linguistici che eseguono attività specifiche usando meno risorse rispetto ai modelli più grandi.
  • I piccoli modelli linguistici sono creati con un minor numero di parametri e architetture neurali più semplici rispetto ai modelli più grandi (LLM), consentendo un training più rapido, un consumo di energia ridotto e la distribuzione nei dispositivi con risorse limitate.
  • Le potenziali limitazioni dei piccoli modelli linguistici includono una capacità limitata per un linguaggio complesso e una minore accuratezza nelle attività complesse.
  • I vantaggi dell'uso dei piccoli modelli linguistici includono costi inferiori e prestazioni migliorate nelle applicazioni specifiche del dominio.

Come funzionano i piccoli modelli linguistici?

Un piccolo modello linguistico è un modello di calcolo in grado di rispondere e generare il linguaggio naturale. I piccoli modelli linguistici sono progettati per eseguire alcune delle stesse attività di elaborazione del linguaggio naturale dei loro più grandi e noti modelli linguistici di grandi dimensioni (LLM), ma su scala ridotta. Sono stati realizzati con un minor numero di parametri e architetture di rete neurale più semplici, che consentono loro di operare con meno potenza di calcolo, fornendo al tempo stesso funzionalità importanti in applicazioni specializzate.

Architettura di base

I piccoli modelli linguistici vengono realizzati usando versioni semplificate delle reti neurali artificiali disponibili nelle reti LLM. I modelli linguistici hanno un set di parametri, essenzialmente impostazioni regolabili, che usano per apprendere dai dati e fare previsioni . I piccoli modelli linguistici contengono un numero di parametri molto inferiore rispetto ai LLM, caratteristica che li rende più veloci ed efficienti rispetto ai modelli più grandi. Se LLM e GPT-4 possono contenere più di un trilione di parametri, un SLM ne può contenere solo poche centinaia di milioni. Un'architettura più piccola consente ai SLM di eseguire attività di elaborazione del linguaggio naturale in applicazioni specifiche del dominio, come chatbot del servizio clienti e assistenti virtuali, usando una potenza di calcolo molto inferiore rispetto ai LLM.

Componenti chiave

I modelli linguistici suddividono il testo in incorporamenti di parole, rappresentazioni numeriche che colgono il significato delle parole, elaborate da un trasformatore usando un codificatore. Un decodificatore produce quindi una risposta univoca al testo.

Processo di training

Il training di un modello linguistico comporta l'esposizione a un set di dati di grandi dimensioni denominato corpo di testo. I SML vengono sottoposti a training su set di dati più piccoli e più specializzati rispetto a quelli usati anche da LLM relativamente piccoli. Il training dei piccoli modelli linguistici del set di dati è in genere specifico della relativa funzione. Dopo aver eseguito il training di un modello, è possibile adattarlo a varie attività specifiche tramite l'ottimizzazione.
VANTAGGI

Vantaggi dell'uso di piccoli modelli linguistici

I SLM offrono numerosi vantaggi rispetto ai LLM:

Requisiti di calcolo inferiori

I piccoli modelli linguistici richiedono una potenza di calcolo inferiore, per cui sono ideali per ambienti con risorse limitate. Questa efficienza consente l'uso di questi modelli su dispositivi più piccoli.

Tempo di training ridotto

Il training dei piccoli modelli è più veloce rispetto a quello dei più grandi, consentendo iterazioni e sperimentazione più rapide. La riduzione dei tempi di training accelera il processo di sviluppo, per facilitare la distribuzione e il test di nuove applicazioni.

Distribuzione semplificata nei dispositivi perimetrali

Le dimensioni compatte e i requisiti di risorse inferiori rendono i piccoli modelli linguistici ideali per i dispositivi perimetrali. I piccoli modelli linguistici possono essere eseguiti in modo efficiente senza la necessità di una connettività cloud costante, con miglioramento delle prestazioni e dell'affidabilità grazie all'elaborazione dei dati in locale.

Riduzione del consumo energetico

I piccoli modelli linguistici usano meno energia. Questo li rende più descrittivi ed economicamente convenienti rispetto ai LLM.

Miglioramento della precisione

Poiché il training è incentrato su attività specifiche, i piccoli modelli linguistici possono fornire risposte e informazioni più accurate all'interno delle aree in cui sono stati sottoposti a training. La loro natura specializzata consente un'ottimizzazione che spesso supera le prestazioni dei modelli più grandi nelle applicazioni specifiche del dominio.

Riduzione dei costi

La riduzione dei requisiti di calcolo, del tempo di training e del consumo energetico dei piccoli modelli linguistici comporta costi complessivi inferiori. Questo tipo di convenienza li rende accessibili a un'ampia gamma di persone e organizzazioni.

Problemi e limitazioni dei SLM

I piccoli modelli linguistici sono progettati per essere efficienti e leggeri. Questo modello può portare a limitazioni nella capacità di elaborare e comprendere un linguaggio complesso, riducendo potenzialmente l'accuratezza e le prestazioni nella gestione di attività complesse.

Ecco alcune sfide comuni associate ai SLM:
capacità limitata per la comprensione del linguaggio complesso:
Se i LLM attingono informazioni da una libreria vasta e onnicomprensiva, i SLM le estraggono da una piccola sezione della libreria o anche da alcuni libri altamente specifici. Ciò limita le prestazioni, la flessibilità e la creatività dei piccoli modelli linguistici nel completamento di attività complesse che traggono vantaggio dai parametri aggiuntivi e dalla potenza di LLM. I SLM possono avere difficoltà a comprendere sfumature, sottigliezze contestuali e relazioni complesse all'interno del linguaggio, il che può causare ambiguità o interpretazioni troppo semplici del testo.
Possibilità di accuratezza ridotta per attività complesse:
I piccoli modelli linguistici spesso incontrano difficoltà nel mantenere l'accuratezza quando sono chiamati a risolvere problemi complessi o a prendere decisioni. La capacità di elaborazione limitata e i set di dati di training più piccoli possono ridurre la precisione e aumentare frequenza degli errori per le attività che implicano ragionamenti poliedrici, modelli di dati complessi o livelli elevati di astrazione. Di conseguenza, non sono a volta la scelta migliore per le applicazioni che richiedono un'accuratezza elevata, ad esempio la ricerca scientifica o la diagnostica medica.
Prestazioni limitate:
Le prestazioni complessive dei piccoli modelli linguistici sono spesso limitate dalle dimensioni e dall'efficienza di calcolo. Sebbene siano vantaggiosi per soluzioni rapide ed economicamente convenienti, potrebbero non fornire le solide prestazioni richieste per le attività più impegnative.

Queste e altre limitazioni rendono i piccoli modelli linguistici meno efficaci nelle applicazioni che richiedono deep learning. Gli sviluppatori devono considerare le limitazioni dei piccoli modelli linguistici in base alle proprie esigenze specifiche.

Tipi di piccoli modelli linguistici

I piccoli modelli linguistici possono essere suddivisi in tre tipi principali: versioni di modelli più grandi, modelli specifici delle attività e modelli leggeri.

Versioni distillate di modelli più grandi

In questo approccio, un modello di docente di grandi dimensioni viene utilizzato per addestrare un modello di studente più piccolo, che impara a imitare il comportamento dell'insegnante. Il modello di studente mantiene gran parte delle conoscenze del docente, ma richiede meno parametri e meno potenza di calcolo. La distillazione consente una distribuzione efficiente dei modelli linguistici in ambienti in cui le risorse sono limitate, mantenendo al tempo stesso un livello elevato di prestazioni. Uno dei più diffusi SLM distillati è DistilBERT, che offre prestazioni analoghe a quelle della controparte più grande, BERT, ma con dimensioni ridotte e tempi di inferenza più rapidi.

Modelli specifici delle attività

I modelli specifici delle attività sono piccoli modelli linguistici personalizzati per attività o domini specifici. A differenza dei modelli per utilizzo generico come ChatGPT, questi modelli sono ottimizzati per eccellere in applicazioni specifiche, come l'analisi del sentiment, la traduzione o la risposta alle domande. Concentrando l'attenzione su un set limitato di attività, i modelli specifici delle attività possono talvolta ottenere un'accuratezza e un'efficienza superiori rispetto ai modelli più generalizzati. Sono particolarmente utili quando sono necessarie prestazioni elevate per una determinata attività e l'ambito del modello può essere limitato per ottimizzare l'utilizzo delle risorse.

Modelli leggeri

I modelli leggeri vengono creati con un minor numero di parametri e architetture ottimizzate per ridurre al minimo le richieste di calcolo, garantendo al tempo stesso prestazioni elevate. Vengono spesso usati in applicazioni per dispositivi mobili, dispositivi perimetrali o altri scenari in cui le risorse di calcolo sono limitate.

Casi d'uso di SLM

I piccoli modelli linguistici sono ottimizzati per applicazioni specifiche, per cui sono ideali per ambienti con risorse limitate o esigenze specifiche. Alcuni casi d'uso importanti per i SLM sono le applicazioni su dispositivi, l'elaborazione del linguaggio in tempo reale e le configurazioni con poche risorse.

Applicazioni su dispositivo

I SLM sono particolarmente adatti per le applicazioni su dispositivo, in cui le risorse di calcolo sono limitate e la privacy è un problema. Applicati direttamente su dispositivi come smartphone, tablet e altoparlanti intelligenti, questi modelli possono eseguire compiti come il riconoscimento vocale, la predizione del testo e la traduzione linguistica senza dipendere dalla costante connettività a Internet e dai servizi di cloud computing. Ciò migliora la privacy degli utenti mantenendo l'elaborazione dei dati locale nonché la velocità di risposta delle applicazioni. Ad esempio, l'input di testo predittivo, gli assistenti virtuali e i servizi di traduzione offline.

Elaborazione del linguaggio in tempo reale

Negli scenari in cui i tempi di risposta rapidi sono fondamentali, i piccoli modelli linguistici offrono vantaggi significativi grazie al tempo di risposta rapido. L'elaborazione del linguaggio in tempo reale è essenziale in applicazioni come chatbot, automazione del servizio clienti e servizi di trascrizione live. Questi modelli possono gestire le attività del linguaggio con latenza minima, fornendo agli utenti feedback immediato e interazioni senza problemi.

Configurazioni con poche risorse

I SML sono particolarmente utili nelle configurazioni con poche risorse,in cui la potenza di calcolo e la larghezza di banda sono limitate. Possono essere distribuiti a prezzi convenienti, che li rende accessibili a più persone e organizzazioni.

Tendenze e miglioramenti per SLM emergenti

I piccoli modelli linguistici rappresentano un miglioramento significativo nel campo dell'elaborazione del linguaggio naturale e di Machine Learning. La loro capacità di comprendere e generare testo simile a quello umano ha aperto nuove possibilità per varie applicazioni, dal servizio clienti alla creazione di contenuti. A mano a mano che i modelli linguistici continuano a evolversi, i SLM diventano più sofisticati e offrono più funzionalità con maggiore efficienza. Ecco alcune tendenze e miglioramenti per SLM emergenti:
Miglioramenti nell'efficienza del modello e nelle tecniche di compressione:
Si prevede che le ricerche in corso produrranno modelli più efficienti con tecniche di compressione migliorate. Questi miglioramenti perfezioneranno ulteriormente le funzionalità dei SLM, consentendo loro di affrontare attività più complesse mantenendo al tempo stesso dimensioni inferiori. Ad esempio, la versione più recente di Phi-3 SLM include ora funzionalità di visione artificiale.
Applicazioni più ampie a mano a mano che cresce edge computing:
a mano a mano che edge computing si diffonde, i SML troveranno applicazione in una gamma più ampia di campi, risolvendo esigenze diverse ed espandendone la portata. La possibilità di elaborare i dati in locale nei dispositivi perimetrali offre nuove possibilità per soluzioni di intelligenza artificiale in tempo reale e compatibili con il contesto.
Risoluzione delle limitazioni correnti
Sono in corso sforzi per migliorare l'accuratezza e gestire lingue diverse. Risolvendo queste limitazioni, i ricercatori hanno l'obiettivo di migliorare le prestazioni dei SML in lingue e contesti diversi, rendendoli più versatili e idonei. 
Modelli ibridi e apprendimento federato:
L'apprendimento federato e i modelli ibridi stanno aprendo la strada a SLM più affidabili e versatili. L'apprendimento federato consente di eseguire il training dei modelli su più dispositivi senza condividere dati sensibili, migliorando la privacy e la sicurezza. I modelli ibridi, che combinano i punti di forza di architetture diverse, offrono nuove opportunità per ottimizzare le prestazioni e l'efficienza.

Queste tendenze sottolineano l'impatto crescente dei piccoli modelli linguistici nel rendere l'intelligenza artificiale più accessibile, efficace e adattabile a un'ampia gamma di applicazioni. A mano a mano che continuano a evolversi, i piccoli modelli linguistici diventeranno strumenti essenziali per favorire l'innovazione nell'intelligenza artificiale in ambienti e settori diversi. 
RISORSE  

Scopri nuove competenze ed esplora la tecnologia più recente per sviluppatori. 

Studenti sviluppatori

Avvia la tua carriera nel settore tecnologico

Ottieni le competenze necessarie per favorire la tua carriera nel settore tecnologico e influire positivamente sul mondo.
Risorse di Azure

Esplora il Centro risorse di Azure

Esplora i programmi di formazione e certificazione di Azure, Domande & risposte, eventi, video e altre risorse per gli sviluppatori.
Microsoft Learn

Hub di apprendimento IA di Azure

Acquisisci le competenze necessarie per accelerare l'implementazione dell'intelligenza artificiale su larga scala.

Domande frequenti

  • I SLM sono progettati per le attività che richiedono meno risorse di calcolo. I LLM offrono funzionalità maggiori, ma richiedono una maggiore potenza di elaborazione. I SLM sono ideali per ambienti edge computing e ambienti con poche risorse, mentre i LLM eccellono nella gestione di attività complesse.

  • I piccoli modelli linguistici sono ideali per attività che richiedono efficienza, ad esempio l'esecuzione di applicazioni in ambienti con poche risorse o in cui le risposte rapide sono cruciali. Sono utili anche per attività specifiche che non richiedono le funzionalità estese di un modello linguistico di grandi dimensioni.

  • I vantaggi dell'uso di un SLM rispetto a un LLM includono requisiti di calcolo inferiori, tempi di risposta più rapidi e idoneità per la distribuzione nei dispositivi perimetrali. I SLM sono più efficienti e convenienti per le attività che non richiedono le funzionalità estese di un modello linguistico di grandi dimensioni. Per questo sono ideali per applicazioni e ambienti in tempo reale con risorse limitate.