Hvad er SLM'er (små sprogmodeller)?

Få mere at vide om, hvordan du bruger små sprogmodeller til at innovere hurtigere og mere effektivt med kunstig intelligens.

Opdag og udrul modeller med kunstig intelligens Kom i gang med Azure

En oversigt over SML'er (små sprogmodeller)

SLM'er (små sprogmodeller) er beregningsmodeller, der kan reagere på og generere naturligt sprog. SLM'er er trænet til at udføre specifikke opgaver ved at bruge færre ressourcer end større modeller.

Vigtigste budskaber

SLM'er (små sprogmodeller) er et undersæt af sprogmodeller, der udfører bestemte opgaver ved hjælp af færre ressourcer end større modeller.
SLM'er er bygget med færre parametre og enklere neurale arkitekturer end LLM'er (store sprogmodeller), hvilket giver mulighed for hurtigere oplæring, reduceret energiforbrug og udrulning på enheder med begrænsede ressourcer.
Potentielle begrænsninger ved SLM'er omfatter en begrænset kapacitet til komplekst sprog og reduceret nøjagtighed i komplekse opgaver.
Fordelene ved at bruge SLM'er omfatter lavere omkostninger og forbedret ydeevne i domænespecifikke anvendelser.

Hvordan fungerer SLM'er?

En SLM (lille sprogmodel) er en beregningsmodel, der kan reagere på og generere naturligt sprog. SLM'er er designet til at udføre nogle af de samme opgaver til naturlig sprogbehandling som deres større, bedre kendte modstykker – LLM'er (store sprogmodeller), men i mindre skala. De er bygget med færre parametre og enklere neurale netværksarkitekturer, hvilket giver dem mulighed for at arbejde med mindre beregningskraft, samtidig med at de stadig leverer værdifuld funktionalitet i specialiserede anvendelser.

Grundlæggende arkitektur

Små sprogmodeller bygges ved hjælp af forenklede versioner af de kunstige neurale netværk, der findes i LLM'er. Sprogmodeller har i bund og grund et sæt parametre eller justerbare indstillinger, som de bruger til at lære af data og foretage forudsigelser. SLM'er indeholder langt færre parametre end LLM'er, hvilket gør dem hurtigere og mere effektive end større modeller. Hvor LLM'er som GPT-4 kan indeholde mere end en billion parametre, indeholder en SLM muligvis kun nogle få hundrede millioner. Mindre arkitektur gør det muligt for SLM'er at udføre opgaver til behandling af naturligt sprog i domænespecifikke anvendelser, f.eks. chatrobotter til kundeservice og virtuelle assistenter, ved hjælp af meget mindre beregningskapacitet end LLM'er.

Nøglekomponenter

Sprogmodeller opdeler tekst i ordindlejringer – numeriske repræsentationer, der indfanger ordenes betydning – som behandles af en transformer ved hjælp af en koder. En dekoder giver derefter et entydigt svar på teksten.

Oplæringsproces

Oplæring af en sprogmodel omfatter at eksponere den for et stort datasæt kaldet et tekstkorpus. SLM'er oplæres i datasæt, der er mindre og mere specialiserede end dem, der bruges af selv relativt små LLM'er. Datasættet, som SLM'er træner på, er typisk specifikt for deres funktion. Når en model er oplært, kan den tilpasses til forskellige specifikke opgaver via finjustering.

FORDELE

Fordelene ved at bruge små sprogmodeller

SLM'er tilbyder adskillige fordele i forhold til LLM'er:

Lavere beregningskrav

Små sprogmodeller kræver mindre beregningskraft, hvilket gør dem ideelle til miljøer med begrænsede ressourcer. Denne effektivitet gør det muligt at bruge disse modeller på mindre enheder.

Reduceret oplæringstid

Små modeller oplæres hurtigere end større modeller, hvilket giver mulighed for hurtigere gentagelser og eksperimenter. Reduceret oplæringstid sætter skub i udviklingsprocessen for at lette hurtigere udrulning og test af nye anvendelser.

Forenklet udrulning på grænseenheder

Deres kompakte størrelse og lavere ressourcekrav gør SLM'er ideelle til grænseenheder. SLM'er kan køre effektivt uden at have brug for konstante cloudforbindelser, hvilket forbedrer ydeevnen og pålideligheden ved at behandle data lokalt.

Reduceret energiforbrug

SLM'er bruger mindre energi. Det gør dem mere miljøvenlige og omkostningseffektive end LLM'er.

Forbedret nøjagtighed

Da deres træning er fokuseret på bestemte opgaver, kan SLM'er give mere nøjagtige svar og oplysninger inden for de områder, de er oplært i. Deres specialiserede karakter giver mulighed for finjustering, der ofte udkonkurrerer større modeller i domænespecifikke anvendelser.

Lavere omkostninger

De reducerede beregningskrav, oplæringstiden og energiforbruget for SLM'er resulterer i lavere samlede omkostninger. Denne overkommelige pris gør dem tilgængelige for en bredere vifte af mennesker og organisationer.

Udfordringer og begrænsninger ved SLM'er

Små sprogmodeller er designet til at være effektive og lette. Dette design kan føre til begrænsninger i deres evne til at behandle og forstå komplekse sprog, hvilket kan reducere deres nøjagtighed og ydeevne i forbindelse med håndtering af komplicerede opgaver.

Her er nogle almindelige udfordringer, der er knyttet til SLM'er:

Begrænset kapacitet til kompleks sprogforståelse:
Hvis LLM'er henter oplysninger fra et omfattende, altomfattende bibliotek, trækker SLM'er fra en lille del af biblioteket eller måske endda nogle få meget specifikke bøger. Dette begrænser ydeevnen, fleksibiliteten og kreativiteten i SLM'er i forbindelse med udførelse af komplekse opgaver, der drager fordel af de ekstra parametre og styrken ved LLM'er. SLM'er kan have svært ved at forstå nuancer, kontekstuelle finesser og indviklede relationer i sproget, hvilket kan føre til misforståelser eller forsimplede fortolkninger af tekst.

Mulighed for reduceret nøjagtighed på komplekse opgaver:
Små sprogmodeller står ofte over for udfordringer med at opretholde nøjagtigheden, når de har brug for komplekse scenarier til problemløsning eller beslutningstagning. Deres begrænsede processorkraft og mindre datasæt til oplæring kan resultere i reduceret præcision og øgede fejlprocenter på opgaver, der involverer mangefacetterede ræsonnementer, indviklede datamønstre eller høje abstraktionsniveauer. De er derfor muligvis ikke det bedste valg til anvendelser, der kræver høj nøjagtighed, f.eks. videnskabelig forskning eller medicinsk diagnosticering.

Begrænset ydeevne:
Den overordnede ydeevne for små sprogmodeller er ofte begrænset af deres størrelse og beregningseffektivitet. Selvom de er fordelagtige for hurtige og omkostningseffektive løsninger, leverer de muligvis ikke den robuste ydeevne, der kræves til krævende opgaver.

Disse og andre begrænsninger gør SLM'er mindre effektive i anvendelser, der kræver detaljeret læring. Udviklere bør overveje begrænsningerne ved SLM'er i forhold til deres specifikke behov.

Typer af små sprogmodeller

SLM'er kan kategoriseres i tre hovedtyper: destillerede versioner af større modeller, opgavespecifikke modeller og letvægtsmodeller.

Ud formede versioner af større modeller

I denne fremgangsmåde bruges en stor lærermodel til at oplære en mindre elevmodel, som lærer at efterligne lærerens adfærd. Studentermodellen bevarer meget af lærerens viden, men kræver færre parametre og mindre regnekraft. I dag giver det mulighed for effektiv udrulning af sprogmodeller i miljøer, hvor ressourcerne er begrænsede, samtidig med at der bevares et højt ydeevneniveau. En populær destilleret SLM er DistilBERT, som giver en ydeevne, der kan sammenlignes med dens større modstykke, BERT, men med reduceret størrelse og hurtigere udledningstider.

Opgavespecifikke modeller

Opgavespecifikke modeller er små sprogmodeller, der er skræddersyet til bestemte opgaver eller domæner. I modsætning til generelle modeller som ChatGPT er disse modeller finjusteret til at udmærke sig i specifikke anvendelser, såsom synspunktsanalyse, oversættelse eller besvarelse af spørgsmål. Ved at fokusere på et begrænset sæt opgaver kan opgavespecifikke modeller nogle gange opnå højere nøjagtighed og effektivitet end mere generaliserede modeller. De er især nyttige, når der er behov for høj ydeevne til en bestemt opgave, og modellens omfang kan begrænses for at optimere ressourceforbruget.

Letvægtsmodeller

Letvægtsmodeller er bygget med færre parametre og arkitekturer, der er optimeret til at minimere beregningsbehov, samtidig med at der stadig leveres en høj ydeevne. De bruges ofte i mobilapps, grænseenheder eller andre scenarier, hvor beregningsressourcer er begrænset.

Use cases for SLM'er

Små sprogmodeller er optimeret til bestemte anvendelser, hvilket gør dem ideelle til miljøer med begrænsede ressourcer eller specifikke behov. Nogle af de vigtigste use cases for SLM'er omfatter programmer på enheden, sprogbehandling i realtid og indstillinger for lavt ressourceforbrug.

Programmer på enheden

SLM'er er velegnede til programmer på enheden, hvor beregningsressourcer er begrænsede, og beskyttelse af personlige oplysninger er et problem. Ved at køre direkte på enheder som smartphones, tablets og intelligente højttalere kan disse modeller udføre opgaver som stemmegenkendelse, tekstfuldførelse og sprogoversættelse uden at være afhængig af konstant internetforbindelse og cloudcomputing-tjenester. Dette forbedrer beskyttelse af personlige oplysninger for brugere ved at holde databehandlingen lokal og forbedrer programmernes reaktionsevne. Eksempler omfatter forudsigende tekstinput, virtuelle assistenter og offline oversættelsestjenester.

Sprogbehandling i realtid

I scenarier, hvor hurtige svartider er kritiske, giver små sprogmodeller betydelige fordele på grund af deres hurtige svartid. Sprogbehandling i realtid er afgørende i anvendelser som chatrobotter, automatisering af kundeservice og tjenester til live transskription. Disse modeller kan håndtere sprogopgaver med minimal ventetid, hvilket giver brugerne øjeblikkelig feedback og problemfrie interaktioner.

Indstillinger for lav ressource

SLM'er er særligt værdifulde i miljøer med få ressourcer, hvor computerkraft og båndbredde er begrænset. De kan udrulles på prisbillig hardware, hvilket gør dem tilgængelige for flere personer og organisationer.

Nye SLM-tendenser og -fremskridt

Små sprogmodeller repræsenterer et betydeligt fremskridt inden for behandling af naturligt sprog og maskinel indlæring. Deres evne til at forstå og generere menneskelignende tekst har åbnet op for nye muligheder for forskellige anvendelser, fra kundeservice til oprettelse af indhold. I takt med at sprogmodellerne udvikler sig, bliver SLM'er sandsynligvis mere avancerede og tilbyder flere funktioner med større effektivitet. Her er et par nye SLM-tendenser og -fremskridt:

Fremskridt inden for modeleffektivitet og komprimeringsteknikker:
Løbende forskning forventes at give mere effektive modeller med forbedrede komprimeringsteknikker. Disse fremskridt vil yderligere forbedre funktionaliteten i SLM'er, så de kan håndtere mere komplekse opgaver, samtidig med at de bevarer deres mindre størrelse. For eksempel har den nyeste version af Phi-3 SLM'en nu computer vision-funktioner.

Bredere programmer i takt med, at grænseberegning vokser:
I takt med at grænseberegning bliver mere udbredt, finder SLM'er anvendelse inden for en bredere vifte af områder, som imødekommer forskellige behov og udvider deres rækkevidde. Muligheden for at behandle data lokalt på grænseenheder åbner op for nye muligheder for løsninger med kunstig intelligens i realtid og kontekstafhængige løsninger.

Håndtering af aktuelle begrænsninger
Der gøres løbende en indsats for at forbedre nøjagtigheden og håndtere forskellige sprog. Ved at håndtere disse begrænsninger vil forskerne forbedre SLM'ernes ydeevne på tværs af forskellige sprog og kontekster og gøre dem mere alsidige og dygtige.

Hybridmodeller og læring i organisationsnetværk:
Læring i organisationsnetværk og hybridmodeller baner vejen for mere robuste og alsidige SLM'er. Læring i organisationsnetværket giver modeller mulighed for at oplæres på tværs af flere enheder uden at dele følsomme data, hvilket forbedrer beskyttelsen af personlige oplysninger og sikkerheden. Hybridmodeller, der kombinerer styrkerne ved forskellige arkitekturer, giver nye muligheder for optimering af ydeevne og effektivitet.

Disse tendenser fremhæver den stigende effekt af små sprogmodeller i forbindelse med at gøre kunstig intelligens mere tilgængelig, effektiv og fleksibel i forhold til en lang række anvendelser. I takt med at de fortsætter med at udvikle sig, bliver SLM'er vigtige værktøjer, der driver innovation i kunstig intelligens på tværs af forskellige miljøer og brancher.

RESSOURCER

Lær nye færdigheder, og udforsk den nyeste udviklerteknologi.

Studerende udviklere

Kickstart din karriere inden for teknologi

Få færdighederne til at kickstarte din karriere inden for teknologi, og få en positiv indvirkning på verden.

Udforsk ressourcer til studerende

Azure-ressourcer

Udforsk Azure-ressourcecenter

Udforsk Azure-trænings- og certificeringsprogrammer, spørgsmål og svar, arrangementer, videoer og andre ressourcer til udviklere.

Få mere at vide

Microsoft Learn

Azure AI-læringshub

Få de færdigheder, du skal bruge for at sætte skub i implementeringen af kunstig intelligens i stor skala.