Hva er små språkmodeller (SLM-er)?

Finn ut hvordan du bruker små språkmodeller til å innovere raskere og mer effektivt med kunstig intelligens.

Utvikle og distribuer KI-modeller Kom i gang med Azure

En oversikt over små språkmodeller (SLM-er)

Små språkmodeller (SLM-er) er beregningsmodeller som kan svare på og generere naturlig språk. Serviceavtaler er opplært til å utføre spesifikke oppgaver ved hjelp av færre ressurser enn større modeller.

Nøkkelinnsikter

Små språkmodeller (SLM-er) er et delsett av språkmodeller som utfører bestemte oppgaver ved hjelp av færre ressurser enn større modeller.
Serviceavtaler er bygget med færre parametere og enklere nevralarkitektur enn store språkmodeller (LLMer), noe som gir raskere opplæring, redusert energiforbruk og distribusjon på enheter med begrensede ressurser.
Potensielle begrensninger for SLM-er inkluderer en begrenset kapasitet for komplekst språk og redusert nøyaktighet i komplekse oppgaver.
Fordelene ved å bruke SLM-er inkluderer lavere kostnader og forbedret ytelse i domenespesifikke programmer.

Hvordan fungerer SLM-er?

En liten språkmodell (SLM) er en beregningsmodell som kan svare på og generere naturlig språk. SLM-er er utformet til å utføre noen av de samme oppgavene for behandling av naturlig språk som deres større, bedre kjente storspråkmodell-motstykker (LLM), men i mindre skala. De bygges på nytt med færre parametere og enklere nevrale nettverksarkitekturer, noe som gjør at de kan operere med mindre databehandlingskraft samtidig som de gir verdifull funksjonalitet i spesialiserte programmer.

Grunnleggende arkitektur

Små språkmodeller bygges ved hjelp av forenklede versjoner av kunstige nevrale nettverk som finnes i LLM-er. Språkmodeller har et sett med parametere – i hovedsak justerbare innstillinger – som de bruker til å lære av data og gjøre prognoser. SLM-er inneholder langt færre parametere enn LLM-er, noe som gjør dem raskere og mer effektive enn større modeller. Der LLM-er som GPT-4 kan inneholde mer enn en billion parametere, kan en SLM bare inneholde noen hundre millioner. Mindre arkitektur gjør det mulig for SLM-er å utføre oppgaver for behandling av naturlig språk i domenespesifikke programmer, for eksempel kundeservicechatroboter og virtuelle assistenter, ved hjelp av mye mindre databehandlingskraft enn LLM-er.

Nøkkelkomponenter

Språkmodeller deler opp tekst i ordinnbygginger – numeriske representasjoner som fanger opp betydningen av ord – som behandles av en transformator ved hjelp av en koder. En dekoder produserer deretter et unikt svar til teksten.

Opplæringsprosess

Opplæring av en språkmodell innebærer å eksponere den for et stort datasett kalt et tekstkorpus. SLM-er er opplært på datasett som er mindre og mer spesialiserte enn de som brukes av til og med relativt små LLM-er. Datasettet som SLM-er opplæres på, er vanligvis spesifikke for deres funksjon. Når en modell er opplært, kan den tilpasses for ulike spesifikke oppgaver gjennom finjustering.

FORDELER

Fordelene ved å bruke små språkmodeller

SLMS tilbyr mange fordeler i forhold til LLM-er:

Lavere beregningskrav

Små språkmodeller krever mindre databehandlingskraft, noe som gjør dem ideelle for miljøer med begrensede ressurser. Denne effektiviteten muliggjør bruk av disse modellene på mindre enheter.

Redusert opplæringstid

Små modeller læres opp raskere enn større modeller, noe som gir raskere iterasjoner og eksperimentering. Redusert opplæringstid gir raskere utviklingsprosess for raskere distribusjon og testing av nye programmer.

Forenklet distribusjon på kantenheter

Den kompakte størrelsen og lavere ressurskrav gjør SLM-er ideelle for kantenheter. SLM-er kan kjøre effektivt uten å trenge konstant skytilkobling, noe som forbedrer ytelsen og påliteligheten ved å behandle data lokalt.

Redusert energiforbruk

SLM-er bruker mindre energi. Dette gjør dem mer miljøvennlige og kostnadseffektive enn LLM-er.

Forbedret nøyaktighet

Siden opplæringen er fokusert på bestemte oppgaver, kan SLM-er gi mer nøyaktige svar og informasjon innenfor områdene de er opplært i. Deres spesialiserte natur muliggjør finjustering som ofte overgår større modeller i domenespesifikke programmer.

Lavere kostnader

De reduserte beregningskravene, opplæringstiden og energiforbruket til serviceavtaler SLM-er fører til lavere totale kostnader. Denne prisen gjør dem tilgjengelige for et bredere utvalg av mennesker og organisasjoner.

Utfordringer og begrensninger ved SLM-er

Små språkmodeller er utformet for å være effektive og lette. Denne utformingen kan føre til begrensninger på deres evne til å behandle og forstå komplekst språk, noe som potensielt reduserer nøyaktigheten og ytelsen i håndteringen av kompliserte oppgaver.

Her er noen vanlige utfordringer knyttet til SLM-er:

Begrenset kapasitet for kompleks språkforståelse:
Hvis LLM-er henter informasjon fra et spredt, altomfattende bibliotek, henter SLM-er fra en liten del av biblioteket, eller kanskje til og med noen få svært spesifikke bøker. Dette begrenser ytelsen, fleksibiliteten og kreativiteten til SLM-er i å fullføre komplekse oppgaver som drar nytte av de ekstra parameterne og kraften til LLM-er. SLM-er kan streve med å forstå nyanser, kontekstuelle detaljer og kompliserte relasjoner i språket, noe som kan føre til misforståelser eller overforenklede tolkninger av tekst.

Potensial for redusert nøyaktighet på komplekse oppgaver:
Små språkmodeller står ofte overfor utfordringer med å opprettholde nøyaktighet når de får i oppgave komplekse problemløsnings- eller beslutningsscenarioer. Deres begrensede behandlingskraft og mindre opplæringsdatasett kan føre til redusert presisjon og økt feilfrekvens på oppgaver som involverer mangesidig resonnering, kompliserte datamønstre eller høye nivåer av abstraksjon. Derfor er de kanskje ikke det beste valget for programmer som krever høy nøyaktighet, for eksempel vitenskapelig forskning eller medisinsk diagnose.

Begrenset ytelse:
Den generelle ytelsen til små språkmodeller begrenses ofte av størrelsen og beregningseffektiviteten. Selv om de er fordelaktige for raske og kostnadseffektive løsninger, leverer de kanskje ikke den robuste ytelsen som kreves for krevende oppgaver.

Disse og andre begrensninger gjør SLM-er mindre effektive i programmer som krever dyplæring. Utviklere bør vurdere begrensningene til SLM-er mot deres spesifikke behov.

Typer små språkmodeller

SLM-er kan kategoriseres i tre hovedtyper: destillerte versjoner av større modeller, oppgavespesifikke modeller og lette modeller.

Destillerte versjoner av større modeller

I denne tilnærmingen brukes en stor lærermodell til å lære opp en mindre elevmodell, som lærer å etterligne oppførselen til læreren. Elevmodellen beholder mye av lærerens kunnskap, men krever færre parametere og mindre databehandlingskraft. Destillasjon muliggjør effektiv distribusjon av språkmodeller i miljøer der ressursene er begrenset, samtidig som de opprettholder et høyt ytelsesnivå. DistilBERT er en populær destillert SLM, som tilbyr ytelse som kan sammenlignes med dets større motpart, BERT, men med redusert størrelse og høyere utledningshastigheter.

Oppgavespesifikke modeller

Oppgavespesifikke modeller er små språkmodeller som er skreddersydd for bestemte oppgaver eller domener. I motsetning til generelle modeller som ChatGPT, er disse modellene finjustert til Excel i bestemte programmer, for eksempel sentimentanalyse, oversettelse eller spørsmålssvar. Ved å fokusere på et snevert sett med oppgaver kan oppgavespesifikke modeller noen ganger oppnå høyere nøyaktighet og effektivitet enn mer generaliserte modeller. De er spesielt nyttige når høy ytelse er nødvendig for en bestemt oppgave, og modellens omfang kan begrenses for å optimalisere ressursbruken.

Lette modeller

Lette modeller er bygget med færre parametere og arkitekturer som er optimalisert for å minimere beregningsbehov samtidig som de leverer sterk ytelse. De brukes ofte i mobilprogrammer, kantenheter eller andre scenarioer der databehandlingsressurser er begrenset.

Brukstilfeller for SLM-er

Små språkmodeller er optimalisert for bestemte programmer, noe som gjør dem ideelle for miljøer med begrensede ressurser eller spesifikke behov. Noen viktige brukstilfeller for SLM-er inkluderer programmer på enheten, språkbehandling i sanntid og situasjoner med lite ressurser.

Programmer på enheten

SLM-er er godt egnet for programmer på enheten, der databehandlingsressurser er begrenset, og personvern er et problem. Ved å kjøre direkte på enheter som smarttelefoner, nettbrett og smarthøyttalere, kan disse modellene utføre oppgaver som talegjenkjenning, tekstforutsigelse og språkoversettelse uten å være avhengig av konstant internett-tilkobling og skydatabehandling-tjenester. Dette forbedrer brukernes personvern ved å holde databehandlingen lokal og forbedrer svartiden til programmer. Eksempler inkluderer prediktiv tekstinndata, virtuelle assistenter og tjenester for frakoblet oversettelse.

Språkbehandling i sanntid

I scenarioer der raske responstider er kritisk, tilbyr små språkmodeller betydelige fordeler på grunn av den raske svartiden. Språkbehandling i sanntid er viktig i programmer som chatroboter, kundeserviceautomatisering og direkte transkripsjonstjenester. Disse modellene kan håndtere språkoppgaver med minimal ventetid, noe som gir brukerne umiddelbar tilbakemelding og sømløse samhandlinger.

Situasjoner med lite ressurser

SLM-er er spesielt verdifulle i situasjoner med lite ressurser der databehandlingskraft og båndbredde er begrenset. De kan distribueres på rimelig maskinvare, noe som gjør dem tilgjengelige for flere personer og organisasjoner.

Nye SLM-trender og -fremskritt

Små språkmodeller representerer en betydelig forbedring innen naturlig språkbehandling og maskinlæring. Deres evne til å forstå og generere menneskelignende tekst har åpnet opp for nye muligheter for ulike bruksområder, fra kundeservice til oppretting av innhold. Etter hvert som språkmodellene fortsetter å utvikle seg, vil SLM-er sannsynligvis bli mer sofistikerte og tilby flere funksjoner med større effektivitet. Her er noen nye SLM-trender og -fremskritt:

Forbedringer i modelleffektivitet og komprimeringsteknikker:
Pågående forskning forventes å gi mer effektive modeller med forbedrede komprimeringsteknikker. Disse fremskrittene vil ytterligere forbedre egenskapene til SLM-er, slik at de kan håndtere mer komplekse oppgaver samtidig som de opprettholder sin mindre størrelse. Den nyeste versjonen av Phi-3 SLM har for eksempel nå funksjoner for visuelt innhold.

Bredere programmer etter hvert som kantdatabehandling vokser:
Etter hvert som kantdatabehandling blir mer utbredt, vil SLM-er finne programmer i et bredere utvalg av felter, håndtere ulike behov og utvide rekkevidden. Muligheten til å behandle data lokalt på kantenheter åpner nye muligheter for sanntids- og kontekstavhengige KI-løsninger.

Adressere gjeldende begrensninger
Arbeidet med å forbedre nøyaktigheten og håndtere ulike språk pågår. Ved å håndtere disse begrensningene har forskere som mål å forbedre ytelsen til SLM-er på tvers av ulike språk og kontekster, noe som gjør dem mer allsidige og kompatible.

Hybridmodeller og forbundslæring:
Forbundslæring og hybridmodeller legger til rette for mer robuste og allsidige SLM-er. Forbundslæring gjør det mulig å lære opp modeller på tvers av flere enheter uten å dele sensitive data, noe som forbedrer personvernet og sikkerheten. Hybridmodeller, som kombinerer styrken til ulike arkitekturer, og slik tilbyr nye muligheter for optimalisering av ytelse og effektivitet.

Disse trendene understreker den økende effekten av små språkmodeller for å gjøre kunstig intelligens mer tilgjengelig, effektiv og tilpasningsdykbar for et bredt spekter av programmer. Etter hvert som SLM-er fortsetter å utvikle seg, blir de viktige verktøy som driver innovasjon innen kunstig intelligens på tvers av ulike miljøer og bransjer.

RESSURSER

Lær nye ferdigheter og utforsk den nyeste utviklerteknologien.

Studentutviklere

Kom raskt i gang med karrieren innen datateknologi

Tilegne deg ferdigheter for å sparke i gang karrieren din i teknologisektoren og påvirke verden på en positiv måte.

Utforsk studentressurser

Azure-ressurser

Utforsk ressurssenteret for Azure

Utforsk Azure-opplærings- og sertifiseringsprogrammer, Q&As, arrangementer, videoer og andre ressurser for utviklere.

Mer informasjon

Microsoft Learn

Læringshub for Azure AI

Skaff ferdighetene du trenger for å få fart på KI-implementeringen i stor skala.