Trace Id is missing
Gå til hovedinnhold
Azure

Hva er store språkmodeller (LLM-er)?

Få en oversikt over hvordan LLM-er fungerer – og utforsk hvordan de brukes til å utvikle KI-drevne løsninger.

LLM-betydning

Store språkmodeller (LLM-er) er avanserte KI-systemer som forstår og genererer naturlig språk eller menneskelignende tekst, ved hjelp av dataene de har fått opplæring i gjennom maskinlæringsteknikker. LLM-er kan automatisk generere tekstbasert innhold, som kan brukes på en rekke bruksområder på tvers av bransjer, noe som resulterer i større effektivitet og kostnadsbesparelser for organisasjoner over hele verden. 

Nøkkelinnsikter

  • LLM-er er avanserte KI-systemer som kan forstå og generere naturlig språk.
  • LLM-er er avhengige av arkitekturer for dyplæring og maskinlæringsteknikker for å behandle og innlemme informasjon fra ulike datakilder.
  • LLM-er gir store fordeler, for eksempel språkgenerering og oversettelse, til et variert sett med felt.
  • Selv om de er banebrytende, møter LLM-er utfordringer som kan omfatte beregningskrav, etiske bekymringer og begrensninger i forståelsen av kontekst.
  • Til tross for disse utfordringene bruker organisasjoner allerede de generative forhåndsopplærte transformatorseriene (GPT) og toveis koderrepresentasjoner fra transformatorer (BERT) til oppgaver som oppretting av innhold, chatroboter, oversettelse og sentimentanalyse.

Slik fungerer LLM-er

Kort historie om LLM-er

LLM-er er en moderne utvikling, men studiet av naturlig språkbehandling (NLP) går tilbake til 1950, da Alan Turing lanserte Turing-testen for å måle intelligent atferd blant maskiner. I testen snakker en menneskelig dommer til en datamaskin ved hjelp av et sett med spørsmål – og må avgjøre om de snakker til en maskin eller et menneske.
På 1980- og 1990-tallet flyttet NLP seg bort fra logikkeksperimenter mot en mer datadrevet tilnærming. Med deres evne til å forutse hvilke ord i en setning som sannsynligvis ville komme neste gang basert på ordene før dem, banet statistiske språkmodeller, for eksempel n-gram, veien for en ny epoke. Tidlig på 2010-tallet utvidet nyere nevrale nettverk evnene til disse språkmodellene ytterligere, slik at de kunne gå utover å bestemme ordrekkefølgen mot en dypere forståelse av representasjonen og betydningen av ord.
Disse nyvinningene kulminerte i et gjennombrudd i 2018, da åtte Google-forskere skrev og publiserte «Attention is All You Need», en milepælstudie om maskinlæring. Spesielt introduserte studien transformeringsarkitekturen, et innovativt nevralt nettverksrammeverk som kunne administrere og forstå kompleks tekstinformasjon med større nøyaktighet og skalering. Transformatorer er nå grunnleggende for noen av dagens kraftigste LLM-er, inkludert GPT-serien, i tillegg til BERT.

Grunnleggende arkitektur

Dagens avanserte LLM-er bruker arkitekturer for dyplæring som transformatorer og andre dype nevrale nettverksrammeverk til å behandle informasjon fra ulike datakilder. Transformatorer er spesielt effektive for håndtering av sekvensielle data, for eksempel tekst, som gjør det mulig for dem å forstå og generere naturlig språk for oppgaver som språkgenerering og oversettelse. 
Transformatorer består av to primære komponenter: kodere og dekodere. Disse komponentene arbeider ofte sammen for å behandle og generere sekvenser. Koderen tar rå tekstdata og gjør inndataene om til diskrete elementer som kan analyseres av modellen. Dekoderen behandler deretter dataene gjennom en rekke lag for å produsere de endelige utdataene, som for eksempel kan bestå av en generert setning. Transformatorer kan også bestå av bare kodere eller dekodere, avhengig av typen modell eller oppgave.

Opplæringsprosess

Opplæringsprosessen for LLM-er består av tre hovedfaser: datainnsamling, modellopplæring og finjustering. 
I løpet av datainnsamlingsfasen eksponeres modellen for store mengder tekstdata fra en rekke ulike kilder, inkludert Internett-ressurser, bøker, artikler og databaser. Dataene rengjøres, behandles, standardiseres og lagres i en NoSQL-database, slik at de kan brukes til å lære opp modellen på språkmønstre, grammatikk, informasjon og kontekst. 
I fasen før opplæring begynner modellen å bygge en forståelse av språket i dataene. Dette gjøres gjennom store, uovervåkede oppgaver der modellen lærer å forutsi tekst basert på konteksten. Noen teknikker inkluderer autoregressiv modellering der modellen lærer å forutsi det neste ordet i en sekvens, i tillegg til maskert språkmodellering, der modellen fyller ut maskerte ord for å forstå konteksten. 
Til slutt, under finjusteringsfasen, blir modellen ytterligere opplært på et mindre, mer oppgavespesifikt datasett. Denne prosessen begrenser modellens kunnskap og forbedrer ytelsen for bestemte oppgaver, for eksempel sentimentanalyse eller oversettelse, slik at den kan brukes til en rekke programmer.

Nøkkelkomponenter

Transformeringsmodellen deler rå tekst ned i mindre, grunnleggende enheter med tekst kalt tokener. Tokener kan bestå av ord, deler av ord eller individuelle tegn, avhengig av brukstilfellet. Disse tokenene konverteres deretter til tette numeriske representasjoner som fanger opp rekkefølge, semantisk betydning og kontekst. Disse representasjonene, kalt innebygginger, sendes deretter gjennom en stabel med lag som består av to underlag: selv-oppmerksomhet og nevrale nettverk.
Selv om begge lagene bidrar til å konvertere tekst til et skjema som modellen kan behandle effektivt, er selv-oppmerksomhetsmekanismen en viktig komponent i transformeringsarkitekturen. Selv-oppmerksomhetsmekanismen er det som gjør at modellen kan sikte seg inn mot forskjellige deler av en tekstsekvens og dynamisk veie verdien av informasjon i forhold til andre tokener i sekvensen, uavhengig av posisjonen deres. Denne mekanismen er også det som gir LLM-er kapasitet til å fange opp de kompliserte avhengighetene, relasjonene og kontekstuelle nyansene i skriftlig språk.

Fordeler og utfordringer

Fordeler

LLM-er tilbyr mange fordeler som har bidratt til betydelige fremskritt innen arbeid og samfunn.

Forbedret språkgenerering og oversettelse

Siden LLM-er kan forstå og fange opp nyanserte relasjoner mellom ord, utmerker de seg med å produsere naturlig, menneskelignende tekst, noe som resulterer i forbedret språkgenerering. De kan generere kreative, kontekstuelt passende svar, og de kan gjøre det i ulike formater, inkludert romaner.
Siden de kan kontekstualisere og finne nyanserikdom i betydning, kan LLM-er som er opplært på flerspråklige data også utføre svært nøyaktige oversettelser. Opplæring av en modell på et bestemt sett med språk kan hjelpe dem med å finjustere deres evne til å håndtere idiomer, uttrykk og andre komplekse lingvistiske funksjoner, noe som resulterer i oversettelser som føles organiske og flytende.

Bruksområder på forskjellige felter

LLM-er er allsidige verktøy som har mange bruksområder på tvers av mange felt, inkludert helsetjenester, økonomi og kundeservice.
 
I helsesektoren kan LLM-er: 
  • Analysere pasientrapporter for mulige tilstander og gi foreløpige diagnoser. 
  • Generere pasientnotater og utskrivelsessammendrag, og dette effektiviser administrative oppgaver. 
  • Foreslå tilpassede behandlingsplaner og medisinsk behandling basert på pasienthistorikk.  
  I finanssektoren kan LLM-er:
  • Identifisere uvanlig aktivitet på tvers av økonomiske data som kan tyde på svindel. 
  • Vurdere finansiell risiko ved å analysere markedstrender og finansrapporter. 
  • Foreslå tilpassede anbefalinger basert på din unike økonomiske historie og mål.  
  I kundeservice kan LLM-er:
  • Drive frem automatisert kundestøtte gjennom samtaleagenter og chatroboter. 
  • Utvide omfanget av en organisasjons tjeneste ved å gi kundene heldagsstøtte.
  • Bidra til å opprette og oppdatere dokumentasjon ved å generere innhold basert på vanlige spørsmål.  

Utfordringer

LLM-er tilbyr avgjørende fordeler, men de innebærer også utfordringer som det må bli tatt hensyn til.

Databehandlings- og energikrav

Selv om LLM-er er kraftige, krever de betydelige mengder databehandlingsressurser, lagring og energiforbruk for å fungere. Under opplæring skalerer transformatorer med lengden på inndatasekvensen slik at jo lengre teksten er, desto mer minne trenger du. Ikke bare er disse behovene kostbare, men de slipper også ut en betydelig mengde karbon i miljøet.
Plattformer for databehandling i skyen kan støtte den tunge beregningsbelastningen av LLM-er ved å tilby fleksibel, skalerbar infrastruktur, noe som gjør den mer tilgjengelig for organisasjoner for å begynne å utvikle sine egne modeller. Miljøpåvirkningen til LLM-er utgjør likevel en utfordring og indikerer et behov for mer energieffektive modeller og teknikker.

Etiske bekymringer (f.eks. partiskhet, feilaktig informasjon)

LLM-er er bare like gode som dataene de er opplært på. Hvis det er diskriminerende partiskhet mot visse grupper i opplæringsdataene, vil modellen fremheve disse holdningene. Identifisering og reduksjon av disse partiskhetene slik at modellen forblir rettferdig, er en pågående oppgave som krever hyppig og konsekvent menneskelig overvåking.
LLM-er kan også produsere overbevisende, men faktisk villedende informasjon, noe som resulterer i spredning av feilaktig informasjon, falske nyheter, phishing-e-postmeldinger og andre former for skadelig innhold. Retningslinjer for innholdsmoderering kan også variere på tvers av områder, noe som gjør dem vanskelige å navigere rundt. Som et resultat av dette, kan det hende at mange organisasjoner synes det er utfordrende å bygge og opprettholde tillit hos brukerne når de introduserer LLM-er i forretningsdriften.

Begrensninger i å forstå kontekst og nyanser

Mens LLM-er utmerker seg med identifisering av mønstre i språk, kan de fortsatt streve med nye eller ukjente kontekster som krever mer nyansert forståelse. Som et resultat av dette kan LLM-er som er opplært på sensitive, proprietære data, utilsiktet generere eller avsløre konfidensiell informasjon fra opplæringsdataene. 
Å løse dette problemet kan utgjøre en betydelig utfordring, spesielt siden de interne arbeidene til LLM-er ofte mangler gjennomsiktighet. Dette kan bidra til en generell mangel på ansvarlighet, samt problemer rundt tillitsbygging. 

Typer og brukstilfeller

GPT-serien

GPT-serien ble først utviklet av OpenAI i 2018 og introduserte det grunnleggende konseptet med datainnsamling, forhåndsopplæring og finjustering av LLM-er. GPT-2, utgitt i 2019, skalerte betydelig opp modellens funksjoner og forbedret dens evne til å generere mer kontekstuelt relevant språk. GPT-3 avanserte modellens kapasitet for håndtering av komplekse ledetekster og oppgaver. Den nyeste iterasjonen, GPT-4, ble utgitt i 2023 og gir enda mer nøyaktige og nyanserte svar på ledetekster, samtidig som den tar tak i noen av modellens tidligere utfordringer, inkludert partiskhet. 
I dag fortsetter GPT å flytte grensene for hva som er mulig innen naturlig språkgenerering. Hver modell i serien bygger på den forrige, noe som fører KI-drevet innovasjon fremover. 

BERT og variantene av den

BERT ble utviklet av Google i 2018 og er en banebrytende modell som har satt standarden for hva som er mulig med LLM-er. I motsetning til GPT-serien, som behandler tekst på en enveis måte (fra venstre mot høyre eller høyre mot venstre), bruker BERT en toveis tilnærming. En toveis modell behandler konteksten til hvert ord fra begge retninger samtidig, noe som gjør det mulig for BERT å utføre maskert språkmodellering i tillegg til forutsigelser i neste setning. Forskere har også bidratt til ytterligere fremskritt i feltet ved å finjustere BERT på oppgaver som sentimentanalyse, og angi nye referanseverdier som et resultat.  

Andre viktige modeller

Robust optimalisert BERT-tilnærming (RoBERTa) ble utviklet av Facebook AI i 2019, og er en variant av BERT-modellen som utvider BERTs toveis transformeringsarkitektur ved å optimalisere forhåndsopplæringsprosessen. RoBERTa er opplært med et større datasett, og i løpet av lengre tid. Den fokuserer også utelukkende på maskert språkmodellering. Dette gjør det mulig for RoBERTa å demonstrere sin robuste evne til å fange opp kontekst og nyanser. 
Tekst-til-tekst-overføringstransformering (T5), som ble oppfunnet av Google Research, er en annen viktig LLM. I likhet med tradisjonelle modeller er T5 bygget på transformeringsarkitekturen og bruker kodere og dekodere til å behandle tekst i forhåndsopplæringsfasen. I motsetning til tradisjonelle modeller behandler T5 både inndata og utdata som tekststrenger, noe som forenkler arkitekturen og effektiviserer opplæringsprosessen. T5-modeller er en tilpasningsdyktig modell for generell bruk som kan håndtere et allsidig utvalg av oppgaver.

Oppretting og oppsummering av innhold

LLM-er kan generere engasjerende, informativt og kontekstuelt passende innhold i en rekke stiler og formater. Når de blir bedt om det, kan de generere artikler, rapporter, blogginnlegg, e-postmeldinger, markedsføringstekst og til og med kodesnutter.   
Med hensyn til sammendrag, skiller LLM-er seg ut ved sin unike evne til å destillere store mengder tekst til konsise og nøyaktige øyeblikksbilder. De kan presentere viktige punkter samtidig som de opprettholder den opprinnelige konteksten og betydningen av det opprinnelige innholdet. Forskere sparer allerede tid og øker produktiviteten ved å bruke LLM-er til å oppsummere forskningsartikler, studier, presentasjoner og møtenotater.

Samtaleagenter og chatroboter

Samtaleagenter og chatroboter er avhengige av de avanserte naturlige språkbehandlingsegenskapene til LLM-er for å generere menneskelignende samhandlinger. De tolker brukerinndata og reagerer på en flytende, naturlig og kontekstuelt relevant måte. Ikke bare kan de svare på spørsmål, men de kan også engasjere seg i lang og kompleks dialog. 
Med tillegget av chatroboter og virtuelle assistenter kan bedrifter nå tilby støtte døgnet rundt til kundene, og det utvider tjenestetilgjengeligheten, forbedrer responstiden og øker den generelle kundetilfredsheten.

Språkoversettelse og sentimentanalyse

LLM-er som er omfattende opplært på flerspråklige datasett produserer svært nøyaktige oversettelser på tvers av ulike språk. I motsetning til tradisjonelle modeller kan LLM-er fange opp nyanserikdommen og kompleksiteten i språket, for eksempel idiomatiske uttrykk, noe som resulterer i oversettelser som både er flytende og kontekstuelt passende. 
LLM-er kan også utføre sentimentanalyse, som analyserer den underliggende emosjonelle tonen i en tekst. Ved å behandle og tolke språkdefinisjonene gir LLM-er mer presise og innsiktsfulle sentimentevalueringer. De kan til og med oppdage mer nyanserte følelser, for eksempel sarkasme. 

Tilpassede anbefalinger

LLM-er kan analysere brukerdata, inkludert brukerlogg og preferanser, og generere tilpassede, skreddersydde anbefalinger som gjenspeiler brukerens interesser og behov, og dermed forbedre den generelle brukeropplevelsen. 
Denne funksjonaliteten brukes mye på tvers av e-handel, innholdsstrømming og sosiale medier, der levering av skreddersydde anbefalinger gir mer meningsfylte samhandlinger. LLM-er kan også brukes som et opplæringsverktøy ved å tilby tilpassede læringsopplevelser til studenter.

Hva er det neste

Etter hvert som forskere fortsetter å forbedre forståelsen, effektiviteten og skalerbarheten, forventes det at LLM-er blir enda mer utsatt for å håndtere komplekse språkoppgaver. Med innføringen av LLM-er på vei oppover, vil flere og flere organisasjoner oppleve strømlinjeformet automatisering, større tilpassing og bedre beslutningsprosesser generelt. 
Forskere fortsetter å utforske nye måter å håndtere partiskhet på, et pågående problem. Disse inkluderer algoritmer for fjerning av partiskhet som takler partiskhet under opplæring, inkorporering av syntetiske data som kan balansere datasett på nytt for å gjenspeile rettferdighet, forklarende verktøy for bedre å forstå modellbeslutninger og oppdagelsesreferanser som bidrar til å identifisere og kvantifisere partiskhet mer nøyaktig. 
Flermodale modeller, som behandler tekst-, bilde-, lyd- og videodata, blir også mer og mer avanserte. Mens LLM-er behandler tekstdata ved å evaluere syntaks og betydning, analyserer flermodale modeller visuelle data gjennom teknikker for visuelt innhold, samt lyddata gjennom tidsbestemt behandling. Top of Form Multimodal-modeller forbedrer dagens teknologier samtidig som de brøyter vei for morgendagens innovasjoner.
RESSURSER

Mer informasjon om Azure AI

En person sitter foran en datamaskin
Ressurser

Utviklerressurser for studenter

Dra nytte av læringsmateriell og programmer som hjelper deg med å sette fart på karrieren.
En gruppe personer som sitter i sirkel
Ressurser

Azure-ressurser

Få tilgang til alle Azure-ressursene du trenger, inkludert opplæringer, tekniske dokumenter og kodeeksempler.
En person som smiler ved en datamaskin
Ressurser

Azure læringshub

Utvikle KI-ferdighetene med opplæring som er tilpasset din rolle eller bestemte teknologier.
Vanlige spørsmål

Vanlige spørsmål

  • LLM står for stor språkmodell.
  • KI er et bredt felt som dekker et bredt spekter av bruksområder utover bare språk. Den inkluderer alle teknologier som har som mål å reprodusere menneskelig intelligens. Som en bestemt type KI-modell er LLM-er et delsett av det bredere KI-landskapet, et delsett som fokuserer på behandling og generering av naturlig språktekst.
  • Naturlig språkbehandling (NLP) refererer til det overordnede feltet med fokus på språkbehandling, mens store språkmodeller (LLM-er) er en bestemt, avansert modelltype innenfor feltet NLP som bruker dyplæringsteknikker til å håndtere språkoppgaver.
  • Generative forhåndsopplærte transformatorer (GPT) refererer til en bestemt serie med store språkmodeller (LLM-er) utviklet av OpenAI. De er en type LLM, med et spesifikt fokus på språkgenerering.