Trace Id is missing
Gå til hovedindholdet
Azure

Hvad er store sprogmodeller (LLM'er)?

Få et overblik over, hvordan LLM'er fungerer – og udforsk, hvordan de bruges til at bygge løsninger drevet af kunstig intelligens.

Betydning af LLM

Store sprogmodeller (LLM'er) er avancerede systemer drevet af kunstig intelligens, der forstår og genererer naturligt sprog eller menneskelignende tekst ved hjælp af de data, som de er blevet oplært i via teknikker til maskinel indlæring. LLM'er kan automatisk generere tekstbaseret indhold, som kan anvendes på en lang række anvendelsesområder på tværs af brancher, hvilket resulterer i større effektivitet og omkostningsbesparelser for organisationer over hele verden. 

Vigtigste budskaber

  • LLM'er er avancerede systemer drevet af kunstig intelligens, der kan forstå og generere naturligt sprog.
  • LLM'er er afhængige af arkitekturer til detaljeret læring og teknikker til maskinel indlæring til at behandle og inkorporere oplysninger fra forskellige datakilder.
  • LLM'er giver store fordele, såsom sproggenerering og oversættelse, til et bredt udvalg af felter.
  • Selvom de er banebrydende, står LLM'er over for udfordringer, der kan omfatte beregningskrav, grundlæggende bekymringer og begrænsninger i forståelseskonteksten.
  • På trods af disse udfordringer bruger organisationer allerede GPT-serien (Generative Pre-trained Transformers) og tovejskoderrepræsentationer fra transformere (BERT) til opgaver som oprettelse af indhold, chatrobotter, oversættelse og analyse af synspunkter.

Sådan fungerer LLM'er

LLM'er i korte træk

LLM'er er en moderne udvikling, men undersøgelsen af behandling af naturligt sprog (NLP) daterer til 1950, da Alan Turing lancerede Turing-testen for at måle intelligent adfærd blandt maskiner. I testen taler en menneskelig dommer til en computer ved hjælp af et sæt spørgsmål – og skal afgøre, om de taler med en maskine eller et menneske.
I 1980'erne og 1990'erne skiftede NLP væk fra logiske eksperimenter mod en mere datadrevet tilgang. Med deres evne til at forudsige, hvilke ord i en sætning der sandsynligvis kommer bagefter baseret på de ord, der står foran dem, baner statistiske sprogmodeller, såsom n-gram, vejen til en ny æra. I starten af 2010'erne udvidede nyere neurale netværk funktionerne i disse sprogmodeller endnu mere, så de kunne bevæge sig ud over at bestemme rækkefølgen af ord i retning af en dybere forståelse af repræsentationen og betydningen af ord.
Disse nye udviklinger blev en banebrydende udvikling i 2018, hvor otte Google-forskere skrev og publicerede "Attention is All You Need”, en landmærkeundersøgelse om maskinel indlæring. Rapporten introducerede især transformerarkitekturen, en innovativ neural netværksstruktur, der kunne administrere og forstå komplekse tekstoplysninger med større nøjagtighed og skalering. Transformere er nu grundlæggende for nogle af nutidens mest effektive LLM'er, herunder GPT-serien, samt BERT.

Grundlæggende arkitektur

Moderne LLM'er bruger i dag arkitekturer til detaljeret læring som transformere og andre dybe neurale netværksstrukturer til at behandle oplysninger fra forskellige datakilder. Transformere er især effektive til håndtering af sekventielle data, såsom tekst, som gør det muligt for dem at forstå og generere naturligt sprog til opgaver som generering af sprog og oversættelse. 
Transformere består af to primære komponenter: kodere og dekodere. Disse komponenter arbejder ofte sammen om at behandle og generere sekvenser. Koderen tager rå tekstdata og omdanner inputtet til diskrete elementer, der kan analyseres af modellen. Dekoderen behandler derefter disse data gennem en række lag for at producere det endelige output, som f.eks. kan bestå af en genereret sætning. Transformere kan også udelukkende bestå af kodere eller dekodere, afhængigt af typen af model eller opgave.

Fordele og udfordringer

Fordele

LLM'er giver mange fordele, der har bidraget til betydelige fremskridt på arbejdspladsen og i samfundet.

Forbedret sproggenerering og -oversættelse

Da LLM'er kan forstå og registrere de nuancerede relationer mellem ord, excellerer de ved at producere naturlig, menneskelignende tekst, hvilket resulterer i forbedret sproggenerering. De kan flydende og konsekvent generere kreative, kontekstafhængigt relevante svar, og de kan gøre det i forskellige formater, herunder romaner.
Da de kan kontekstualisere og finde nuancer i betydningen, kan LLM'er, der er oplært på flersprogede data, også udføre meget nøjagtige oversættelser. Oplæring af en model på et bestemt sæt sprog kan hjælpe dem med at finjustere deres evne til at håndtere idiomer, udtryk og andre komplekse sproglige funktioner, hvilket resulterer i oversættelser, der føles organisk og flydende.

Anvendelser i forskellige felter

LLM'er er alsidige værktøjer, der har mange programmer på tværs af mange områder, herunder sundhedsvæsen, økonomi og kundeservice.
 
I sundhedsvæsenet kan LLM'er: 
  • Analysere patientrapporter for mulige betingelser og angive foreløbige diagnoser. 
  • Oprette patientnoter og udskrivningsoversigter, og derved strømline administrative opgaver. 
  • Foreslå tilpassede behandlingsplaner og medicinsk pleje baseret på patienthistorikken.  
  I økonomisektoren kan LLM'er:
  • Identificere usædvanlig aktivitet på tværs af finansielle data, der kan pege på svindel. 
  • Vurdere økonomiske risici ved at analysere markedstendenser og finansielle rapporter. 
  • Foreslå tilpassede anbefalinger baseret på din unikke økonomiske historie og mål.  
  I kundeservice kan LLM'er:
  • Få automatiseret kundesupport via samtaleagenter og chatrobotter. 
  • Udvide omfanget af en organisations tjeneste ved at give kunderne support hele dagen.
  • Hjælpe med at oprette og opdatere dokumentation ved at generere indhold baseret på almindelige spørgsmål.  

Udfordringer

LLM'er giver vigtige fordele, men de giver også udfordringer at overveje.

Beregnings- og energikrav

Selvom LLM'er er effektive, kræver de betydelige mængder beregningsressourcer, lager og energiforbrug for at fungere. Under oplæringen skaleres transformere efter længden af inputsekvensen, så jo længere teksten er, jo mere hukommelse har du brug for. Disse krav er ikke kun dyre, men de udsender også en betydelig mængde CO2 i miljøet.
Cloudcomputing er levering af databehandlingstjenester – herunder servere, lager, databaser, netværk, software, analyse og intelligensCloudcomputing-platforme kan understøtte den tunge beregningsbelastning af LLM'er ved at levere fleksibel, skalerbar infrastruktur, hvilket gør det mere tilgængeligt for organisationer at begynde at udvikle deres egne modeller. Miljøpåvirkningen af LLM'er udgør stadig en udfordring og er tegn på et behov for mere energieffektive modeller og teknikker.

Etiske bekymringer (såsom bias, fejlinformation)

LLM'er er kun så gode som de data, de oplæres i. Hvis der er forskel på visse grupper i oplæringsdataene, fremhæver modellen disse forskelle. Det er en løbende opgave at identificere og afhjælpe disse bias, så modellen forbliver fair, og det kræver hyppig og konsekvent menneskelig overvågning.
LLM'er kan også producere overbevisende, men faktuelt misvisende oplysninger, hvilket resulterer i, at der spredes forkerte oplysninger, falske nyheder, phishingmails og andre former for skadeligt indhold. Retningslinjerne for ændring af indhold kan også variere på tværs af områder, hvilket gør dem svære at navigere rundt i. Derfor kan det være en udfordring for mange organisationer at opbygge og bevare tillid til deres brugere, når de introducerer LLM'er til deres virksomhedsdrift.

Begrænsninger i forståelse af kontekst og nuance

Selvom LLM'er excellerer i at identificere mønstre på sprog, kan de stadig have problemer med nye eller ukendte kontekster, der kræver en mere nuanceret forståelse. Derfor kan LLM'er, der er trænet på følsomme, beskyttede data, ved et uheld generere eller afsløre fortrolige oplysninger fra deres oplæringsdata. 
Det kan udgøre en stor udfordring at løse dette problem, især fordi de interne LLM'er ofte mangler gennemsigtighed. Dette kan bidrage til en generel manglende ansvarlighed samt problemer i forbindelse med opbygning af tillid. 

Typer og use cases

GPT-serien

GPT-serien, der først blev udviklet af OpenAI i 2018, introducerede det grundlæggende koncept for dataindsamling, pre-training og finjustering til LLM'er. GPT-2, der blev udgivet i 2019, har øget modellens funktioner betydeligt og forbedret dens evne til at generere mere kontekstafhængigt relevant sprog. GPT-3 avancerede modellens kapacitet til håndtering af komplekse prompter og opgaver. Den seneste gentagelse, GPT-4, blev udgivet i 2023 og giver endnu mere præcise og nuancerede svar på prompts – samtidig med at den også håndterer nogle af modellens tidligere udfordringer, herunder bias. 
I dag fortsætter GPT med at skubbe grænserne for, hvad der er muligt inden for generering af naturligt sprog. Hver model i serien bygger på den forrige og fremmer innovation drevet af kunstig intelligens. 

BERT og dens varianter

BERT er udviklet af Google i 2018 og er en banebrydende model, der har angivet standarden for, hvad der er muligt med LLM'er. I modsætning til GPT-serien, som behandler tekst på en envejs (fra venstre mod højre eller højre mod venstre), benytter BERT en tovejstilgang. En tovejsmodel behandler konteksten af hvert ord fra begge retninger samtidigt, hvilket giver BERT mulighed for at udføre maskeret sprogmodellering ud over forudsigelser for næste sætning. Forskere har også bidraget til yderligere fremskridt på området ved at finjustere BERT i forbindelse med opgaver som analyse af synspunkter og dermed angive nye benchmarks.  

Andre nævneværdige modeller

Robust optimeret BERT-tilgang (RoBERTa), der blev udviklet af Facebook AI i 2019, er en variant af BERT-modellen, der udvider BERT's tovejstransformerarkitektur ved at optimere processen med pre-training. RoBERTa trænes med et større datasæt og i længere tid. Der fokuseres også udelukkende på maskeret sprogmodellering. Dette giver RoBERTa mulighed for at demonstrere sin robuste evne til at registrere kontekst og nuancer. 
Text-To-Text Transfer Transformer (T5), der blev anbefalet af Google Research, er en anden bemærkelsesværdig LLM. Ligesom traditionelle modeller er T5 bygget på transformerarkitekturen og bruger kodere og dekodere til at behandle tekst i fasen før træning. I modsætning til traditionelle modeller behandler T5 både input og output som tekststrenge, hvilket forenkler arkitekturen og strømliner oplæringsprocessen. T5-modeller er en model, der kan tilpasses til generelle formål, og som kan håndtere et alsidigt udvalg af opgaver.

Oprettelse og opsummering af indhold

LLM'er kan generere engagerende, informativt og kontekstafhængigt relevant indhold i en række forskellige typografier og formater. Når de bliver bedt om det, kan de generere artikler, rapporter, blogindlæg, mails, marketingkopier og endda kodestykker.   
Når det drejer sig om oversigter, skiller LLM'er sig ud i deres unikke evne til at udtrække store mængder tekst til præcise og præcise snapshots. De kan præsentere nøglepunkter, mens de stadig bevarer den oprindelige kontekst og betydning af det oprindelige indhold. Forskere sparer allerede tid og øger produktiviteten ved at bruge LLM'er til at opsummere forskningspapirer, artikler, præsentationer og mødenoter.

Samtaleagenter og chatrobotter

Samtaleagenter og chatrobotter er afhængige af de avancerede egenskaber til behandling af naturligt sprog i LLM'er for at generere menneskelignende interaktioner. De fortolker brugerinput og reagerer på en flydende, naturlig og kontekstafhængig måde. De kan ikke blot besvare spørgsmål, men de kan også deltage i en lang og kompleks dialog. 
Med tilføjelsen af chatrobotter og virtuelle assistenter kan virksomheder nu yde support døgnet rundt til deres kunder og dermed udvide deres tjenestetilgængelighed, forbedre svartiderne og øge den overordnede kundetilfredshed.

Oversættelse af sprog og analyse af synspunkter

LLM'er, der er grundigt trænet på flersprogede datasæt, producerer meget præcise oversættelser på tværs af forskellige sprog. I modsætning til traditionelle modeller kan LLM'er registrere sprogs nuancer og kompleksitet, såsom idiomatiske udtryk, hvilket resulterer i oversættelser, der både er flydende og kontekstafhængigt relevante. 
LLM'er kan også udføre synspunktsanalyser, som analyserer den underliggende følelsesmæssige tone i en tekst. Ved at behandle og fortolke sprogs nuancer giver LLM'er mere præcise og indsigtsfulde evalueringer af synspunkter. De kan endda registrere mere nuancerede synspunkter, såsom sarkasme. 

Tilpassede anbefalinger

LLM'er kan analysere brugerdata, herunder brugerhistorik og præferencer, og generere tilpassede, skræddersyede anbefalinger, der afspejler brugerens interesser og behov, hvilket igen forbedrer den overordnede brugeroplevelse. 
Denne funktion bruges i stor udstrækning på tværs af e-handel, indholdsstreaming og sociale medier, hvor levering af skræddersyede anbefalinger fremmer mere meningsfulde interaktioner. LLM'er kan også bruges som et uddannelsesværktøj ved at levere tilpassede læringsoplevelser til studerende.
Ofte stillede spørgsmål

Ofte stillede spørgsmål

  • LLM står for stor sprogmodel.
  • Kunstig intelligens er et bredt felt, der dækker en lang række programmer ud over blot sprog. Det omfatter alle teknologier, der har til formål at replikere menneskelig intelligens. Som en bestemt type AI-model er LLM'er et undersæt af det bredere AI-landskab, der fokuserer på behandling og generering af tekst på et naturligt sprog.
  • NlP (Natural Language Processing) refererer til det overordnede felt, der fokuserer på sprogbehandling, mens store sprogmodeller (LLM'er) er en specifik, avanceret type model inden for NLP-området, der bruger detaljerede læringsteknikker til at håndtere sprogopgaver.
  • Generative pre-trained transformer (GPT) refererer til en bestemt serie af store sprogmodeller (LLM'er), der er udviklet af OpenAI. De er en type LLM med et bestemt fokus på sproggenerering.