Trace Id is missing
Gå till huvudinnehåll
Azure

Vad är stora språkmodeller (LLM:er)?

Få en översikt över hur LLM:er fungerar och utforska hur de används för att skapa AI-baserade lösningar.

LLM-betydelse

Stora språkmodeller (LLMs) är avancerade AI-system som förstår och genererar naturligt språk, eller mänsklig text, med hjälp av de data som de har tränats på via tekniker av maskininlärning. LLM:er kan automatiskt generera textbaserat innehåll, som kan tillämpas på en mängd olika användningsfall i olika branscher, vilket resulterar i större effektivitet och kostnadsbesparingar för organisationer över hela världen. 

Viktiga lärdomar

  • LLM:er är avancerade AI-system som kan förstå och generera naturligt språk.
  • LLM:er förlitar sig på djupinlärningsarkitekturer och maskininlärningstekniker för att bearbeta och införliva information från olika datakällor.
  • LlM:er ger stora fördelar, till exempel språkgenerering och översättning, till en mängd olika fält.
  • Även om de är banbrytande står LLM:er inför utmaningar som kan omfatta beräkningskrav, etiska problem och begränsningar när det gäller att förstå kontexten.
  • Trots dessa utmaningar använder organisationer redan GPT-serien (generative pre-trained transformers) och dubbelriktade kodarrepresentationer från transformatorer (BERT) för uppgifter som att skapa innehåll, chattrobotar, översättning och attitydanalys.

Så här fungerar LLM:er

En kort beskrivning av LLM:ers historia

LLM:er är en modern utveckling, men studien av bearbetning av naturligt språk (NLP) är från 1950, när Alan Turing lanserade Turing-testet för att mäta intelligent beteende mellan datorer. I testet talar en mänsklig domare till en dator med hjälp av en uppsättning frågor och måste avgöra om de talar till en dator eller en människa.
Under 1980- och 1990-talen övergått NLP från logikexperiment till en mer datadriven metod. Med deras förmåga att förutsäga vilka ord i en mening som sannolikt kommer härnäst baserat på orden före dem, banade statistiska språkmodeller, till exempel n-gram, vägen för en ny period. I början av 2010-talet utökade nyare neurala nätverk funktionerna i dessa språkmodeller ännu mer, så att de kan gå längre än att fastställa ordordningen mot en djupare förståelse av representationen och innebörden av ord.
Den här nya utvecklingen ledde till ett banbrytande år 2018, när åtta Google-forskare skrev och publicerade “Attention is All You Need,” en landmärkesstudie om maskininlärning. Det viktigaste är att dokumentet introducerade transformeringsarkitekturen, ett innovativt neuralt nätverksramverk som kunde hantera och förstå komplex textinformation med större noggrannhet och skala. Transformatorer är nu grundläggande för några av dagens mest kraftfulla LLM:er, inklusive GPT-serien, samt BERT.

Grundläggande arkitektur

I dagens avancerade LLM:er används djupinlärnings arkitekturer som transformatorer och andra djupa neurala nätverksramverk för att bearbeta information från olika datakällor. Transformatorer är särskilt effektiva när det gäller att hantera sekventiella data, till exempel text, vilket gör att de kan förstå och generera naturligt språk för uppgifter som språkgenerering och översättning. 
Transformatorer består av två primära komponenter: kodare och avkodare. Dessa komponenter arbetar ofta tillsammans för att bearbeta och generera sekvenser. Kodaren tar råa textdata och omvandlar indata till diskreta element som kan analyseras av modellen. Avkodaren bearbetar sedan dessa data genom en serie lager för att producera de slutliga utdata, som till exempel kan bestå av en genererad mening. Transformatorer kan också endast bestå av kodare eller avkodare, beroende på typ av modell eller uppgift.

Utbildningsprocess

Träningsprocessen för LLM:er består av tre huvudsteg: datainsamling, modellträning och finjustering. 
Under datainsamlingsfasen exponeras modellen för stora mängder textdata från en mängd olika källor, inklusive Internetresurser, böcker, artiklar och databaser. Data rensas, bearbetas, standardiseras och lagras i en NoSQL-databas så att den kan användas för att träna modellen på språkmönster, grammatik, information och kontext. 
I förträningsfasen börjar modellen skapa en förståelse för språket i data. Detta uppnås genom storskaliga, oövervakade uppgifter där modellen lär sig att förutsäga text baserat på dess kontext. Vissa tekniker omfattar autoregressiv modellering, där modellen lär sig att förutsäga nästa ord i en sekvens, samt maskerad språkmodellering, där modellen fyller i maskerade ord för att förstå kontexten. 
Slutligen tränas modellen ytterligare på en mindre, mer uppgiftsspecifik datamängd under finjusteringsfasen. Den här processen förfinar modellens kunskaper och förbättrar dess prestanda för specifika uppgifter, till exempel attitydanalys eller översättning, så att den kan användas för en mängd olika program.

Nyckelkomponenter

Transformerarmodellen delar upp råtexten i mindre, grundläggande textenheter som kallas token. Token kan bestå av ord, orddelar eller till och med enskilda tecken, beroende på användningsfall. Dessa token konverteras sedan till kompakta numeriska representationer som samlar in ordning, semantisk betydelse och kontext. Dessa representationer, som kallas inbäddningar, skickas sedan genom en hög med lager som består av två underskikt: självuppmärksamhet och neurala nätverk.
Båda lagren hjälper till att konvertera text till ett formulär som modellen kan bearbeta effektivt, men mekanismen för självuppmärksamhet är en viktig komponent i transformeringsarkitekturen. Mekanismen för självuppmärksamhet är det som gör att modellen kan använda olika delar av en textsekvens och dynamiskt väga informationsvärdet i förhållande till andra token i sekvensen, oavsett deras position. Den här mekanismen är också det som ger LLM:er kapacitet att fånga invecklad beroenden, relationer och sammanhangsberoende nyanser av skriftligt språk.

Fördelar och utmaningar

Fördelar

LLM:er erbjuder många fördelar som har bidragit till betydande framsteg i arbetet och samhället.

Förbättrad språkgenerering och översättning

Eftersom LLM:er kan förstå och fånga de nyanserade relationerna mellan ord är de bra på att producera naturlig, manniskoliknande text, vilket resulterar i förbättrad språkgenerering. De kan smidigt och konsekvent generera kreativa, kontextuellt lämpliga svar, och de kan göra det i olika format, inklusive romaner.
Eftersom de kan kontextualisera och hitta subtiliteter i betydelsen kan LLM:er som tränas på flerspråkiga data också utföra mycket exakta översättningar. Genom att träna en modell på en viss uppsättning språk kan de finjustera sin förmåga att hantera idiomer, uttryck och andra komplexa språkfunktioner, vilket resulterar i översättningar som känns organiska och flytande.

Program i olika fält

LLM:er är mångsidiga verktyg som har många program inom många områden, inklusive sjukvård, ekonomi och kundservice.
 
Inom hälso- och sjukvården kan LLM:er: 
  • Analysera patientrapporter för möjliga hälsotillstånd och ge preliminära diagnoser. 
  • Generera patientanteckningar och utskrivningssammanfattningar, vilket i sin tur effektiviserar administrativa uppgifter. 
  • Föreslå personliga behandlingsplaner och sjukvård baserat på patientens historia.  
  I finanssektorn kan LLM:er:
  • Identifiera ovanlig aktivitet i finansiella data som kan tyda på bedrägeri. 
  • Utvärdera finansiella risker genom att analysera marknadstrender och finansiella rapporter. 
  • Föreslå anpassade rekommendationer baserat på din unika ekonomiska historik och dina mål.  
  I kundtjänst kan LLM:er:
  • Få automatiserad kundsupport via konversationsagenter och chattrobotar. 
  • Utöka omfattningen för en organisationstjänst genom att ge kunderna support hela dagen.
  • Hjälp till att skapa och uppdatera dokumentationen genom att generera innehåll baserat på vanliga frågor.  

Utmaningar

LLM:er erbjuder viktiga fördar, men det finns också utmaningar att ta hänsyn till.

Beräknings- och energikrav

Även om LLM:er är kraftfulla kräver de betydande mängder beräkningsresurser, lagring och energiförbrukning för att fungera. Under träningen skalas transformatorer med längden på indatasekvensen, så ju längre text, desto mer minne behöver du. Dessa krav är inte bara dyra, utan de genererar också en betydande mängd koldioxid i miljön.
Plattformar för Molnbaserad databehandling är leverans av databehandlingstjänster som servrar, lagring, databaser, nätverk, programvara, analys och intelligensmolnbaserad databehandling kan stödja den tunga beräkningsbelastningen på LLM:er genom att tillhandahålla flexibel, skalbar infrastruktur, vilket gör det mer tillgängligt för organisationer att börja utveckla sina egna modeller. Miljöpåverkan från LLM:er utgör dock en utmaning och tyder på behovet av mer energieffektiva modeller och tekniker.

Etiska frågor (t.ex. bias, felaktig information)

LLM:er är bara lika bra som de data som de tränas på. Om det finns en diskriminatorisk bias mot vissa grupper i träningsdata kommer modellen att framhäva dessa attityder. Att identifiera och minimera dessa bias så att modellen förblir rättvis är en pågående uppgift som kräver frekvent och konsekvent mänsklig övervakning.
LLM:er kan också ge övertygande men sakligt missvisande information, vilket resulterar i spridning av felaktig information, falska nyheter, nätfiskemeddelanden och andra former av skadligt innehåll. Riktlinjerna för innehållsmoderering kan också variera mellan olika regioner, vilket gör dem svåra att navigera i. Därför kan många organisationer ha svårt att skapa och upprätthålla förtroende för sina användare när de introducerar LLM:er för sin affärsverksamhet.

Begränsningar när det gäller att förstå kontext och nyanser

Även om LLM:er är bra på att identifiera mönster på språk kan de fortfarande ha problem med nya eller okända kontexter som kräver mer nyanserad förståelse. Därför kan LLM:er som tränats på känsliga, upphovsrättsskyddade data av misstag generera eller avslöja konfidentiell information från sina träningsdata. 
Att åtgärda det här problemet kan innebära en betydande utmaning, särskilt eftersom de interna funktionerna i LLM:er ofta saknar transparens. Detta kan bidra till en övergripande brist på ansvar, samt problem med att skapa förtroenden. 

Typer och användningsfall

GPT-serien

GPT-serien, som först utvecklades av OpenAI 2018, introducerade det grundläggande begreppet datainsamling, förträning och finjustering för LLM:er. GPT-2, som släpptes 2019, har avsevärt skalat upp modellens funktioner och förbättrat dess förmåga att generera mer kontextuellt relevanta språk. GPT-3 förbättrade modellens kapacitet för hantering av komplexa frågor och uppgifter. Den senaste iterationen, GPT-4, släpptes 2023 och ger ännu mer exakta och nyanserade svar på uppmaningar, samtidigt som du hanterar några av modellens tidigare utmaningar, inklusive bias. 
Idag fortsätter GPT att flytta gränserna för vad som är möjligt inom området för generering av naturligt språk. Varje modell i serien bygger på den föregående, vilket driver AI-baserad innovation framåt. 

BERT och dess varianter

BERT utvecklades av Google 2018 och är en banbrytande modell som har satt standarden för vad som är möjligt med LLM:er. Till skillnad från GPT-serien, som bearbetar text på ett enkelriktat sätt (från vänster till höger eller höger till vänster), använder BERT en dubbelriktad metod. En dubbelriktad modell bearbetar kontexten för varje ord från båda riktningarna samtidigt, vilket gör att BERT kan utföra maskerad språkmodellering utöver nästa meningsförutsägelser. Forskare har också bidragit till ytterligare framsteg inom fältet genom att finjustera BERT för uppgifter som attitydanalys, vilket gör att nya prestandamått anges.  

Andra viktiga modeller

Robust optimerad BERT-metod (RoBERTa) utvecklades av Facebook AI 2019 och är en variant av BERT-modellen som utökar BERT:s dubbelriktade transformerararkitektur genom att optimera förträningsprocessen. RoBERTa tränas med en större datauppsättning och längre. Den fokuserar också enbart på maskerad språkmodellering. Detta gör att RoBERTa kan visa sin robusta förmåga att fånga sammanhang och nyanser. 
Text-till-text-överföringstransformator (T5), som användes av Google Research, är en annan viktig LLM. Precis som traditionella modeller bygger T5 på transformeringsarkitekturen och använder kodare och avkodare för att bearbeta text under förträningsfasen. Till skillnad från traditionella modeller behandlar T5 både indata och utdata som textsträngar, vilket förenklar arkitekturen och effektiviserar träningsprocessen. T5-modeller är en anpassningsbar generell modell som kan hantera en mängd olika uppgifter.

Skapa och summera innehåll

LLM:er kan generera engagerande, informativt och kontextuellt lämpligt innehåll i en mängd olika stilar och format. När de uppmanas till det kan de generera artiklar, rapporter, blogginlägg, e-postmeddelanden, marknadsföringskopior och till och med kodfragment.   
När det gäller sammanfattningar sticker LLM:er ut i sin unika förmåga att destillera stora mängder text till koncisa och exakta ögonblicksbilder. De kan presentera viktiga punkter samtidigt som den ursprungliga kontexten och innebörden av det ursprungliga innehållet bevaras. Forskare sparar redan tid och ökar produktiviteten med hjälp av LLM:er för att sammanfatta forskningsrapporter, artiklar, presentationer och mötesanteckningar.

Konversationsagenter och chattrobotar

Konversationsagenter och chattrobotar förlitar sig på de avancerade funktionerna för bearbetning av naturligt språk i LLM:er för att generera mänskliga interaktioner. De tolkar användarindata och svarar på ett smidigt, naturligt och sammanhangsmässigt relevant sätt. De kan inte bara besvara frågor, utan de kan också delta i en lång och komplex dialog. 
Med tillägg av chattrobotar och virtuella assistenter kan företag nu tillhandahålla dygnet runt-support till sina kunder, vilket i sin tur utökar deras tjänsttillgänglighet, förbättrar svarstiderna och ökar kundnöjdheten.

Språköversättning och attitydanalys

LLM:er som tränas mycket på flerspråkiga datamängder ger mycket exakta översättningar på olika språk. Till skillnad från traditionella modeller kan LLM:er fånga upp språkets nyanser och komplexitet, till exempel idiomatiska uttryck, vilket resulterar i översättningar som är både flytande och sammanhangsmässigt lämpliga. 
LLM:er kan också utföra attitydanalys, som analyserar den underliggande känslomässiga tonen i en text. Genom att bearbeta och tolka språkets nyanser ger LLM:er mer exakta och insiktsfulla attitydutvärderingar. De kan till och med identifiera mer nyanserade attityder, till exempel sarkasm. 

Personanpassade rekommendationer

LLM:er kan analysera användardata, inklusive användarhistorik och inställningar, och generera personliga, skräddarsydda rekommendationer som återspeglar användarens intressen och behov, vilket i sin tur förbättrar den övergripande användarupplevelsen. 
Den här funktionen används ofta inom e-handel, innehållsströmning och sociala medier, där leverans av skräddarsydda rekommendationer ger mer meningsfulla interaktioner. LLm:er kan också användas som ett utbildningsverktyg genom att ge personliga utbildningsupplevelser till studenter.

Vad står på tur?

Allt eftersom forskare fortsätter att förbättra sin förståelse, effektivitet och skalbarhet förväntas LLM:er bli ännu mer skickligare när det gäller att hantera komplexa språkuppgifter. I takt med att implementeringen av LLM:er ökar kommer allt fler organisationer att uppleva effektiviserad automatisering, större anpassning och bättre beslutsprocesser på det hela taget. 
Forskare fortsätter att utforska nya sätt att hantera bias, ett pågående problem. Dessa omfattar fördomsalgoritmer som hanterar bias under träning, införlivar syntetiska data som kan balansera om datauppsättningar för att återspegla rättvisa, förklaringsverktyg för att bättre förstå modellbeslut och identifieringsmått som hjälper till att identifiera och kvantifiera bias mer exakt. 
Multimodala modeller, som bearbetar text-, bild-, ljud- och videodata, blir också mer och mer sofistikerade. Medan LLM:er bearbetar textdata genom att utvärdera syntax och innebörd analyserar multimodala modeller visuella data via tekniker för visuellt innehåll samt ljuddata genom temporal bearbetning. Top of Form Multimodal-modeller förbättrar dagens teknik samtidigt som vi går in på framtidens innovationer.
RESURSER

Mer information om Azure AI

En person som sitter framför en dator
Resurser

Resurser för studentutvecklare

Använd utbildningsmaterial och program som hjälper dig att kickstarta karriären.
En grupp personer som sitter i en cirkel
Resurser

Azure-resurser

Få åtkomst till alla Azure-resurser du behöver, inklusive självstudier, faktablad och kodexempel.
En person som ler mot en dator
Resurser

AI-utbildningshubben

Utveckla dina AI-färdigheter med utbildning som är anpassad efter din roll eller specifik teknik.
Vanliga frågor och svar

Vanliga frågor och svar

  • LLM står för en stor språkmodell.
  • AI är ett brett fält som omfattar en mängd olika program utöver bara språk. Den innehåller alla tekniker som syftar till att replikera mänsklig intelligens. Som en specifik typ av AI-modell är LLM:er en delmängd av det bredare AI-landskapet, som fokuserar på bearbetning och generering av text på naturligt språk.
  • Bearbetning av naturligt språk (NLP) avser det övergripande fältet som fokuserar på språkbearbetning, medan stora språkmodeller (LLM) är en specifik, avancerad typ av modell inom NLP-fältet som använder djupinlärningstekniker för att hantera språkuppgifter.
  • Generative pre-trained transformer (GPT) refererar till en specifik serie stora språkmodeller (LLMs) som utvecklats av OpenAI. De är en typ av LLM, med särskilt fokus på språkgenerering.