Hvad er forstærket læring?

Få mere at vide om, hvad forstærket læring er, og hvordan det hjælper AI-systemer med at tilpasse sig og blive bedre over tid.

Kom i gang med Azure

Oversigt over forstærket læring

Forstærket læring er en metode til maskinel indlæring, hvor systemer lærer ved at interagere med deres omgivelser, modtage feedback og justere adfærden for at forbedre beslutningstagningen over tid.

Vigtigste budskaber

Forstærket læring træner modeller ved at lade dem prøve sig frem ved hjælp af belønninger for at forme adfærden over tid.
Det er velegnet til opgaver, der omfatter en serie af beslutninger, som f.eks. robotteknologi, spil eller tilpasning.
Forstærket læring med menneskelig feedback (RLHF) forbedrer modellens tilpasning ved at bruge menneskelige input i stedet for kun automatiserede signaler.
RLHF hjælper systemer med at generere svar, der afspejler menneskelige mål, værdier eller præferencer bedre.
Begge tilgange udvikler sig fortsat, efterhånden som maskinel indlæring får en større rolle i AI-assisterede værktøjer og systemer.

Forstærket læring defineret

Forstærket læring en tilgang til maskinel indlæring, hvor systemer lærer gennem erfaring. En agent interagerer med et miljø, udfører handlinger, modtager feedback i form af belønninger eller straf og justerer den fremtidige adfærd for at forbedre ydeevnen. Over tid lærer agenten, hvilke beslutninger der fører til bedre resultater. Dette gør metoden særligt værdifuld til dynamiske eller sekventielle opgaver, hvor den optimale løsning ikke er kendt på forhånd. Det bruges på tværs af områder, fra robotteknologi og spil til anbefalingssystemer og indholdsmoderering.

Grundlæggende om forstærket læring

Hvad er forstærket læring, og hvordan påvirker det AI-systemer?

Maskinel indlæring hjælper computere med at lære mønstre fra oplysninger over tid uden at være eksplicit programmeret. Det driver alt fra e-mailfiltrering til registrering af svindel og AI-assisteret oversættelse. Inden for dette brede felt er forstærket læring en specifik tilgang, der lærer systemer at træffe beslutninger gennem erfaring.

En anden type læringsloop

I modsætning til overvåget læring, som bruger mærkede data, fungerer forstærket læring ved at prøve sig frem. Et system – kaldet en agent – interagerer med sit miljø, udfører handlinger og modtager belønninger eller straf. Over tid lærer det, hvilke handlinger der fører til bedre resultater.

Feedbackløkke fungerer sådan:

Agenten udfører en handling.
Miljøet reagerer.
Agenten får en belønning eller en straf.
Agenten justerer sin strategi på baggrund af denne feedback.

Denne konfiguration er især nyttig, når det rigtige svar ikke er kendt på forhånd, men man kan måle succes ud fra resultaterne. Det afspejler den måde, mennesker lærer på, nemlig ved at prøve, observere resultatet og justere det næste træk.

Sådan understøtter forstærket læring smartere systemer
Forstærket læring er ideelt til systemer, der skal træffe en række beslutninger, hvor hver handling påvirker den næste. Det bruges ofte i dynamiske miljøer, hvor det ikke er praktisk at træne en model helt fra bunden.

Almindelige anvendelsesområder omfatter:

Robotteknologi: undervise robotter i at gå, gribe eller navigere
Spil: udvikling af konkurrencedygtige strategier
Industriel automatisering: justering og tilpasning af styresystemer
Indholdsanbefalinger: tilpasning baseret på brugeradfærd
Ressourceoptimering: forbedring af effektiviteten på områder som datacenterdrift

I alle disse tilfælde hjælper forstærket læring systemer med at blive bedre gennem erfaring – ikke kun data.

Et skridt videre: Forstærket læring med menneskelig feedback

Traditionel forstærket læring bruger belønninger, der er defineret af udviklere. Men nogle mål – som at skrive en klar forklaring eller tilpasse sig sociale normer – er svære at kvantificere. Det er her, forstærket læring med menneskelig feedback (RLHF) kommer ind i billedet.

Hvad er RLHF? Med RLHF giver menneskelige vurderingspersoner input gennem vurderinger, præferencer eller sammenligninger. Denne feedback hjælper med at styre modellerne mod resultater, der bedre afspejler menneskelige værdier og forventninger.

RLHF er blevet særligt vigtigt i træningen af store sprogmodeller (LLM'er) og generative systemer. Det hjælper med at sikre, at resultaterne ikke kun er funktionelle, men også nyttige, passende og i tråd med brugerens intention.

Forstå styrkerne og afvejningerne

Forstærket læring og RLHF giver brugbare fordele, især i komplekse eller uforudsigelige miljøer. Men de introducerer også nye udfordringer. Når arbejdsgrupper har en klar forståelse af begge dele, er det lettere at vælge det rigtige værktøj til opgaven.

Fordele

Kan tilpasses i uforudsigelige miljøer
Mange systemer i den virkelige verden – robotter, spil, logistik – fungerer under skiftende forhold. Forstærket læring hjælper disse systemer med at tilpasse sig og blive bedre over tid.
Sikrere og mere kontrollerede systemer
For sikkerhedskritiske områder som produktion eller selvkørende køretøjer giver forstærket læring mulighed for gradvis forbedring. Når det kombineres med menneskelig feedback, kan det skabe en sikrere og mere stabil adfærd.
Afstemt med menneskelige mål
RLHF træner modeller til at prioritere det, som mennesker værdsætter – ikke kun det, der er nemt at måle. Det fører til mere meningsfulde resultater inden for områder som indholdsmoderering, chatbot-samtaler og anbefalingsmotorer.

Udfordringer

Menneskelige inputs er ikke lette at skalere
Det tager tid at indsamle struktureret menneskelig feedback. Efterhånden som modeller og opgaver bliver mere komplekse, bliver det sværere at håndtere.
Lave omkostninger og lav kompleksitet
RLHF tilføjer ekstra trin til træningsprocessen. Arbejdsgrupper skal træne en basismodel og derefter finjustere den med menneskelige data – hvilket kræver mere beregningskraft, koordinering og evaluering.
Svært at stabilisere og reproducere
Fordi forstærket læring afhænger af sit miljø, kan små ændringer give uforudsigelige resultater. For at opnå ensartet ydeevne kræves der test, justering og omhyggeligt design.

Use cases

Anvendelser i den virkelige verden

Forstærket læring og RLHF bruges allerede i systemer, der skal kunne justere eller tilpasse sig eller svare nuanceret.

AI i samtaler

Store sprogmodeller – og i stigende grad små sprogmodeller (SLM'er) – bruger RLHF til at forbedre den måde, de svarer brugerne på. Menneskelige korrekturlæsere hjælper med at forme tonen, reducere bias og styre modeller mod hjælpsomme, relevante svar.

Robotteknik

Robotter arbejder ofte under uforudsigelige forhold – på fabriksgulve, i hjem eller ude i marken. Forstærket læring hjælper dem med at tilpasse handlinger baseret på resultater, som når de lærer at samle uregelmæssigt formede objekter op eller gå over ujævnt terræn.

Indholdsanbefaling og tilpasning

Disse systemer udvikler sig ud fra brugeradfærd. Forstærket læring gør det muligt for indholdsfeeds, streamingplatforme og læringsapps at tilpasse sig over tid, så relevansen forbedres. Menneskelig input kan også hjælpe med at styre anbefalinger mod mere varieret eller indhold af høj kvalitet.

Indholdsmoderation

På områder, hvor communitystandarder eller social kontekst er vigtige, hjælper RLHF systemer med at træffe bedre beslutninger. Menneskelige vurderinger og feedback hjælper modeller med at lære, hvad der er passende, også i tilfælde, der ikke er entydige.

Spil

Spil bruges ofte som træningsmiljøer, fordi de tilbyder strukturerede regler og mål, der kan måles. Forstærket læring hjælper agenter med at udvikle nye strategier gennem gentaget spil og gentagelse, ofte i simuleringer, før de bruges i virkelige anvendelser.

Finansiel modellering og handel

Adaptive modeller bruger forstærket læring til at undersøge markedsstrategier, administrere porteføljer eller teste risikoscenarier. Disse systemer lærer af syntetiske miljøer og historiske data og forbedres over tid, samtidig med at de forbliver forankret i virkelige målepunkter.

Vær forberedt på det, der kommer inden for AI

Maskinel indlæring er grundlaget for mange af nutidens AI-gennembrud. Læring fra data driver moderne innovation, fra computer vision til sprogmodeller til robotteknologi. Forstærket læring – og især RLHF – spiller en stadig større rolle i systemer, der lærer gennem interaktion, ikke kun instruktion.

Mere intelligente systemer, bygget på erfaring
Modeller med forstærket læring udvikler sig gennem erfaring, hvilket gør dem bedre egnet til usikre eller sekventielle opgaver. I stedet for at lære fra faste data tilpasser de sig i realtid – og forbedrer resultaterne over flere trin.

Efterhånden som disse systemer anvendes på bredere domæner – herunder multimodal AI, der kombinerer tekst, billeder, lyd eller video – tilføjer menneskelig feedback et vigtigt lag. Det hjælper med at styre beslutninger, der ikke let kan måles – som for eksempel om en chatbot gav et tilfredsstillende svar, eller om en anbefaling virkelig var hjælpsom.

Næste fase af RLHF
I takt med at flere organisationer tager AI-assisterede værktøjer i brug, bliver RLHF centralt for ansvarlig udvikling – især i anvendelser med naturlig sprogbehandling (NLP), hvor tone, kontekst og relevans er vigtige. Men det er ikke let at skalere. Det er dyrt og tidskrævende at indsamle nyttige menneskelige input.

For at løse dette undersøger forskere:

Mere effektive feedbackløkker, herunder syntetisk feedback, der efterligner menneskelige svar.
Bedre evalueringsværktøjer til at måle, hvor godt modeller stemmer overens med mål eller værdier.
Anvendelser på tværs af domæner, der kombinerer forstærket læring med andre former for maskinlæring for at skabe mere fleksible systemer.

Der er også stigende interesse for at bruge RLHF til at øge gennemsigtighed og ansvarlighed. Ved at forstærke ønsket adfærd med menneskelig input får arbejdsgrupper mere kontrol over, hvordan AI-systemer udvikler sig.

Et område i udvikling
Forstærket læring og RLHF er ikke løsninger, der passer til alle. Men de er stærke, når de bruges til det rigtige problem. I takt med at AI-systemer bliver mere effektive – og stadig vigtigere på områder som kognitiv AI, der sigter mod at efterligne menneskelig ræsonnement – vil behovet for metoder, der understøtter tilpasning, tilsyn og tilpasning til mål, kun vokse.

For både ledere og udviklere kan en forståelse af, hvordan disse teknikker fungerer, føre til mere velbegrundede og gennemtænkte anvendelser af AI. Forstærket læring er ikke altid svaret – men når det passer til problemet, åbner det nye måder at bygge systemer på, som lærer i den virkelige verden.

Ressourcer

Få mere at vide om Azure

En mand, der smiler og kigger på kameraet.

Azure-ressourcer

Besøg Azure-ressourcecenter

Få adgang til videoer, analyserapporter, træning, casestudier, kodeeksempler og løsningsarkitekturer.

Få mere at vide

Uddannelse og certificering

Udforsk Azure-læringsforløb

Opbyg cloudfærdigheder for at skabe resultater – fra personlig udvikling til stærkere forretningsresultater.

Få mere at vide

To personer smiler, mens de kigger på en fane.

Begivenheder og webinarer

Få mere at vide om kommende arrangementer og kurser

Udforsk nye innovationer, udvikl dine færdigheder, og kom i kontakt med communityet – virtuelt eller personligt.

Få mere at vide

Ofte stillede spørgsmål

AI-systemer lærer typisk ved hjælp af en af tre metoder:

Overvåget læring: Lærer af mærkede data. Bruges til opgaver som objektgenkendelse eller oversættelse.

Uovervåget læring: Finder mønstre uden mærkede resultater. Bruges til klyngedannelse eller registrering af afvigelser.

Forstærket læring: Lærer gennem interaktion og feedback. Bruges til sekventiel beslutningstagning.
Forstærket læring hjælper modeller med at træffe beslutninger ved at prøve sig frem. Den er designet til at træne systemer, der lærer ved at interagere med deres miljø og justere deres adfærd baseret på belønninger eller straf over tid. Det gør den nyttig til opgaver, hvor resultaterne afhænger af en række handlinger snarere end en enkelt forudsigelse.
Forstærket læring fra menneskelig feedback (RLHF) er en metode, der forbedrer modeladfærd ved hjælp af menneskelig input. RLHF er en måde at træne modeller på ved hjælp af præferencer, vurderinger eller sammenligninger fra mennesker i stedet for kun at basere sig på automatiske belønninger. Det hjælper med at styre systemer mod resultater, der bedre matcher menneskelige mål eller værdier – især inden for områder som samtale, indholdsgenerering eller moderering.
Forstærket læring fokuserer på at træffe beslutninger. Det træner en model til at udføre handlinger i et miljø og lære af feedback. I nogle systemer bruger man deep learning inden for forstærket læring for at hjælpe modellen med at behandle komplekse input som billeder eller tekst. Deep learning bruger lagdelte neurale netværk til at lære af store mængder data og anvendes ofte til opgaver som billedgenkendelse, talebehandling eller tekstgenerering.
Retrieval-augmented generation (RAG) og forstærket læring med menneskelig feedback (RLHF) er to forskellige måder at forbedre AI-genererede svar på. RAG hjælper en model med at få adgang til ekstern information – som dokumenter eller databaser – mens den genererer output, så svarene bliver mere nøjagtige og ajourførte. RLHF forbedrer en models adfærd ved at træne den med menneskelige præferencer eller feedback, så den kan levere svar, der er mere nyttige, passende eller i tråd med brugerens hensigt. RAG understøtter faktuel nøjagtighed; RLHF understøtter kvalitet og tilpasning.

Få Azure-mobilappen

Hvad er forstærket læring?

Oversigt over forstærket læring

Vigtigste budskaber

Forstærket læring defineret

Grundlæggende om forstærket læring

Forstå styrkerne og afvejningerne

Anvendelser i den virkelige verden

AI i samtaler

Robotteknik

Indholdsanbefaling og tilpasning

Indholdsmoderation

Spil

Finansiel modellering og handel

Vær forberedt på det, der kommer inden for AI

Få mere at vide om Azure

Besøg Azure-ressourcecenter

Udforsk Azure-læringsforløb

Få mere at vide om kommende arrangementer og kurser

Ofte stillede spørgsmål

Hvad er de tre typer AI-læring?

Hvad er det primære formål med forstærket læring?

Hvad er forstærket læring med menneskelig feedback?

Hvad er forskellen på deep learning og forstærket læring?

Hvad er forskellen på RAG og RLHF?