Trace Id is missing
Overslaan naar hoofdinhoud
Azure

Wat zijn LLM's (Large Language Models)?

Bekijk een overzicht van hoe LLM's werken en ontdek hoe ze worden gebruikt om AI-gestuurde oplossingen te bouwen.

LLM-betekenis

LLM's (grote taalmodellen) zijn geavanceerde AI-systemen die natuurlijke taal, of menselijke tekst, begrijpen en genereren met behulp van de gegevens waarop ze zijn getraind via machine learning-technieken. LLM's kunnen automatisch inhoud op basis van tekst genereren, die kan worden toegepast op een groot aantal gebruikssituaties in verschillende branches, wat resulteert in hogere efficiëntie en kostenbesparingen voor organisaties wereldwijd. 

Belangrijke punten

  • LLM's zijn geavanceerde AI-systemen die natuurlijke taal kunnen begrijpen en genereren.
  • LLM's zijn gebaseerd op deep learning-architecturen en machine learning-technieken voor het verwerken en opnemen van informatie uit verschillende gegevensbronnen.
  • LLM's bieden grote voordelen, zoals taalgeneratie en vertaling voor een breed scala aan vakgebieden.
  • Hoewel ze grensverleggend zijn, worden LLM's geconfronteerd met uitdagingen die kunnen bestaan uit rekenkundige vereisten, ethische problemen en beperkingen bij het begrijpen van de context.
  • Ondanks deze uitdagingen maken organisaties nu al gebruik van de generatieve, vooraf GPT's (Generative Pretrained Transformers) en BERT's (Bidirectional Encoder Representations from Transformers) voor taken zoals inhoudcreatie, chatbots, vertaling en sentimentanalyse.

Hoe LLM's werken

De geschiedenis van LLM's in het kort

LLM's zijn een moderne ontwikkeling, maar het onderzoek naar natuurlijke taalverwerking (NLP, Natural Language Processing) gaat terug tot 1950, toen Alan Turing de Turing-test introduceerde om intelligent gedrag van computers te beoordelen. In de test spreekt een menselijke rechter met een computer met behulp van een reeks vragen en moet deze bepalen of hij of zij met een machine of een mens praat.
In de jaren 1980 en 1990 verschuift NLP van logische experimenten naar een meer gegevensgestuurde benadering. Door de mogelijkheid om de woorden te voorspellen op basis van de voorgaande woorden, hebben statistische taalmodellen, zoals n-grammen, de basis gelegd voor een nieuw tijdperk. Begin jaren 2010 breidden nieuwe neurale netwerken de mogelijkheden van deze taalmodellen verder uit, waardoor ze meer kunnen bereiken dan het bepalen van de volgorde van woorden en beter inzicht krijgen in de representatie en betekenis van woorden.
Deze nieuwe ontwikkelingen leidden in 2018 tot een doorbraak, toen acht Google-wetenschappers het baanbrekende onderzoek naar machine learning “Attention is All You Need” hebben geschreven en gepubliceerd. Het document introduceerde met name de transformer-architectuur, een innovatief framework voor neurale netwerken waarmee complexe tekstuele informatie met grotere nauwkeurigheid en schaal kan worden beheerd en begrepen. Transformers zijn nu de basis voor een paar van de krachtigste LLM's, waaronder de GPT-serie, evenals BERT.

Basisarchitectuur

De moderne LLM's gebruiken deep learning-architecturen zoals transformers en andere deep neural network-frameworks om informatie uit verschillende gegevensbronnen te verwerken. Transformatoren zijn met name effectief bij het verwerken van opeenvolgende gegevens, zoals tekst, waardoor ze natuurlijke taal kunnen begrijpen en genereren voor taken zoals taalgeneratie en vertaling. 
Transformatoren bestaan uit twee primaire onderdelen: encoders en decoders. Deze onderdelen werken vaak samen om reeksen te verwerken en te genereren. De encoder neemt onbewerkte tekstgegevens en zet deze invoer om in discrete elementen die door het model kunnen worden geanalyseerd. De decoder verwerkt die gegevens vervolgens via een reeks lagen om de uiteindelijke uitvoer te produceren, die bijvoorbeeld kan bestaan uit een gegenereerde zin. Transformatoren kunnen ook alleen bestaan uit encoders of decoders, afhankelijk van het type model of taak.

Trainingsproces

Het trainingsproces voor LLM's bestaat uit drie hoofdfasen: gegevensverzameling, modeltraining en afstemming. 
Tijdens de gegevensverzamelingsfase wordt het model blootgesteld aan grote hoeveelheden tekstuele gegevens uit een breed scala aan bronnen, waaronder internetbronnen, boeken, artikelen en databases. De gegevens worden ook opgeschoond, verwerkt, gestandaardiseerd en opgeslagen in een NoSQL-database zodat deze kunnen worden gebruikt om het model te trainen op taalpatronen, grammatica, informatie en context. 
In de pre-trainingsfase begint het model een beeld te krijgen van de taal in de gegevens. Dit wordt bereikt door grootschalige taken zonder supervisie, waarbij het model leert om tekst te voorspellen op basis van de context. Enkele technieken zijn autoregressieve modellering, waarbij het model leert het volgende woord in een reeks te voorspellen, evenals gemaskeerde taalmodellering, waarbij het model gemaskeerde woorden invult om de context te begrijpen. 
Ten slotte wordt het model tijdens de afstemmingsfase verder getraind op een kleinere, meer taakgerichte gegevensset. Dit proces verfijnt de kennis van het model en verbetert de prestaties voor specifieke taken, zoals sentimentanalyse of vertaling, zodat het kan worden gebruikt voor verschillende toepassingen.

Belangrijkste onderdelen

Het transformermodel splitst onbewerkte tekst op in kleinere, basiseenheden tekst die tokens worden genoemd. Tokens kunnen bestaan uit woorden, delen van woorden of zelfs afzonderlijke tekens, afhankelijk van het gebruiksscenario. Deze tokens worden vervolgens omgezet in compacte numerieke representaties die volgorde, semantische betekenis en context vastleggen. Deze representaties, embeddings genoemd, gaan vervolgens door een stapel lagen die bestaat uit twee sublagen: zelf-attentie en neurale netwerken.
Hoewel beide lagen helpen bij het converteren van tekst naar een formulier dat het model effectief kan verwerken, is het mechanisme voor zelf-aandacht een belangrijk onderdeel van de transformer-architectuur. Het mechanisme voor zelf-attentie is waarmee het model zich kan richten op verschillende delen van een tekstreeks en dynamisch de waarde van informatie kan afwegen ten opzichte van andere tokens in de reeks, ongeacht hun positie. Dit mechanisme biedt LLM's ook de capaciteit om de complexe afhankelijkheden, relaties en contextuele nuances van geschreven taal vast te leggen.

Voordelen en uitdagingen

Voordelen

LLM's bieden veel voordelen die hebben bijgedragen aan aanzienlijke verbeteringen in het werk en de samenleving.

Verbeterde taalgeneratie en vertaling

Omdat LLM's de genuanceerde relaties tussen woorden kunnen begrijpen en vastleggen, blinken ze uit in het produceren van natuurlijke, menselijke tekst, wat resulteert in een verbeterde taalgeneratie. Ze kunnen naadloos en consistent creatieve, contextueel passende antwoorden genereren en ze kunnen dit doen in verschillende formaten, waaronder romans.
Omdat ze context kunnen begrijpen en nuances in betekenis kunnen herkennen, kunnen LLM's die zijn getraind op meertalige gegevens ook zeer nauwkeurige vertalingen produceren. Het trainen van een model op een specifieke reeks talen kan helpen bij de omgang met idiomen, uitdrukkingen en andere complexe taalkundige kenmerken, wat resulteert in natuurlijke en vloeiende vertalingen.

Toepassingen in diverse velden

LLM's zijn veelzijdige hulpprogramma's met toepassingen in verschillende vakgebieden, waaronder Gezond­heids­zorg, financiën en klantenservice.
 
In de Gezond­heids­zorg kunnen LLM's: 
  • Patiëntrapporten analyseren op mogelijke aandoeningen en een voorlopige diagnoses geven. 
  • Patiëntnotities en ontslagrapporten genereren waardoor administratieve taken worden vereenvoudigd. 
  • Gepersonaliseerde behandelplannen en medische zorg voorstellen op basis van de patiëntengeschiedenis.  
  In de financiële sector kunnen LLM's:
  • Ongebruikelijke activiteiten in financiële gegevens identificeren die kunnen wijzen op fraude. 
  • Financiële risico's beoordelen door markttrends en financiële rapporten te analyseren. 
  • Persoonlijke aanbevelingen voorstellen op basis van je unieke financiële geschiedenis en doelstellingen.  
  In de klantenservice kunnen LLM's:
  • Geautomatiseerde klantenondersteuning stimuleren via gespreksagents en chatbots. 
  • Het bereik van de service van een organisatie uitbreiden door klanten de hele dag door ondersteuning te bieden.
  • Helpen documentatie te maken en bij te werken door inhoud te genereren op basis van veelgestelde vragen.  

Uitdagingen

LLM's bieden belangrijke voordelen, maar ze komen ook met uitdagingen om rekening mee te houden.

Reken- en energievereisten

Hoewel LLM's krachtig zijn, hebben ze aanzienlijke hoeveelheden rekenbronnen, opslag en energieverbruik nodig om te kunnen werken. Tijdens de training schalen transformer-programma's mee met de lengte van de invoerreeks, dus hoe langer de tekst, hoe meer geheugen je nodig hebt. Deze vereisten zijn niet alleen duur, maar ze zenden ook een aanzienlijke hoeveelheid koolstof uit in het milieu.
Cloud-computing het leveren van computingservices, waaronder servers, opslag, databases, netwerkfuncties, software, analysefuncties en intelligentieCloudcomputing -platformen kunnen de zware rekenbelasting van LLM's ondersteunen door een flexibele, schaalbare infrastructuur te bieden, waardoor organisaties hun eigen modellen kunnen gaan ontwikkelen. De gevolgen voor het milieu van LLM's vormen echter een uitdaging en duiden op een behoefte aan modellen en technieken die efficiënter met energie omgaan.

Ethische problemen (bijvoorbeeld bias, onjuiste informatie)

LLM's zijn slechts zo goed als de gegevens waarop ze zijn getraind. Als er in de trainingsgegevens sprake is van een onderscheid tussen bepaalde groepen, worden deze houdingen in het model gemarkeerd. Het identificeren en beperken van deze biases, zodat het model eerlijk blijft, is een doorlopend proces dat frequente en consistente menselijke controle vereist.
LLM's kunnen ook overtuigende maar misleidende informatie produceren, wat resulteert in de verspreiding van onjuiste informatie, nepnieuws, phishing-e-mails en andere vormen van schadelijke inhoud. Richtlijnen voor inhoudsbeheer kunnen ook per regio verschillen, wat de navigatie moeilijk kan maken. Daarom kan het een uitdaging zijn voor organisaties om vertrouwen bij hun gebruikers op te bouwen en te behouden wanneer ze LLM's integreren in hun bedrijfsactiviteiten.

Beperkingen bij het begrijpen van context en nuance

Hoewel LLM's uitblinken in het identificeren van patronen in taal, kunnen ze moeite hebben met nieuwe of onbekende contexten die meer nuance vereisen. Als gevolg hiervan kunnen LLM's die zijn getraind op gevoelige, vertrouwelijke gegevens per ongeluk vertrouwelijke informatie uit hun trainingsgegevens genereren of onthullen. 
Het kan een grote uitdaging zijn om dit probleem aan te pakken, met name omdat de interne werking van LLM's vaak niet transparant is. Dit kan bijdragen aan een algeheel gebrek aan aansprakelijkheid en problemen met betrekking tot vertrouwensrelaties. 

Typen en gebruiksscenario's

GTP-serie

Nadat OpenAI in 2018 de GPT-serie ontwikkelde, werd het fundamentele concept van gegevensverzameling, voortraining en afstemming in LLM's geïntroduceerd. GPT-2, uitgebracht in 2019, heeft de mogelijkheden van het model aanzienlijk uitgebreid en de mogelijkheid verbeterd om meer contextueel relevante taal te genereren. GPT-3 heeft de capaciteit van het model uitgebreid voor het verwerken van complexe prompts en taken. GPT-4, de meest recente iteratie, is uitgebracht in 2023 en biedt nog nauwkeurigere en genuanceerdere reacties op prompts, terwijl ook enkele eerdere uitdagingen van het model worden aangepakt, waaronder bias. 
Tegenwoordig blijft GPT de grenzen verleggen van wat er mogelijk is op het gebied van natuurlijke taalgeneratie. Elk model in de serie bouwt voort op het vorige model, wat innovatie op basis van AI stimuleert. 

BERT en de bijbehorende varianten

BERT werd in 2018 door Google ontwikkeld en is een baanbrekend model dat de standaard heeft gezet voor wat er mogelijk is met LLM's. In tegenstelling tot de GPT-serie, die tekst op een unidirectionele manier verwerkt (van links naar rechts of van rechts naar links), kiest BERT voor een bidirectionele benadering. Een bidirectioneel model verwerkt de context van elk woord tegelijkertijd vanuit beide richtingen, waardoor BERT gemaskeerde taalmodellen kan uitvoeren naast voorspellingen van de volgende zin. Onderzoekers hebben ook bijgedragen aan verdere verbeteringen door BERT af te stemmen op taken zoals sentimentanalyse, wat tot nieuwe benchmarks heeft geleid.  

Andere belangrijke modellen

De robuust geoptimaliseerde BERT-benadering (RoBERTa) is ontwikkeld door Facebook AI in 2019 en is een variant van het BERT-model waarbij de bidirectionele transformer-architectuur van BERT wordt uitgebreid door het voortrainingsproces te optimaliseren. RoBERTa wordt getraind met een grotere gegevensset en voor langere tijd. Het is ook alleen gericht op gemaskeerde taalmodellering. Hierdoor kan RoBERTa het vermogen tonen om context en nuances vast te leggen. 
Text-To-Text Transfer Transformer (T5), ontwikkeld door Google Research, is een andere belangrijke LLM. Net als de traditionele modellen, is T5 gebaseerd op de transformer-architectuur en worden encoders en decoders gebruikt om tekst te verwerken tijdens de voortrainingsfase. In tegenstelling tot traditionele modellen behandelt T5 de invoer en de uitvoer als teksttekenreeksen, waardoor de architectuur wordt vereenvoudigd en het trainingsproces wordt gestroomlijnd. T5-modellen zijn een aanpasbaar model voor algemeen gebruik dat een veelzijdige reeks taken kan verwerken.

Inhoudscreatie en samenvatten

LLM's kunnen boeiende, informatieve en contextueel passende inhoud genereren in verschillende stijlen en formaten. Wanneer hierom wordt gevraagd, kunnen ze artikelen, rapporten, blogposts, e-mails, marketingteksten en zelfs codefragmenten genereren.   
Bij het genereren van samenvattingen, onderscheiden LLM's zich in hun unieke vaardigheid om grote hoeveelheden tekst om te zetten in beknopte en nauwkeurige momentopnamen. Ze kunnen belangrijke punten naar voren brengen, terwijl de oorspronkelijke context en de kern van de oorspronkelijke inhoud behouden blijven. Onderzoekers besparen tegenwoordig tijd en verhogen de productiviteit met behulp van LLM's om onderzoeksdocumenten, artikelen, presentaties en vergadernotities samen te vatten.

Gespreksagents en chatbots

Gespreksagents en chatbots vertrouwen op de geavanceerde natuurlijke taalverwerkingsmogelijkheden van LLM's om menselijke interacties te genereren. Ze interpreteren gebruikersinvoer en reageren op een vloeiende, natuurlijke en contextueel relevante manier. Ze kunnen niet alleen vragen beantwoorden, maar ze kunnen ook lange en complexe dialogen voeren. 
Met behulp van chatbots en virtuele assistenten, kunnen bedrijven hun klanten nu 24 uur per dag ondersteuning bieden, waardoor hun servicebeschikbaarheid wordt uitgebreid, reactietijden worden verbeterd en de algehele klanttevredenheid toeneemt.

Vertaling en sentimentanalyse

LLM's die intensief zijn getraind op meertalige gegevenssets, produceren uiterst nauwkeurige vertalingen in verschillende talen. In tegenstelling tot traditionele modellen kunnen LLM's de nuances en complexiteit van taal vastleggen, zoals idiomatische uitdrukkingen, wat resulteert in natuurlijke en vloeiende vertalingen. 
LLM's kunnen ook sentimentanalyse uitvoeren, waarmee de onderliggende emotionele toon van een tekst wordt geanalyseerd. Door de nuances van taal te verwerken en te interpreteren, bieden LLM's nauwkeurigere en diepgaande sentimentevaluaties. Bovendien kunnen ze meer nuances detecteren, zoals sarcasme. 

Gepersonaliseerde aanbevelingen

LLM's kunnen gebruikersgegevens analyseren, inclusief gebruikersgeschiedenis en voorkeuren, en gepersonaliseerde, op maat gemaakte aanbevelingen genereren die aansluiten bij de interesses en behoeften van de gebruiker, waardoor de algehele gebruikerservaring wordt verbeterd. 
Deze mogelijkheid wordt veel gebruikt in e-commerce, streaming van inhoud en sociale media, waar het leveren van gepersonaliseerde aanbevelingen zorgt voor betekenisvolle interacties. LLM's kunnen ook worden gebruikt als een educatief hulpprogramma door studenten gepersonaliseerde leerervaringen te bieden.

Wat komt hierna

Naarmate onderzoekers hun begrip, efficiëntie en schaalbaarheid blijven verbeteren, worden LLM's naar verwachting nog beter geschikt voor het verwerken van complexe taaltaken. Met de ingebruikname van LLM's, zullen steeds meer organisaties te maken krijgen met gestroomlijnde automatisering, meer personalisering en betere besluitvormingsprocessen in het algemeen. 
Onderzoekers blijven nieuwe manieren verkennen om bias aan te pakken, wat een doorlopend probleem is. Dit zijn onder andere algoritmen die bias aanpakken tijdens de training, met integratie van synthetische gegevens om gegevenssets opnieuw in balans te brengen en evenredigheid te waarborgen, hulpprogramma's voor uitleg om beter inzicht te krijgen in modelbeslissingen en detectiebenchmarks waarmee bias nauwkeuriger kan worden geïdentificeerd en gekwantificeerd. 
De multimodale modellen die tekst-, afbeeldings-, audio- en videogegevens verwerken, worden ook steeds geavanceerder. Hoewel LLM's tekstuele gegevens verwerken door syntaxis en betekenis te evalueren, analyseren multimodale modellen visuele gegevens via computer vision-technieken, evenals audiogegevens via tijdelijke verwerking. Multimodale modellen verbeteren de technologieën van vandaag en banen tegelijkertijd de weg voor de innovaties van morgen.
RESOURCES

Meer informatie over Azure AI

Een persoon die voor een computer zit
Resources

Resources voor studentontwikkelaars

Profiteer van leermateriaal en programma's die je carrière een vliegende start geven.
Een groep mensen zittend in een kring
Resources

Azure-resources

Krijg toegang tot alle Azure-resources die je nodig hebt, inclusief zelfstudies, technische documenten en codevoorbeelden.
Een persoon lacht naar een computer
Resources

Azure-trainingscentrum

Ontwikkel je AI-vaardigheden met training die is aangepast aan jouw rol of specifieke technologieën.
Veelgestelde vragen

Veelgestelde vragen

  • LLM betekent groot taalmodel.
  • AI is een breed veld dat een breed scala aan toepassingen omvat, niet slechts op het gebied van taal. Het bevat alle technologieën die gericht zijn op het repliceren van menselijke intelligentie. Als een specifiek type AI-model zijn LLM's een subset van het bredere AI-landschap, dat zich richt op het verwerken en genereren van tekst in natuurlijke taal.
  • Verwerking van natuurlijke taal (NLP) verwijst naar het overkoepelende veld dat is gericht op taalverwerking, terwijl grote taalmodellen (LLM's) een specifiek, geavanceerd type model zijn binnen het vakgebied van NLP dat gebruikmaakt van deep learning-technieken om taaltaken te verwerken.
  • Generatieve vooraf getrainde transformer (GPT) verwijst naar een specifieke reeks grote taalmodellen (LLM's) die zijn ontwikkeld door OpenAI. Ze zijn een type LLM, met een specifieke focus op het genereren van talen.