Trace Id is missing
Passer directement au contenu principal
Azure

Que sont les grands modèles linguistiques (LLM) ?

Obtenez un aperçu du fonctionnement des LLM et découvrez comment ils sont utilisés pour créer des solutions basées sur l’IA.

Signification de LLM

Les grands modèles linguistiques (LLM) sont des systèmes d’IA avancés qui comprennent et génèrent du langage naturel, ou du texte de type humain, en utilisant les données sur lesquelles ils ont été formés grâce à des techniques d’apprentissage automatique. Les LLM peuvent générer automatiquement du contenu textuel, qui peut être appliqué à une myriade de cas d'utilisation dans tous les secteurs, ce qui se traduit par une plus grande efficacité et des économies de coûts pour les organisations du monde entier. 

Principaux points à retenir

  • Les LLM sont des systèmes d’IA avancés capables de comprendre et de générer un langage naturel.
  • Les LLM s’appuient sur des architectures d’apprentissage profond et des techniques d’apprentissage automatique pour traiter et intégrer des informations provenant de différentes sources de données.
  • Les LLM apportent des avantages majeurs, tels que la génération de langues et la traduction, à un ensemble diversifié de domaines.
  • Bien qu’ils soient révolutionnaires, les LLM sont confrontés à des défis qui peuvent inclure des exigences informatiques, des préoccupations éthiques et des limites dans la compréhension du contexte.
  • Malgré ces défis, les organisations utilisent déjà la série de transformateurs pré-entraînés génératifs (GPT) et les représentations d'encodeurs bidirectionnels à partir de transformateurs (BERT) pour des tâches telles que la création de contenu, les chatbots, la traduction et l'analyse des sentiments.

Comment fonctionnent les LLM

Bref historique des LLM

Les LLM sont une évolution moderne, mais l’étude du traitement du langage naturel (NLP) remonte à 1950, lorsqu’Alan Turing a lancé le test de Turing pour évaluer le comportement intelligent des machines. Lors du test, un juge humain parle à un ordinateur en utilisant une série de questions et doit déterminer s’il parle à une machine ou à un humain.
Dans les années 1980 et 1990, la PNL s’est éloignée des expériences logiques pour adopter une approche davantage axée sur les données. Grâce à leur capacité à prédire quels mots d’une phrase étaient susceptibles d’apparaître ensuite en fonction des mots qui les précèdent, les modèles statistiques de langage, tels que les n-grammes, ont ouvert la voie à une nouvelle ère. Au début des années 2010, de nouveaux réseaux neuronaux ont encore étendu les capacités de ces modèles linguistiques, leur permettant d’aller au-delà de la détermination de l’ordre des mots vers une compréhension plus approfondie de la représentation et de la signification des mots.
Ces nouveaux développements ont abouti à une avancée décisive en 2018, lorsque huit scientifiques de Google ont rédigé et publié « Attention is All You Need », une étude historique sur l’apprentissage automatique. L’article présente notamment l’architecture du transformateur, un cadre de réseau neuronal innovant capable de gérer et de comprendre des informations textuelles complexes avec une plus grande précision et une plus grande échelle. Les transformateurs sont désormais essentiels à certains des LLM les plus puissants d’aujourd’hui, notamment la série GPT, ainsi que BERT.

Architecture de base

Les LLM de pointe d’aujourd’hui utilisent des architectures d’apprentissage profond comme les transformateurs et d’autres cadres de réseaux neuronaux profonds pour traiter les informations provenant de différentes sources de données. Les transformateurs sont particulièrement efficaces dans la gestion de données séquentielles, telles que du texte, ce qui leur permet de comprendre et de générer un langage naturel pour des tâches telles que la génération et la traduction de langage. 
Les transformateurs se composent de deux composants principaux : les encodeurs et les décodeurs. Ces composants fonctionnent souvent ensemble pour traiter et générer des séquences. L'encodeur prend des données textuelles brutes et transforme cette entrée en éléments discrets qui peuvent être analysés par le modèle. Le décodeur traite ensuite ces données à travers une série de couches pour produire le résultat final, qui peut, par exemple, consister en une phrase générée. Les transformateurs peuvent également être constitués uniquement d'encodeurs ou de décodeurs, selon le type de modèle ou de tâche.

Processus de formation

Le processus de formation des LLM comprend trois étapes principales : la collecte de données, la formation du modèle et la mise au point. 
Au cours de la phase de collecte de données, le modèle est exposé à de grands volumes de données textuelles provenant d’une grande variété de sources, notamment des ressources Internet, des livres, des articles et des bases de données. Les données sont également nettoyées, traitées, standardisées et stockées dans une base de données NoSQL afin qu'elles puissent être utilisées pour former le modèle sur les modèles linguistiques, la grammaire, les informations et le contexte. 
Dans la phase de pré-formation, le modèle commence à développer une compréhension du langage des données. Cela est accompli grâce à des tâches à grande échelle, non supervisées, où le modèle apprend à prédire le texte en fonction de son contexte. Certaines techniques incluent la modélisation autorégressive, où le modèle apprend à prédire le mot suivant dans une séquence, ainsi que la modélisation du langage masqué, où le modèle remplit les mots masqués pour comprendre le contexte. 
Enfin, pendant la phase de réglage fin, le modèle est davantage entraîné sur un ensemble de données plus petit et plus spécifique à la tâche. Ce processus affine les connaissances du modèle et améliore ses performances pour des tâches spécifiques, telles que l’analyse des sentiments ou la traduction, afin qu’il puisse être utilisé pour une variété d’applications.

Composants clés

Le modèle de transformateur décompose le texte brut en unités de texte de base plus petites, appelées jetons. Les jetons peuvent être constitués de mots, de parties de mots ou même de caractères individuels, selon le cas d'utilisation. Ces jetons sont ensuite convertis en représentations numériques denses qui capturent l’ordre, la signification sémantique et le contexte. Ces représentations, appelées plongements, sont ensuite transmises à travers une pile de couches composée de deux sous-couches : l'auto-attention et les réseaux neuronaux.
Bien que les deux couches aident à convertir le texte en un format que le modèle peut traiter efficacement, le mécanisme d’auto-attention est un élément clé de l’architecture du transformateur. Le mécanisme d’auto-attention permet au modèle de se concentrer sur différentes parties d’une séquence de texte et de peser dynamiquement la valeur des informations par rapport aux autres jetons de la séquence, quelle que soit leur position. Ce mécanisme est également ce qui donne aux LLM la capacité de saisir les dépendances, les relations et les nuances contextuelles complexes du langage écrit.

Avantages et défis

Avantages

Les LLM offrent de nombreux avantages qui ont contribué à des avancées significatives dans le monde du travail et dans la société.

Amélioration de la génération et de la traduction de langues

Parce que les LLM peuvent comprendre et saisir les relations nuancées entre les mots, ils excellent dans la production de textes naturels, de type humain, ce qui se traduit par une amélioration de la génération de langage. Ils peuvent générer de manière fluide et cohérente des réponses créatives et contextuellement adaptées, et ils peuvent le faire dans divers formats, y compris des romans.
Étant donné qu’ils peuvent contextualiser et trouver des subtilités de sens, les LLM formés sur des données multilingues peuvent également effectuer des traductions très précises. Formez un modèle sur un ensemble spécifique de langues peut les aider à affiner leur capacité à gérer les idiomes, les expressions et d’autres caractéristiques linguistiques complexes, ce qui donne lieu à des traductions qui semblent organiques et fluides.

Applications dans des domaines variés

Les LLM sont des outils polyvalents qui ont de nombreuses applications dans de nombreux domaines, notamment la santé, la finance et le service client.
 
Dans le domaine de la santé, les LLM peuvent :  
  • Analysez les rapports des patients pour détecter d’éventuelles pathologies et fournissez des diagnostics préliminaires. 
  • Générez des notes de patients et des résumés de sortie, rationalisant ainsi les tâches administratives. 
  • Proposez des plans de traitement et des soins médicaux personnalisés en fonction des antécédents du patient.  
  Dans le secteur financier, les LLM peuvent :
  • Identifiez toute activité inhabituelle dans les données financières qui pourrait indiquer une fraude. 
  • Évaluez les risques financiers en analysant les tendances du marché et les rapports financiers. 
  • Proposez des recommandations personnalisées en fonction de votre historique financier et de vos objectifs uniques.  
  En matière de service client, les LLM peuvent :
  • Automatisez le support client grâce à des agents conversationnels et des chatbots. 
  • Élargissez la portée du service d’une organisation en fournissant aux clients une assistance 24 heures sur 24.
  • Aidez à créer et à mettre à jour la documentation en générant du contenu basé sur des questions courantes.  

Défis

Les LLM offrent des avantages cruciaux, mais ils comportent également des défis à prendre en compte.

Besoins en calcul et en énergie

Bien que les LLM soient puissants, ils nécessitent des quantités importantes de ressources de calcul, de stockage et de consommation d’énergie pour fonctionner. Pendant la formation, les transformateurs s'adaptent à la longueur de la séquence d'entrée, donc plus le texte est long, plus vous aurez besoin de mémoire. Non seulement ces exigences sont coûteuses, mais elles émettent également une quantité importante de carbone dans l’environnement.
Les plateformes de cloud computing peuvent prendre en charge la lourde charge de calcul des LLM en fournissant une infrastructure flexible et évolutive, ce qui permet aux organisations de commencer à développer leurs propres modèles plus facilement. Cependant, l’impact environnemental des LLM constitue un défi et témoigne de la nécessité de modèles et de techniques plus économes en énergie.

Préoccupations éthiques (par exemple, partialité, désinformation)

Les LLM ne sont bons que dans la mesure où les données sur lesquelles ils sont formés le sont aussi. S’il existe des préjugés discriminatoires à l’encontre de certains groupes dans les données de formation, le modèle mettra alors en évidence ces attitudes. Identifiez et atténuez ces biais afin que le modèle reste équitable est une tâche continue, qui nécessite une surveillance humaine fréquente et cohérente.
Les LLM peuvent également produire des informations convaincantes mais factuellement trompeuses, ce qui entraîne la diffusion de fausses informations, de fausses nouvelles, d’e-mails de phishing et d’autres formes de contenu préjudiciable. Les directives de modération du contenu peuvent également varier selon les régions, ce qui les rend difficiles à suivre. Par conséquent, de nombreuses organisations peuvent avoir du mal à établir et à maintenir la confiance de leurs utilisateurs lorsqu’elles introduisent des LLM dans leurs opérations commerciales.

Limites dans la compréhension du contexte et des nuances

Bien que les LLM excellent dans l’identification des modèles dans la langue, ils peuvent toujours avoir du mal avec des contextes nouveaux ou inconnus qui nécessitent une compréhension plus nuancée. Par conséquent, les LLM formés sur des données sensibles et exclusives peuvent accidentellement générer ou révéler des informations confidentielles à partir de leurs données de formation. 
Abordez cette question peut constituer un défi de taille, d’autant plus que le fonctionnement interne des LLM manque souvent de transparence. Cela peut contribuer à un manque général de responsabilité, ainsi qu’à des problèmes liés à l’instauration de la confiance. 

Types et cas d'utilisation

Série GPT

Développée pour la première fois par OpenAI en 2018, la série GPT a introduit le concept fondamental de collecte de données, de pré-formation et de réglage fin des LLM. GPT-2, publié en 2019, a considérablement amélioré les capacités du modèle et sa capacité à générer un langage plus pertinent en fonction du contexte. GPT-3 a amélioré la capacité du modèle à gérer des invites et des tâches complexes. La dernière itération, GPT-4, a été publiée en 2023 et fournit des réponses encore plus précises et nuancées aux questions, tout en abordant certains des défis précédents du modèle, notamment les biais. 
Aujourd’hui, GPT continue de repousser les limites de ce qui est possible dans le domaine de la génération de langage naturel. Chaque modèle de la série s'appuie sur le précédent, faisant ainsi progresser l'innovation basée sur l'IA. 

BERT et ses variantes

Développé par Google en 2018, BERT est un modèle révolutionnaire qui a établi la norme de ce qui est possible avec les LLM. Contrairement à la série GPT, qui traite le texte de manière unidirectionnelle (de gauche à droite ou de droite à gauche), BERT adopte une approche bidirectionnelle. Un modèle bidirectionnel traite le contexte de chaque mot dans les deux sens simultanément, ce qui permet à BERT d'effectuer une modélisation du langage masqué en plus des prédictions de la phrase suivante. Les chercheurs ont également contribué à de nouvelles avancées dans le domaine en affinant BERT sur des tâches telles que l'analyse des sentiments, établissant ainsi de nouvelles références.  

Autres modèles notables

Développée par Facebook AI en 2019, l'approche BERT robuste et optimisée (RoBERTa) est une variante du modèle BERT qui étend l'architecture du transformateur bidirectionnel de BERT en optimisant le processus de pré-formation. RoBERTa est formé avec un ensemble de données plus large et pendant plus longtemps. Il se concentre également uniquement sur la modélisation du langage masqué. Cela permet à RoBERTa de démontrer sa solide capacité à saisir le contexte et les nuances. 
Text-To-Text Transfer Transformer (T5), inventé par Google Research, est un autre LLM notable. Comme les modèles traditionnels, T5 est construit sur l'architecture du transformateur et utilise des encodeurs et des décodeurs pour traiter le texte pendant la phase de pré-formation. Contrairement aux modèles traditionnels, T5 traite à la fois les entrées et les sorties comme des chaînes de texte, simplifiant ainsi l'architecture et rationalisant le processus de formation. Les modèles T5 sont des modèles polyvalents adaptables qui peuvent gérer une gamme polyvalente de tâches.

Création et synthèse de contenu

Les LLM peuvent générer du contenu engageant, informatif et contextuellement adapté dans une variété de styles et de formats. Lorsqu'ils y sont invités, ils peuvent générer des articles, des rapports, des billets de blog, des e-mails, des textes marketing et même des extraits de code.   
En matière de résumés, les LLM se distinguent par leur capacité unique à distiller de grands volumes de texte en instantanés concis et précis. Ils peuvent présenter des points clés tout en conservant le contexte et le sens d’origine du contenu original. Les chercheurs gagnent déjà du temps et augmentent leur productivité en utilisant les LLM pour résumer des articles de recherche, des articles, des présentations et des notes de réunion.

Agents conversationnels et chatbots

Les agents conversationnels et les chatbots s'appuient sur les capacités avancées de traitement du langage naturel des LLM pour générer des interactions de type humain. Ils interprètent les entrées des utilisateurs et répondent de manière fluide, naturelle et contextuellement pertinente. Non seulement ils peuvent répondre à des questions, mais ils peuvent également s’engager dans un dialogue long et complexe. 
Avec l’ajout de chatbots et d’assistants virtuels, les entreprises peuvent désormais fournir une assistance 24 heures sur 24 à leurs clients, augmentant ainsi la disponibilité de leurs services, améliorant les temps de réponse et augmentant la satisfaction globale des clients.

Traduction linguistique et analyse des sentiments

Les LLM qui sont largement formés sur des ensembles de données multilingues produisent des traductions très précises dans différentes langues. Contrairement aux modèles traditionnels, les LLM peuvent saisir les subtilités et les complexités de la langue, telles que les expressions idiomatiques, ce qui donne lieu à des traductions à la fois fluides et adaptées au contexte. 
Les LLM sont également capables d’effectuer une analyse des sentiments, qui analyse le ton émotionnel sous-jacent d’un texte. En traitant et en interprétant les subtilités du langage, les LLM fournissent des évaluations de sentiments plus précises et plus perspicaces. Ils peuvent même détecter des sentiments plus nuancés, comme le sarcasme. 

Recommandations personnalisées

Les LLM peuvent analyser les données des utilisateurs, y compris l'historique et les préférences des utilisateurs, et générer des recommandations personnalisées et adaptées qui reflètent les intérêts et les besoins de l'utilisateur, améliorant ainsi l'expérience globale de l'utilisateur. 
Cette capacité est largement utilisée dans le commerce électronique, le streaming de contenu et les médias sociaux, où la fourniture de recommandations personnalisées génère des interactions plus significatives. Les LLM peuvent également être utilisés comme outil pédagogique en offrant des expériences d’apprentissage personnalisées aux étudiants.

Et ensuite

À mesure que les chercheurs continuent d’améliorer leur compréhension, leur efficacité et leur évolutivité, les LLM devraient devenir encore plus aptes à gérer des tâches linguistiques complexes. Avec l’adoption croissante des LLM, de plus en plus d’organisations bénéficieront d’une automatisation rationalisée, d’une plus grande personnalisation et de meilleurs processus décisionnels en général. 
Les chercheurs continuent d’explorer de nouvelles façons de lutter contre les préjugés, un problème récurrent. Il s’agit notamment d’algorithmes de débiasing qui s’attaquent aux biais pendant la formation, d’incorporer des données synthétiques qui peuvent rééquilibrer les ensembles de données pour refléter l’équité, d’outils d’explicabilité pour mieux comprendre les décisions du modèle et de repères de détection qui aident à identifier et à quantifier les biais avec plus de précision. 
Les modèles multimodaux, qui traitent des données textuelles, imagées, audio et vidéo, deviennent également de plus en plus sophistiqués. Alors que les LLM traitent les données textuelles en évaluant la syntaxe et le sens, les modèles multimodaux analysent les données visuelles grâce à des techniques de vision par ordinateur, ainsi que les données audio grâce à un traitement temporel.Haut de la page Les modèles multimodaux améliorent les technologies d’aujourd’hui tout en ouvrant la voie aux innovations de demain.
RESSOURCES

En savoir plus sur Azure AI

Une personne assise devant un ordinateur
Ressources

Ressources pour les étudiants développeurs

Bénéficiez de supports et de programmes d’apprentissage qui vous aideront à démarrer votre carrière.
Un groupe de personnes assises en cercle
Ressources

Ressources Azure

Accédez à toutes les ressources Azure dont vous avez besoin, notamment des didacticiels, des livres blancs et des exemples de code.
Une personne souriante devant un ordinateur
Ressources

Centre d'apprentissage Azure

Développez vos compétences en IA avec une formation adaptée à votre rôle ou à des technologies spécifiques.
FAQ

Questions fréquemment posées

  • LLM signifie « grand modèle de langage ».
  • L’IA est un vaste domaine qui couvre un large éventail d’applications au-delà du simple langage. Ça comprend toutes les technologies qui visent à reproduire l’intelligence humaine. En tant que type spécifique de modèle d’IA, les LLM sont un sous-ensemble du paysage plus large de l’IA, qui se concentre sur le traitement et la génération de texte en langage naturel.
  • Le traitement du langage naturel (TAL) fait référence au domaine global axé sur le traitement du langage, tandis que les grands modèles linguistiques (LLM) sont un type de modèle spécifique et avancé dans le domaine du TAL qui utilise des techniques d'apprentissage profond pour gérer les tâches linguistiques.
  • Le transformateur pré-entraîné génératif (GPT) fait référence à une série spécifique de grands modèles de langage (LLM) développés par OpenAI. Il s’agit d’un type de LLM, avec un accent particulier sur la génération de langage.