Trace Id is missing
Saltar al contenido principal
Azure

¿Qué son los modelos de lenguaje de grandes (LLM)?

Obtenga información general sobre cómo funcionan los LLM y explore cómo se usan para crear soluciones basadas en inteligencia artificial.

Significado de LLM

Los modelos de lenguaje grande (LLM) son sistemas avanzados de IA que entienden y generan lenguaje natural, o texto similar al humano, con los datos en los que se han entrenado mediante técnicas de aprendizaje automático. Los LLM pueden generar automáticamente contenido basado en texto, que se puede aplicar a una infinidad de casos de uso en distintos sectores, lo que resulta en mayor eficiencia y ahorro de costes para organizaciones de todo el mundo. 

Puntos clave

  • Los LLM son sistemas avanzados de IA que pueden comprender y generar lenguaje natural.
  • Los LLM se basan en arquitecturas de aprendizaje profundo y técnicas de aprendizaje automático para procesar e incorporar información de diferentes orígenes de datos.
  • Los LLM aportan importantes ventajas, como la generación de idiomas y la traducción, a un conjunto diverso de campos.
  • Aunque son innovadores, los LLM se enfrentan a desafíos que pueden incluir requisitos informáticos, preocupaciones éticas y limitaciones en la comprensión del contexto.
  • A pesar de estos desafíos, las organizaciones ya usan la serie de transformadores generativos preentrenados (GPT) y representaciones de codificador bidireccionales de transformadores (BERT) para tareas como la creación de contenido, bots de chat, traducción y análisis de sentimiento.

Cómo funcionan los LLM

Breve historial de los LLM

Los LLM son un desarrollo moderno, pero el estudio del procesamiento del lenguaje natural (PLN) se remonta a 1950, cuando Alan Turing lanzó el test de Turing para medir el comportamiento inteligente de las máquinas. En la prueba, un juez humano habla con un ordenador mediante una serie de preguntas y debe determinar si está hablando con una máquina o con un humano.
En los años 80 y 90, NLP se alejaba de los experimentos lógicos hacia un enfoque más controlado por datos. Con su capacidad para predecir qué palabras de una frase probablemente llegarían a continuación en función de las palabras anteriores, los modelos de lenguaje estadístico, como n-gramas, prepararon el camino para una nueva era. A principios de la década de 2010, las nuevas redes neuronales ampliaron aún más las capacidades de estos modelos lingüísticos, permitiéndoles ir más allá de la determinación del orden de las palabras hacia una comprensión más profunda de la representación y el significado de las palabras.
Estos nuevos desarrollos culminaron en un gran avance en 2018, cuando ocho científicos de Google elaboraron y publicaron «Attention is All You Need» (Atención es todo lo que necesitas), un estudio histórico sobre el aprendizaje automático. En concreto, el documento presentó la arquitectura del transformador, un innovador marco de red neuronal que podía administrar y comprender información textual compleja con mayor precisión y escala. En la actualidad, los transformadores son la base de algunos de los LLM más potentes, como la serie GPT y BERT.

Arquitectura básica

Los LLM de última generación actuales usan arquitecturas de aprendizaje profundo como transformadores y otros marcos de redes neuronales profundas para procesar información de diferentes orígenes de datos. Los transformadores son especialmente eficaces en el control de datos secuenciales, como el texto, que les permite comprender y generar lenguaje natural para tareas como la generación y traducción de idiomas. 
Los transformadores constan de dos componentes principales: codificadores y descodificadores. Estos componentes suelen trabajar juntos para procesar y generar secuencias. El codificador toma datos textuales sin procesar y convierte esa entrada en elementos discretos que el modelo puede analizar. Después, el descodificador procesa esos datos a través de una serie de capas para producir la salida final, que puede consistir, por ejemplo, en una frase generada. Los transformadores también pueden constar solo de codificadores o descodificadores, en función del tipo de modelo o tarea.

Proceso de entrenamiento

El proceso de entrenamiento de los LLM consta de tres fases principales: recopilación de datos, entrenamiento del modelo y ajuste. 
Durante la fase de recopilación de datos, el modelo se expone a grandes volúmenes de datos textuales de una amplia variedad de orígenes, incluidos recursos de Internet, libros, artículos y bases de datos. Los datos también se limpian, procesan, estandarizan y almacenan en una base de datos NoSQL para que puedan utilizarse para entrenar el modelo sobre patrones lingüísticos, gramática, información y contexto. 
En la fase previa al entrenamiento, el modelo comienza a comprender el lenguaje de los datos. Esto se logra a través de tareas a gran escala y no supervisadas en las que el modelo aprende a predecir texto en función de su contexto. Algunas técnicas son la modelización autorregresiva, en la que el modelo aprende a predecir la siguiente palabra de una secuencia, así como la modelización del lenguaje enmascarado, en la que el modelo rellena palabras enmascaradas para entender el contexto. 
Por último, durante la fase de ajuste, el modelo se entrena aún más en un conjunto de datos más pequeño y específico de la tarea. Este proceso refina el conocimiento del modelo y mejora su rendimiento para tareas específicas, como el análisis de sentimiento o la traducción, para que se pueda usar para una variedad de aplicaciones.

Componentes claves

El modelo de transformador divide el texto sin formato en unidades de texto más pequeñas y básicas denominadas tokens. Los tokens pueden constar de palabras, partes de palabras o incluso caracteres individuales, según el caso de uso. Después, estos tokens se convierten en representaciones numéricas densas que capturan el orden, el significado semántico y el contexto. A continuación, estas representaciones, denominadas inserciones, se pasan a través de una pila de capas que consta de dos subclaves: atención automática y redes neuronales.
Aunque ambas capas ayudan a convertir texto en un formulario que el modelo puede procesar de forma eficaz, el mecanismo de atención automática es un componente clave para la arquitectura del transformador. El mecanismo de atención automática es lo que permite al modelo centrarse en distintas partes de una secuencia de texto y ponderar dinámicamente el valor de la información en relación con otros tokens de la secuencia, independientemente de su posición. Este mecanismo también es lo que proporciona a los LLM la capacidad de capturar las dependencias, las relaciones y los matices contextuales del lenguaje escrito.

Ventajas y desafíos

Ventajas

Los LLM ofrecen muchas ventajas que han contribuido a importantes avances en el trabajo y la sociedad.

Generación y traducción de idiomas mejoradas

Dado que los LLM pueden comprender y capturar las relaciones matizadas entre palabras, destacan en la producción de texto natural similar al humano, lo que da lugar a una generación de lenguaje mejorada. Pueden generar respuestas creativas y contextualmente adecuadas de forma fluida y coherente, y pueden hacerlo en varios formatos, incluidas las novedades.
Dado que pueden contextualizar y encontrar sutilezas de significado, los LLM entrenados con datos multilingües también pueden realizar traducciones muy precisas. Entrenar un modelo en un conjunto específico de idiomas puede ayudar a afinar su capacidad para manejar modismos, expresiones y otras características lingüísticas complejas, lo que da como resultado traducciones que parecen orgánicas y fluidas.

Aplicaciones en diversos campos

Las LLM son herramientas versátiles que tienen muchas aplicaciones en muchos campos, como atención médica, finanzas y atención al cliente.
 
En el sector médico, los LLM pueden: 
  • Analizar los informes de los pacientes en busca de posibles afecciones y proporcionar diagnósticos preliminares. 
  • Generar notas de pacientes y resúmenes de altas, agilizando a su vez las tareas administrativas. 
  • Sugerir planes de tratamiento personalizados y atención médica en función del historial de pacientes.  
  En el sector financiero, los LLM pueden:
  • Identificar actividades inusuales en los datos financieros que puedan apuntar a fraudes. 
  • Evaluar los riesgos financieros mediante el análisis de las tendencias del mercado y los informes financieros. 
  • Sugerir recomendaciones personalizadas basadas en su historial financiero único y sus objetivos.  
  En el servicio de atención al cliente, los LLM pueden:
  • Impulsar la asistencia al cliente automatizada a través de agentes de conversación y bots de chat. 
  • Ampliar el ámbito del servicio de una organización proporcionando a los clientes soporte técnico durante todo el día.
  • Ayudar a crear y actualizar la documentación mediante la generación de contenido basado en preguntas comunes.  

Dificultades

Los LLM ofrecen ventajas cruciales, pero también conllevan desafíos que se deben tener en cuenta.

Requisitos informáticos y energéticos

Aunque los LLM son eficaces, requieren grandes cantidades de recursos informáticos, almacenamiento y consumo energético para funcionar. Durante el entrenamiento, los transformadores se escalan con la longitud de la secuencia de entrada, por lo que cuanto más largo sea el texto, más memoria necesitará. Estas demandas no solo son costosas, sino que también emiten una cantidad significativa de carbono en el entorno.
Las plataformas de informática en la nube pueden admitir la carga informática intensiva de LLM proporcionando una infraestructura flexible y escalable, lo que hace que sea más accesible para las organizaciones empezar a desarrollar sus propios modelos. Aun así, el impacto medioambiental de las LLM supone un desafío y es indicativo de la necesidad de modelos y técnicas más eficientes en la energía.

Preocupaciones éticas (por ejemplo, sesgo, desinformación)

Los LLM solo son tan buenos como los datos en los que se entrenan. Si hay sesgo discriminador contra determinados grupos en los datos de entrenamiento, el modelo resaltará estas mentalidades. Identificar y mitigar estos sesgos para que el modelo siga siendo justo es una tarea continua, que requiere una supervisión humana frecuente y coherente.
Los LLM también pueden producir información convincente pero engañosa en cuanto a los hechos, lo que da lugar a la difusión de información errónea, noticias falsas, correos electrónicos de suplantación de identidad y otras formas de contenido perjudicial. Las directrices de moderación de contenido también pueden variar entre regiones, lo que dificulta la navegación. Como resultado, es posible que a muchas organizaciones les resulte difícil crear y mantener la confianza en sus usuarios al introducir los LLM en sus operaciones empresariales.

Limitaciones en la comprensión del contexto y el matiz

Aunque los LLM destacan en la identificación de patrones en el lenguaje, todavía pueden tener dificultades con contextos nuevos o desconocidos que requieren un conocimiento más matizado. Como resultado, los LLM entrenados en datos confidenciales y propietarios pueden generar o revelar accidentalmente información confidencial a partir de sus datos de entrenamiento. 
Solucionar este problema puede suponer un desafío importante, especialmente porque el funcionamiento interno de los LLM a menudo carece de transparencia. Esto puede contribuir a una falta general de responsabilidad, así como a problemas relacionados con la creación de confianza. 

Tipos y casos de uso

Serie GPT

Desarrollada por primera vez por OpenAI en 2018, la serie GPT introdujo el concepto fundacional de recopilación de datos, preentrenamiento y ajuste fino a los LLM. GPT-2, publicado en 2019, ha escalado considerablemente las capacidades del modelo y ha mejorado su capacidad para generar un lenguaje más relevante contextualmente. GPT-3 avanzó la capacidad del modelo para controlar tareas y avisos complejos. La iteración más reciente, GPT-4, se publicó en 2023 y proporciona respuestas aún más precisas y sutiles a los mensajes, al tiempo que aborda algunos de los desafíos anteriores del modelo, incluido el sesgo. 
Hoy en día, GPT sigue ampliando los límites de lo que es posible en el campo de la generación de lenguaje natural. Cada modelo de la serie se basa en el anterior, lo que impulsa la innovación con tecnología de inteligencia artificial. 

BERT y sus variantes

Desarrollado por Google en 2018, BERT es un modelo innovador que ha establecido el estándar de lo que es posible con los LLM. A diferencia de la serie GPT, que procesa el texto de forma unidireccional (de izquierda a derecha o de derecha a izquierda), BERT adopta un enfoque bidireccional. Un modelo bidireccional procesa el contexto de cada palabra desde ambas direcciones simultáneamente, lo que permite a BERT realizar un modelado del lenguaje enmascarado además de predicciones de la siguiente oración. Los investigadores también han contribuido a avances adicionales en el campo mediante la optimización de BERT en tareas como el análisis de sentimiento, estableciendo nuevos bancos de pruebas como resultado.  

Otros modelos importantes

Desarrollado por Facebook AI en 2019, Robustly optimized BERT approach (RoBERTa) es una variante del modelo BERT que amplía la arquitectura de transformador bidireccional de BERT optimizando el proceso de preentrenamiento. RoBERTa se entrena con un conjunto de datos más grande y durante más tiempo. También se centra únicamente en el modelado de lenguaje enmascarado. Esto permite a RoBERTa demostrar su sólida capacidad para capturar contexto y matices. 
Text-To-Text Transfer Transformer (T5), inventado por Google Research, es otro LLM notable. Al igual que los modelos tradicionales, T5 se basa en la arquitectura del transformador y usa codificadores y descodificadores para procesar texto durante la fase de preentrenamiento. A diferencia de los modelos tradicionales, T5 trata tanto las entradas como las salidas como cadenas de texto, lo que simplifica la arquitectura y agiliza el proceso de entrenamiento. Los modelos T5 son un modelo adaptable de uso general que puede controlar una gama versátil de tareas.

Creación y resumen de contenido

Los LLM pueden generar contenido atractivo, informativo y contextualmente adecuado en una variedad de estilos y formatos. Cuando se le solicite, puede generar artículos, informes, entradas de blog, correos electrónicos, copia de marketing e incluso fragmentos de código.   
En cuanto a los resúmenes, los LLM destacan por su capacidad única de extraer grandes volúmenes de texto en instantáneas concisas y precisas. Pueden presentar puntos clave a la vez que mantienen el contexto original y el significado del contenido original. Los investigadores ya ahorran tiempo y aumentan la productividad utilizando los LLM para resumir trabajos de investigación, artículos, presentaciones y notas de reuniones.

Agentes de conversación y bots de chat

Los agentes de conversación y los bots de chat se basan en las funcionalidades avanzadas de procesamiento de lenguaje natural de los LLM para generar interacciones similares a las humanas. Interpretan las entradas del usuario y responden de una manera fluida, natural y contextualmente relevante. No solo pueden responder a preguntas, sino que también pueden participar en diálogos largos y complejos. 
Con la incorporación de bots de chat y asistentes virtuales, las empresas pueden ahora ofrecer asistencia a sus clientes las 24 horas del día, ampliando a su vez la disponibilidad de sus servicios, mejorando los tiempos de respuesta y aumentando la satisfacción general de los clientes.

Análisis de sentimiento y traducción de idiomas

Los LLM que se entrenan ampliamente en conjuntos de datos multilingües generan traducciones muy precisas en varios idiomas. A diferencia de los modelos tradicionales, los LLM pueden capturar las sutilidades y complejidades del lenguaje, como las expresiones idiomáticas, lo que da lugar a traducciones fluidas y contextualmente adecuadas. 
Los LLM también pueden realizar análisis de sentimiento, que analiza el tono emocional subyacente de un texto. Al procesar e interpretar las sutilezas del lenguaje, los LLM proporcionan evaluaciones de sentimientos más precisas y profundas. Incluso pueden detectar opiniones con más matices, como el sarcasmo. 

Recomendaciones personalizadas

Los LLM pueden analizar los datos de usuario, incluidos el historial y las preferencias del usuario, y generar recomendaciones personalizadas y personalizadas que reflejen los intereses y las necesidades del usuario, lo que a su vez mejora la experiencia general del usuario. 
Esta capacidad se utiliza ampliamente en el comercio electrónico, el streaming de contenidos y las redes sociales, donde la entrega de recomendaciones personalizadas impulsa interacciones más significativas. Los LLM también se pueden usar como una herramienta educativa proporcionando experiencias de aprendizaje personalizadas a los alumnos.

¿Qué sigue?

A medida que los investigadores continúan mejorando su comprensión, eficiencia y escalabilidad, se espera que los LLM sean aún más expertos en el tratamiento de tareas de lenguaje complejas. Con la adopción de LLM en aumento, cada vez más organizaciones experimentarán automatización simplificada, mayor personalización y mejores procesos de toma de decisiones en general. 
Los investigadores siguen explorando nuevas formas de abordar los sesgos, un problema constante. Entre ellas se encuentran los algoritmos de eliminación de sesgos durante el entrenamiento, la incorporación de datos sintéticos que pueden reequilibrar los conjuntos de datos para reflejar la equidad, las herramientas de explicabilidad para comprender mejor las decisiones de los modelos y los parámetros de detección que ayudan a identificar y cuantificar los sesgos con mayor precisión. 
Los modelos multimodal, que procesan datos de texto, imagen, audio y vídeo, también son cada vez más sofisticados. Mientras que los LLM procesan los datos textuales evaluando la sintaxis y el significado, los modelos multimodales analizan los datos visuales mediante técnicas de visión artificial, así como los datos de audio mediante procesamiento temporal. Los modelos multimodales están mejorando las tecnologías actuales y preparando el terreno para las innovaciones del mañana.
RECURSOS

Más información sobre Azure AI

Una persona sentada delante de un equipo
Recursos

Recursos de desarrollo para estudiantes

Aproveche los materiales y programas de aprendizaje que le ayudarán a impulsar su carrera profesional.
Un grupo de personas sentadas en círculo
Recursos

Recursos de Azure

Acceda a todos los recursos de Azure que necesita, incluidos tutoriales, notas del producto y ejemplos de código.
Una persona sonriendo ante un ordenador
Recursos

Centro de aprendizaje de Azure

Desarrolle sus habilidades de IA con aprendizaje personalizado para su rol o tecnologías específicas.
PREGUNTAS MÁS FRECUENTES

Preguntas más frecuentes

  • LLM significa modelo de lenguaje grande.
  • La inteligencia artificial es un campo amplio que abarca una amplia gama de aplicaciones más allá del lenguaje. Incluye todas las tecnologías que tienen como objetivo replicar la inteligencia humana. Como tipo específico de modelo de IA, los LLM son un subconjunto del panorama más amplio de la IA, uno que se centra en el procesamiento y la generación de texto en lenguaje natural.
  • El procesamiento de lenguaje natural (NLP) hace referencia al campo general centrado en el procesamiento de lenguaje, mientras que los modelos de lenguaje grande (LLM) son un tipo específico y avanzado de modelo dentro del campo de NLP que usa técnicas de aprendizaje profundo para controlar las tareas del lenguaje.
  • El transformador generativo preentrenado (GPT) hace referencia a una serie específica de modelos de lenguaje grande (LLM) desarrollados por OpenAI. Son un tipo de LLM, con un enfoque específico en la generación de lenguajes.