¿Qué son los pequeños modelos de lenguaje (SLM)?

Obtenga información sobre cómo usar pequeños modelos de lenguaje para innovar de manera más rápida y eficaz con la inteligencia artificial.

Detección e implementación de modelos de IA Introducción a Azure

Introducción a los pequeños modelos de lenguaje (SLM)

Los pequeños modelos de lenguaje (SLM) son modelos computacionales que pueden generar lenguaje natural y responder a este. Los SLM están entrenados para realizar tareas específicas con menos recursos que los modelos más grandes.

Puntos clave

Los pequeños modelos de lenguaje (SLM) son un subconjunto de modelos de lenguaje que realizan tareas específicas con menos recursos que los modelos más grandes.
Los SLM se crean con menos parámetros y arquitecturas neuronales más sencillas que los modelos de lenguaje grande (LLM), lo que permite un entrenamiento más rápido, un consumo energético reducido y una implementación en dispositivos con recursos limitados.
Las posibles limitaciones de los SLM incluyen una capacidad limitada para el lenguaje complejo y una precisión reducida en tareas complejas.
Las ventajas de usar los SLM incluyen costes más bajos y un rendimiento mejorado en aplicaciones específicas del dominio.

¿Cómo funcionan los SLM?

Un pequeño modelo de lenguaje (SLM) es un modelo computacional que puede responder y generar lenguaje natural. Los SLM están diseñados para realizar algunas de las mismas tareas de procesamiento de lenguaje natural que sus equivalentes de modelo de lenguaje grande (LLM) más grandes y más conocidos, pero a menor escala. Se crean con menos parámetros y arquitecturas de red neuronal más sencillas, lo que les permite operar con menos potencia computacional, a la vez que proporcionan una funcionalidad valiosa en aplicaciones especializadas.

Arquitectura básica

Los pequeños modelos de lenguaje se crean con versiones simplificadas de las redes neuronales artificiales que se encuentran en los LLM. Los modelos de lenguaje tienen un conjunto de parámetros (básicamente, configuraciones ajustables) que usan para aprender de los datos y realizar predicciones. Los SLM contienen muchos menos parámetros que los LLM, lo que los hace más rápidos y eficientes que los modelos más grandes. Cuando los LLM como GPT-4 pueden contener más de un millón de millones de parámetros, un SLM solo puede contener unos cientos de millones. La arquitectura más pequeña permite que los SLM realicen tareas de procesamiento de lenguaje natural en aplicaciones específicas de dominio, como bots de chat de servicio al cliente y asistentes virtuales, con una potencia computacional mucho menor que los LLM.

Componentes claves

Los modelos de lenguaje dividen el texto en incrustaciones de palabras (representaciones numéricas que capturan el significado de las palabras) que un transformador procesa mediante un codificador. A continuación, un descodificador genera una respuesta única al texto.

Proceso de entrenamiento

Entrenar un modelo de lenguaje implica exponerlo a un conjunto de datos grande denominado corpus de texto. Los SLM se entrenan en conjuntos de datos que son más pequeños y especializados que los que usan los LLM relativamente pequeños. El conjunto de datos en el que se entrenan los SLM suele ser específico de su función. Después de entrenar un modelo, se puede adaptar para varias tareas específicas mediante el ajuste.

VENTAJAS

Las ventajas de usar pequeños modelos de lenguaje

Los SLM ofrecen numerosas ventajas con respecto a los LLM:

Requisitos computacionales inferiores

Los pequeños modelos de lenguaje requieren menos potencia computacional, por lo que son ideales para entornos con recursos limitados. Esta eficacia permite el uso de estos modelos en dispositivos más pequeños.

Tiempo de entrenamiento reducido

Los modelos pequeños se entrenan más rápido que los más grandes, lo que permite iteraciones y experimentaciones más rápidas. El menor tiempo de entrenamiento acelera el proceso de desarrollo para facilitar una implementación y pruebas más rápidas de las nuevas aplicaciones.

Implementación simplificada en dispositivos perimetrales

Su tamaño compacto y los requisitos de recursos más bajos hacen que los SLM sean ideales para dispositivos perimetrales. Los SLM se pueden ejecutar de manera eficaz sin necesidad de una conectividad constante en la nube, lo que mejora el rendimiento y la confiabilidad mediante el procesamiento local de los datos.

Consumo energético reducido

Los SLM usan menos energía. Esto hace que sean más sostenibles y rentables que los LLM.

Precisión mejorada

Dado que su entrenamiento se centra en tareas específicas, los SLM pueden proporcionar respuestas e información más precisas dentro de las áreas en las que se entrenan. Su naturaleza especializada permite el ajuste preciso que a menudo supera a los modelos más grandes en aplicaciones específicas de dominio.

Reducir los costes

La reducción de los requisitos computacionales, el tiempo de entrenamiento y el consumo energético de los SLM reducen los costes generales. Esta asequibilidad hace que sean accesibles para una gama más amplia de personas y organizaciones.

Desafíos y limitaciones de los SLM

Los pequeños modelos de lenguaje están diseñados para ser eficientes y ligeros. Este diseño puede dar lugar a restricciones en su capacidad de procesar y comprender lenguaje complejo, lo que puede reducir su precisión y rendimiento en el control de las tareas complejas.

Estos son algunos desafíos comunes asociados a los SLM:

Capacidad limitada para la comprensión de lenguajes complejos:
Si los LLM extraen información de una biblioteca en expansión y que abarca todo, los SLM la extraen de una pequeña sección de la biblioteca o, quizás, algunos libros muy específicos. Esto limita el rendimiento, la flexibilidad y la creatividad de los SLM para completar tareas complejas que se benefician de los parámetros adicionales y la eficacia de los LLM. Los SLM pueden tener dificultades para comprender los matices, las sutilezas contextuales y las relaciones complejas dentro del lenguaje, lo que puede dar lugar interpretaciones demasiado simplificadas del texto o malentendidos.

Posibilidad de una precisión reducida en tareas complejas:
Los pequeños modelos de lenguaje a menudo se enfrentan a desafíos en el mantenimiento de la precisión cuando se encargan de escenarios complejos de resolución de problemas o de toma de decisiones. Su capacidad de procesamiento limitada y los conjuntos de datos de entrenamiento más pequeños pueden dar lugar a una precisión reducida y una mayor tasa de errores en tareas que implican razonamientos multifactor, patrones de datos complejos o altos niveles de abstracción. Por lo tanto, es posible que no sean la mejor opción para las aplicaciones que requieren una precisión alta, como la investigación científica o el diagnóstico médico.

Rendimiento limitado:
El rendimiento general de los pequeños modelos de lenguaje suele estar limitado por su tamaño y eficacia computacional. Aunque presentan ventajas para obtener soluciones rápidas y rentables, es posible que no ofrezcan el rendimiento sólido necesario para tareas exigentes.

Estas y otras limitaciones hacen que los SLM sean menos eficaces en las aplicaciones que requieren aprendizaje profundo. Los desarrolladores deben tener en cuenta las limitaciones de los SLM en función de sus necesidades específicas.

Tipos de pequeños modelos de lenguaje

Los SLM se pueden clasificar en tres tipos principales: versiones simplificadas de modelos más grandes, modelos específicos de tareas y modelos ligeros.

Versiones sintetizadas de modelos más grandes

En este enfoque, se usa un modelo de profesor grande para entrenar un modelo de alumno más pequeño, que aprende a imitar el comportamiento del profesor. El modelo de estudiante conserva gran parte de los conocimientos del profesor, pero requiere menos parámetros y menos potencia computacional. La simplificación permite una implementación eficaz de los modelos de lenguaje en entornos donde los recursos son limitados, a la vez que mantiene un alto nivel de rendimiento. Un SLM simplificado popular es DistilBERT, que ofrece un rendimiento comparable a su homólogo más grande, BERT, pero con un tamaño reducido y tiempos de inferencia más rápidos.

Modelos específicos de tareas

Los modelos específicos de tareas son pequeños modelos de lenguaje adaptados a tareas o dominios concretos. A diferencia de los modelos de uso general, como ChatGPT, estos modelos están optimizados para sobresalir en aplicaciones específicas, como el análisis de opiniones, la traducción o la respuesta a preguntas. Al centrarse en un conjunto reducido de tareas, los modelos específicos de tareas a veces pueden lograr una mayor precisión y eficacia que los modelos más generalizados. Son especialmente útiles cuando se necesita un alto rendimiento para una tarea determinada y el ámbito del modelo se puede limitar para optimizar el uso de recursos.

Modelos ligeros

Los modelos ligeros se crean con menos parámetros y arquitecturas optimizadas para minimizar las demandas computacionales a la vez que ofrecen un rendimiento sólido. A menudo se usan en aplicaciones móviles, dispositivos perimetrales u otros escenarios en los que los recursos computacionales son limitados.

Casos de uso de los SLM

Los pequeños modelos de lenguaje están optimizados para aplicaciones específicas, por lo que son ideales para entornos con recursos limitados o necesidades específicas. Algunos casos de uso clave para los SLM incluyen aplicaciones en el dispositivo, procesamiento de lenguaje en tiempo real y configuración de pocos recursos.

Aplicaciones en el dispositivo

Los SLM son adecuados para aplicaciones en dispositivos, donde los recursos computacionales son limitados y la privacidad es un problema. Al ejecutarse directamente en dispositivos como smartphones, tabletas y altavoces inteligentes, estos modelos pueden realizar tareas como el reconocimiento de voz, la predicción de texto y la traducción de idiomas sin depender de la conectividad constante a Internet y los servicios de informática en la nube. Esto mejora la privacidad del usuario al mantener el procesamiento de datos local y mejora la capacidad de respuesta de las aplicaciones. Algunos ejemplos son la entrada de texto predictivo, los asistentes virtuales y los servicios de traducción sin conexión.

Procesamiento de lenguaje en tiempo real

En escenarios en los que los tiempos de respuesta rápidos son críticos, los pequeños modelos de lenguaje ofrecen ventajas significativas debido a su tiempo de respuesta rápido. El procesamiento de lenguaje en tiempo real es esencial en las aplicaciones como bots de chat, automatización del servicio al cliente y servicios de transcripción en directo. Estos modelos pueden controlar las tareas de lenguaje con una latencia mínima, lo que proporciona a los usuarios comentarios inmediatos e interacciones fluidas.

Configuración con pocos recursos

Los SLM son especialmente valiosos en la configuración de pocos recursos, donde la potencia computacional y el ancho de banda son limitados. Se pueden implementar en hardware asequible, lo que hace que sean accesibles para más personas y organizaciones.

Tendencias y avances emergentes en los SLM

Los pequeños modelos de lenguaje representan un avance significativo en el campo del procesamiento del lenguaje natural y el aprendizaje automático. Su capacidad para comprender y generar texto similar al humano ha abierto nuevas posibilidades para varias aplicaciones, desde el servicio de atención al cliente hasta la creación de contenido. A medida que los modelos de lenguaje continúan evolucionando, es probable que los SLM se vuelvan más sofisticados y ofrezcan más funcionalidades con una mayor eficacia. Estas son algunas tendencias y avances emergentes en los SLM:

Avances en las técnicas de compresión y eficiencia del modelo:
Se espera que la investigación en curso produzca modelos más eficaces con técnicas de compresión mejoradas. Estos avances mejorarán aún más las capacidades de los SLM, lo que les permitirá abordar tareas más complejas a la vez que mantienen su tamaño más pequeño. Por ejemplo, la versión más reciente del SLM Phi-3 ahora tiene capacidades de Computer Vision.

Aplicaciones más amplias a medida que crece el proceso perimetral:
A medida que el proceso perimetral se vuelve más frecuente, los SLM encontrarán aplicaciones en una gama más amplia de campos, los que aborda diversas necesidades y amplía su alcance. La capacidad de procesar datos localmente en dispositivos perimetrales abre nuevas posibilidades para ñas soluciones de inteligencia artificial en tiempo real y contextuales.

Abordar las limitaciones actuales
Los esfuerzos para mejorar la precisión y controlar diversos lenguajes son continuos. Al abordar estas limitaciones, los investigadores tienen como objetivo mejorar el rendimiento de los SLM en distintos lenguajes y contextos, lo que los hace más versátiles y capaces.

Modelos híbridos y aprendizaje federado:
El aprendizaje federado y los modelos híbridos están allanando el camino para los SLM más sólidos y versátiles. El aprendizaje federado permite entrenar modelos en varios dispositivos sin compartir datos confidenciales, lo que mejora la privacidad y la seguridad. Los modelos híbridos, que combinan los puntos fuertes de distintas arquitecturas, ofrecen nuevas oportunidades para optimizar el rendimiento y la eficiencia.

Estas tendencias resaltan el impacto cada vez mayor de los pequeños modelos de lenguaje a la hora de hacer que la inteligencia artificial sea más accesible, eficaz y adaptable a una amplia gama de aplicaciones. A medida que evolucionan, los SLM se convertirán en herramientas esenciales, lo que impulsará la innovación en la inteligencia artificial en diferentes entornos y sectores.

RECURSOS

Aprenda nuevas aptitudes y explore la tecnología de desarrollo más reciente.

Estudiantes de desarrollo

Impulse su carrera en el sector tecnológico

Adquiera aptitudes que impulsen su carrera en el sector tecnológico y cause un impacto positivo en todo el mundo.

Explorar recursos para estudiantes

Recursos de Azure

Explorar el centro de recursos de Azure

Explore los programas de aprendizaje y certificación de Azure, preguntas y respuestas, eventos, vídeos y otros recursos para desarrolladores.

Más información

Microsoft Learn

Centro de aprendizaje de Azure AI

Adquiera las aptitudes que necesita para acelerar la implementación de inteligencia artificial a gran escala.

Obtener más información

Los SLM están diseñados para tareas que requieren menos recursos computacionales. Los LLM ofrecen mayores funcionalidades, pero requieren mucha más capacidad de procesamiento. Los SLM son ideales para la informática perimetral y los entornos con pocos recursos, mientras que los LLM son excelentes para controlar tareas complejas.
Los pequeños modelos de lenguaje son ideales para las tareas que requieren eficacia, como ejecutar aplicaciones en entornos con pocos recursos o donde las respuestas rápidas son cruciales. También son útiles para tareas específicas que no requieren las amplias funcionalidades de un modelo de lenguaje grande.
Las ventajas de usar un SLM en lugar de un LLM incluyen requisitos computacionales más bajos, tiempos de respuesta más rápidos e idoneidad para la implementación en dispositivos perimetrales. Los SLM son más eficaces y rentables para las tareas que no requieren la amplia funcionalidad de un modelo de lenguaje grande. Esto hace que sean ideales para aplicaciones y entornos en tiempo real con recursos limitados.