Investigadores del MIT han logrado crear modelos de lenguaje más pequeños que superan en rendimiento a sus contrapartes mucho más grandes, utilizando un conjunto de datos de inferencia lógica basado en lenguaje natural.
Tamaño no siempre es sinónimo de calidad cuando se trata de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). En un panorama tecnológico donde los LLM acaparan la atención, un equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) cree que los modelos más pequeños no deben ser pasados por alto, especialmente para productos de comprensión de lenguaje natural ampliamente utilizados en la industria.
Con ese objetivo en mente, los investigadores han desarrollado un enfoque para abordar los problemas de ineficiencia y privacidad asociados con los grandes modelos de IA basados en texto. Han creado un modelo consciente de la lógica que supera en rendimiento a modelos 500 veces más grandes en algunas tareas de comprensión del lenguaje, sin la necesidad de anotaciones generadas por humanos, al tiempo que preserva la privacidad y la solidez con un alto rendimiento.
Los LLM, que han demostrado habilidades prometedoras en la generación de lenguaje, arte y código, son computacionalmente costosos y pueden plantear riesgos de filtraciones de privacidad al utilizar interfaces de programación de aplicaciones para la carga de datos. Históricamente, los modelos más pequeños han sido menos capaces, especialmente en tareas de multitarea y aprendizaje débilmente supervisado, en comparación con sus contrapartes más grandes.
Entonces, ¿qué es lo que ayuda a estos modelos más pequeños a ser tan poderosos? Se trata de algo llamado «implicación textual», una forma de ayudar a estos modelos a comprender una variedad de tareas de lenguaje, donde si una oración (la premisa) es verdadera, es probable que la otra oración (la hipótesis) también sea verdadera. Por ejemplo, si la premisa es «todos los gatos tienen cola», entonces la hipótesis «un gato atigrado tiene cola» estaría implicada por la premisa. Este concepto se utiliza para entrenar un «modelo de implicación» que resultó ser menos sesgado que otros modelos de lenguaje, según investigaciones anteriores del equipo. Luego, crearon «estímulos» que los modelos pueden utilizar para determinar si cierta información está implicada por una oración o frase dada, según diferentes tareas. Este método mejoró la capacidad del modelo para adaptarse a diferentes tareas sin necesidad de entrenamiento adicional, conocido como adaptación de cero disparo.
En el ámbito de «comprensión de lenguaje natural«, existen diversas aplicaciones que dependen de determinar la relación entre dos fragmentos de texto. Por ejemplo, en la clasificación de sentimientos, una afirmación como «Creo que la película es buena» puede ser inferida o implicada a partir de una reseña de la película que dice «Me gusta la historia y la actuación es excelente», lo que indica un sentimiento positivo. Otro ejemplo es la clasificación de noticias, donde se puede inferir el tema de un artículo a partir de su contenido. Por ejemplo, una afirmación como «el artículo de noticias trata sobre deportes» puede ser implicada si el contenido principal del artículo informa sobre un partido de la NBA. El aspecto clave fue que muchas de las tareas existentes de comprensión del lenguaje natural podían ser reinterpretadas como una tarea de implicación (es decir, inferencia lógica en lenguaje natural).
«Nuestra investigación se centra en mejorar la capacidad de los programas de computadora para comprender y procesar el lenguaje natural, es decir, la forma en que los humanos hablan y escriben. Nuestros modelos de implicación autoentrenados, con 350 millones de parámetros, superan en rendimiento a los modelos supervisados de lenguaje con 137 a 175 mil millones de parámetros», dice Hongyin Luo, investigador postdoctoral del MIT CSAIL y autor principal del nuevo estudio. Esto tiene el potencial de cambiar el panorama de la IA y el aprendizaje automático, brindando una solución más escalable, confiable y rentable para la modelización del lenguaje», agrega Luo. «Al demostrar que los modelos más pequeños pueden funcionar al mismo nivel que los más grandes en comprensión del lenguaje, este trabajo allana el camino para tecnologías de IA más sostenibles y respetuosas de la privacidad».
El equipo descubrió que podían mejorar aún más el rendimiento del modelo utilizando una técnica llamada «autoentrenamiento», donde el modelo utiliza sus propias predicciones para aprender por sí mismo, sin supervisión humana y sin datos de entrenamiento anotados adicionales. El método de autoentrenamiento mejoró significativamente el rendimiento en una serie de tareas posteriores, incluyendo análisis de sentimientos, preguntas y respuestas, y clasificación de noticias. Superó tanto a LaMDA como a FLAN de Google en capacidades de cero disparo, así como a modelos GPT y otros algoritmos supervisados.
Sin embargo, un desafío del autoentrenamiento es que el modelo a veces puede generar etiquetas incorrectas o ruidosas que afectan negativamente el rendimiento. Para superar esto, desarrollaron un nuevo algoritmo llamado «SimPLE» (Edición Simple de Pseudoetiquetas), un proceso para revisar y modificar las pseudoetiquetas generadas en las rondas iniciales de aprendizaje. Al corregir cualquier instancia mal etiquetada, mejoraron la calidad general de las etiquetas autogeneradas. Esto no solo hizo que los modelos fueran más efectivos en la comprensión del lenguaje, sino también más sólidos frente a datos adversarios.
Como ocurre con la mayoría de las investigaciones, existen algunas limitaciones. El autoentrenamiento en tareas de clasificación multicategoría no fue tan efectivo como en tareas de comprensión del lenguaje natural binarias, lo que indica el desafío de aplicar modelos de implicación a tareas de elección múltiple.
«Esta investigación presenta una forma eficiente y efectiva de entrenar grandes modelos de lenguaje (LLMs) formulando tareas de comprensión del lenguaje natural como problemas de implicación contextual y utilizando un mecanismo de autoentrenamiento de pseudoetiquetado para incorporar grandes cantidades de datos de texto no etiquetado en el proceso de entrenamiento», agrega James Glass, científico investigador senior de CSAIL y coautor del artículo. «Si bien el campo de los LLMs está experimentando cambios rápidos y drásticos, esta investigación muestra que es posible producir modelos de lenguaje relativamente compactos que funcionen muy bien en tareas de comprensión de referencia en comparación con modelos de tamaño similar o incluso mucho más grandes».
La tarea de implicación es un método popular para evaluar la «comprensión» de un determinado contexto por parte de un modelo de IA«, afirma Leonid Karlinsky, miembro del personal de investigación en el MIT-IBM Watson AI Lab. «Se utiliza en muchos ámbitos para analizar modelos con entradas unimodales, como LLMs, y entradas multimodales, como modelos de lenguaje visual, simplificando la tarea de preguntas y respuestas sobre un contexto dado a un problema de clasificación binaria: ¿este contexto implica una determinada conclusión (por ejemplo, texto) o no? Este artículo realiza dos contribuciones en este ámbito. En primer lugar, propone una forma de mejorar el rendimiento y la robustez a los ataques adversarios de NLU sin ajustes adicionales a través de una afinación con tareas de implicación sintetizadas (especializadas) generadas para la tarea NLU principal. En segundo lugar, ofrece un método auto-supervisado SimPLE que incluye etiquetado pseudo-supervisado y filtrado basado en la confianza para mejorar aún más el rendimiento de los LLMs en NLU».
LEE MÁS ARTÍCULOS SOBRE: Noticias de IA.
LEE LA ENTRADA ANTERIOR: CognosysAI: IA para simplificar tareas complejas con agentes ia.