Saltar al contenido

¿Sabes qué es realmente un LLM, para qué sirve y para qué no?

10/11/2023

LLMs: La Fuerza Invisible Detrás de los Chatbots más Avanzados

Hoy vamos a explorar los Modelos de Lenguaje de Gran Tamaño (LLMs), fundamentales en tecnologías de chatbots como ChatGPT. Estos sistemas, incluyendo GPT-3.5 y GPT-4, se basan en modelos matemáticos probabilísticos que utilizan enormes conjuntos de datos para predecir secuencias de palabras. A través de un proceso denominado pre-entrenamiento y ajustes continuos, los LLMs se vuelven más eficientes en generar respuestas plausibles. A pesar de su avanzada capacidad de procesamiento del lenguaje, los LLMs tienen limitaciones y no pueden considerarse inteligencia artificial general, enfocándose más en la reacción que en la toma autónoma de decisiones.

Introducción a los Modelos de Lenguaje de Gran Tamaño (LLM)

Los Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés) constituyen la base tecnológica de chatbots como ChatGPT o Bard. Estos modelos no son en sí mismos aplicaciones de chat, sino que son la fuerza motriz detrás de ellas.

Error 403 The request cannot be completed because you have exceeded your quota. : quotaExceeded

GPT-3.5 y GPT-4: Ejemplos de LLM

Por ejemplo, GPT-3.5 y GPT-4, que son los motores que impulsan ChatGPT, representan conjuntos de modelos dentro de esta categoría. Cada uno de estos modelos es una colección de submodelos que trabajan en conjunto.

Definición y Funcionamiento de los LLM

El término «modelo» en este contexto se refiere a un modelo matemático basado en probabilidades. Fundamentalmente, los LLMs estiman la probabilidad de que una palabra específica siga a una secuencia dada de palabras.

Fuentes de Datos para los LLM

¿De dónde obtienen los LLMs estas probabilidades? Se nutren de corpus de datos extensos, como toda la Wikipedia en inglés o una selección representativa de páginas web. Durante su fase de entrenamiento, el LLM almacena las secuencias de palabras que encuentra y, basándose en ellas, asigna probabilidades a las palabras siguientes, partiendo de una secuencia inicial conocida como prompt.

Pre-entrenamiento y Rol de la IA

Este proceso es conocido como pre-entrenamiento. Hasta este punto, el sistema no ha aplicado aún técnicas de inteligencia artificial (IA) ni de machine learning. Lo que hace es un simple cálculo de probabilidades, que podría resultar algo aleatorio en lugar de parecer natural o plausible, como si lo hubiera formulado una persona.

Aprendizaje Automático y Parámetros del Modelo

La presencia de la IA se manifiesta cuando, a través de numerosos ejemplos de frases reales y con mínima intervención humana, el programa aprende a asignar ciertos «pesos» que hacen que las predicciones de frases sean más lógicas. Estos pesos funcionan como «votos» que influyen en la probabilidad de ciertas palabras, frases o estructuras de texto, basándose en las características detectadas en el prompt.

Importancia del Volumen de Datos y Parámetros en los LLM

Por ello, la eficacia de los LLM mejora cuanto más extenso es el conjunto de datos que han procesado y, sobre todo, cuanto mayor es el número de parámetros con los que han sido entrenados. Por ejemplo, GPT-3.5 cuenta con 175 mil millones de parámetros y también incorpora una capa adicional conocida como RLHF (Reinforcement Learning with Human Feedback), que involucra a personas reales haciendo preguntas y evaluando respuestas.

Ajustes y Mejoras en los Modelos LLM

El modelo se perfecciona a través de este feedback y del que proporcionamos millones de usuarios desde que ChatGPT se lanzó al público, recalibrando sus pesos para responder mejor en situaciones donde previamente generaba respuestas inadecuadas.

Limitaciones y Filtros en los Chatbots basados en LLM

Finalmente, todos los chatbots basados en LLMs y que están disponibles para el público incluyen reglas específicas que limitan o prohíben respuestas sobre temas polémicos, cuestionables o violentos. Otro aspecto importante es la capacidad del modelo para manejar la longitud del prompt y la extensión de su respuesta. Un modelo que puede procesar un prompt de 3000 palabras y responder con 1000 será más versátil que uno que solo maneja un máximo de 500 palabras.

Sobre los Tokens y las Limitaciones de los LLM

Es importante señalar que los límites no se miden en palabras, sino en tokens, que son unidades de significado para la máquina. En inglés, un token suele equivaler a aproximadamente 4 caracteres, mientras que en español oscila entre 2 y 3 caracteres.

Qué No Son los LLM

A pesar de su avanzada capacidad para predecir palabras basándose en estímulos previos, los LLM no pueden considerarse una Inteligencia Artificial General. Son sistemas reactivos que dependen de las instrucciones previas del usuario. No toman decisiones autónomas y su actuación se limita a responder a los estímulos recibidos.

Realidad vs. Ficción en las Respuestas de los LLM

Aunque los chatbots basados en LLMs pueden mantener conversaciones coherentes y gramaticalmente correctas, no necesariamente proporcionan información veraz. Su conocimiento se limita a los datos con los que han sido entrenados y no tienen capacidad para discernir entre lo verdadero y lo falso. Por ello, todavía no son herramientas idóneas para funcionar como motores de búsqueda, especialmente en situaciones donde la precisión y la veracidad de la información son críticas.

Vía: Seostratega

LEE MÁS ARTÍCULOS SOBRE: Educación con IA.

LEE LA ENTRADA ANTERIOR: Wordcoin, así funciona el proyecto del creador de ChatGPT que escanea el iris.