Saltar al contenido

Cómo los grandes modelos de lenguaje (LLM) impulsarán las aplicaciones del futuro

05/01/2024

La Inteligencia Artificial de generación, especialmente su variante lingüística como el ChatGPT, está teniendo un impacto profundo en múltiples sectores. Los Modelos de Lenguaje Amplios (LLM, por sus siglas en inglés), van a tener un papel crucial en la confección de las aplicaciones del futuro. Los LLM han demostrado ser altamente efectivos al entender lenguajes gracias a la extensa formación previa implementada en modelos básicos con billones de líneas de texto disponible públicamente, incluyendo código. Metodologías como el ajuste supervisado y el aprendizaje reforzado con retroalimentación humana (RLHF) ayudan a estos LLM a ser aún más eficientes para responder preguntas específicas y tener una interacción dinámica con los usuarios. Mientras avanzamos hacia la futura etapa de las aplicaciones de IA fortalecidas por LLM, entender las claves de estos componentes va a ser vital para las aplicaciones de la próxima generación. La siguiente figura representa la proyección de este recorrido, generando más inteligencia y autonomía en las aplicaciones a medida que avanzamos en la cadena. Exploremos estos distintos niveles.

el papel de los modelos de lenguaje amplios (LLM) en las aplicaciones futuras

Error 403 The request cannot be completed because you have exceeded your quota. : quotaExceeded

LLM: Modelos de Chat

Estos modelos de chat, también conocidos como solicitudes directas de finalización, son realizados por un proveedor de LLM como Azure OpenAI, Google PaLM o Amazon Bedrock. Estas solicitudes son de naturaleza muy básica y en su mayoría utilizan la memoria interna del LLM para producir los resultados.

Ejemplo: Solicitar a un modelo básico como “text-davinci” que “diga un chiste”. Proporciona muy poco contexto y el modelo depende de su memoria interna previamente entrenada para generar una respuesta (mencionada resaltada en verde en la figura siguiente, utilizando Azure OpenAI).

el papel de los modelos de lenguaje amplios (LLM) en las aplicaciones futuras

Instrucciones

El siguiente nivel de inteligencia se enfoca en proporcionar un mayor contexto en cada set de instrucciones. Existen técnicas de ingeniería rápida que se pueden aplicar a los LLM y que pueden potenciar respuestas personalizadas. Por ejemplo, al redactar un correo electrónico para un usuario, algo de contexto personalizado, anteriores compras y patrones de comportamiento pueden servir como instrucciones para mejorar la personalización del correo electrónico. Los usuarios familiarizados con ChatGPT conocerían los diferentes métodos de requedir, como proporcionar ejemplos, que el LLM utiliza para generar respuestas. Las instrucciones llenan de contexto adicional la memoria interna del LLM. A continuación, ponemos un ejemplo.

el papel de los modelos de lenguaje amplios (LLM) en las aplicaciones futuras

Incrustaciones

Las incrustaciones llevan las instrucciones a otro nivel permitiendo extraer contexto desde una base de conocimientos. Esto consiste en buscar el contexto en el repositorio de conocimientos, obtenerlo y añadirlo a la solicitud. El inicio consiste en la creación de una gran base de documentos de texto no estructurado, indexando el texto y rellenando una base de datos vectoriales. Para esto, se emplea un modelo de incrustación como el ‘ada’ de OpenAI, que convierte un fragmento de texto en un vector de ‘n’ dimensiones. Estas incrustaciones capturan el contexto del texto, de manera que oraciones parecidas tendrán incrustaciones próximas en el espacio vectorial. Cuando un usuario entra una consulta, esa consulta es también convertida en incrustación y se compara el vector con otros vectores en la base de datos. Por tanto, obtenemos los 5 o 10 fragmentos de texto principales que coinciden con la consulta, formando el contexto. Se pasa a LLM la consulta y el contexto para responder la pregunta de la forma más humana posible.

Secuencias

Las secuencias, en la actualidad, son la tecnología más avanzada y desarrollada disponible y se utilizan ampliamente para crear aplicaciones LLM. En las secuencias, una cadena de llamadas LLM se unen y la salida de una se convierte en la entrada para uno o más LLM. Por ejemplo, podríamos hacer que una llamada de LLM consulte una base de datos SQL y obtenga una lista de correos electrónicos de clientes y envíe esa lista a otro LLM que generará correos electrónicos personalizados para los clientes. Estas cadenas de LLM se pueden insertar en flujos de aplicaciones existentes para generar resultados más destacados. Usando secuencias, podríamos aumentar las llamadas de LLM con entradas externas como llamadas de API e integrar gráficos de conocimientos para proporcionar contexto. Con los múltiples proveedores de LLM disponibles hoy en día, como OpenAI, AWS Bedrock, Google PaLM, MosaicML, etc., podríamos mezclar y combinar las llamadas de LLM en secuencias. Los elementos de la secuencia con inteligencia limitada podrían usar un LLM inferior como ‘gpt3.5-turbo’, mientras que para tareas más avanzadas se podría usar ‘gpt4’. Las secuencias brindan una abstracción para los datos, las aplicaciones y las llamadas de LLM.

Agentes

Los agentes se están convirtiendo en el centro de multitud de debates en línea, principalmente en lo que concierne a la inteligencia artificial avanzada (AGI). Los agentes emplean un LLM avanzado como ‘gpt4’ o ‘PaLM2’ para planificar las tareas en lugar de tener secuencias predefinidas. Entonces, ahora, cuando hay solicitudes de los usuarios, dependiendo de la consulta, el agente decide qué conjunto de tareas ejecutar y construir dinámicamente una secuencia. Por ejemplo, al configurar a un agente un comando como «notificar a los clientes cuando el APR del préstamo cambie debido a una actualización de la normativa gubernamental». El marco de agente ejecuta una llamada de LLM para decidir los próximos pasos o las secuencias a construir. Aquí implicaría realizar una llamada de LLM que analiza en tiempo real sitios web regulatorios y extrae la última tasa de APR, luego otra llamada de LLM examina la base de datos y extrae los correos electrónicos de los clientes que se ven afectados y finalmente se genera un correo electrónico para alertar a todos.

Conclusiones finales

El LLM es una tecnología que se encuentra en un constante avance y cada semana vemos cómo se lanzan nuevos modelos y aplicaciones mejoradas. La mejora de los modelos significará la eficiencia de los agentes y las siguientes generaciones de aplicaciones se basarán en ellos. Solo el futuro dirá hasta donde llegará el avance de las aplicaciones de la próxima generación y qué patrones las guiarán.

LEE MÁS ARTÍCULOS SOBRE: Ciencia de Datos con IA.

LEE LA ENTRADA ANTERIOR: ¿De qué manera la IA está transformando el ecosistema de desarrollo de software?.