Explorando nuevos horizontes: Agentes de modelos de lenguaje avanzados en la IA generativa
La era actual de la inteligencia artificial generativa está marcada por una notable
evolución en las aplicaciones impulsadas por grandes modelos de lenguaje (LLM por sus siglas en inglés). Estos avances incluyen desde la configuración de indicaciones iniciales, hasta la generación avanzada con recuperación aumentada (RAG por sus siglas en inglés), y culminan con la creación de agentes inteligentes. Las conversaciones al respecto resuenan con entusiasmo tanto en los círculos de la industria como en la investigación, enfocándose en la potente capacidad de esta tecnología para revolucionar la forma de hacer negocios y ofrecer experiencias sobresalientes a los clientes. Hay tendencias distinguibles en la metodología de construcción de estos agentes que pavimentan el camino hacia lo que muchos consideran el pórtico de la inteligencia artificial general (AGI).
En mi artículo anterior, desglosamos la «escalera de inteligencia» a través de patrones establecidos para la creación de aplicaciones basadas en LLM. Desde el punto de partida, empleamos indicaciones que capturan la esencia del problema para aprovechar la memoria interna de los LLM en la producción de resultados. Con la incorporación de RAG, podemos enriquecer la respuesta con conocimientos extraídos de una base de datos vectorial, mejorando así el control sobre la información generada. Progresando más allá, al encadenar llamadas de LLM, nos es posible configurar flujos de trabajo que manejen tareas más complejas. Finalmente, ascendemos a la cima con los agentes, que tienen la habilidad de determinar de forma autónoma cómo se estructurarán esas cadenas de LLM para brindar soluciones efectivas. Ahondemos en esta fascinante mecánica.
La anatomía de los agentes en la IA generativa
La dinámica subyacente que define a los agentes radica en su uso del entendimiento profundo del lenguaje que los LLM proporcionan, lo que les permite diseñar estrategias para abordar problemas específicos. Los LLM no solo entienden la naturaleza del problema sino que también sugieren una serie de pasos lógicos para resolverlo. No obstante, la funcionalidad de los agentes no se limita a actuar como un sistema de apoyo estático que ofrece recomendaciones para luego pasar el testigo. En lugar de ello, están equipados con herramientas que les permiten ejecutar acciones directas, lo que puede resultar una idea bastante sorprendente.
Tomemos como ejemplo una pregunta básica planteada a un agente:
Usuario: ¿Qué empresa fundó el inventor del teléfono?
Aquí un posible flujo de pensamiento que un agente podría seguir:
- Pensamiento: Necesito identificar al inventor del teléfono.
- Acción: Búsqueda (inventor del teléfono)
- Observación: Alexander Graham Bell
- Pensamiento: Debo encontrar una compañía fundada por Alexander Graham Bell
- Acción: Búsqueda (compañía fundada por Alexander Graham Bell)
- Observación: Alexander Graham Bell fue cofundador de la American Telephone and Telegraph Company (AT&T) en 1885
- Pensamiento: Tengo la respuesta que busco.
Agente (RESPUESTA): Alexander Graham Bell fue cofundador de AT&T en 1885
Como podemos observar, el agente utiliza un enfoque metódico para descomponer el problema en subproblemas, los cuales aborda mediante la ejecución de acciones concretas. Las acciones recomendadas por el LLM pueden asignarse a herramientas específicas para llevarlas a cabo efectivamente. Una herramienta de búsqueda se puede habilitar para que, cuando se requiera buscar información proporcionada por el LLM, el agente proceda automáticamente. Aunque la búsqueda se realiza en línea, también se puede configurar para consultar bases de datos internas, como una base de datos vectorial. Este sistema autosuficiente es capaz de desentrañar problemas complejos siguiendo una secuencia lógica de pasos. Herramientas como LangChain y LLaMAIndex facilitan la creación de tales agentes y su integración con APIs y herramientas existentes. Recientemente, Amazon introdujo su marco de trabajo Bedrock Agents, el cual incluye una interfaz visual para diseñar estos agentes inventivos.
En esencia, los agentes aplican un estilo específico de envío de indicaciones al LLM que les permite concebir un plan de acción a seguir. Esta metodología de Pensamiento-Acción-Observación es muy empleada en un tipo de agente conocido como ReAct (Reasoning and Acting). Existen también otros tipos de agentes, como MRKL y Plan & Execute, que se distinguen principalmente por su modo de interacción y formular peticiones.
Precauciones y la importancia de una IA responsable
Sin embargo, ¿qué sucedería si construimos una herramienta que ejecute transacciones en el mercado bursátil utilizando una API previamente autorizada? Imaginemos una aplicación en la que el agente analiza el comportamiento de las acciones y toma decisiones de compra y venta en tu lugar. Existe el riesgo de que el agente realice una operación incorrecta debido a un fallo de percepción y cometa un error crítico. La gran envergadura de los LLM implica que a menudo es complicado entender la lógica tras algunas decisiones, lo que puede generar «alucinaciones» en ausencia de controles de seguridad adecuados.
A pesar de que los agentes dotados de LLM resultan fascinantes, no es difícil imaginar los riesgos que estos pueden conllevar. En el caso de que una alucinación derive en una acción inapropiada, las consecuencias podrían ser de una magnitud alarmante, incluyendo graves repercusiones financieras o disfunciones en los sistemas corporativos. Por esta razón, el concepto de inteligencia artificial responsable ha ganado importancia en la era de las aplicaciones basadas en LLM. Los principios que rodean la IA responsable, concernientes a la reproducibilidad, transparencia y rendición de cuentas, se orientan hacia la implementación de salvaguardas en las decisiones tomadas por los agentes y proponen realizar análisis de riesgo para determinar qué acciones requieren supervisión humana. A medida que se diseñan agentes de mayor complejidad, aumentan la necesidad de hacerlos más transparentes y responsables, de modo que podamos estar confiados en su desempeño.
La capacidad de los agentes para trazar un camino lógico con acciones programadas les acerca significativamente al proceso de razonamiento humano. Otorgarles herramientas más poderosas significa dotarlos de habilidades sobrehumanas. Modelos como ReAct buscan emular la forma en que los humanos solventan problemas, y se anticipa que surgirán patrones aún más avanzados de agentes que serán especialmente relevantes para dominios específicos, como la banca, los seguros, la atención médica y la industria. El futuro ya está aquí, y la avanzada tecnología que respalda a los agentes está lista para nuestro uso. Sin embargo, debemos prestar especial atención a las barreras de seguridad proporcionadas por la IA responsable para prevenir la construcción inadvertida de algo parecido a Skynet.
LEE MÁS ARTÍCULOS SOBRE: Ciencia de Datos con IA.
LEE LA ENTRADA ANTERIOR: Research Butler.