Este extracto documental ahonda sobre la experimentación con una versión inicial de GPT-4, aún en desarrollo por parte de OpenAI. Postulamos que esta primera evolución de GPT-4 se suma a la nueva oleada de LLM (Language Models), que junto con el ChatGPT y PaLM de Google, entre otros, evidencian una inteligencia mucho más general que los patrones de IA previos.

Nuestro informe brinda evidencia concluyente de que las habilidades de GPT-4 van más allá de la mera memorización y abarcan una comprensión profunda y elástica, tanto de conceptos como de habilidades y dominios. De hecho, GPT-4 tiene una capacidad de generalización muy superior a la de cualquier ser humano vivo actual.

Hemos discutido anteriormente las ventajas de la AGI, la Inteligencia Artificial Generalizada, pero necesitamos un rápido repaso de qué es exactamente una AGI. En esencia, una AGI es una forma de IA avanzada que tiene la capacidad de aplicarse en varios dominios y que no está restringida a un enfoque limitado.

Algunos ejemplos de IA limitada incluirían un vehículo autónomo, un chatbot, un robot jugador de ajedrez o cualquier otra IA diseñada para un solo propósito.

En contraste, una AGI podría alternar de manera flexible entre cualquiera de los ejemplos anteriores o cualquier otro campo de especialización. Una AGI es una IA que aprovecha algoritmos emergentes como el aprendizaje por transferencia y el aprendizaje evolutivo, mientras que también explota algoritmos heredados, como el aprendizaje reforzado profundo.

El caso de estudio: GPT-4 en acción

La descripción anterior sobre AGI es consistente con mi experiencia personal utilizando GPT-4, así como con las evidencias compartidas en el extracto de investigación realizado por Microsoft.

Uno de los ejemplos sugeridos en el artículo es la habilidad de GPT-4 para redactar una prueba de la existencia de números primos infinitos en forma de poema.

El desafío de crear un contenido de gran riqueza semántica

Analizando ahora los requisitos para crear un poema de esta naturaleza, es evidente que se necesitaría un buen razonamiento matemático, una sólida expresividad poética y una buena capacidad para la generación de lenguaje natural. Un reto que excedería la capacidad promedio de la mayoría de los humanos.

El articulo intenta discernir si GPT-4 simplemente produce contenido basándose en la memorización masiva frente a la comprensión contextual y las habilidades de razonamiento. Cuando se le pide que recrear un poema con el estilo de Shakespeare demostrará de forma multidimensional su entendimiento, más allá de las capacidades de la población general, lo que incluye la teoría de la mente y el genio matemático.

¿Cómo medimos la inteligencia de GPT-4?

La pregunta que surge ahora es ¿cómo podemos medir la inteligencia de un LLM? ¿Y si los comportamientos de GPT-4 muestran verdaderos indicios de aprendizaje o simplemente memorización?

La metodología actual para evaluar un sistema de Inteligencia Artificial es probar el sistema contra una serie de conjuntos de datos patrón y asegurar que estos son independientes de los datos de entrenamiento y que cubren una variedad de tareas y dominios. Esto es casi una misión imposible debido a la voluminosa cantidad de datos con los que se entrenó a GPT-4.

Más allá de la memorización: GPT-4

El informe continúa con la introducción de tareas y preguntas novedosas y difíciles que demuestran de manera convincente que GPT-4 va mucho más allá de la memorización y posee una comprensión profunda y flexible de conceptos, habilidades y dominios.

En el ámbito de la inteligencia, GPT-4 ha demostrado ser capaz de producir guiones, historias cortas e incluso calcular las fórmulas más difíciles.

También ha demostrado ser capaz de codificar a un nivel extremadamente alto, tanto en términos de redacción de código a partir de instrucciones como en la comprensión del código existente. GPT-4 puede lidiar con una amplia variedad de tareas de codificación que van desde desafíos de codificación a aplicaciones reales en el mundo, desde ensambles de bajo nivel hasta marcos de trabajo sofisticados, desde estructuras de datos simples hasta programas complejos como juegos.

GPT-4 puede razonar sobre ejecuciones de código, simular los efectos de las instrucciones y explicar resultados en lenguaje natural. Puede incluso correr pseudocódigo.

Limitaciones de GPT-4

El informe continúa evaluando las respuestas y comportamientos de GPT-4, verificando su consistencia, coherencia, y exactitud, al tiempo que busca descubrir sus limitaciones y sesgos.

La limitación más evidente es su tendencia a alucinar. En el texto se muestra un ejemplo de una alucinación en la que GPT-4 confía en su respuesta, que resulta ser completamente falsa.

Parece que incluso GPT-4 es consciente de estas limitaciones con las alucinaciones, ya que esta fue su respuesta cuando se le preguntó qué es una «alucinación GPT»:

Una alucinación GPT se refiere a un fenómeno en el que un modelo de Transformador Generativo Pre-entrenado (GPT), como con el que estás interactuando actualmente, genera una respuesta que no está basada en información objetiva, o que no es coherente con el contexto proporcionado. Estas alucinaciones ocurren cuando el modelo genera un texto que puede parecer plausible pero que es incorrecto, engañoso o carente de sentido.

De modo que, cuando entrenas una IA con datos del mundo real, ¿Cómo evitas que el sistema aprenda datos incorrectos? Un gran modelo de lenguaje que aprenda y regurgite información errónea y teorías de conspiración podría ser uno de los mayores peligros asociados a la adopción a gran escala de LLM. De hecho, podría ser uno de los mayores riesgos asociados a la AGI, algo que se pasa por alto con frecuencia cuando se discuten los peligros de la AGI.

Pruebas de inteligencia de GPT-4

El informe muestra que, independientemente de la complejidad de las indicaciones que se le otorguen a GPT-4, este las superará. Según se describe en el informe:

Se nos presentó su impresionante dominio del lenguaje natural. Este no sólo puede generar un texto fluido y coherente, sino que también tiene la capacidad de comprenderlo y manipularlo de diversas maneras, como resumirlo, traducirlo o responder a un conjunto extremadamente amplio de preguntas.

Se realizaron revisiones técnicas simuladas a GPT-4 y pasó fácilmente, sugiriendo que si se tratase de un humano del otro lado, este hubiese sido contratado prácticamente de inmediato como ingeniero de software. De hecho, una prueba preliminar de la competencia de GPT-4 en el examen de barra multi-estatal demostró una precisión superior al 70%. Esto sugiere que en el futuro podríamos automatizar muchas de las labores actualmente asignadas a los abogados. De hecho, hay algunas empresas ya trabajando en crear «abogados-robots» que usan GPT-4.

Producir nuevos conocimientos

Uno de los argumentos en el informe es que lo único que falta a la GPT-4 para demostrar su verdadera comprensión es producir conocimiento nuevo, como demostrar nuevos teoremas matemáticos, algo que actualmente está fuera de su alcance.

Produciendo conocimientos nuevos en este ámbito quedarían respondidos los interrogantes en torno a la AGI. Además de existir riesgos si una AGI cae en manos equivocadas, los beneficios de tener una AGI capaz de analizar rápidamente todos los datos históricos para descubrir nuevos teoremas, tratamientos y curas son prácticamente infinitos.

Un AGI podría ser el enlace que nos falta para hallar curas para enfermedades genéticas raras que no tienen financiamiento en la industria privada, para curar el cáncer de una vez por todas y para maximizar la eficiencia de la energía renovable y eliminar nuestra dependencia de fuentes de energía no sostenibles. De hecho, una AGI podría resolver cualquier problema que se introduzca en el sistema. Esta es la visión de Sam Altman y el equipo de OpenAI: un AGI es sin duda el último invento que se necesita para resolver la mayoría de los problemas y beneficiar a la humanidad.

No obstante, esto no resuelve el problema del «botón nuclear»: ¿quién controla el AGI y qué intenciones tiene? Independientemente de esto, el informe argumenta que GPT-4 es un paso adelante en la consecución del sueño que los investigadores de IA han tenido desde 1956 cuando se lanzó por primera vez el taller de verano del Proyecto de Investigación de Verano de Dartmouth sobre Inteligencia Artificial.

Aunque es discutible si GPT-4 puede llamarse una AGI, es indiscutible que sería un hecho sin precedentes que un sistema de inteligencia artificial pudiera aprobar la prueba de Turing por primera vez en la historia.