Saltar al contenido

Primer aniversario de ChatGPT: remodelando el futuro de la interacción con la Inteligencia Artificial

27/12/2023
Primer Aniversario De Chatgpt: Remodelando El Futuro De La Interacción Con La Inteligencia Artificial

Al hacer un balance del primer año de existencia de ChatGPT, se torna evidente cómo esta plataforma ha dejado una huella indeleble en el panorama de la Inteligencia Artificial (IA). Revelada al público a finales del año 2022, ChatGPT se destacó inmediatamente debido a su enfoque dialógico amigable al usuario, proporcionando una interacción con la IA que parecía más una charla con otro humano que un mero intercambio con una entidad mecánica. Este punto de vista innovador acaparó rápidamente la atención general. Pasados únicamente cinco días desde su implementación, ChatGPT ya contaba con un millón de usuarios. Hacia comienzos de 2023, esta cifra había aumentado a 100 millones de usuarios por mes y, para octubre, la plataforma contaba con cerca de 1.700 millones de visitas a nivel mundial. Estas cifras dan fe de su utilidad y popularidad masiva.

Durante el año que acaba de transcurrir, los usuarios exploraron todo tipo de formas originales de utilizar ChatGPT, desde tareas cotidianas como redactar correos electrónicos y actualizar currículums, hasta arrancar negocios exitosos. Pero la revolución que supone esta herramienta va más allá de su versatilidad; la tecnología por sí misma ha evolucionado y mejorado sustancialmente. En sus inicios, ChatGPT era un servicio gratis que proporcionaba respuestas de texto detalladas. Ahora, contamos con ChatGPT Plus, que incluye a ChatGPT-4. Esta versión mejorada funciona sobre la base de un mayor volumen de datos, disminuye la cantidad de respuestas erróneas y entiende de manera más precisa instrucciones más complicadas.[automatic_youtube_gallery type="search" search="Primer aniversario de ChatGPT: remodelando el futuro de la interacción con la Inteligencia Artificial" cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]

Una Interacción Multi-dimensional con ChatGPT

Una de las mejoras más significativas es que ChatGPT ahora es capaz de interactuar de varias formas: puede escuchar, hablar e incluso procesar imagenes. Esto significa que puedes conversar con él a través de su aplicación móvil y mostrarle imágenes para obtener respuestas. Estos cambios han abierto un nuevo horizonte para la IA y han transformado la manera en que las personas perciben y reflexionan sobre el papel de la IA en nuestras vidas.

El Impacto de ChatGPT en el Mundo Tecnológico

Desde sus comienzos humildes como una simple demostración tecnológica hasta su status actual como un actor de peso en el universo tecnológico, el camino trazado por ChatGPT es sumamente admirable. En sus primeras etapas, se percibía como un medio para probar y perfeccionar la tecnología al obtener retroalimentación de los usuarios. Pero rápidamente se tornó un componente esencial en el paisaje de la IA. Este triunfo demuestra lo eficaz que resulta afinar los modelos de lenguaje grandes (LLM) con aprendizaje supervisado y retroalimentación por parte de usuarios humanos. Como consecuencia, ChatGPT puede manejar un amplio espectro de interrogantes y tareas.

La competencia por desarrollar los sistemas de IA más competentes y versátiles ha desembocado en una proliferación de modelos propietarios y de código abierto como ChatGPT. Para comprender su capacidad general se necesitan benchmarks extensos en un amplio rango de tareas. Esta sección explora estos benchmarks, proporcionando una perspectiva sobre cómo se comparan los diferentes modelos, incluyendo a ChatGPT.

Evaluación de LLM: Los Benchmarks

  1. Banco MT: Este benchmark evalúa las habilidades de conversación en múltiples turnos y el seguimiento de instrucciones en ocho dominios: escritura, juego de roles, extracción de información, razonamiento, matemáticas, programación, conocimiento en ciencias exactas y tecnología (STEM) y humanidades/ciencias sociales. Para esto se utilizan LLMs más robustos como GPT-4.
  2. AlpacaEval: Basándose en el set de evaluación de AlpacaFarm, este evaluador automático basado en LLM compara modelos con las respuestas de LLM avanzados como GPT-4 y Claude, calculando la tasa de éxito de los modelos candidatos.
  3. Tabla de clasificación abierta de LLM: Utilizando el enfoque de evaluación del modelo de lenguaje, esta tabla de clasificación evalúa los LLMs en siete benchmarks clave, incluyendo desafíos de razonamiento y pruebas de conocimiento general, tanto en entornos de posibilidad cero como de pocas posibilidades.
  4. banco grande: Este benchmark colaborativo cubre más de 200 tareas lingüísticas innovadoras, que abarcan una amplia gama de temas e idiomas. Su objetivo es explorar los LLMs y predecir sus capacidades futuras.
  5. ChatEval: Un marco de debate de múltiples agentes que permite a los equipos discutir y evaluar autónomamente la calidad de las respuestas de diferentes modelos en torno a preguntas abiertas y tareas tradicionales de generación de lenguaje natural.

Desempeño Comparativo

En lo que respecta a los benchmarks generales, los LLM de código abierto han mostrado un progreso extraordinario. Llama-2-70B, por ejemplo, ha logrado resultados impresionantes, especialmente después de haberse ajustado con datos de instrucciones. Su variante, Llama-2-chat-70B, destacó en AlpacaEval con una tasa de victorias del 92,66%, superando a GPT-3.5-turbo. Sin embargo,GPT-4 sigue siendo el favorito con una tasa de victorias del 95,28%.

Zephyr-7B, un modelo más pequeño, demostró tener capacidades comparables a los LLM 70B más grandes, especialmente en AlpacaEval y MT-Bench. Mientras tanto, WizardLM-70B, afinado con un amplio espectro de datos de instrucción, obtuvo la puntuación más alta entre los LLM de código abierto en MT-Bench. No obstante, aún quedó por detrás de GPT-3.5-turbo y GPT-4.

Una entrada significativa, GodziLLa2-70B, logró una puntuación competitiva en la tabla de clasificación Open LLM, demostrando el potencial de los modelos experimentales que combinan diversos conjuntos de datos. De manera similar, el Yi-34B, desarrollado desde cero, destacó con puntuaciones comparables a las de GPT-3.5-turbo y solo ligeramente por detrás de GPT-4.

UltraLlama, con su ajuste de datos diversos y de alta calidad, equiparó a GPT-3.5-turbo en los benchmarks planteados e incluso lo superó en áreas de conocimiento mundial y profesional.

Expansión: La proliferación de los LLM gigantes

Los mejores modelos de LLM desde 2020

Una tendencia destacada en el desarrollo de LLM ha sido la expansión de los parámetros del modelo. Modelos como Gopher, GLaM, LaMDA, MT-NLG y PaLM han empujado los límites y han culminado en modelos con hasta 540 mil millones de parámetros. Estos modelos han demostrado capacidades sobresalientes, pero su naturaleza de código cerrado ha restringido su aplicación a un público más amplio. Esta situación ha estimulado el interés en desarrollar LLM de código abierto, una tendencia que está cobrando impulso.

Paralelamente a la expansión del tamaño de los modelos, los investigadores han explorado estrategias alternativas. En lugar de simplemente hacer los modelos más grandes, se han enfocado en mejorar el entrenamiento previo de los modelos más pequeños. Ejemplos de ello son Chinchilla y UL2, que han demostrado que más tamaño no siempre equivale a mejores resultados; estrategias más inteligentes también pueden rendir frutos efectivos. Además, se está prestando una atención considerable al ajuste de la instrucción de los modelos lingüísticos, y proyectos como FLAN, T0 y Flan-T5 han contribuido significativamente en esta área.

El Efecto Catalizador de ChatGPT

La introducción de ChatGPT por parte de OpenAI marcó un hito en la investigación de Procesamiento de Lenguaje Natural (PLN). Para competir con OpenAI, empresas como Google y Anthropic lanzaron sus propios modelos, Bard y Claude, respectivamente. Aunque estos modelos demuestran un rendimiento comparable en muchas tareas al de ChatGPT, todavía se encuentran rezagados frente al último modelo de OpenAI, GPT-4. El éxito de estos modelos se debe en gran medida al aprendizaje reforzado a partir de la retroalimentación humana (RLHF), una técnica que está recibiendo mayor atención en la investigación con el fin de seguir mejorando.

Rumores y Presunciones sobre Q* (Q-Star) de OpenAI

Reportes recientes sugieren que los investigadores de OpenAI pueden haber alcanzado un avance sustancial en IA con el desarrollo de un nuevo modelo llamado Q* (pronunciado Q estrella). Supuestamente, Q* tiene la aptitud de realizar matemáticas a nivel de educación primaria, un logro que ha desatado controversia entre los expertos acerca de su potencial como un paso histórico hacia la Inteligencia Artificial General (AGI). Si bien OpenAI aún no se ha pronunciado al respecto, las presumibles habilidades de Q* han desatado una ola de entusiasmo y especulación en las redes sociales y entre los entusiastas de la IA.

El desarrollo de Q* es notable porque los modelos de lenguaje existentes como ChatGPT y GPT-4, aunque son capaces de realizar algunas tareas matemáticas, no son particularmente hábiles para manejarlas de forma segura. El reto radica en que los modelos de IA no solo deben reconocer patrones, como actualmente lo hacen mediante aprendizaje profundo y transformadores, sino también razonar y entender conceptos abstractos. Las matemáticas, al ser un benchmark para el razonamiento, exigen que la IA planifique y ejecute múltiples pasos, demostrando una comprensión profunda de conceptos abstractos. Esta habilidad representaría un avance significativo en las capacidades de la IA, pudiendo extenderse potencialmente más allá de las matemáticas a otras tareas complejas.

Sin embargo, los expertos advierten acerca de no alzar demasiado las expectativas en torno a este desarrollo. Mientras que un sistema de IA capaz de resolver de manera confiable problemas matemáticos sería un logro impresionante, esto no necesariamente señala la llegada inminente de una IA o AGI superinteligente. La investigación actual sobre IA, incluyendo los esfuerzos de OpenAI, se ha centrado en problemas básicas, obteniendo diferente grado de éxito en tareas más complejas.

Las posibles implicancias en aplicaciones como Q* son enormes y van desde tutorías personalizadas hasta asistencia en investigación científica e ingeniería. Sin embargo, también resulta crucial manejar las expectativas y reconocer las limitaciones y los problemas de seguridad asociados con tales avances. Las inquietudes acerca de que la IA plantea riesgos existenciales, una preocupación fundamental de OpenAI, sigue siendo pertinente, especialmente cuando los sistemas de IA empiezan a interactuar más directamente con el mundo real.

El Movimiento LLM de Código Abierto

Con el objetivo de impulsar la investigación de LLM de código abierto, Meta lanzó los modelos de la serie Llama, lo cual desató una ola de nuevos desarrollos basados en Llama. Esto incluye modelos ajustados con datos de instrucciones, como Alpaca, Vicuna, Lima y WizardLM. La investigación también se está diversificando hacia la mejora de las capacidades de los agentes, el razonamiento lógico y el modelado de contexto prolongado dentro del marco basado en Llama.

Además, existe una tendencia creciente a desarrollar potentes LLM desde cero, con proyectos como MPT, Falcon, XGen, Phi, Baichuan, Mistral, Grok y Yi. Estos esfuerzos reflejan un compromiso de democratizar las capacidades de los LLM de código cerrado, haciendo que las herramientas avanzadas de IA sean más accesibles y eficientes.

El Impacto de ChatGPT y los Modelos de Código Abierto en Salud

Miramos hacia un futuro en el cual los LLM ayudarán a tomar notas clínicas, completar formularios de reembolsos, y asistir a los médicos en el diagnóstico y la planificación de tratamientos. Esto ha atraído la atención tanto de los gigantes tecnológicos como de las instituciones de salud.

Las conversaciones de Microsoft con Épico, un proveedor líder de software de registros médicos electrónicos, sugieren una integración de los LLM en el ámbito de la salud. Ya existen iniciativas en marcha en UC San Diego Health y en el Centro Médico de la Universidad de Stanford. De manera similar, los vínculos de Google con la Clínica Mayo y Amazon Web Services y el lanzamiento de HealthScribe, un servicio de documentación clínica basado en IA, señalan avances significativos en esta dirección.

Sin embargo, estos despliegues veloces generan inquietudes acerca de la posibilidad de ceder el control de la medicina a intereses corporativos. La naturaleza propietaria de estos LLM dificulta su evaluación. Su posible modificación o discontinuidad por razones de rentabilidad podría comprometer la atención, la privacidad y la seguridad del paciente.

Lo que se necesita urgentemente es un enfoque abierto e inclusivo para el desarrollo de LLM en el ámbito de la salud. Las instituciones sanitarias, los investigadores, los médicos y los pacientes deben colaborar a nivel mundial para crear LLM de código abierto para la atención sanitaria. Este enfoque, similar al Consorcio del Billón de Parámetros, permitiría juntar conocimientos y recursos computacionales y financieros.