
Las soluciones de Inteligencia Artificial, como los Modelos de Lenguaje a Gran Escala (MLGE), incluyendo ejemplos prominentes como GPT3, ChatGPT y BARD, se están volviendo cada vez más comentados y adoptados hoy en día. La funcionalidad y las implicaciones de estas herramientas están siendo analizadas con lupa, generando tertulias y debates sobre si son beneficiosas o perjudiciales para nuestro entorno social y sobre cuál será su impacto en el futuro próspero de la IA. Recientemente, la gigante tecnológica Google ha sido objeto de reproches por la ligera errata de su modelo recién lanzado BARD. Al cuestionársele acerca de «los últimos avances relevantes realizados por el telescopio espacial James Webb que podría compartir con mi hijo de 9 años», el chatbot aportó tres respuestas, las cuales dos resultaron correctas y una incorrecta. El error cometido fue afirmar que el primer «exoplaneta» fotografiado fue capturado por el JWST, declaración que resultó ser falaz. En esencia, la información incorrecta era una parte de la masa de datos que poseía el modelo. Para asegurar la precisión y eficacia de los MLGE, se necesitan enfoques eficientes para mantener actualizados estos depósitos de datos y para enriquecerlos con nueva información vital para su desarrollo.
En primer lugar, consideremos cómo se acumulan y se gestionan los datos dentro del MLGE. Estos sofisticados modelos no conservan datos en una forma convencional a la que estamos acostumbrados, como las bases de datos o los archivos. Contrastantemente, estos modelos se entrenan con enormes volúmenes de información en formato texto, permitiéndoles comprender y aprender patrones y relaciones clave. Esta característica innovadora les otorga la capacidad de generar respuestas humanizadas al responder preguntas, aunque carecen de un lugar específico para almacenar la información aprendida. El modelo usa su base de datos aprendida para generar una respuesta pertinente a la pregunta plantada, basándose en la información que recibe. Sin embargo, estas respuestas no son el resultado directo de los datos almacenados de manera explícita en la memoria del modelo, sino un producto de los patrones aprendidos del material con el que se ha entrenado. La mayoría de los modernos MLGE se fundamentan en la arquitectura Transformers, que tiene una codificación interna de datos que se utiliza para resolver la pregunta planteada en relación al mensaje presente.
Por tanto, si los datos integrados en la memoria interna del MLGE resultan ser incorrectos o no al día, se necesita proporcionar un conjunto de datos actualizado o corregidos. Para ello, se manda un mensaje, que es el texto enviado al MLGE con la consulta en cuestión y pruebas de respaldo que pueden ser nuevos datos o datos corregidos. Aquí presentamos tres estrategias eficientes que pueden ayudar a abordar este desafío.
1. Se puede corregir los datos codificados de un MLGE proporcionando nueva información contextual relevante mediante el uso de una base de conocimientos externa. Esta base de datos externa puede ser interfaces de programas de aplicación (API) para adquirir datos pertinentes o una búsqueda en una base de datos SQL, No-SQL o Vector. Se pueden extraer datos más avanzados a partir de una red de conocimientos que mantiene un registro de los elementos de datos y las relaciones entre ellos. Dependiendo de la información que el usuario esté buscando, se puede recuperar datos relevantes relacionados con el contexto y proporcionarlos como datos adicionales al MLGE. Estos datos también pueden organizarse para que parezcan ejemplos de capacitación para optimizar el proceso de aprendizaje. Por ejemplo, se puede proporcionar al modelo una serie de pares de preguntas y respuestas para que aprenda a proporcionar las respuestas más aptas.
2. El segundo método, más innovador pero también más costoso, para mejorar el MLGE es realizar afinación utilizando datos de capacitación. Así, en vez de buscar en la base de datos conocimientos específicos para incluir, creamos un conjunto de datos de capacitación mediante muestras de la base de datos existente. Empleando técnicas de aprendizaje supervisado como la afinación, podríamos desarrollar una nueva versión del MLGE que está capacitada en este nuevo conocimiento adicional. Este proceso puede ser costoso y podría suponer un gasto de varios miles de dólares para construir y mantener un modelo ajustado en OpenAI. Sin embargo, es esperable que los costos disminuyan substancialmente a largo plazo.
3. La tercera opción sería utilizar enfoques como el aprendizaje por refuerzo (RL) para permitir que un agente se capacite con retroalimentación humana, aprendiendo a plantear respuestas a preguntas de manera eficiente. Esta técnica ha tenido un éxito tremendo para desarrollar modelos de menor dimensión que funcionan excelentemente en tareas específicas. En este contexto, el ChatGPT de reconocida fama fue desarrollado por OpenAI utilizando una mezcla de RL y aprendizaje supervisado con retroalimentación humana.
Para concluir, este campo está experimentando un desarrollo acelerado hacia el futuro con muchas empresas importantes queriendo formar parte de este movimiento y exhibir sus capacidades únicas. Pronto veremos herramientas MLGE integradas en varias áreas, como la atención sanitaria, el comercio minorista y la banca, capaces de responder de manera humana y comprender los matices delicados del lenguaje. Estos instrumentos, basados en el MLGE y fusionados con datos empresariales, pueden optimizar el acceso a los datos y garantizar que la información correcta esté disponible para las personas adecuadas en el momento adecuado.
LEE MÁS ARTÍCULOS SOBRE: Ciencia de Datos con IA.
LEE LA ENTRADA ANTERIOR: Universidad de Hong Kong en China dice que la IA ayuda a los médicos junior a detectar mejor los tumores de colon en la lucha contra el cáncer.