
Los chatbots de IA en el sector sanitario a debate
Una semana después de su presentación el 30 de noviembre de 2022 por parte de OpenAI, ChatGPT se convertía en el chatbot de inteligencia artificial con mayor repercusión y uso en la historia con más de un millón de usuarios registrados. Siguiendo la trayectoria de otros chatbots montados sobre robustos modelajes de lenguaje, ChatGPT posee las capacidades para admitir textos en lenguaje natural, produciendo respuestas de texto innovadoras basadas en el análisis probabilístico de extensos corpus de textos preexistentes.
ChatGPT ha sido reconocido por generar textos particularmente bien estructurados y detallados en numerosos dominios y formatos, abarcando desde conversaciones informales hasta ensayos expositivos, ficción, canciones, poesía y hasta lenguajes de programación computarizados.[automatic_youtube_gallery type="search" search="¿Son éticos los chatbots de inteligencia artificial en el ámbito de la salud?" cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]
El chatbot de IA ha mostrado un notable conocimiento de dominio, llegando a punto de casi aprobar un examen de certificación para contabilidad, logrando calificaciones C+ en exámenes de derecho y B en pruebas de la escuela de negocios, y pasando partes del examen de licencia médica de Estados Unidos.
A su vez, ha sido catalogado como coautor en al menos cuatro publicaciones científicas.
Sin embargo, al igual que otros grandes chatbots basados en modelos lingüísticos, ChatGPT a menudo hace afirmaciones engañosas o derechamente falsas con mucha confianza, fenómeno catalogado como «alucinaciones de IA«. A pesar de las notables mejoras frente a modelos previos, ha mostrado evidencias de prejuicios algorítmicos de raza, género y religión.
La ética en la utilización de los chatbots de IA
Además, OpenAI guarda explícitamente los datos introducidos en ChatGPT y los utiliza en su proceso de aprendizaje, generando ciertas amenazas a la privacidad del usuario. En mi experiencia personal, le pedí a ChatGPT que evaluara casos clínicos hipotéticos y descubrí que puede generar diagnósticos y planes de tratamiento diferenciales razonables, aunque sin la suficiente pericia. Sus respuestas se asemejan a las de un estudiante de medicina con vasta lectura, pero demasiado confiado y con escaso reconocimiento de detalles clínicos importantes.
Este uso repentino y masivo de chatbots con grandes modelos lingüísticos ha evidenciado la necesidad de debatir sobre la ética de la inteligencia artificial en áreas como la educación, el derecho, la ciberseguridad, el periodismo, la política y, por supuesto, la atención de la salud.
Por tanto, como un caso de estudio sobre la ética, analicemos los resultados de un programa piloto en la plataforma gratuita de terapia de apoyo Koko. Dicho programa utilizó el mismo modelo de lenguaje GPT-3 que posibilita a ChatGPT generar comentarios terapéuticos para usuarios en situaciones de estrés psicológico.
Los usuarios que deseaban enviar comentarios de apoyo a otros tenían la opción de enviar respuestas generadas por IA en lugar de crear sus propios mensajes. Según Rob Morris, cofundador de Koko, «los mensajes compuestos por IA (y supervisados por personal humano) obtuvieron calificaciones considerablemente más altas que aquellos escritos exclusivamente por humanos» y «los tiempos de respuesta disminuyeron un 50%, llegando a menos de un minuto». No obstante, el experimento se interrumpió rápidamente luego de que los usuarios descubrieron que los mensajes eran generados parcialmente por una máquina.
Koko ha emitido declaraciones ambiguas y contradictorias respecto a si los usuarios tenían conocimiento de que estaban recibiendo mensajes terapéuticos generados por IA. Sin embargo, ha reportado de manera consistente que no había ningún proceso formal de consentimiento informado o revisión por parte de un consejo de revisión independiente.
¿Pueden los chatbots de IA integrarse en la atención sanitaria estándar?
Los mensajes terapéuticos de ChatGPT y Koko generan una cuestión urgente para médicos e investigadores clínicos: ¿Pueden los modelos de lenguaje grandes ser utilizados en la atención médica estándar o deberían estar circunscritos a entornos de investigación clínica?
En cuanto a beneficios, ChatGPT y sus simulares con modelos de lenguaje grandes podrán ofrecer guía a los médicos e incluso protagonizar directamente algunas formas de atención médica y tratamiento psicoterapéutico, lo que podría incrementar el acceso a especialidades, disminuir la tasa de errores, reducir costos e incluso mejorar resultados para los pacientes.
Pero contrapartida, también conllevan riesgos actualmente desconocidos y posiblemente elevados de información errónea y sesgo algorítmico. Dependiendo de su configuración, también podrían resultar excesivamente invasivos en la privacidad del usuario. Estos riesgos pueden ser especialmente dañinos para personas vulnerables con enfermedades médicas o psiquiátricas.
A medida que los investigadores y médicos comienzan a explorar el uso potencial de los modelos de lenguaje grandes IA en la atención médica, la aplicación de los principios de la investigación clínica será clave.
Este es considerado trabajo con participantes humanos cuyo principal objetivo es desarrollar conocimientos generalizables sobre el estado de salud, la enfermedad o su tratamiento.
Decidir si los chatbots pueden participar de manera segura y efectiva en la atención clínica y cómo hacerlo, prima facie parece encajar perfectamente dentro de esta categoría de investigación clínica.
A diferencia de la atención sanitaria estándar, la investigación clínica podría implicar desviaciones del estándar de atención y riesgos adicionales para los participantes, factores que no son necesarios para su tratamiento pero fundamentales para generar nuevos conocimientos generalizables sobre su enfermedad o tratamientos.
Debido a esto, la investigación clínica está sujeta a requisitos éticos añadidos (y, para financiados con fondos federales, también legales) que no se aplican a la atención sanitaria estándar, pero sí son necesarios para proteger a los participantes de la investigación de la explotación.
Además del consentimiento informado, la investigación clínica se somete a revisión independiente por parte de personas conocedoras pero no afiliadas al esfuerzo de investigación, generalmente una junta de revisión institucional.
Tanto los investigadores clínicos como los revisores independientes son responsables de velar por que la investigación propuesta tenga una relación favorable de riesgo-beneficio, con beneficios potenciales tanto para la sociedad como para los participantes que superen cualquier riesgo para estos últimos, y minimización de los riesgos para los mismos en la mayor medida posible.
Estos procesos de consentimiento informado y revisión independiente, aunque imperfectos, son clave para proteger la seguridad de poblaciones de pacientes vulnerables.
Existe otra categoría de trabajo clínico más reciente y en constante evolución conocida como mejora de la calidad o garantía de calidad, que utiliza métodos basados en datos para mejorar la prestación de la atención sanitaria.
Algunas pruebas de chatbots de IA en la atención clínica podrían considerarse una mejora de la calidad. ¿Deberían estos proyectos estar sujetos a consentimiento informado y revisión independiente? El NIH establece un grupo de criterios para determinar si tales esfuerzos deben estar sujetos o no a las protecciones adicionales de la investigación clínica.
Entre ellas, dos preguntas clave son: si las técnicas se desvían del estándar y si la prueba incrementa el riesgo para los participantes. Por ahora, está claro que el uso de chatbots con modelos de lenguaje grandes constituye tanto una desviación del estándar como introduce nuevos riesgos inciertos para los participantes.
En un futuro próximo, a medida que se disminuyan las alucinaciones y los sesgos algorítmicos de la IA y se adopten con mayor amplitud los chatbots de IA, su uso podría no requerir la protección de la investigación clínica. Sin embargo, en este momento, el consentimiento informado y la revisión institucional siguen siendo fundamentales para el uso seguro y ético de grandes chatbots modelo de lenguaje en la práctica clínica.
