Sin llamar mucho la atención OpenAI (ChatGPT) retiró en julio pasado una herramienta experimental que había creado para detectar si un texto había sido escrito por una inteligencia artificial. Este software se llamaba AI Classifier. La misma compañía que ha desatado la popularización de los grandes modelos de lenguaje capaces de producir texto como ser humano avisó que ese recurso ya no estaba disponible “debido a su baja tasa de precisión”. Todavía está pendiente detectar algo quizás más grave: fotos y vídeos de IA.
Algunos de los pasos que ha dado la empresa desde que presentó ChatGPT en noviembre pasado evidencian una gran falta de control sobre algunas partes de su producto. AI Classifier respondía a algunas legítimas preocupaciones. El sector educativo es uno en el que se planteaba esa necesidad de saber si un texto es producido por un alumno o una máquina, pero hay más de los que parece. Por ejemplo, los editores de libros en todo el mundo se enfrentan al problema de poder detectar textos, incluso obras completas, si hay autores dispuestos a que la máquina les ahorre trabajo.
El sistema de la principal compañía sólo distinguía el 26% de los textos generados por la IA
A pesar de que hay empresas que venden productos detectores de textos de IA, estos noson muy fiables. En las primeras fases de modelos como GPT-4 resulta imposible para sus creadores, OpenAI, saber si un texto procede de una persona o una máquina. La compañía quiere crear una especie de marca de agua , algún tipo de señal invisible en el texto, que permita detectar lo que es de la IA, pero los modelos de lenguaje son conocidos como “de caja negra”. Quienes los crean desconocen exactamente de qué forma toman sus decisiones. Investigadores de OpenAI publicaron un trabajo en mayo pasado en el que admitieron que “los modelos lingüísticos son cada vez más capaces y están más extendidos, pero no entendemos cómo funcionan”.
Pese a la falta de avances, OpenAI apunta que está “investigando técnicas de procedencia más eficaces para el texto”. “Nos hemos comprometido a desarrollar y desplegar mecanismos que permitan a los usuarios entender si el contenido de audio o visual es generado por IA”, añaden. AI Classifier fue una solución lanzada en medio del ruido, cuando la comunidad educativa empezaba a plantearse como la llegada de la IA va a cambiar sus métodos. Hasta el final del curso, las evaluaciones no contaban con la existencia de un elemento tan poderoso para falsear los resultados.
En mayo pasado, según reportó la revista Rolling Stone , varios estudiantes de último curso de la Universidad de Texas A&M-Commerce que ya habían participado en la ceremonia de graduación se quedaron sin sus diplomas de forma temporal porque uno de sus profesores utilizó un software de los que aseguran que pueden detectar textos de IA y, erróneamente, los acusó a todos ellos de recurrir a ChatGPT.
Estos sistemas no están perfeccionados para detectar esos textos. OpenAI admitió que su clasificador de IA no era “totalmente fiable” porque sólo detectaba el 26% de los textos de la máquina, mientras que el 9% de los escritos elaborados por humanos los atribuía a la inteligencia artificial.
Si no eres anglohablante suenas a falso
Junto a los problemas de fiabilidad de los detectores, algunos investigadores han demostrado que también tienen un problema de sesgo contra los autores humanos que no son hablantes nativos de inglés. Según un artículo de opinión revisado por pares que se publicó el 10 de julio en la revista Patterns, el software de detección de textos elaborados por IA tiende a etiquetar erróneamente como escritos por una máquina aquellos artículos cuyos autores no son anglohablantes.
James Zou, autor principal de la investigación y miembro de la Universidad de Stanford, y su equipo probaron siete detectores muy conocidos con 91 redacciones en inglés escritas por hablantes no nativos. Un detector marcó casi el 98% de los textos como escritos por IA. El resto acertó en más del 90%, pero el margen de fiabilidad sigue siendo injusto para el 10% restante. Zou advierte de “consecuencias significativas si estos detectores se utilizan para revisar cosas como solicitudes de empleo, ensayos de ingreso a la universidad o tareas del instituto”.
En junio pasado, investigadores del departamento de Ciencias de la Computación de la Universidad de Maryland publicaron un trabajo en el que demostraban “tanto empírica como teóricamente, que varios detectores de texto AI no son fiables en situaciones prácticas”. La investigación probó que incluso modelos de lenguaje protegidos por esquemas considerados marcas de agua “pueden ser vulnerables a ataques de suplantación de identidad”, porque un humano puede añadir pruebas de ese tipo “para que se detecten como texto generado por IA, causando potencialmente daños a la reputación de sus desarrolladores”.
Los autores afirman que la capacidad de los modelos de lenguaje “para producir texto de calidad que no sea detectado aumentará con toda probabilidad en el futuro”. La máquina puede actuar de forma deliberada para evitar ser detectada. Como a los modelos se les puede pedir que escriban con estilos y características específicas, pillar al mentiroso, en este caso, va a requerir de más tiempo.