El espejismo de los detectores de inteligencia artificial: por qué no son útiles ni justos

Source: The Conversation – (in Spanish) – By Faraón Llorens Largo, Catedrático de Ciencia de la Computación e Inteligencia Artificial, Universidad de Alicante

Un estudiante entrega un trabajo brillante. Pero resulta demasiado bien escrito, demasiado estructurado, demasiado “perfecto”. Enseguida surge la sospecha: quizá lo ha hecho una inteligencia artificial. El primer impulso es usar un detector de textos generados por inteligencia artificial. Lo aplicamos sobre el trabajo, y esta herramienta nos responde que se trata de un texto con un 87 % de probabilidades de haber sido generado por una máquina. Entonces damos rienda suelta al sesgo de automatización que nos hace asumir acríticamente las decisiones automatizadas. Caso cerrado. Sentencia dictada.

¿O no? El caso no está cerrado. Este veredicto informático no solo es poco fiable; es, sobre todo, injusto.

Los detectores de inteligencia artificial parecen una solución lógica, pero tienen dos problemas fundamentales. El primero es técnico: no funcionan bien. El segundo problema es más relevante: aunque funcionaran perfectamente, no resolverían el verdadero problema.

¿Quiere recibir artículos como este? Suscríbase a La Conversación Docente y reciba los últimos análisis y tendencias en el sector educativo, seleccionados por nuestra editora de Educación Eva Catalán.

Una solución técnicamente frágil

A diferencia del plagio tradicional, donde se compara un texto con fuentes existentes, aquí no hay un original contra el que contrastar. Se intenta distinguir entre texto estadísticamente humano y texto estadísticamente generado por una máquina para parecer humano. Una línea de separación difícil de trazar y cada vez más borrosa.

Además, hay razones para pensar que esta frontera desaparecerá. Cuanto mejores sean los modelos generativos, más indistinguible será su producción de la humana. Detectar el uso de inteligencia artificial será como intentar diferenciar entre dos textos igualmente plausibles, una tarea que llevada al extremo se parece a lanzar una moneda al aire. Puro azar.

El coste de equivocarse

Podríamos aceptar que los detectores se equivocan en algunos casos. Pero en educación, esos casos particulares importan mucho. Como todos los clasificadores, los detectores de texto escrito con inteligencia artificial cometerán errores de dos tipos: los falsos positivos y los falsos negativos.

Un falso positivo, es decir, acusar de fraude a un estudiante que ha hecho el trabajo, tiene consecuencias graves: ansiedad, indefensión y, en muchos casos, una acusación imposible de refutar.

Por otro lado, un falso negativo, no detectar a quien sí ha usado IA, tiene un efecto más difuso pero igualmente dañino al recompensar a los que no cumplieron con su compromiso académico: erosiona la confianza en el propio sistema educativo y los estudiantes perciben que el esfuerzo no compensa y la motivación se va deteriorando.

Leer más:
Cómo preservar el esfuerzo en la era de la inteligencia artificial

Los sistemas se pueden ajustar para minimizar los falsos negativos o los falsos positivos, pero no los dos a la vez. (Por ejemplo: o ajustamos el sistema que detecta cáncer de pecho en radiografías para que no se le escape ningún posible caso, a costa de sobrediagnosticar, o dejamos que se le escapen casos).

Así, usar estos sistemas siempre implicará aceptar uno de los dos tipos de injusticia. Si minimizamos los falsos negativos estaremos apostando por una evaluación basada en el control: priorizamos que no se nos “cuele” ninguno aunque algunos de los detectados no sean realmente textos escritos por la IA.

Por el contrario, si nos importa más no caer en falsos positivos estaremos abogando por una evaluación que prime el aprendizaje y que minimice la penalización por error a un estudiante que sí ha hecho el esfuerzo de escribir su trabajo.

Un problema mal planteado

Sin embargo, incluso si resolviéramos los problemas técnicos y éticos (por ejemplo, optando por que se nos colara algún texto artificial para no penalizar injustamente), seguiríamos sin abordar lo esencial.

Muchas tareas académicas tienen sentido porque implican esfuerzo cognitivo: escribir una redacción, preparar un informe o resolver un ejercicio requiere tiempo y trabajo. Y ese esfuerzo es precisamente lo que genera aprendizaje.

Leer más:
Esta clase merece la pena: cómo combatir el absentismo universitario

La inteligencia artificial no sólo puede estar provocando calificaciones injustas: es que ha roto la relación entre esas tareas y el esfuerzo cognitivo que suponían. Esto cambia completamente el sentido de la evaluación. Cuando se utilizan herramientas de IA, el aprendizaje puede no estar ocurriendo.

El espejismo de la detección

Los detectores ofrecen algo muy tentador: una sensación de control. Permiten pensar que el problema está acotado, que basta con identificar a quienes cometen fraude incumpliendo las reglas. Pero esa sensación es engañosa.

Tal como dice el chiste, estamos buscando las llaves bajo la farola, no porque las hayamos perdido ahí, sino porque es donde hay luz. Es decir, intentamos detectar el aprendizaje en el lugar donde sabemos mirar, sin preocuparnos si esto necesariamente implica que se esté dando.

La dependencia de productos finales (un texto, un informe, una solución) como evidencia de aprendizaje ya era discutible: ¿sirven realmente para garantizar que un estudiante conoce un tema? Ahora es, directamente, insuficiente. Por eso, invertir esfuerzos en mejorar la detección resulta, en el mejor de los casos, irrelevante. Y en el peor, una distracción.

Leer más:
Pequeños cambios para recuperar el pensamiento profundo en la universidad

Cuando la solución agrava el problema

El uso sistemático de detectores desplaza la relación educativa hacia la sospecha. En lugar de fomentar la corresponsabilidad del estudiante en su aprendizaje, introduce una lógica de vigilancia en la que el estudiante pasa a ser un potencial infractor, ignorando la presunción de inocencia, y el docente, un vigilante.

Esto no solo tiene implicaciones éticas. También afecta al aprendizaje. La confianza, la autonomía y la responsabilidad son difíciles de desarrollar en un entorno donde la prioridad es evitar ser acusado. Así, paradójicamente, al intentar proteger la integridad académica, podemos estar erosionando las condiciones que la hacen posible.

Cambiar de dirección

En lugar de preguntarnos “¿Cómo detecto si un estudiante ha usado IA?”, podríamos preguntarnos “¿Cómo diseño una evaluación en la que usar IA sin aprender no sirva de nada?”.

Esto implica, por ejemplo, diseñar tareas donde el valor no esté únicamente en el resultado final, sino en el proceso seguido. O plantear actividades que requieran interacción, contexto o toma de decisiones que no puedan delegarse fácilmente.

No es una solución simple ni inmediata. Pero, a diferencia de la detección, apunta al núcleo del problema: un replanteamiento de los métodos de evaluación. Y esto, aunque incómodo, puede ser una oportunidad.

Marc Alier Forment recibe fondos de investigación en proyectos competitivos financiados por entidades publicas.

Faraón Llorens Largo no recibe salario, ni ejerce labores de consultoría, ni posee acciones, ni recibe financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y ha declarado carecer de vínculos relevantes más allá del cargo académico citado.

– ref. El espejismo de los detectores de inteligencia artificial: por qué no son útiles ni justos – https://theconversation.com/el-espejismo-de-los-detectores-de-inteligencia-artificial-por-que-no-son-utiles-ni-justos-281246