Source: The Conversation – (in Spanish) – By Pino Caballero Gil, Catedrática de Universidad en Ciencias de la Computación e Inteligencia Artificial, Universidad de La Laguna

Donde hay petróleo, suele haber contaminación. También ocurre con lo que el matemático Clive Humby llamó el “nuevo petróleo”: los datos digitales.
El término inteligencia artificial (IA) actúa como un paraguas semántico que, intencionadamente, antropomorfiza la estadística para otorgarle una falsa cualidad orgánica. No estamos tratando con mentes digitales, sino con sistemas de probabilidad. Son matemáticas, no biología. Esa noción ambigua, en manos corporativas, diluye la responsabilidad, permitiendo a las empresas tecnológicas apropiarse del trabajo e información ajenos bajo la excusa de un progreso inevitable.
Al humanizar el software, olvidamos que los modelos de IA no aprenden ni crean. Simplemente ejercen una mímica probabilística de lo que ya hemos dicho nosotros. Además, al igual que una fábrica que vierte residuos, estos sistemas, al operar sin ética ni curaduría, están empezando a saturar su propio entorno con desechos digitales.

Miles Astray.
Fotocopias de fotocopias
El problema de tratar los datos como un recurso infinito es que ignoramos la contaminación, y no solo en el ecosistema analógico. Los modelos generativos actuales están inundando la red de spam sintético. Esto genera un bucle de retroalimentación negativo: los nuevos modelos se entrenan con textos e imágenes generados por modelos anteriores.
Es como hacer una fotocopia de una fotocopia mil veces. La señal original se pierde. Se llega, así, a lo que se llama colapso del modelo. La maquinaria extractivista es defectuosa por diseño al priorizar la cantidad sobre la calidad y el contexto, destruye el mismo recurso que necesita para funcionar.
Movimiento neo-ludita
Ser ludita nunca significó odiar la tecnología, sino exigir que las máquinas no degradaran la calidad de vida de quienes las operaban. Hoy, esa idea resurge no como una resistencia organizada, sino como una respuesta lógica ante la automatización depredadora.
No debemos temer a una supuesta “superinteligencia” de ciencia ficción que nos domine. El peligro real no es la consciencia de la máquina, sino la concentración de poder de quienes manejan el interruptor.
Ante esto, surgen iniciativas como Nightshade o Glaze, que proponen una defensa técnica de los artistas frente al uso no autorizado de sus obras por parte de modelos de IA generativa.
La idea consiste en aplicar técnicas de esteganografía –ocultación de un mensaje dentro de otro– y de ataques adversarios –entrada al modelo que, de manera intencional, ha sido ligeramente modificada y que es capaz hacer que este modelo genere una salida incorrecta–.
Esto permite que, a ojos humanos, la imagen protegida es idéntica a la original. Sin embargo, a nivel de píxeles, incluye perturbaciones numéricas que impiden su uso por herramientas de IA. Esas alteraciones atacan directamente la fase de entrenamiento en la que el modelo de IA aprende del conjunto de datos. Modifican la forma en que la red neuronal extrae las características de la imagen.
Al “envenenar” la matriz de aprendizaje, se fuerza al modelo a realizar asociaciones erróneas (por ejemplo, asociar la imagen de un perro al concepto de un gato). Esta estrategia constituye un sabotaje a la fiabilidad estadística del sistema, demostrando que, sin datos limpios y consentidos, la maquinaria se vuelve inútil.
¿Se puede entrenar un modelo de manera ética?
La respuesta es sí. La ética no es un freno al avance tecnológico, sino la única garantía de su sostenibilidad a largo plazo. Primero, hay que diferenciar los términos. No es lo mismo “pesos abiertos” (Open Weights) que “código abierto” (Open Source). Liberar los pesos de la red neuronal entrenada es como regalar un pastel ya horneado, pero ocultar la receta y los ingredientes. Permite usar el modelo, pero impide auditarlo o saber si es seguro. La verdadera ética exige transparencia total sobre el conjunto de datos usado: saber exactamente con qué se entrenó el sistema.
Esto no es una utopía teórica. Iniciativas como el modelo de lenguaje abierto Olmo han roto la opacidad de la industria, al publicar el registro completo de entrenamiento y su conjunto de datos. Ello permite una trazabilidad real para auditar qué consume el modelo.
Sin embargo, la transparencia es solo el primer paso. El objetivo final es el consentimiento. Proyectos como The Stack demuestran que es posible entrenar modelos de lenguaje de programación respetando escrupulosamente la opción de auto-exclusión (opt-out) de los desarrolladores que eligen que su material no sea empleado para entrenar inteligencia artificial.
De igual forma, certificaciones como Fairly Trained están empezando a distinguir a aquellos modelos que respetan los derechos de autor frente a los que operan mediante una recopilación indiscriminada.
El futuro de la IA apunta hacia modelos más pequeños y especializados, donde se prioriza la calidad de los datos sobre la cantidad. Al final, no se trata de renunciar a la automatización, sino de elegir: herramientas transparentes basadas en el consenso o cajas negras cimentadas en el saqueo. El futuro será colaborativo, ético y humano, o no nos gustará estar en él.
![]()
Pino Caballero Gil reciben fondos de MCIN/AEI/10.13039/501100011033, Unión Europea NextGenerationEU/PRTR y Fundación CajaCanarias-La Caixa.
Marcos Rodríguez Vega no recibe salario, ni ejerce labores de consultoría, ni posee acciones, ni recibe financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y ha declarado carecer de vínculos relevantes más allá del cargo académico citado.
– ref. Contaminación de datos digitales: cómo recuperar el control de la IA – https://theconversation.com/contaminacion-de-datos-digitales-como-recuperar-el-control-de-la-ia-270702
