Cómo responden a la misma pregunta de examen ChatGpT, Gemini y Claude, las tres IA más usadas del mundo

Source: The Conversation – (in Spanish) – By Esteban Vázquez-Cano, Catedrático de Universidad (Facultad de Educación), UNED – Universidad Nacional de Educación a Distancia

Probemos algo sencillo. Demos a ChatGPT, Gemini y Claude la misma pregunta de un examen real de universidad y pidámosles que respondan en español, con el mismo tono y la misma extensión. ¿Qué esperaríamos?

Lo normal sería pensar que responderán de forma parecida. Al fin y al cabo, las tres producen textos fluidos, ordenados y aparentemente correctos. Pero la pregunta interesante no es solo si escriben bien. Es otra: ¿construyen igual las frases? ¿Organizan igual las ideas? ¿Usan los mismos patrones gramaticales? ¿Nos ayudan a pensar o nos empujan, sin notarlo, hacia una forma concreta de escribir?

La respuesta, según una investigación comparativa desarrollada por el Grupo de Investigación RADTE, de la UNED, es que no. ChatGPT, Gemini y Claude pueden parecerse en la superficie, pero difieren en cómo organizan el discurso. Y esto es importante.

Organizar una idea

Cuando leemos un texto generado por inteligencia artificial solemos fijarnos en si suena bien. Pero para entender qué hace cada modelo con esa misma pregunta hay que mirar otra cosa: cómo organiza una misma idea.

En nuestra investigación, hicimos una comparación controlada muy sencilla. Analizamos 90 textos académicos en español, 30 de ChatGPT, 30 de Gemini y 30 de Claude. Para que la comparación fuera justa, los tres trabajaron con el mismo prompt (el comando o petición que se realiza a la herramienta), el mismo texto de partida, el mismo registro y sesiones independientes.

En este sentido, una de las tareas fue responder una pregunta real de un examen de cuarto curso del Grado en Pedagogía de la UNED, a partir del mismo material que habían utilizado los estudiantes. La pregunta abordaba qué es y cuáles son las funciones de la dirección de los centros educativos, una pregunta pertinente para los estudiantes de Pedagogía. Aunque las tres respuestas parecían correctas a primera vista, no organizaban igual la explicación. Veamos el ejemplo:

1. ChatGPT: suma acciones con frecuencia en tríos

Respuesta a la pregunta de examen: “La dirección del centro coordina equipos, organiza recursos y supervisa acuerdos para mantener la actividad diaria, atender incidencias y sostener una línea común de trabajo”.

Aquí domina la coordinación: varios verbos en serie, enlazados por “y”, con avance por acumulación.

2. Gemini: ordena y delimita mejor el concepto

Respuesta a la pregunta de examen: “La dirección del centro, entendida como la función que articula la gestión pedagógica con la organización institucional, permite distribuir responsabilidades y sostener un proyecto compartido que dé coherencia a las decisiones”.

Aquí la diferencia se nota en la especificación: “que articula” y “que dé coherencia” no solo añaden información, sino que delimitan mejor el concepto.

3. Claude: matiza, contrasta y condiciona

“La dirección del centro resulta eficaz cuando coordina al profesorado, pero también cuando crea condiciones para que los equipos revisen sus decisiones y ajusten la respuesta educativa a cada contexto”.

Aquí manda el matiz: “cuando” y “pero también cuando” introducen una escritura más argumentativa y orientada al encaje entre ideas.

Lo que se analizó fue la salida directa de cada sistema.

Para entenderlo no hace falta imaginar una máquina “pensando”. Basta con leer el texto como una redacción en clase. Hay quien suma ideas, quien explica causas y quien llena la frase de matices. Ninguna opción es mejor por sí sola, pero todas cambian la manera de explicar y argumentar. Con la IA ocurre lo mismo: no importa solo qué dice, sino cómo lo dice.

Eso explica algo que ya vemos en el aula. Dos respuestas pueden ser correctas y, sin embargo, empujar a formas distintas de pensar. ChatGPT tiende a sumar. Gemini precisa más. Claude argumenta más. No solo cambian las palabras: cambia la construcción del razonamiento. Por eso es fundamental preguntarse qué forma de responder nos está proporcionando y cuáles son sus claves interpretativas.

Y eso tiene consecuencias. Si un estudiante trabaja siempre con el mismo modelo, o con el mismo prompt, puede acabar delegando su forma de ordenar e interpretar el mundo en patrones de escritura enlatados y con escaso juicio crítico.

Enseñar los patrones de la IA

Por eso, enseñar a utilizar IA no debería limitarse a pedirle cosas. También habría que enseñar a leer sus patrones: cómo empiezan, qué conectores repiten, cómo justifican y qué palabras usan para concluir. Se trata de que el alumnado actual aprenda a ver que la escritura artificial no es neutra y puede acabar imponiendo un modelo de pensamiento

La intervención educativa tiene que ser didáctica, no policial. Si enseñamos a reconocer estos patrones, también enseñamos a leer y escribir con más criterio. El estudio identificó correctamente el modelo generador en el 91 1% de los casos, aunque eso no significa que exista una huella infalible. Significa algo más útil: estas herramientas no son neutrales cuando escriben. Ordenan el discurso de una manera determinada.

La pregunta no es si escriben bien, sino cómo escriben y qué puede pasar si dejamos que esos patrones escriban por nosotros. No podemos depositar nuestro discurso en el algoritmo sin el suficiente conocimiento para criticarlo, enjuiciarlo y modificarlo.

Esteban Vázquez-Cano no recibe salario, ni ejerce labores de consultoría, ni posee acciones, ni recibe financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y ha declarado carecer de vínculos relevantes más allá del cargo académico citado.

– ref. Cómo responden a la misma pregunta de examen ChatGpT, Gemini y Claude, las tres IA más usadas del mundo – https://theconversation.com/como-responden-a-la-misma-pregunta-de-examen-chatgpt-gemini-y-claude-las-tres-ia-mas-usadas-del-mundo-281544