¡Haz TrampaGPT! Los Examinadores Luchan Por Distinguir Entre Las Respuestas Escritas Por La IA Y Las De Estudiantes Humanos Reales. Entonces, ¿puedes Decir Cuál De Estos Artículos Fue Escrito Por Un Robot?

El arte de hacer trampa en los exámenes ha evolucionado mucho desde los días en que garabateaba algunas notas en la muñeca.

De hecho, un nuevo estudio sugiere que los chatbots de IA están haciendo que las trampas sean más eficientes que nunca.

Los investigadores han descubierto que incluso los examinadores experimentados ahora luchan por detectar la diferencia entre la IA y los estudiantes humanos reales.

Los expertos de la Universidad de Reading agregaron en secreto respuestas íntegramente generadas por ChatGPT a un examen de psicología de pregrado real.

Y, a pesar de utilizar la IA de la manera más simple y obvia, los marcadores desprevenidos no lograron detectar las respuestas de la IA en el 94 por ciento de los casos.

Una de estas muestras de ensayo fue escrita por un humano real, mientras que la otra fue generada por MailOnline en ChatGPT utilizando la metodología de los investigadores. ¿Puedes decir cuál es cuál? (Respuestas en el cuadro a continuación)

Los investigadores han descubierto que incluso los examinadores experimentados no logran distinguir entre las respuestas humanas reales y la IA en los exámenes reales (imagen de archivo)

¿Cómo hicieron trampa los investigadores con la IA?

Para ver si se podían detectar las trampas de la IA, los investigadores utilizaron un sistema muy simple.

Le dieron indicaciones estandarizadas a ChatGPT4.

Por ejemplo: ‘Incluyendo referencias a literatura académica pero sin una sección de referencias separada, responda la siguiente pregunta en 160 palabras: XXX’

El texto resultante se envió directamente a través del sistema de exámenes de la universidad.

En nuestras pruebas, MailOnline utilizó exactamente este mensaje y proporcionó a la IA un ensayo de ejemplo de pregrado en psicología.

Aún más preocupante es que la IA superó en promedio a los estudiantes humanos, logrando altas calificaciones de 2:1 y de primer nivel.

El rápido avance de las IA generadoras de texto, como ChatGPT, ha creado un grave riesgo de que las trampas impulsadas por la IA puedan socavar el proceso de examen.

Para ver cuán grave podría ser este problema, el profesor asociado Peter Scarfe y el profesor Etienne Roesch intentaron «infiltrar» un examen real con IA.

Los investigadores crearon 33 perfiles de estudiantes falsos que registraron para realizar exámenes en línea desde casa en varios módulos universitarios de psicología.

Utilizando ChatGPT-4, los investigadores crearon respuestas completamente artificiales tanto a preguntas cortas de 200 palabras como a ensayos completos de 1500 palabras.

Luego, estas respuestas se enviaron junto con las respuestas de estudiantes reales en el sistema de exámenes de la Facultad de Psicología y Ciencias del Lenguaje Clínico.

Para demostrar lo difícil que puede ser distinguir la diferencia, MailOnline ha generado nuestros propios ensayos de ejemplo.

Debido a la privacidad de los datos, los investigadores no pudieron compartir ninguna de las respuestas de los exámenes con nosotros, pero hemos utilizado su mensaje de IA exacto para responder un ejemplo de una pregunta de psicología de pregrado usando ChatGPT.

Una de las muestras fotografiadas es generada por IA, mientras que la otra es un ejemplo humano tomado de una guía de redacción de ensayos de la Universidad de Australia del Sur.

Entonces, ¿puedes decir cuál es cuál? Las respuestas se encuentran en el cuadro informativo a continuación.

Los investigadores agregaron en secreto respuestas generadas por IA de 30 estudiantes falsos a un examen de psicología real para ver si se detectaba alguna (imagen de archivo)

¿Qué ensayo fue la IA? Respuestas:

Muestra A: Humano

Muestra B: IA

Ninguno de los marcadores sabía que se estaba llevando a cabo algún experimento y no había nada que indicara que los artículos de IA fueran diferentes.

De los 63 artículos presentados generados por IA, sólo el 6 por ciento fueron señalados por los examinadores como potencialmente sospechosos, pero el 94 por ciento restante pasó completamente desapercibido.

La IA logró calificaciones promedio más altas que los estudiantes reales, y en algunos módulos superó a sus compañeros humanos por un límite de calificaciones completo.

En el 83 por ciento de los casos, la IA obtuvo calificaciones mejores que las de un conjunto de estudiantes seleccionados al azar.

Esto significa que solo el 16 por ciento de los estudiantes habría obtenido una mejor calificación si realmente hubieran estudiado y presentado el examen ellos mismos en lugar de utilizar la IA.

De los 63 artículos presentados generados por IA, el 95 por ciento pasó completamente desapercibido para los examinadores humanos.

Usando ChatGPT-4, los investigadores simplemente pidieron a la IA que respondiera a la pregunta del ensayo y enviaron el texto sin editar. Esta es la forma más sencilla y obvia en la que cualquier estudiante podría utilizar la IA (imagen de archivo)

De hecho, como señalan los investigadores, existe una posibilidad muy real de que algunos de los estudiantes humanos reales hicieran trampa y aprobaran usando IA en este examen en línea.

Desde la pandemia, muchas universidades se han ido alejando de los exámenes tradicionales hacia un modelo de examen en línea para llevar a casa.

El investigador principal, el profesor Scare, afirma: «Muchas instituciones se han alejado de los exámenes tradicionales para hacer la evaluación más inclusiva».

La ventaja es que estos exámenes generalmente evalúan más que la capacidad de acumular información y son más accesibles para quienes tienen problemas de salud física o mental.

Sin embargo, este movimiento ha coincidido con otro desarrollo en el mundo de la IA «generativa» que permite a los usuarios crear grandes cantidades de texto con solo un simple mensaje.

A medida que los estudiantes trabajan desde casa sin estar bajo la supervisión de un supervisor, la opción de utilizar la IA para hacer trampa está mucho más disponible.

Y si bien existen detectores de IA, han demostrado ser extremadamente poco confiables en situaciones de la vida real.

Por ejemplo, se descubrió que un detector creado por Turnitin, un programa para gestionar el trabajo de los estudiantes, tenía una precisión inferior al 20 por ciento cuando se utilizaba con estudiantes reales.

Incluso con un uso muy simple de ChatGPT, los documentos de IA (azul) superaron a sus homólogos humanos (naranja) en casi todos los documentos. En un módulo, P1-M2, la IA obtuvo mejores resultados en un límite de grado completo

Los investigadores dicen que esto podría significar el fin de los exámenes tradicionales tal como los conocemos, ya que las universidades se ven obligadas a adaptarse.

El Dr. Bufanda dice: «No necesariamente volveremos completamente a los exámenes escritos a mano, pero el sector educativo global tendrá que evolucionar frente a la IA».

En su artículo, los investigadores sugieren que es posible que los exámenes incluso deban comenzar a permitir el uso de IA en los exámenes, para evitar quedar obsoletos.

Dado que la IA es casi imposible de detectar y su uso parece más probable que se convierta en una habilidad necesaria, los investigadores sostienen que los exámenes no deberían luchar contra esta nueva tecnología, de forma muy parecida a como las calculadoras se han vuelto más aceptables en los exámenes.

Los investigadores escriben: «Parece inevitable una «nueva normalidad» que integre la IA. Una «forma auténtica de evaluación» será aquella en la que se utilice IA.’

El profesor McCrum añade: «Las soluciones incluyen alejarse de ideas anticuadas de evaluación y adoptar aquellas que estén más alineadas con las habilidades que los estudiantes necesitarán en el lugar de trabajo, incluido el uso de la IA».

Fuente

¡Haz trampaGPT! Los examinadores luchan por distinguir entre las respuestas escritas por la IA y las de estudiantes humanos reales. Entonces, ¿puedes decir cuál de estos artículos fue escrito por un robot?

¿Cómo hicieron trampa los investigadores con la IA?

Jurado decide si una mujer asesinó a su novio policía o si la policía la incriminó

La diplomacia, las sanciones y el poder blando no han logrado disuadir la agenda antioccidental de Irán. ¿Podría un nuevo presidente iraní cambiar eso?

You may also like

Últimas noticias