viernes, noviembre 22, 2024

A los nuevos modelos de IA les gusta más adivinar que admitir que no saben la respuesta

Según un nuevo estudio, cuanto más avanzado se vuelve un modelo de lenguaje grande (LLM) de IA, es menos probable que admita que no puede responder una consulta.

ANUNCIO

Según un nuevo estudio, es menos probable que los modelos de lenguaje grande (LLM, por sus siglas en inglés) más nuevos admitan que no saben una respuesta a la pregunta de un usuario, lo que los hace menos confiables.

Investigadores de inteligencia artificial (IA) de la Universitat Politècnica de València en España probaron la precisión de las últimas versiones de BLOOM de BigScience, Llama de Meta y GPT de OpenAI haciendo a cada modelo miles de preguntas sobre matemáticas, ciencias y geografía.

Los investigadores compararon la calidad de las respuestas de cada modelo y las clasificaron en respuestas correctas, incorrectas o evitativas.

El estudio, que fue publicado en la revista Naturalezadescubrió que la precisión en problemas más desafiantes mejoraba con cada nuevo modelo. Aún así, tendieron a ser menos transparentes sobre si podían responder correctamente a una pregunta.

Los modelos LLM anteriores decían que no podían encontrar las respuestas o necesitaban más información para llegar a una respuesta, pero los nuevos modelos eran más propensos a adivinar y producir respuestas incorrectas incluso a preguntas fáciles.

‘No hay mejora aparente’ en la resolución de problemas básicos

Los LLM son algoritmos de aprendizaje profundo que utilizan IA para comprender, predecir y generar contenido nuevo basado en conjuntos de datos.

Si bien los nuevos modelos podrían resolver problemas más complejos con mayor precisión, los LLM del estudio aún cometieron algunos errores al responder preguntas básicas.

«Ni siquiera se consigue una fiabilidad total en niveles de dificultad muy bajos», según el artículo de investigación.

«Aunque los modelos pueden resolver casos muy complicados, también fallan en casos muy sencillos».

Este es el caso del GPT-4 de OpenAI, donde el número de respuestas «evitivas» se redujo significativamente con respecto a su modelo anterior, GPT-3.5.

«Esto no coincide con la expectativa de que los LLM más recientes evitarían con mayor éxito responder fuera de su rango operativo», dijeron los autores del estudio.

Los investigadores concluyeron entonces que «no hay ninguna mejora aparente» para los modelos a pesar de que la tecnología se ha ampliado.

Fuente

Últimas

Últimas

Ártículos Relacionades

CAtegorías polpulares

spot_imgspot_img