Los nuevos modelos de razonamiento o3 y o4-mini de OpenAI ofrecen más resultados con alucinaciones que los modelos de razonamiento anteriores de la compañía, con prácticamente el doble de la tasa de alucinaciones registradas en el modelo o1, según pruebas internas de la evaluación PersonQA.
La tecnológica presentó su nueva familia de modelos de la serie o, centrada en el razonamiento, la semana pasada, concretamente, con los modelos o3 y o4-mini, que están diseñados para programar, navegar por la web y generar imágenes de manera autónoma, incluso, con capacidad para “pensar con imágenes”.
A pesar de las novedades que integran los últimos modelos de OpenAI, se han encontrado problemas relacionados con alucinaciones en sus resultados, esto es, una cuestión que sufren algunos modelos de Inteligencia Artificial (IA) y que se basa en ofrecer resultados que, a pesar de presentarse de manera coherente, incluyen información incorrecta, sesgada, errónea o, incluso, inventada.
En concreto, los nuevos modelos de razonamiento o3 y o4-mini, alucinan con más frecuencia que los modelos de razonamiento presentados anteriormente por OpenAI, como es el caso de los modelos o1, o1-mini y o3-mini, incluidos otros modelos anteriores como GPT-4o.
Así lo ha señalado OpenAI, en base a los resultados obtenidos en sus pruebas internas sobre alucinaciones, con la evaluación PersonQA, un sistema que pone a prueba los modelos midiendo la precisión de los intentos de respuesta. Tal y como lo ha explicado en el informe técnico, PersonQA valora la precisión, es decir, si el modelo responde correctamente a la pregunta, y la tasa de alucinaciones, la frecuencia con la que el modelo alucina en sus respuestas.
En este sentido, el modelo o4-mini obtuvo peores resultados que los modelos o1 y o3 en las alucinaciones, aunque OpenAI ha señalado que “era de esperar” porque los modelos más pequeños “tienen más conocimientos del mundo y tienden a alucinar más”.
Asimismo, los resultados de PersonQA también han reflejado algunas “diferencias de rendimiento” al comparar o1 y o3, subrayando que o3 tiende a hacer más afirmaciones en general, lo que lleva a afirmaciones más precisas, así como afirmaciones “más inexactas o alucinadas”.
Según los resultados mostrados, o3 alucinó al responder el 33 por ciento de las preguntas realizadas por la evaluación PersonQA. Esto equivale a prácticamente el doble de la tasa de alucinaciones del modelo o1 de OpenAI. Por su parte, o4-mini, obtuvo un resultado del 48 por ciento en la tasa de alucinaciones.
A pesar de estas conclusiones en las pruebas, OpenAI ha afirmado que, por el momento, continuarán investigando para “comprender la causa de este resultado”, y porqué las alucinaciones han aumentado con concretamente con los modelos de razonamiento.
Igualmente, según ha detallado el portavoz de OpenAI, Niko Felix, en declaraciones a TechCrunch, abordar las alucinaciones en todos los modelos de OpenAI “es un área de investigación continua”, en la que trabajan para mejorar la precisión y confiabilidad.
LA NACION