¿Ha llegado ya una IA que supera a los humanos?
Inteligencia artificial
OpenAI da a entender, sin explicaciones completas, que su nuevo modelo 03 supera la inteligencia humana
Mark Chen y Sam Altman durante la presentación de los modelos o3 y o3 mini
El debate sobre la llegada de una inteligencia artificial general (AGI, por sus siglas en inglés), se reavivó a última hora del viernes con el último de los anuncios que, en una especie de calendario de Adviento de la IA, ha ido presentando OpenAI a lo largo de dos semanas. El consejero delegado de la compañía de ChatGPT, Sam Altman, anunció su nuevo modelo o3 (con una versión mini), que supera en pruebas matemáticas y científicas a los expertos humanos y llega un límite alto en un test diseñado para detectar una inteligencia artificial superior.
El anuncio de OpenAI ha despertado numerosas dudas entre los expertos. Lo que Altman anunció el viernes es el nuevo modelo de razonamiento o3 sólo quince días después de presentar la versión completa de su anterior modelo de razonamiento, o1 –no va a existir un modelo o2 porque ese nombre es una marca comercial que pertenece a Telefónica–.
Las diferencias entre o1 y o3 parecen ser un salto muy grande a tenor de los números de los tests que ha exhibido OpenAI, aunque nadie externo a la compañía va a poder probarlo de momento. Ahora se inicia una fase para que expertos en seguridad externos a la empresa soliciten acceder al modelo y lo sometan a prueba. En cualquier caso, o3 mini estará a disposición del público –otra cosa es quién podrá pagar el servicio– a finales de enero próximo y o3, poco después, según Altman.
El nuevo o3 pasa con soltura tests científicos y matemáticos por encima de los resultados de expertos humanos
Lo que impacta de o3 es que ha pasado con soltura algunas de las pruebas matemáticas y científicas por encima de lo que consiguen los mejores expertos humanos. En un test sobre razonamiento que se llama ARC AGI, que utiliza rompecabezas como los de los test de inteligencia que los humanos pueden resolver con relativa facilidad, el modelo de OpenAI resolvió el 75,7%. Hasta ahora, ningún modelo de IA había ido más allá del 50%. En una configuración de esta misma prueba de mayor computación, durante 16 horas, o3 alcanzó un resultado del 87,5%.
Alberto Romero, experto analista de IA autor del blog The Algorithmic Bridge , indicó a La Vanguardia que los resultados de las pruebas que ha mostrado OpenAI sobre o3 “son muy increíbles, muy por encima del humano medio”, pero considera que hay que ser prudentes porque “sólo tenemos los datos que OpenAI ha dado”.
Entre los tests en los que ha destacado este modelo está FrontierMath, con el que resolvió el 25.2% de los problemas. Los modelos más punteros hasta ahora (Gemini 1.5 Pro de Google y Claude 3.5 Sonnet de Anthropic) se quedaron sólo en el 2%. Ese incremento es, en realidad, una mejora de resultados del 1.200% respecto a sus principales competidores. Se trata pruebas matemáticas extremadamente difíciles, diseñadas para evaluar IAs, a las que los matemáticos humanos apenas pueden aproximarse.
Sometido a AIME, otra prueba matemática, o3 resolvió el 96,7% de los problemas, lo que significa que “a menudo sólo falla una pregunta”, indicó el vicepresidente senior de investigación de OpenAI, Mark Chen.
En un test de razonamiento científico llamado GPQA Diamond en el que los doctores humanos obtienen una puntuación media del 70% en su área de especialización, el modelo de OpenAI consiguió el 87,7%, muy por encima de Claude Sonnet 3.5 y GPT-4o, que sólo alcanzaron el 50%. En la prueba de programación Codeforces la puntuación de o3 está entre la de los 200 mejores programadores del mundo y es superior a la del propio jefe científico de OpenAI. El avance es vertiginoso.