Satya Nadella decía en mayo que era consciente de que su buscador no desbancaría a Google, pero que si la nueva versión de Bing con la IA de OpenAI conseguía “hacer salir a bailar a la pista al gorila de 400 kilos” ya se daba por satisfecho. Después de unos inicios titubeantes parece que el gorila ha salido a pista.
El pasado miércoles, con nocturnidad en nuestro huso horario y de puente en nuestro calendario, Google presentaba su nuevo modelo Gemini, un modelo muy avanzado que representa un salto cualitativo en las capacidades de IA. Gemini es un modelo multimodal; puede interpretar y generar diversos tipos de información, como texto, imágenes, audio, vídeo y código de programación (prometo no volver a usar multimodal).
Google se añade a la campaña de desinformación en la Inteligencia Artificial
Según Google, Gemini supera a ChatGPT en 30 de las 32 tests estándar a que se someten estos modelos. Una medida que ha llamado mucho la atención es su rendimiento en el test MMLU, una suerte de selectividad que les hacen pasar a estos modelos que mide sus capacidades de razonamiento. Resulta que Gemini ha sacado un 90%, superando el 86,4% de ChatGPT y el 89,8% que los expertos humanos obtienen por término medio. Por el momento no podemos comprobarlo y debemos fiarnos de los vídeos de Google.
Uno de ellos muestra un plano de cámara cenital en el que un usuario interactúa con el modelo mientras una voz que recuerda a la de HAL de 2001: una odisea del espacio de Kubrick comenta todo lo que “ve”. Si el usuario dibuja un pato en un post-it, el sistema lo comenta; si le muestra las manos haciendo el “piedra, papel, tijera”, adivina que es un juego; si le hace el juego de los trileros, es capaz de adivinar dónde está la bolita; y si muestra un vídeo de alguien imitando la escena de las balas de Matrix, adivina la película.

La IA de Google pretende competir con ChatGPT
El vídeo advierte al principio que muestra “momentos destacados de algunas de nuestras interacciones favoritas con Gemini”. Falso. Lo que se ve y se oye sólo ha pasado en el vídeo; no es el resultado de ninguna interacción con el modelo. Lo sabemos a ciencia cierta porque la misma Google publicó un artículo explicando el “cómo se hizo”. La interacción no se hizo con una cámara sino que se hizo subiéndole imágenes y guiándolo mediante apuntes muy diáfanos. La demostración de “piedra, papel, tijera” es en realidad 3 imágenes de la mano, una en cada posición, y un apunte que se le suministra: “¿Qué crees que estoy haciendo? Pista: es un juego”.
No nos engañemos, que una IA acierte con sólo esa información nos habría parecido ciencia ficción hace sólo cinco años. Las teóricas capacidades de Gemini son impresionantes y que lo haga Google significa que en breve lo tendremos en el buscador, en los móviles y en los asistentes de voz, sin que nadie tenga que aprender cómo utilizarlo. La tecnología más avanzada al alcance de todos. Yo habría hecho el vídeo sobre esto.