Satya Nadella deia al maig que era conscient que el seu cercador no desbancaria Google, però que si la nova versió de Bing amb la IA d’OpenAI aconseguia “fer sortir a ballar a la pista el goril·la de 400 quilos” ja es donava per satisfet. Després d’uns inicis titubejants sembla que el goril·la ha sortit a la pista.
Dimecres, amb nocturnitat en el nostre fus horari i de pont en el nostre calendari, Google presentava el seu nou model Gemini, un model molt avançat que representa un salt qualitatiu en les capacitats d’IA. Gemini és un model multimodal; pot interpretar i generar diversos tipus d’informació, com ara text, imatges, àudio, vídeo i codi de programació (prometo no tornar a fer servir multimodal ).
Google s’afegeix a la campanya de desinformació en intel·ligència artificial
Segons Google, Gemini supera ChatGPT en 30 dels 32 testos estàndard a què se sotmeten aquests models. Una mesura que ha cridat molt l’atenció és el seu rendiment en el test MMLU, una mena de selectivitat que els fan passar a aquests models que mesura les seves capacitats de raonament. Resulta que Gemini ha tret un 90% i supera el 86,4% de ChatGPT i el 89,8% que els experts humans obtenen de mitjana. De moment no ho podem comprovar i ens hem de refiar dels vídeos de Google.
En un d’aquests vídeos es veu un pla de càmera zenital en què un usuari interactua amb el model mentre una veu que recorda la de HAL de 2001: Una odissea de l’espai de Kubrick comenta tot el que “veu”. Si l’usuari dibuixa un ànec en un post - it , el sistema ho comenta; si li mostra les mans fent el pedra, paper, tisores, endevina que és un joc; si li fa el joc dels trilers, és capaç d’endevinar on és la boleta, i si mostra un vídeo d’algú imitant l’escena de les bales de Matrix , n’endevina la pel·lícula.
El vídeo adverteix al principi que mostra “moments destacats d’algunes de les nostres interaccions preferides amb Gemini”. Fals. Allò que s’hi veu i s’hi sent només ha passat en el vídeo; no és el resultat de cap interacció amb el model.
Ho sabem del cert perquè Google mateix va publicar un article en què
explicava “com es va fer”. La interacció no es va fer amb una càmera, sinó que
es va fer pujant-hi imatges i guiant-lo mitjançant apunts molt diàfans. La
demostració de pedra, paper, tisores, és en realitat tres imatges de la mà, una en cada posició, i un apunt que se li subministra: “Què creus que estic fent? Pista: és un joc”.
No ens enganyem, que una IA encerti amb només aquesta informació ens hauria semblat ciència-ficció només fa cinc anys. Les teòriques capacitats de Gemini són impressionants i que ho faci Google vol dir que ben aviat ho tindrem al cercador, als mòbils i als assistents de veu, sense que ningú no hagi d’aprendre com fer-ho servir. La tecnologia més avançada a l’abast de tothom. Jo hauria fet el vídeo sobre això.