anuncis
Gemini 2.5 Pro ja és aquí, i canvia el joc de l'IA (de nou)

Google ha presentat Gemini 2.5 Pro, anomenant-lo seu "El model d'IA més intel·ligent" fins a la data. Aquest darrer model de llenguatge gran, desenvolupat per l'equip de Google DeepMind, es descriu com un "model de pensament" dissenyat per abordar problemes complexos raonant a través de passos interns abans de respondre. Els primers punts de referència donen suport a la confiança de Google: Gemini 2.5 Pro (una primera versió experimental de la sèrie 2.5) s'estrena al número 1 del Tauler de classificació de LMArena d'assistents d'IA per un marge significatiu, i lidera moltes proves estàndard per a tasques de codificació, matemàtiques i ciències.
Les noves capacitats i funcions clau de Gemini 2.5 Pro inclouen:
- Raonament en cadena de pensament: A diferència dels chatbots més senzills, Gemini 2.5 Pro "pensa" explícitament un problema internament. Això condueix a respostes més lògiques i precises a consultes difícils, des de trencaclosques de lògica complicats fins a tasques complexes de planificació.
- Performance d'última generació: Google informa que 2.5 Pro supera els últims models d'OpenAI i Anthropic en molts punts de referència. Per exemple, va establir nous màxims en proves de raonament difícils com L'últim examen de la humanitat (aconseguint un 18.8% enfront del 14% per al model d'OpenAI i un 8.9% per a Anthropic), i lidera diversos reptes de matemàtiques i ciències sense necessitat de trucs costosos com la votació conjunta.
- Habilitats avançades de codificació: El model mostra un gran salt en la capacitat de codificació respecte al seu predecessor. Destaca a l'hora de generar i editar codi per a aplicacions web i fins i tot scripts "agents" autònoms. En el punt de referència de codificació SWE-Bench, Gemini 2.5 Pro va aconseguir una taxa d'èxit del 63.8%, molt per davant dels resultats d'OpenAI, tot i que encara una mica per darrere del model especialitzat Claude 3.7 "Sonnet" d'Anthropic (70.3%).
- Comprensió multimodal: Igual que els models Gemini anteriors, 2.5 Pro ho és multimodal nadiu - pot acceptar i raonar sobre text, imatges, àudio, fins i tot vídeo i entrada de codi en una conversa. Aquesta versatilitat significa que pot descriure una imatge, depurar un programa i analitzar un full de càlcul, tot en una sola sessió.
- Finestra de context massiva: Potser el més impressionant és que Gemini 2.5 Pro pot gestionar fins a 1 milió de fitxes de context (amb una actualització de 2 milions de testimonis a l'horitzó). En termes pràctics, això vol dir que pot ingerir centenars de pàgines de text o repositoris de codi sencers alhora sense perdre la pista dels detalls. Aquesta llarga memòria supera àmpliament el que ofereixen la majoria dels altres models d'IA, permetent a Gemini mantenir una comprensió detallada de documents o discussions molt grans.
Segons Google, aquests avenços provenen d'un model base significativament millorat combinat amb tècniques de post-entrenament millorades. En particular, Google també està retirant la marca separada "Flash Thinking" que va utilitzar per a Gemini 2.0; amb 2.5, ara les capacitats de raonament estan integrades per defecte en tots els models futurs. Per als usuaris, això significa que fins i tot les interaccions generals amb Gemini es beneficiaran d'aquest nivell més profund de "pensament" sota el capó.
Implicacions per a l'automatització i el disseny
Més enllà del brunzit dels punts de referència i la competència, la veritable importància de Gemini 2.5 Pro pot estar en el que permet als usuaris finals i a les indústries. El fort rendiment del model en tasques de codificació i raonament no es tracta només de resoldre trencaclosques per presumir, sinó que insinua noves possibilitats d'automatització del lloc de treball, desenvolupament de programari i fins i tot disseny creatiu.
Prengui la codificació, per exemple. Amb la possibilitat de generar codi de treball a partir d'un sol missatge, Gemini 2.5 Pro pot actuar com a multiplicador de projectes per als desenvolupadors. Un únic enginyer podria prototipar una aplicació web o analitzar una base de codi sencera amb l'ajuda d'IA que gestiona gran part del treball gruixut. En una demostració de Google, el model va crear un videojoc bàsic des de zero amb només una descripció d'una frase. Això suggereix un futur on els no programadors descriuran una idea i obtindran una aplicació en funcionament com a resposta ("Vibe Coding”), reduint dràsticament la barrera a la creació de programari.
Fins i tot per als desenvolupadors experimentats, tenir una IA que pugui entendre i modificar grans dipòsits de codi (gràcies a aquest context de testimoni d'1M) significa una depuració més ràpida, revisions de codi i refactorització. Estem avançant cap a una era de programadors de parells d'IA que poden mantenir el "Imatge gran" d'un projecte complex al seu cap, de manera que no els haureu de recordar el context amb cada indicació.
Les habilitats de raonament avançades de Gemini 2.5 també juguen a l'automatització del treball del coneixement. Els primers usuaris han intentat alimentar contractes llargs i demanar al model que extreu clàusules clau o resumeixi punts, amb resultats prometedors. Imagineu-vos automatitzar parts de la revisió legal, la investigació de diligència deguda o l'anàlisi financera deixant que la IA vagi a través de centenars de pàgines de documents i tregui el que importa: tasques que actualment consumeixen innombrables hores humanes.
El talent multimodal de Gemini significa que fins i tot podria analitzar una barreja de textos, fulls de càlcul i diagrames junts, donant un resum coherent. Aquest tipus d'IA podria convertir-se en un assistent inestimable per als professionals del dret, la medicina, l'enginyeria o qualsevol camp ofegat en dades i documentació.
Per a camps creatius i disseny de productes, models com Gemini 2.5 Pro també obren possibilitats intrigants. Poden servir com a socis de pluja d'idees (per exemple, generant conceptes de disseny o còpies de màrqueting mentre raonen sobre els requisits) o com a prototips ràpids que transformen una idea aproximada en un esborrany tangible. L'èmfasi de Google en el comportament agent (la capacitat del model d'utilitzar eines i realitzar plans de diversos passos de manera autònoma) indica que les versions futures podrien integrar-se directament amb el programari.
Es podria imaginar una IA de disseny que no només suggereixi idees, sinó que també navegui pel programari de disseny o escrigui codi per implementar aquestes idees, tot guiat per instruccions humanes d'alt nivell. Aquestes capacitats difuminen la línia entre "pensador" i "factor" en l'àmbit de la IA, i Gemini 2.5 és un pas en aquesta direcció: una IA que pot conceptualitzar solucions i executar-les en diversos dominis.
Tanmateix, aquests avenços també plantegen preguntes importants. A mesura que la IA assumeix tasques més complexes, com ens assegurem que entén els matisos i els límits ètics (per exemple, per decidir quines clàusules contractuals són sensibles o com equilibrar els aspectes creatius i pràctics en el disseny)? Google i altres hauran d'incorporar baranes sòlides i els usuaris hauran d'aprendre nous conjunts d'habilitats (provocar i supervisar la IA) a mesura que aquestes eines esdevinguin companys de feina.
No obstant això, la trajectòria és clara: models com Gemini 2.5 Pro estan empenyent la IA més a fons en rols que abans requerien intel·ligència i creativitat humanes. Les implicacions per a la productivitat i la innovació són enormes, i és probable que vegem efectes dominosos en la manera com es construeixen els productes i com es fa el treball en moltes indústries.
Gemini 2.5 i el nou camp d'IA
Amb Gemini 2.5 Pro, Google reclama una reivindicació al capdavant de la carrera d'IA i envia un missatge als seus rivals. Fa només un parell d'anys, la narració era que l'IA de Google (penseu en les primeres iteracions de Bard) estava endarrerida amb el ChatGPT d'OpenAI i els moviments agressius de Microsoft. Ara, en reunir el talent combinat de Google Research i DeepMind, la companyia ha lliurat un model que pot lluitar legítimament pel títol de millor assistent d'IA del planeta.
Això és un bon auguri per al posicionament a llarg termini de Google. Els models d'IA es veuen cada cop més com a plataformes bàsiques (com els sistemes operatius o els serveis al núvol), i tenir un model de primer nivell dóna a Google una mà forta per jugar, des d'ofertes de núvol empresarial (Google Cloud/Vertex AI) fins a serveis de consum com la cerca, les aplicacions de productivitat i Android. A la llarga, podem esperar que Família Bessons per integrar-se en molts productes de Google: potencialment sobrealimentant l'assistent de Google, millorant les aplicacions de Google Workspace amb funcions més intel·ligents i millorant la cerca amb més capacitats de conversa i de context.
El llançament de Gemini 2.5 Pro també destaca com de competitiu s'ha tornat el panorama de l'IA. OpenAI, Anthropic i altres jugadors com Meta i startups emergents estan iterant ràpidament els seus models. Cada salt d'una empresa, ja sigui una finestra de context més gran, una nova manera d'integrar eines o una nova tècnica de seguretat, altres responen ràpidament. El moviment de Google per incrustar el raonament en tots els seus models és estratègic, assegurant que no es quedi enrere en la "intel·ligència" de la seva IA. Mentrestant, l'estratègia d'Anthropic de donar més control als usuaris (com es veu amb la profunditat de raonament ajustable de Claude 3.7) i els refinaments continus d'OpenAI a GPT-4.x mantenen la pressió.
Per als usuaris finals i desenvolupadors, aquesta competència és molt positiva: significa que els millors sistemes d'IA arriben més ràpid i més opcions al mercat. Estem veient un ecosistema d'IA on cap empresa té el monopoli de la innovació, i aquesta dinàmica empeny cadascuna a sobresortir, com els primers dies de les guerres dels ordinadors personals o dels telèfons intel·ligents.
En aquest context, el llançament de Gemini 2.5 Pro és més que una actualització del producte de Google: és una declaració d'intencions. Indica que Google pretén ser no només un seguidor ràpid, sinó un líder en la nova era de la IA. L'empresa està aprofitant la seva infraestructura informàtica massiva (necessària per entrenar models amb més d'1 milió de contextos de testimoni) i amplis recursos de dades per superar els límits que pocs altres poden fer. Al mateix temps, l'enfocament de Google (desplegar models experimentals a usuaris de confiança, integrar acuradament la IA al seu ecosistema) mostra el desig d'equilibrar l'ambició amb la responsabilitat i la pràctica.
Tal com va dir Koray Kavukcuoglu, CTO de Google DeepMind a l'anunci, l'objectiu és fer que la IA sigui més útil i capaç alhora que la millora a un ritme ràpid.
Per als observadors de la indústria, Gemini 2.5 Pro és una fita que marca fins a quin punt ha arribat la IA a principis de 2025, i un indici d'on va. El llistó de l'"estat de l'art" no para de pujar: avui és raonament i habilitat multimodal, demà podria ser una cosa així com una resolució de problemes encara més general o autonomia. L'últim model de Google mostra que la companyia no només està en la carrera, sinó que té la intenció de donar forma al seu resultat. Si Gemini 2.5 és per a qualsevol cosa, la propera generació de models d'IA s'integrarà encara més a la nostra feina i a la nostra vida, cosa que ens portarà a reimaginar una vegada més com fem servir la intel·ligència de les màquines.