Intel·ligència Artificial

Gemini Robotics: el raonament per IA es troba amb el món físic

publicat

Fa mesos 3

Abril 30, 2025

Dr. Tehseen Zia

En els darrers anys, la intel·ligència artificial (IA) ha avançat significativament en diversos camps, com ara el processament del llenguatge natural (PLN) i la visió per computador. Tanmateix, un dels principals reptes per a la IA ha estat la seva integració al món físic. Tot i que la IA ha va sobresortir en el raonament i la resolució de problemes complexos, aquests èxits s'han limitat en gran mesura als entorns digitals. Perquè la IA pugui realitzar tasques físiques a través de la robòtica, ha de tenir una comprensió profunda del raonament espacial, la manipulació d'objectes i la presa de decisions. Per abordar aquest repte, Google ha introduït Robòtica Gemini, un conjunt de models desenvolupats expressament per a la robòtica i IA encarnada. Construït sobre Gemini 2.0, Aquests models d'IA fusionen el raonament avançat d'IA amb el món físic per permetre que els robots duguin a terme una àmplia gamma de tasques complexes.

Comprensió de la robòtica Gemini

Gemini Robotics és un parell de models d'IA basats en Gemini 2.0, una tecnologia d'última generació. Model Visió-Llenguatge (VLM) capaç de processar text, imatges, àudio i vídeo. Gemini Robotics és essencialment una extensió de VLM a Visió-Llenguatge-Acció (VLA) model, que permet al model Gemini no només entendre i interpretar entrades visuals i processar instruccions en llenguatge natural, sinó també executar accions físiques en el món real. Aquesta combinació és fonamental per a la robòtica, ja que permet a les màquines no només "veure" el seu entorn, sinó també entendre'l en el context del llenguatge humà i executar tasques complexes del món real, des de la simple manipulació d'objectes fins a activitats hàbils més complexes.

Un dels punts forts de Gemini Robotics rau en la seva capacitat de generalitzar en una varietat de tasques sense necessitat d'un reentrenament extens. El model pot seguir instruccions de vocabulari obert, adaptar-se a variacions de l'entorn i fins i tot gestionar tasques imprevistes que no formaven part de les seves dades d'entrenament inicials. Això és particularment important per crear robots que puguin operar en entorns dinàmics i imprevisibles com ara habitatges o entorns industrials.

Raonament encarnat

Un repte important en robòtica sempre ha estat la bretxa entre raonament digital i interacció físicaMentre que els humans poden entendre fàcilment les relacions espacials complexes i interactuar perfectament amb el seu entorn, els robots han tingut dificultats per replicar aquestes habilitats. Per exemple, els robots tenen limitacions en la seva comprensió de la dinàmica espacial, l'adaptació a noves situacions i la gestió d'interaccions imprevisibles del món real. Per abordar aquests reptes, Gemini Robotics incorpora el "raonament incorporat", un procés que permet al sistema entendre i interactuar amb el món físic d'una manera similar a com ho fan els humans.

A diferència del raonament basat en la IA en entorns digitals, el raonament incorporat implica diversos components crucials, com ara:

Detecció i manipulació d'objectesEl raonament incorporat permet a Gemini Robotics detectar i identificar objectes del seu entorn, fins i tot quan no s'han vist prèviament. Pot predir on agafar objectes, determinar el seu estat i executar moviments com obrir calaixos, abocar líquids o plegar paper.
Predicció de trajectòria i abastEl raonament incorporat permet a Gemini Robotics predir les trajectòries més eficients per al moviment i identificar els punts òptims per subjectar objectes. Aquesta capacitat és essencial per a tasques que requereixen precisió.
Comprensió 3DEl raonament incorporat permet als robots percebre i comprendre espais tridimensionals. Aquesta capacitat és especialment crucial per a tasques que requereixen una manipulació espacial complexa, com ara plegar roba o muntar objectes. La comprensió del 3D també permet als robots excel·lir en tasques que impliquen correspondència 3D multivista i prediccions de quadres delimitadors 3D. Aquestes habilitats podrien ser vitals perquè els robots manipulin objectes amb precisió.

Destresa i adaptació: la clau per a les tasques del món real

Tot i que la detecció i la comprensió d'objectes són fonamentals, el veritable repte de la robòtica rau en la realització de tasques hàbils que requereixen habilitats motores fines. Tant si es tracta de plegar una guineu d'origami com de jugar a cartes, les tasques que requereixen una alta precisió i coordinació solen estar més enllà de la capacitat de la majoria de sistemes d'IA. Tanmateix, Gemini Robotics ha estat dissenyada específicament per excel·lir en aquestes tasques.

Habilitats motores finesLa capacitat del model per gestionar tasques complexes com plegar roba, apilar objectes o jugar demostra la seva destresa avançada. Amb un ajust fi addicional, Gemini Robotics pot gestionar tasques que requereixen coordinació en múltiples graus de llibertat, com ara utilitzar els dos braços per a manipulacions complexes.
Aprenentatge de pocs tirsGemini Robotics també introdueix el concepte d'aprenentatge de pocs cops, cosa que li permet aprendre noves tasques amb demostracions mínimes. Per exemple, amb tan sols 100 demostracions, Gemini Robotics pot aprendre a realitzar una tasca que d'altra manera requeriria extenses dades d'entrenament.
Adaptació a noves formes de realitzacióUna altra característica clau de Gemini Robotics és la seva capacitat d'adaptació a noves formes de realització de robots. Tant si es tracta d'un robot bibraç com d'un humanoide amb un nombre més elevat d'articulacions, el model pot controlar perfectament diversos tipus de cossos robòtics, cosa que el fa versàtil i adaptable a diferents configuracions de maquinari.

Control de zero shot i adaptació ràpida

Una de les característiques més destacades de Gemini Robotics és la seva capacitat per controlar robots. aprenentatge de zero o pocs cops manera. El control de zero cops es refereix a la capacitat d'executar tasques sense requerir una formació específica per a cada tasca individual, mentre que l'aprenentatge de pocs cops implica aprendre d'un petit conjunt d'exemples.

Control de zero-shot mitjançant generació de codiGemini Robotics pot generar codi per controlar robots fins i tot quan les accions específiques requerides no s'han vist mai abans. Per exemple, quan se li proporciona una descripció de la tasca d'alt nivell, Gemini pot crear el codi necessari per executar la tasca utilitzant les seves capacitats de raonament per comprendre la dinàmica física i l'entorn.
Aprenentatge de pocs tirsEn els casos en què la tasca requereix una destresa més complexa, el model també pot aprendre de les demostracions i aplicar immediatament aquest coneixement per realitzar la tasca de manera eficaç. Aquesta capacitat d'adaptar-se ràpidament a noves situacions és un avenç significatiu en el control robòtic, especialment per a entorns que requereixen canvis constants o imprevisibilitat.

Implicacions futures

Gemini Robotics és un avenç vital per a la robòtica d'ús general. En combinar les capacitats de raonament de la IA amb la destresa i l'adaptabilitat dels robots, ens acosta a l'objectiu de crear robots que es puguin integrar fàcilment a la vida quotidiana i que realitzin una varietat de tasques que requereixen una interacció similar a la humana.

Les aplicacions potencials d'aquests models són àmplies. En entorns industrials, Gemini Robotics es podria utilitzar per a tasques complexes de muntatge, inspeccions i manteniment. A les llars, podria ajudar amb les tasques domèstiques, la cura i l'entreteniment personal. A mesura que aquests models continuïn avançant, és probable que els robots es converteixin en tecnologies generalitzades que podrien obrir noves possibilitats en múltiples sectors.

La línia de base

Gemini Robotics és un conjunt de models basats en Gemini 2.0, dissenyats per permetre que els robots realitzin raonaments incorporats. Aquests models poden ajudar els enginyers i desenvolupadors a crear robots impulsats per IA que puguin entendre i interactuar amb el món físic de manera similar a la dels humans. Amb la capacitat de realitzar tasques complexes amb alta precisió i flexibilitat, Gemini Robotics incorpora funcions com el raonament incorporat, el control de zero cops i l'aprenentatge de pocs cops. Aquestes capacitats permeten als robots adaptar-se al seu entorn sense necessitat d'un reciclatge extens. Gemini Robotics té el potencial de transformar les indústries, des de la fabricació fins a l'assistència a la llar, fent que els robots siguin més capaços i segurs en aplicacions del món real. A mesura que aquests models continuen evolucionant, tenen el potencial de redefinir el futur de la robòtica.

Temes relacionats:Raonament de la IA Models de raonament d'IA robots autònoms IA encarnada Raonament encarnat Robòtica Gemini Google Gemini 2.0 Robòtica Humanoide

Fins a la propera

CNTXT AI llança Munsit: el sistema de reconeixement de veu àrab més precís mai construït

No et perdis

La IA no necessàriament dóna millors respostes si ets educat