taló Grans models d'acció (LAM): la propera frontera en la interacció impulsada per IA - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Grans models d'acció (LAM): la següent frontera en la interacció impulsada per IA

mm
actualitzat on

Fa gairebé un any, Mustafa Suleyman, cofundador de DeepMind, previst que l'època de IA generativa Aviat donaria pas a quelcom més interactiu: sistemes capaços de realitzar tasques interactuant amb aplicacions de programari i recursos humans. Avui, comencem a veure com aquesta visió pren forma amb el desenvolupament de Conill AIel nou sistema operatiu impulsat per IA, R1. Aquest sistema ha demostrat una capacitat impressionant per supervisar i imitar les interaccions humanes amb les aplicacions. Al cor de R1 hi ha el Model d'acció gran (LAM), un assistent d'IA avançat expert en comprendre les intencions dels usuaris i executar tasques en nom seu. Tot i que abans es coneixia amb altres termes com ara IA interactiva i Gran Model Agentic, el concepte de LAM està guanyant impuls com a innovació fonamental en les interaccions impulsades per IA. Aquest article explora els detalls dels LAM, en què es diferencien de l tradicionalgrans models de llenguatge (LLMs), presenta el sistema R1 de Rabbit AI i analitza com Apple avança cap a un enfocament semblant a LAM. També analitza els usos potencials dels LAM i els reptes als quals s'enfronten.

Comprensió de grans models d'acció o agents (LAM)

Un LAM és un agent d'IA avançat dissenyat per comprendre les intencions humanes i executar objectius específics. Aquests models destaquen per entendre les necessitats humanes, planificar tasques complexes i interactuar amb diversos models, aplicacions o persones per dur a terme els seus plans. Els LAM van més enllà de tasques simples d'IA, com ara generar respostes o imatges; són sistemes complets dissenyats per gestionar activitats complexes com ara planificar viatges, programar cites i gestionar correus electrònics. Per exemple, en la planificació de viatges, un LAM es coordinaria amb una aplicació meteorològica per a les previsions, interactuaria amb els serveis de reserva de vols per trobar vols adequats i interactuaria amb els sistemes de reserva d'hotels per assegurar l'allotjament. A diferència de molts models tradicionals d'IA que depenen únicament xarxes neuronals, els LAM utilitzen un enfocament híbrid que combina programació neurosimbòlica. Aquesta integració de programació simbòlica ajuda en el raonament lògic i la planificació, mentre que les xarxes neuronals contribueixen a reconèixer patrons sensorials complexos. Aquesta combinació permet als LAM abordar un ampli espectre de tasques, marcant-les com un desenvolupament matisat en les interaccions impulsades per IA.

Comparació de LAM amb LLM

A diferència dels LAM, els LLM són agents d'IA que destaquen a l'hora d'interpretar les indicacions dels usuaris i generar respostes basades en text, ajudant principalment amb tasques que impliquen processament del llenguatge. Tanmateix, el seu abast es limita generalment a activitats relacionades amb el text. D'altra banda, els LAM amplien les capacitats de la IA més enllà del llenguatge, cosa que els permet realitzar accions complexes per assolir objectius específics. Per exemple, mentre que un LLM pot redactar efectivament un correu electrònic basant-se en les instruccions de l'usuari, un LAM va més enllà no només redactant sinó també comprenent el context, decidint la resposta adequada i gestionant l'enviament del correu electrònic.

A més, els LLM solen estar dissenyats per predir el següent testimoni en una seqüència de text i per executar instruccions escrites. En canvi, els LAM estan equipats no només amb la comprensió del llenguatge, sinó també amb la capacitat d'interactuar amb diverses aplicacions i sistemes del món real, com ara dispositius IoT. Poden realitzar accions físiques, controlar dispositius i gestionar tasques que requereixen interactuar amb l'entorn extern, com ara reservar cites o fer reserves. Aquesta integració de les habilitats lingüístiques amb l'execució pràctica permet que els LAM funcionin en escenaris més diversos que els LLM.

LAMs en acció: The Rabbit R1

El Conill R1 és un bon exemple de LAM en ús pràctic. Aquest dispositiu alimentat amb intel·ligència artificial pot gestionar diverses aplicacions mitjançant una única interfície fàcil d'utilitzar. Equipat amb una pantalla tàctil de 2.88 polzades, una càmera giratòria i una roda de desplaçament, l'R1 s'allotja en un xassís elegant i arrodonit dissenyat en col·laboració amb Teenage Engineering. Funciona amb un processador MediaTek de 2.3 GHz, reforçat amb 4 GB de memòria i 128 GB d'emmagatzematge.

Al cor de l'R1 hi ha el seu LAM, que supervisa de manera intel·ligent les funcionalitats de l'aplicació i simplifica tasques complexes com controlar la música, reservar transport, demanar queviures i enviar missatges, tot des d'un únic punt d'interacció. D'aquesta manera, R1 elimina la molèstia de canviar entre diverses aplicacions o diversos inicis de sessió per realitzar aquestes tasques.

El LAM dins de l'R1 es va entrenar inicialment observant les interaccions humanes amb aplicacions populars com Spotify i Uber. Aquesta formació ha permès a LAM navegar per interfícies d'usuari, reconèixer icones i processar transaccions. Aquesta formació àmplia permet que l'R1 s'adapti amb fluïdesa a pràcticament qualsevol aplicació. A més, un mode d'entrenament especial permet als usuaris introduir i automatitzar noves tasques, ampliant contínuament la gamma de capacitats de l'R1 i convertint-lo en una eina dinàmica en l'àmbit de les interaccions impulsades per IA.

Els avenços d'Apple cap a les capacitats inspirades en LAM a Siri

L'equip d'investigació d'IA d'Apple ha compartit recentment informació sobre els seus esforços per avançar en les capacitats de Siri mitjançant una nova iniciativa, semblant a les dels LAM. La iniciativa, descrita en un document de recerca sobre Resolució de referència com a modelització lingüística (ReALM), té com a objectiu millorar la capacitat de Siri per entendre el context conversacional, processar contingut visual a la pantalla i detectar activitats ambientals. L'enfocament adoptat per ReALM en la gestió de les entrades de la interfície d'usuari (UI) dibuixa paral·lelismes amb les funcionalitats observades a l'R1 de Rabbit AI, mostrant la intenció d'Apple de millorar la comprensió de Siri de les interaccions dels usuaris.

Aquest desenvolupament indica que Apple està considerant l'adopció de tecnologies LAM per perfeccionar la manera com els usuaris interactuen amb els seus dispositius. Tot i que no hi ha anuncis explícits sobre el desplegament de ReALM, el potencial de millorar significativament la interacció de Siri amb les aplicacions suggereix avenços prometedors per fer que l'assistent sigui més intuïtiu i sensible.

Aplicacions potencials dels LAM

Els LAM tenen el potencial d'estendre el seu impacte molt més enllà de millorar les interaccions entre usuaris i dispositius; podrien aportar beneficis significatius en múltiples indústries.   

  • Serveis al client: Els LAM poden millorar el servei al client mitjançant la gestió independent de consultes i queixes a través de diferents canals. Aquests models poden processar consultes mitjançant llenguatge natural, automatitzar resolucions i gestionar la programació, proporcionant un servei personalitzat basat en l'historial del client per millorar la satisfacció.
  • Atenció sanitària: A l'assistència sanitària, els LAM poden ajudar a gestionar l'atenció al pacient mitjançant l'organització de cites, la gestió de receptes i la facilitació de la comunicació entre els serveis. També són útils per al seguiment remot, interpretar dades mèdiques i alertar el personal en cas d'emergència, especialment beneficiosos per a la gestió de l'atenció crònica i la gent gran.
  • Finances: Els LAM poden oferir assessorament financer personalitzat i gestionar tasques com l'equilibri de carteres i suggeriments d'inversió. També poden controlar les transaccions per detectar i prevenir el frau, integrant-se perfectament amb els sistemes bancaris per abordar ràpidament activitats sospitoses.

Reptes dels LAM

Malgrat el seu important potencial, els LAM es troben amb diversos reptes que cal abordar.

  • Privadesa i seguretat de les dades: Atès l'ampli accés a la informació personal i sensible que els LAM necessiten per funcionar, garantir la privadesa i la seguretat de les dades és un repte important. Els LAM interactuen amb dades personals a través de múltiples aplicacions i plataformes, cosa que genera preocupacions sobre el maneig, l'emmagatzematge i el processament segurs d'aquesta informació.
  • Preocupacions ètiques i normatives: A mesura que els LAM assumeixen funcions més autònomes en la presa de decisions i en la interacció amb els entorns humans, les consideracions ètiques adquireixen cada cop més importància. Les preguntes sobre la responsabilitat, la transparència i l'abast de la presa de decisions delegada a les màquines són crítiques. A més, pot haver-hi reptes reguladors en el desplegament d'aquests sistemes d'IA avançats en diverses indústries.
  • Complexitat de la integració: Els LAM requereixen la integració amb una varietat de sistemes de programari i maquinari per realitzar tasques de manera eficaç. Aquesta integració és complexa i pot ser difícil de gestionar, especialment quan es coordinen accions entre diferents plataformes i serveis, com ara la reserva de vols, allotjament i altres detalls logístics en temps real.
  • Escalabilitat i adaptabilitat: Tot i que els LAM estan dissenyats per adaptar-se a una àmplia gamma d'escenaris i aplicacions, escalar aquestes solucions per gestionar entorns diversos i del món real de manera coherent i eficient continua sent un repte. Assegurar que els LAM puguin adaptar-se a les condicions canviants i mantenir el rendiment en diferents tasques i necessitats dels usuaris és crucial per al seu èxit a llarg termini.

La línia de base

Els grans models d'acció (LAM) estan sorgint com una innovació important en IA, que influeix no només en les interaccions dels dispositius, sinó també en aplicacions més àmplies de la indústria. Demostrats per l'R1 de Rabbit AI i explorats en els avenços d'Apple amb Siri, els LAM estan preparant l'escenari per a sistemes d'IA més interactius i intuïtius. Aquests models estan preparats per millorar l'eficiència i la personalització en sectors com el servei al client, la salut i les finances.

Tanmateix, el desplegament de LAM comporta reptes, com ara problemes de privadesa de dades, problemes ètics, complexitats d'integració i escalabilitat. Abordar aquests problemes és essencial a mesura que avancem cap a una adopció més àmplia de les tecnologies LAM, amb l'objectiu d'aprofitar les seves capacitats de manera responsable i eficaç. A mesura que els LAM continuen desenvolupant-se, el seu potencial per transformar les interaccions digitals segueix sent substancial, cosa que subratlla la seva importància en el panorama futur de la IA.

El Dr. Tehseen Zia és professor associat titular a la Universitat COMSATS d'Islamabad i té un doctorat en IA per la Universitat Tecnològica de Viena, Àustria. Especialitzat en intel·ligència artificial, aprenentatge automàtic, ciència de dades i visió per computador, ha fet contribucions importants amb publicacions en revistes científiques de renom. El Dr. Tehseen també ha dirigit diversos projectes industrials com a investigador principal i ha estat consultor d'IA.