toco Grandes Modelos de Ação (LAMs): A Próxima Fronteira na Interação Baseada em IA - Unite.AI
Entre em contato

Inteligência artificial

Grandes Modelos de Ação (LAMs): A Próxima Fronteira na Interação Baseada em IA

mm
Atualização do on

Quase um ano atrás, Mustafa Suleyman, cofundador da DeepMind, previsto que a era do IA generativa logo daria lugar a algo mais interativo: sistemas capazes de realizar tarefas interagindo com aplicativos de software e recursos humanos. Hoje, começamos a ver esta visão tomar forma com o desenvolvimento de Coelho IAo novo sistema operacional alimentado por IA, R1. Este sistema demonstrou uma capacidade impressionante de monitorar e imitar interações humanas com aplicativos. No coração de R1 está o Modelo de Grande Ação (LAM), um assistente avançado de IA capaz de compreender as intenções do usuário e executar tarefas em seu nome. Embora anteriormente conhecido por outros termos, como IA interativa e Modelo Agente Grande, o conceito de LAMs está ganhando impulso como uma inovação fundamental nas interações baseadas em IA. Este artigo explora os detalhes dos LAMs, como eles diferem dos l tradicionais.grandes modelos de linguagem (LLMs), apresenta o sistema R1 do Rabbit AI e analisa como a Apple está avançando em direção a uma abordagem semelhante ao LAM. Também discute os usos potenciais dos LAMs e os desafios que enfrentam.

Compreendendo grandes modelos de ação ou agentes (LAMs)

Um LAM é um agente avançado de IA projetado para compreender as intenções humanas e executar objetivos específicos. Esses modelos se destacam na compreensão das necessidades humanas, no planejamento de tarefas complexas e na interação com vários modelos, aplicativos ou pessoas para executar seus planos. Os LAMs vão além de tarefas simples de IA, como gerar respostas ou imagens; eles são sistemas completos projetados para lidar com atividades complexas, como planejamento de viagens, agendamento de compromissos e gerenciamento de e-mails. Por exemplo, no planeamento de viagens, uma LAM coordenaria com uma aplicação meteorológica para obter previsões, interagiria com serviços de reserva de voos para encontrar voos apropriados e interagiria com sistemas de reservas de hotéis para garantir alojamento. Ao contrário de muitos modelos tradicionais de IA que dependem exclusivamente de redes neurais, os LAMs utilizam uma abordagem híbrida que combina programação neuro-simbólica. Esta integração de programação simbólica auxilia no raciocínio lógico e no planejamento, enquanto as redes neurais contribuem para o reconhecimento de padrões sensoriais complexos. Esta combinação permite que os LAMs abordem um amplo espectro de tarefas, marcando-os como um desenvolvimento diferenciado em interações alimentadas por IA.

Comparando LAMs com LLMs

Em contraste com os LAMs, os LLMs são agentes de IA que se destacam na interpretação de prompts do usuário e na geração de respostas baseadas em texto, auxiliando principalmente em tarefas que envolvem processamento de linguagem. No entanto, o seu âmbito é geralmente limitado a atividades relacionadas com texto. Por outro lado, os LAM expandem as capacidades da IA ​​para além da linguagem, permitindo-lhes realizar ações complexas para atingir objetivos específicos. Por exemplo, enquanto um LLM pode efetivamente redigir um e-mail com base nas instruções do usuário, um LAM vai além, não apenas redigindo, mas também compreendendo o contexto, decidindo sobre a resposta apropriada e gerenciando a entrega do e-mail.

Além disso, os LLMs são normalmente projetados para prever o próximo token em uma sequência de texto e para executar instruções escritas. Em contraste, os LAMs estão equipados não apenas com a compreensão da linguagem, mas também com a capacidade de interagir com diversas aplicações e sistemas do mundo real, como dispositivos IoT. Eles podem realizar ações físicas, controlar dispositivos e gerenciar tarefas que exigem interação com o ambiente externo, como marcar compromissos ou fazer reservas. Esta integração de competências linguísticas com a execução prática permite que os LAMs operem em cenários mais diversos do que os LLMs.

LAMs em Ação: O Coelho R1

A Coelho R1 é um excelente exemplo de LAMs em uso prático. Este dispositivo alimentado por IA pode gerenciar vários aplicativos por meio de uma interface única e fácil de usar. Equipado com uma tela sensível ao toque de 2.88 polegadas, uma câmera giratória e uma roda de rolagem, o R1 está alojado em um chassi elegante e arredondado criado em colaboração com a Teenage Engineering. Ele opera em um processador MediaTek de 2.3 GHz, reforçado por 4 GB de memória e 128 GB de armazenamento.

No coração do R1 está o LAM, que supervisiona de forma inteligente as funcionalidades do aplicativo e simplifica tarefas complexas como controlar música, reservar transporte, fazer pedidos de compras e enviar mensagens, tudo a partir de um único ponto de interação. Dessa forma, o R1 elimina o incômodo de alternar entre vários aplicativos ou logins para executar essas tarefas.

O LAM dentro do R1 foi inicialmente treinado observando interações humanas com aplicativos populares como Spotify e Uber. Esta formação permitiu à LAM navegar nas interfaces do utilizador, reconhecer ícones e processar transacções. Esse treinamento extensivo permite que o R1 se adapte com fluidez a praticamente qualquer aplicação. Além disso, um modo de treinamento especial permite aos usuários introduzir e automatizar novas tarefas, ampliando continuamente a gama de capacidades do R1 e tornando-o uma ferramenta dinâmica no domínio das interações alimentadas por IA.

Avanços da Apple em direção a recursos inspirados em LAM no Siri

A equipe de pesquisa de IA da Apple compartilhou recentemente insights sobre seus esforços para aprimorar os recursos da Siri por meio de uma nova iniciativa, semelhante às dos LAMs. A iniciativa, descrita em um artigo de pesquisa sobre Resolução de referência como modelagem de linguagem (ReALM), visa melhorar a capacidade do Siri de compreender o contexto conversacional, processar conteúdo visual na tela e detectar atividades ambientais. A abordagem adotada pelo ReALM no tratamento de entradas da interface do usuário (UI) traça paralelos com as funcionalidades observadas no R1 do Rabbit AI, mostrando a intenção da Apple de aprimorar a compreensão da Siri sobre as interações do usuário.

Este desenvolvimento indicam que a Apple está considerando a adoção de tecnologias LAM para refinar a forma como os usuários interagem com seus dispositivos. Embora não haja anúncios explícitos sobre a implantação do ReALM, o potencial para melhorar significativamente a interação da Siri com os aplicativos sugere avanços promissores para tornar o assistente mais intuitivo e responsivo.

Potenciais aplicações de LAMs

Os LAM têm o potencial de alargar o seu impacto muito além de melhorar as interações entre utilizadores e dispositivos; eles poderiam fornecer benefícios significativos em vários setores.   

  • Atendimento ao cliente: Os LAMs podem melhorar o atendimento ao cliente ao lidar de forma independente com consultas e reclamações em diferentes canais. Esses modelos podem processar consultas em linguagem natural, automatizar resoluções e gerenciar agendamentos, fornecendo atendimento personalizado com base no histórico do cliente para melhorar a satisfação.
  • Cuidados de saúde: Na área da saúde, os LAMs podem ajudar a gerir o atendimento ao paciente, organizando consultas, gerenciando prescrições e facilitando a comunicação entre os serviços. Eles também são úteis para monitoramento remoto, interpretação de dados médicos e alertas de pessoal em emergências, particularmente benéficos para o gerenciamento de cuidados crônicos e de idosos.
  • Finanças: Os LAMs podem oferecer aconselhamento financeiro personalizado e gerir tarefas como equilíbrio de carteiras e sugestões de investimento. Eles também podem monitorar transações para detectar e prevenir fraudes, integrando-se perfeitamente aos sistemas bancários para resolver rapidamente atividades suspeitas.

Desafios dos LAMs

Apesar do seu potencial significativo, os LAMs enfrentam vários desafios que precisam de ser abordados.

  • Privacidade e segurança de dados: Dado o amplo acesso a informações pessoais e sensíveis de que os LAM necessitam para funcionar, garantir a privacidade e a segurança dos dados é um grande desafio. Os LAMs interagem com dados pessoais através de múltiplas aplicações e plataformas, levantando preocupações sobre o manuseamento, armazenamento e processamento seguro destas informações.
  • Preocupações Éticas e Regulatórias: À medida que os LAMs assumem papéis mais autónomos na tomada de decisões e na interação com os ambientes humanos, as considerações éticas tornam-se cada vez mais importantes. As questões sobre responsabilidade, transparência e a extensão da tomada de decisões delegada às máquinas são críticas. Além disso, pode haver desafios regulatórios na implantação desses sistemas avançados de IA em vários setores.
  • Complexidade de Integração: Os LAMs requerem integração com uma variedade de sistemas de software e hardware para executar tarefas de forma eficaz. Esta integração é complexa e pode ser difícil de gerir, especialmente ao coordenar ações em diferentes plataformas e serviços, como reservas de voos, alojamento e outros detalhes logísticos em tempo real.
  • Escalabilidade e Adaptabilidade: Embora os LAMs sejam projetados para se adaptarem a uma ampla variedade de cenários e aplicações, dimensionar essas soluções para lidar com diversos ambientes do mundo real de forma consistente e eficiente continua sendo um desafio. Garantir que os LAM possam adaptar-se às condições em mudança e manter o desempenho em diferentes tarefas e necessidades dos utilizadores é crucial para o seu sucesso a longo prazo.

Concluindo!

Os Grandes Modelos de Ação (LAMs) estão emergindo como uma inovação significativa em IA, influenciando não apenas as interações entre dispositivos, mas também aplicações industriais mais amplas. Demonstrados pelo R1 da Rabbit AI e explorados nos avanços da Apple com Siri, os LAMs estão preparando o terreno para sistemas de IA mais interativos e intuitivos. Esses modelos estão preparados para aumentar a eficiência e a personalização em setores como atendimento ao cliente, saúde e finanças.

No entanto, a implantação de LAMs apresenta desafios, incluindo preocupações com a privacidade dos dados, questões éticas, complexidades de integração e escalabilidade. Abordar estas questões é essencial à medida que avançamos no sentido de uma adopção mais ampla de tecnologias LAM, com o objectivo de alavancar as suas capacidades de forma responsável e eficaz. À medida que os LAM continuam a desenvolver-se, o seu potencial para transformar as interações digitais continua a ser substancial, sublinhando a sua importância no cenário futuro da IA.

mm

Tehseen Zia é professor associado titular na COMSATS University Islamabad, com doutorado em IA pela Universidade de Tecnologia de Viena, Áustria. Especializado em Inteligência Artificial, Aprendizado de Máquina, Ciência de Dados e Visão Computacional, ele fez contribuições significativas com publicações em revistas científicas de renome. Tehseen também liderou vários projetos industriais como investigador principal e atuou como consultor de IA.