Inteligência artificial

De Intenção à Execução: Como a Microsoft está Transformando Modelos de Linguagem Grande em AI Orientada à Ação

mm

Os Modelos de Linguagem Grande (LLMs) mudaram a forma como lidamos com o processamento de linguagem natural. Eles podem responder a perguntas, escrever código e manter conversas. No entanto, eles falham quando se trata de tarefas do mundo real. Por exemplo, um LLM pode guiar você através da compra de um casaco, mas não pode realizar a compra por você. Essa lacuna entre pensar e fazer é uma limitação significativa. As pessoas não precisam apenas de informações; elas querem resultados.

Para bridar essa lacuna, a Microsoft está transformando os LLMs em agentes de IA orientados à ação. Ao permitir que eles planejem, decomponham tarefas e interajam com ambientes do mundo real, eles capacitam os LLMs a gerenciar tarefas práticas de forma eficaz. Essa mudança tem o potencial de redefinir o que os LLMs podem fazer, transformando-os em ferramentas que automatizam fluxos de trabalho complexos e simplificam tarefas do dia a dia. Vamos olhar o que é necessário para tornar isso possível e como a Microsoft está abordando o problema.

O que os LLMs Precisam para Agir

Para que os LLMs realizem tarefas no mundo real, eles precisam ir além da compreensão de texto. Eles devem interagir com ambientes digitais e físicos, adaptando-se a condições em mudança. Aqui estão algumas das capacidades que eles precisam:

  1. Entendendo a Intenção do Usuário

Para agir de forma eficaz, os LLMs precisam entender os pedidos do usuário. Entradas como texto ou comandos de voz são frequentemente vagas ou incompletas. O sistema deve preencher as lacunas usando seu conhecimento e o contexto do pedido. Conversas em múltiplos passos podem ajudar a refinar essas intenções, garantindo que a IA entenda antes de tomar ação.

  1. Transformando Intenções em Ações

Depois de entender uma tarefa, os LLMs devem convertê-la em etapas ações. Isso pode envolver clicar em botões, chamar APIs ou controlar dispositivos físicos. Os LLMs precisam modificar suas ações para a tarefa específica, adaptando-se ao ambiente e resolvendo desafios à medida que surgem.

  1. Adaptando-se a Mudanças

Tarefas do mundo real não sempre seguem conforme o planejado. Os LLMs precisam antecipar problemas, ajustar etapas e encontrar alternativas quando surgem questões. Por exemplo, se um recurso necessário não estiver disponível, o sistema deve encontrar outra forma de concluir a tarefa. Essa flexibilidade garante que o processo não pare quando as coisas mudam.

  1. Especializando-se em Tarefas Específicas

Embora os LLMs sejam projetados para uso geral, a especialização os torna mais eficientes. Ao se concentrar em tarefas específicas, esses sistemas podem fornecer melhores resultados com menos recursos. Isso é especialmente importante para dispositivos com poder de processamento limitado, como smartphones ou sistemas embarcados.

Ao desenvolver essas habilidades, os LLMs podem ir além do simples processamento de informações. Eles podem tomar ações significativas, abrindo caminho para que a IA se integre perfeitamente aos fluxos de trabalho do dia a dia.

Como a Microsoft está Transformando os LLMs

A abordagem da Microsoft para criar IA orientada à ação segue um processo estruturado. O objetivo principal é permitir que os LLMs entendam comandos, planejem de forma eficaz e tomem ações. Aqui está como eles estão fazendo isso:

Etapa 1: Coletando e Preparando Dados

Na primeira etapa, eles coletaram dados relacionados a seus casos de uso específicos: o Agente UFO (descrito abaixo). Os dados incluem consultas do usuário, detalhes ambientais e ações específicas de tarefas. Dois tipos diferentes de dados são coletados nessa etapa: primeiro, coletaram dados de plano de tarefa que ajudam os LLMs a esboçar etapas de alto nível necessárias para concluir uma tarefa. Por exemplo, “Mudar o tamanho da fonte no Word” pode envolver etapas como selecionar texto e ajustar as configurações da barra de ferramentas. Em segundo lugar, coletaram dados de ação de tarefa, permitindo que os LLMs traduzam essas etapas em instruções precisas, como clicar em botões específicos ou usar atalhos de teclado.

Essa combinação fornece ao modelo tanto a visão geral quanto as instruções detalhadas necessárias para realizar tarefas de forma eficaz.

Etapa 2: Treinando o Modelo

Uma vez que os dados são coletados, os LLMs são aprimorados por meio de várias sessões de treinamento. Na primeira etapa, os LLMs são treinados para planejamento de tarefas, ensinando-os a quebrar pedidos do usuário em etapas ações. Em seguida, dados rotulados por especialistas são usados para ensinar-lhes como traduzir esses planos em ações específicas. Para melhorar ainda mais suas capacidades de resolução de problemas, os LLMs participam de um processo de exploração de auto-reforço que os capacita a lidar com tarefas não resolvidas e gerar novos exemplos para aprendizado contínuo. Finalmente, o aprendizado por reforço é aplicado, usando feedback de sucessos e falhas para melhorar ainda mais sua tomada de decisões.

Etapa 3: Teste Offline

Depois do treinamento, o modelo é testado em ambientes controlados para garantir confiabilidade. Métricas como Taxa de Sucesso de Tarefa (TSR) e Taxa de Sucesso de Etapa (SSR) são usadas para medir o desempenho. Por exemplo, testar um agente de gerenciamento de calendário pode envolver verificar sua capacidade de agendar reuniões e enviar convites sem erros.

Etapa 4: Integração em Sistemas Reais

Uma vez validado, o modelo é integrado a uma estrutura de agente. Isso permitiu que ele interagisse com ambientes do mundo real, como clicar em botões ou navegar em menus. Ferramentas como as APIs de Automação de UI ajudaram o sistema a identificar e manipular elementos da interface do usuário de forma dinâmica.

Por exemplo, se tarefa for destacar texto no Word, o agente identifica o botão de realce, seleciona o texto e aplica o formato. Um componente de memória pode ajudar os LLMs a manter um registro de ações passadas, permitindo que eles se adaptem a novos cenários.

Etapa 5: Teste no Mundo Real

A etapa final é a avaliação online. Aqui, o sistema é testado em cenários do mundo real para garantir que possa lidar com mudanças inesperadas e erros. Por exemplo, um bot de suporte ao cliente pode guiar os usuários através do processo de redefinição de senha, adaptando-se a entradas incorretas ou informações faltantes. Esse teste garante que a IA seja robusta e pronta para uso diário.

Um Exemplo Prático: O Agente UFO

Para demonstrar como a IA orientada à ação funciona, a Microsoft desenvolveu o Agente UFO. Esse sistema é projetado para executar tarefas do mundo real em ambientes Windows, transformando pedidos do usuário em ações concluídas.

No seu núcleo, o Agente UFO usa um LLM para interpretar pedidos e planejar ações. Por exemplo, se um usuário disser, “Destaque a palavra ‘importante’ nesse documento”, o agente interage com o Word para concluir a tarefa. Ele coleta informações contextuais, como a posição dos controles da interface do usuário, e usa isso para planejar e executar ações.

O Agente UFO depende de ferramentas como a Automação de UI do Windows (UIA) API. Essa API digitaliza aplicativos em busca de elementos de controle, como botões ou menus. Para uma tarefa como “Salvar o documento como PDF”, o agente usa a UIA para identificar o botão “Arquivo”, localizar a opção “Salvar como” e executar as etapas necessárias. Ao estruturar os dados de forma consistente, o sistema garante uma operação suave desde o treinamento até a aplicação no mundo real.

Superando Desafios

Embora isso seja um desenvolvimento emocionante, criar IA orientada à ação vem com desafios. A escalabilidade é uma questão significativa. Treinar e implantar esses modelos em tarefas diversas requer recursos significativos. Garantir segurança e confiabilidade é igualmente importante. Os modelos devem realizar tarefas sem consequências não intencionais, especialmente em ambientes sensíveis. E, à medida que esses sistemas interagem com dados privados, manter padrões éticos em torno de privacidade e segurança também é crucial.

A estratégia da Microsoft se concentra em melhorar a eficiência, expandir os casos de uso e manter os padrões éticos. Com esses avanços, os LLMs poderiam redefinir como a IA interage com o mundo, tornando-os mais práticos, adaptáveis e orientados à ação.

O Futuro da IA

Transformar os LLMs em agentes orientados à ação pode ser um divisor de águas. Esses sistemas podem automatizar tarefas, simplificar fluxos de trabalho e tornar a tecnologia mais acessível. O trabalho da Microsoft em IA orientada à ação e ferramentas como o Agente UFO é apenas o começo. À medida que a IA continua a evoluir, podemos esperar sistemas mais inteligentes e capazes que não apenas interagem conosco, mas realizam tarefas. Esses sistemas podem ser um divisor de águas. Esses sistemas podem automatizar tarefas, simplificar fluxos de trabalho e tornar a tecnologia mais acessível. O trabalho da Microsoft em IA orientada à ação e ferramentas como o Agente UFO é apenas o começo. À medida que a IA continua a evoluir, podemos esperar sistemas mais inteligentes e capazes que não apenas interagem conosco, mas realizam tarefas.

O Dr. Tehseen Zia é um Professor Associado com Estabilidade no COMSATS University Islamabad, com um PhD em IA pela Vienna University of Technology, Áustria. Especializando-se em Inteligência Artificial, Aprendizado de Máquina, Ciência de Dados e Visão Computacional, ele fez contribuições significativas com publicações em jornais científicos renomados. O Dr. Tehseen também liderou vários projetos industriais como Investigador Principal e atuou como Consultor de IA.