Inteligência artificial

Revolucionando a IA com o ReALM da Apple: O Futuro dos Assistentes Inteligentes

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

No paisagem em constante evolução da inteligência artificial, a Apple tem sido pioneira em uma abordagem inovadora que pode redefinir como interagimos com nossos iPhones. ReALM, ou Resolução de Referência como Modelagem de Linguagem, é um modelo de IA que promete trazer um novo nível de conscientização contextual e assistência sem interrupções.

Enquanto o mundo da tecnologia está animado com a OpenAI’s GPT-4 e outros grandes modelos de linguagem (LLMs), o ReALM da Apple representa uma mudança de pensamento – uma mudança de confiar apenas em IA baseada em nuvem para uma abordagem mais personalizada e no dispositivo.

No coração do ReALM está a capacidade de resolver referências – esses pronomes ambíguos como “isso“, “eles” ou “aquele” que os humanos navegam com facilidade graças a dicas contextuais. Para os assistentes de IA, no entanto, isso tem sido um obstáculo por muito tempo, levando a mal-entendidos frustrantes e uma experiência de usuário desconexa.

Imagine um cenário em que você pede ao Siri para “encontrar uma receita saudável com base no que está na minha geladeira, mas segure os cogumelos – eu odeio esses.” Com o ReALM, seu iPhone não apenas entenderia as referências às informações na tela (o conteúdo da geladeira) mas também lembraria suas preferências pessoais (desgosto por cogumelos) e o contexto mais amplo de encontrar uma receita personalizada para esses parâmetros.

Esse nível de conscientização contextual é um salto quântico da abordagem de correspondência de palavras-chave da maioria dos assistentes de IA atuais. Ao treinar LLMs para resolver referências de forma transparente em três domínios principais – conversacional, na tela e de fundo – o ReALM visa criar um companheiro digital verdadeiramente inteligente que se sente menos como um assistente de voz robótico e mais como uma extensão dos seus próprios processos de pensamento.

O Domínio Conversacional: Lembrete do que Veio Antes

A IA conversacional, o ReALM aborda um desafio de longa data: manter a coerência e a memória em várias rodadas de diálogo. Com sua capacidade de resolver referências dentro de uma conversa contínua, o ReALM poderia finalmente cumprir a promessa de uma interação natural e de volta e forth com seu assistente digital.

Imagine pedir ao Siri para “me lembrar de reservar ingressos para minha viagem quando eu receber meu pagamento na sexta-feira.” Com o ReALM, o Siri não apenas entenderia o contexto dos seus planos de viagem (potencialmente colhido de uma conversa anterior ou informações na tela) mas também teria a consciência de conectar “receber o pagamento” à sua rotina de pagamento regular.

Esse nível de inteligência conversacional se sente como um verdadeiro salto à frente, permitindo diálogos multi-voltas sem a frustração de constantemente reexplicar o contexto ou se repetir.

O Domínio na Tela: Dando Olhos ao seu Assistente

Talvez o aspecto mais inovador do ReALM, no entanto, esteja em sua capacidade de resolver referências a entidades na tela – um passo crucial para criar uma experiência de usuário verdadeiramente sem mãos e baseada em voz.

O artigo de pesquisa da Apple discute uma técnica inovadora para codificar informações visuais da tela do seu dispositivo em um formato que os LLMs possam processar. Ao reconstruir essencialmente o layout da tela em uma representação baseada em texto, o ReALM pode “ver” e entender as relações espaciais entre vários elementos na tela.

Considere um cenário em que você está olhando para uma lista de restaurantes e pede ao Siri para “direções para o que está na Main Street.” Com o ReALM, seu iPhone não apenas compreenderia a referência a uma localização específica, mas também a ligaria à entidade relevante na tela – a lista de restaurantes que corresponde a essa descrição.

Esse nível de compreensão visual abre um mundo de possibilidades, desde agir de forma transparente em referências dentro de aplicativos e sites até integrar-se com interfaces de realidade aumentada futuras e até mesmo perceber e responder a objetos e ambientes do mundo real por meio da câmera do dispositivo.

O artigo de pesquisa sobre o modelo ReALM da Apple fala sobre os detalhes intricados de como o sistema codifica entidades na tela e resolve referências em vários contextos. Aqui está uma explicação simplificada dos algoritmos e exemplos fornecidos no artigo:

Codificando Entidades na Tela: O artigo explora várias estratégias para codificar elementos na tela em um formato textual que possa ser processado por um LLM. Uma abordagem envolve agrupar objetos circundantes com base em sua proximidade espacial e gerar prompts que incluam esses objetos agrupados. No entanto, esse método pode levar a prompts excessivamente longos à medida que o número de entidades aumenta.

A abordagem final adotada pelos pesquisadores é analisar a tela em uma ordem de cima para baixo, esquerda para direita, representando o layout em um formato textual. Isso é alcançado por meio do Algoritmo 2, que classifica os objetos na tela com base em suas coordenadas centrais, determina níveis verticais agrupando objetos dentro de uma margem específica e constrói a análise da tela concatenando esses níveis com tabs separando objetos na mesma linha.

Ao injetar as entidades relevantes (números de telefone, nesse caso) na representação textual, o LLM pode entender o contexto na tela e resolver referências de acordo.

Exemplos de Resolução de Referência: O artigo fornece vários exemplos para ilustrar as capacidades do modelo ReALM na resolução de referências em diferentes contextos:

a. Referências Conversacionais: Para um pedido como “Siri, encontre uma receita saudável com base no que está na minha geladeira, mas segure os cogumelos – eu odeio esses,” o ReALM pode entender o contexto na tela (conteúdo da geladeira), o contexto conversacional (encontrando uma receita) e as preferências do usuário (desgosto por cogumelos).

b. Referências de Fundo: No exemplo “Siri, toque aquela música que estava tocando no supermercado mais cedo,” o ReALM pode potencialmente capturar e identificar trechos de áudio ambiental para resolver a referência à música específica.

c. Referências na Tela: Para um pedido como “Siri, lembre-me de reservar ingressos para a viagem quando eu receber meu salário na sexta-feira,” o ReALM pode combinar informações da rotina do usuário (dia de pagamento), conversas ou sites na tela (planos de viagem) e do calendário para entender e agir no pedido.

Esses exemplos demonstram a capacidade do ReALM de resolver referências em contextos conversacionais, na tela e de fundo, permitindo uma interação mais natural e transparente com assistentes inteligentes.

O Domínio de Fundo

Além dos contextos conversacional e na tela, o ReALM também explora a capacidade de resolver referências a entidades de fundo – aqueles eventos e processos periféricos que frequentemente passam despercebidos por nossos atuais assistentes de IA.

Imagine um cenário em que você pede ao Siri para “tocar aquela música que estava tocando no supermercado mais cedo.” Com o ReALM, seu iPhone poderia potencialmente capturar e identificar trechos de áudio ambiental, permitindo que o Siri pegue e toque a faixa que você tinha em mente.

Esse nível de conscientização de fundo se sente como o primeiro passo em direção a uma verdadeira IA onipresente e consciente do contexto – um companheiro digital que não apenas entende suas palavras, mas também a rica tapeçaria das suas experiências diárias.

A Promessa da IA no Dispositivo: Privacidade e Personalização

Enquanto as capacidades do ReALM são, sem dúvida, impressionantes, talvez sua vantagem mais significativa esteja no compromisso de longa data da Apple com a IA no dispositivo e a privacidade do usuário.

Ao contrário dos modelos de IA baseados em nuvem que dependem de enviar dados do usuário para servidores remotos para processamento, o ReALM é projetado para operar inteiramente em seu iPhone ou outros dispositivos Apple. Isso não apenas aborda preocupações em torno da privacidade de dados, mas também abre novas possibilidades para assistência de IA que verdadeiramente entende e se adapta a você como um indivíduo.

Ao aprender diretamente dos dados no dispositivo – suas conversas, padrões de uso de aplicativos e até mesmo entradas sensoriais ambientais – o ReALM poderia potencialmente criar um assistente digital hiper-personalizado adaptado às suas necessidades, preferências e contextos únicos.

Esse nível de personalização se sente como uma mudança de paradigma da abordagem de um tamanho único para todos dos atuais assistentes de IA, que frequentemente lutam para se adaptar às idiossincrasias e contextos individuais dos usuários.

Modelo ReALM-250M alcança resultados impressionantes:

- Compreensão Conversacional: 97.8
- Compreensão de Tarefas Sintéticas: 99.8
- Desempenho de Tarefas na Tela: 90.6
- Manipulação de Domínios Não Vistos: 97.2

As Considerações Éticas

É claro que, com um grau tão alto de personalização e conscientização contextual, vem uma série de considerações éticas em torno da privacidade, transparência e o potencial para sistemas de IA influenciarem ou até manipularem o comportamento do usuário.

À medida que o ReALM ganha uma compreensão mais profunda da vida diária – desde seus hábitos alimentares e padrões de consumo de mídia até interações sociais e preferências pessoais – há o risco de essa tecnologia ser usada de maneiras que violam a confiança do usuário ou cruzam fronteiras éticas.

Os pesquisadores da Apple estão cientes dessa tensão, reconhecendo em seu artigo a necessidade de encontrar um equilíbrio cuidadoso entre entregar uma experiência de IA verdadeiramente útil e personalizada e respeitar a privacidade e a agência do usuário.

Esse desafio não é único à Apple ou ao ReALM, é claro – é uma conversa que toda a indústria de tecnologia deve lidar à medida que os sistemas de IA se tornam cada vez mais sofisticados e integrados à vida diária.

Em Direção a uma Experiência de IA Mais Inteligente e Natural

À medida que a Apple continua a empurrar os limites da IA no dispositivo com modelos como o ReALM, a promessa de um assistente digital verdadeiramente inteligente e consciente do contexto se sente mais próxima do que nunca.

Imagine um mundo em que o Siri (ou como quer que esse assistente de IA possa ser chamado no futuro) se sente menos como uma voz desencarnada da nuvem e mais como uma extensão dos seus próprios processos de pensamento – um parceiro que não apenas entende suas palavras, mas também a rica tapeçaria da sua vida digital, suas rotinas diárias e suas preferências e contextos únicos.

Desde agir de forma transparente em referências dentro de aplicativos e sites até antecipar suas necessidades com base em sua localização, atividade e entradas sensoriais ambientais, o ReALM representa um passo significativo em direção a uma experiência de IA mais natural e transparente que borra as linhas entre nossos mundos digital e físico.

É claro que realizar essa visão exigirá mais do que apenas inovação técnica – também exigirá uma abordagem ética e pensativa ao desenvolvimento de IA que priorize a privacidade do usuário, a transparência e a agência.

À medida que a Apple continua a aprimorar e expandir as capacidades do ReALM, o mundo da tecnologia estará observando com ansiedade, ansioso para ver como esse modelo de IA inovador molda o futuro dos assistentes inteligentes e inaugura uma nova era de computação personalizada e consciente do contexto.

Se o ReALM cumpre sua promessa de superar até mesmo o poderoso GPT-4, ainda está para ser visto. Mas uma coisa é certa: a era dos assistentes de IA que verdadeiramente nos entendem – nossas palavras, nossos mundos e a rica tapeçaria de nossas vidas diárias – está em andamento, e a última inovação da Apple pode muito bem estar à frente dessa revolução.

Aayush Mittal

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e especialização me levaram a contribuir para mais de 50 projetos diversificados de engenharia de software, com um foco particular em IA/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.

Unite.AI