Inteligencia artificial

Revolucionando la IA con ReALM de Apple: El futuro de los asistentes inteligentes

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

En el paisaje en constante evolución de la inteligencia artificial, Apple ha estado trabajando en silencio en un enfoque innovador que podría redefinir la forma en que interactuamos con nuestros iPhones. ReALM, o Resolución de Referencias como Modelado de Lenguaje, es un modelo de IA que promete traer un nuevo nivel de conciencia contextual y asistencia sin problemas.

Mientras que el mundo de la tecnología está emocionado con OpenAI’s GPT-4 y otros grandes modelos de lenguaje (LLM), ReALM de Apple representa un cambio en la forma de pensar – un movimiento alejado de la dependencia exclusiva de la IA basada en la nube hacia un enfoque más personalizado y en el dispositivo.

En el corazón de ReALM se encuentra la capacidad de resolver referencias – esos pronombres ambiguos como “ello“, “ellos” o “eso” que los humanos navegan con facilidad gracias a las pistas contextuales. Para los asistentes de IA, sin embargo, esto ha sido durante mucho tiempo un obstáculo, lo que lleva a malentendidos frustrantes y una experiencia del usuario desconectada.

Imagina un escenario en el que le pides a Siri que “encuentre una receta saludable basada en lo que hay en mi nevera, pero sin champiñones – los odio”. Con ReALM, tu iPhone no solo entendería las referencias a la información en pantalla (el contenido de tu nevera) sino que también recordaría tus preferencias personales (desagrado por los champiñones) y el contexto más amplio de encontrar una receta adaptada a esos parámetros.

Este nivel de conciencia contextual es un salto cuántico del enfoque de coincidencia de palabras de la mayoría de los asistentes de IA actuales. Al entrenar a los LLM para resolver referencias de manera fluida en tres dominios clave – conversacional, en pantalla y de fondo – ReALM pretende crear un compañero digital verdaderamente inteligente que se sienta menos como un asistente de voz robótico y más como una extensión de tus propios procesos de pensamiento.

El Dominio Conversacional: Recordar lo que vino antes

La IA conversacional, ReALM aborda un desafío de larga data: mantener la coherencia y la memoria a lo largo de múltiples turnos de diálogo. Con su capacidad para resolver referencias dentro de una conversación en curso, ReALM podría finalmente cumplir con la promesa de una interacción natural y de ida y vuelta con tu asistente digital.

Imagina pedirle a Siri que “me recuerde reservar entradas para mi vacación cuando me pague el viernes”. Con ReALM, Siri no solo entendería el contexto de tus planes de vacación (potencialmente extraído de una conversación previa o información en pantalla) sino que también tendría la conciencia para conectar “cobrar” con tu rutina de pago regular.

Este nivel de inteligencia conversacional se siente como un verdadero salto adelante, permitiendo diálogos multi-turno sin problemas sin la frustración de tener que explicar constantemente el contexto o repetirte.

El Dominio en Pantalla: Dando a tu Asistente Ojos

Quizás el aspecto más innovador de ReALM, sin embargo, radica en su capacidad para resolver referencias a entidades en pantalla – un paso crucial hacia la creación de una experiencia de usuario verdaderamente libre de manos y controlada por voz.

El artículo de investigación de Apple discute una técnica novedosa para codificar información visual de la pantalla de tu dispositivo en un formato que los LLM puedan procesar. Al reconstruir esencialmente el diseño de tu pantalla en una representación basada en texto, ReALM puede “ver” y entender las relaciones espaciales entre los diferentes elementos en pantalla.

Considera un escenario en el que estás mirando una lista de restaurantes y le pides a Siri que “te dé direcciones al que está en Main Street”. Con ReALM, tu iPhone no solo comprendería la referencia a una ubicación específica sino que también la vincularía a la entidad en pantalla relevante – la lista del restaurante que coincide con esa descripción.

Este nivel de comprensión visual abre un mundo de posibilidades, desde actuar de manera fluida sobre referencias dentro de aplicaciones y sitios web hasta integrarse con interfaces de realidad aumentada futuras e incluso percibir y responder a objetos y entornos del mundo real a través de la cámara de tu dispositivo.

El artículo de investigación sobre el modelo ReALM de Apple habla de los detalles intrincados de cómo el sistema codifica entidades en pantalla y resuelve referencias en varios contextos. Aquí hay una explicación simplificada de los algoritmos y ejemplos proporcionados en el artículo:

Codificación de Entidades en Pantalla: El artículo explora varias estrategias para codificar elementos en pantalla en un formato textual que pueda ser procesado por un Modelo de Lenguaje Grande (LLM). Un enfoque implica agrupar objetos circundantes según su proximidad espacial y generar instrucciones que incluyan estos objetos agrupados. Sin embargo, este método puede llevar a instrucciones excesivamente largas a medida que aumenta el número de entidades.

El enfoque final adoptado por los investigadores es analizar la pantalla en un orden de arriba a abajo, de izquierda a derecha, representando el diseño en un formato textual. Esto se logra a través del Algoritmo 2, que ordena los objetos en pantalla según sus coordenadas centrales, determina niveles verticales agrupando objetos dentro de un margen determinado y construye el análisis en pantalla concatenando estos niveles con tabuladores que separan objetos en la misma línea.

Al inyectar las entidades relevantes (números de teléfono en este caso) en la representación textual, el LLM puede entender el contexto en pantalla y resolver referencias en consecuencia.

Ejemplos de Resolución de Referencias: El artículo proporciona varios ejemplos para ilustrar las capacidades del modelo ReALM en la resolución de referencias en diferentes contextos:

a. Referencias Conversacionales: Para una solicitud como “Siri, encuentra una receta saludable basada en lo que hay en mi nevera, pero sin champiñones – los odio”, ReALM puede entender el contexto en pantalla (contenido de la nevera), el contexto conversacional (encontrar una receta) y las preferencias del usuario (desagrado por los champiñones).

b. Referencias de Fondo: En el ejemplo “Siri, reproduce esa canción que sonaba en el supermercado antes”, ReALM podría potencialmente capturar e identificar fragmentos de audio ambiental para resolver la referencia a la canción específica.

c. Referencias en Pantalla: Para una solicitud como “Siri, recuérdame reservar entradas para la vacación cuando cobre mi salario el viernes”, ReALM puede combinar información de las rutinas del usuario (día de pago), conversaciones o sitios web en pantalla (planes de vacación) y el calendario para entender y actuar sobre la solicitud.

Estos ejemplos demuestran la capacidad de ReALM para resolver referencias en contextos conversacionales, en pantalla y de fondo, permitiendo una interacción más natural y fluida con asistentes inteligentes.

El Dominio de Fondo

Moviéndose más allá de los contextos conversacional y en pantalla, ReALM también explora la capacidad de resolver referencias a entidades de fondo – esos eventos y procesos periféricos que a menudo pasan desapercibidos para nuestros actuales asistentes de IA.

Imagina un escenario en el que le pides a Siri que “reproduzca esa canción que sonaba en el supermercado antes”. Con ReALM, tu iPhone podría potencialmente capturar e identificar fragmentos de audio ambiental, permitiendo a Siri reproducir la pista que tenías en mente.

Este nivel de conciencia de fondo se siente como el primer paso hacia una verdadera asistencia de IA ubicua y consciente del contexto – un compañero digital que no solo entiende tus palabras sino también la rica tapestry de tus experiencias diarias.

La Promesa de la IA en el Dispositivo: Privacidad y Personalización

Mientras que las capacidades de ReALM son sin duda impresionantes, quizás su ventaja más significativa radica en el compromiso de Apple con la IA en el dispositivo y la privacidad del usuario.

A diferencia de los modelos de IA basados en la nube que dependen de enviar datos del usuario a servidores remotos para su procesamiento, ReALM está diseñado para operar enteramente en tu iPhone o otros dispositivos Apple. Esto no solo aborda las preocupaciones sobre la privacidad de los datos sino que también abre nuevas posibilidades para la asistencia de IA que verdaderamente entiende y se adapta a ti como individuo.

Al aprender directamente de tus datos en el dispositivo – tus conversaciones, patrones de uso de aplicaciones y even sensóricos ambientales – ReALM podría potencialmente crear un asistente digital hiperpersonalizado adaptado a tus necesidades, preferencias y contextos únicos.

Este nivel de personalización se siente como un cambio de paradigma en el enfoque de “talla única” de los asistentes de IA actuales, que a menudo luchan por adaptarse a las idiosincrasias y contextos individuales de los usuarios.

ReALM-250M modelo logra resultados impresionantes:

- Comprensión Conversacional: 97.8
- Comprensión de Tareas Sintéticas: 99.8
- Rendimiento de Tareas en Pantalla: 90.6
- Manejo de Dominios No Vistos: 97.2

Las Consideraciones Éticas

Por supuesto, con tal grado de personalización y conciencia contextual viene una serie de consideraciones éticas sobre la privacidad, la transparencia y el potencial de que los sistemas de IA influyan o incluso manipulen el comportamiento del usuario.

A medida que ReALM gana una comprensión más profunda de nuestras vidas diarias – desde nuestros hábitos alimenticios y patrones de consumo de medios hasta nuestras interacciones sociales y preferencias personales – hay un riesgo de que esta tecnología se utilice de maneras que violen la confianza del usuario o crucen límites éticos.

Los investigadores de Apple son plenamente conscientes de esta tensión, reconociendo en su artículo la necesidad de encontrar un equilibrio cuidadoso entre ofrecer una experiencia de IA verdaderamente útil y personalizada y respetar la privacidad y la autonomía del usuario.

Este desafío no es único de Apple o ReALM, por supuesto – es una conversación que toda la industria tecnológica debe abordar a medida que los sistemas de IA se vuelven cada vez más sofisticados y se integran en nuestras vidas diarias.

Hacia una Experiencia de IA más Inteligente y Natural

A medida que Apple sigue empujando los límites de la IA en el dispositivo con modelos como ReALM, la promesa tentadora de un asistente digital verdaderamente inteligente y consciente del contexto se siente más cercana que nunca.

Imagina un mundo en el que Siri (o comoquiera que se llame este asistente de IA en el futuro) se siente menos como una voz desencarnada desde la nube y más como una extensión de tus propios procesos de pensamiento – un socio que no solo entiende tus palabras sino también la rica tapestry de tu vida digital, tus rutinas diarias y tus preferencias y contextos únicos.

Desde actuar de manera fluida sobre referencias dentro de aplicaciones y sitios web hasta anticipar tus necesidades según tu ubicación, actividad y entradas sensoriales ambientales, ReALM representa un paso significativo hacia una experiencia de IA más natural y fluida que borra las líneas entre nuestros mundos digital y físico.

Por supuesto, lograr esta visión requerirá más que innovación técnica – también necesitará un enfoque ético y reflexivo en el desarrollo de la IA que priorice la privacidad del usuario, la transparencia y la autonomía.

A medida que Apple continúa perfeccionando y expandiendo las capacidades de ReALM, el mundo de la tecnología estará observando con ansias, ansioso por ver cómo este modelo de IA innovador da forma al futuro de los asistentes inteligentes y marca el comienzo de una nueva era de computación personalizada y consciente del contexto.

Ya sea que ReALM cumpla con su promesa de superar incluso al poderoso GPT-4 queda por verse. Pero una cosa es cierta: la era de los asistentes de IA que verdaderamente nos entienden – nuestras palabras, nuestros mundos y la rica tapestry de nuestras vidas diarias – está en marcha, y la última innovación de Apple puede muy bien estar a la vanguardia de esta revolución.

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del Aprendizaje Automático y el Aprendizaje Profundo. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad continua también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.

Unite.AI