Connect with us

Dalla Siri a ReALM: Il Viaggio di Apple verso Assistenti Vocali più Intelligenti

Intelligenza artificiale

Dalla Siri a ReALM: Il Viaggio di Apple verso Assistenti Vocali più Intelligenti

mm

Dal lancio di Siri nel 2011, Apple è stata costantemente all’avanguardia nell’innovazione degli assistenti vocali, adattandosi alle esigenze degli utenti a livello globale. L’introduzione di ReALM segna un punto significativo in questo viaggio, offrendo uno sguardo sull’evoluzione del ruolo degli assistenti vocali nella nostra interazione con i dispositivi. Questo articolo esamina gli effetti di ReALM su Siri e le potenziali direzioni per gli assistenti vocali futuri.

L’ascesa degli assistenti vocali: la genesi di Siri

Il viaggio è iniziato quando Apple ha integrato Siri, un sofisticato sistema di intelligenza artificiale, nei suoi dispositivi, trasformando il modo in cui interagiamo con la nostra tecnologia. Originario dalla tecnologia sviluppata da SRI International, Siri è diventato lo standard di riferimento per gli assistenti vocali. Gli utenti potevano eseguire attività come ricerche su Internet e pianificazione attraverso semplici comandi vocali, spingendo i limiti delle interfacce conversazionali e accendendo una corsa competitiva nel mercato degli assistenti vocali.

Siri 2.0: una nuova era di assistenti vocali

Mentre Apple si prepara per il lancio di iOS 18 alla Conferenza mondiale degli sviluppatori (WWDC) nel giugno 2024, l’attesa si sta costruendo all’interno della comunità tecnologica per ciò che si prevede essere un’evoluzione significativa di Siri. Questa nuova fase, denominata Siri 2.0, promette di portare i progressi dell’intelligenza artificiale generativa in primo piano, potenzialmente trasformando Siri in un assistente virtuale ancora più sofisticato. Mentre gli esatti miglioramenti rimangono riservati, il mondo tecnologico è in fermento per la prospettiva di Siri che raggiunge nuove vette nell’intelligenza conversazionale e nell’interazione personalizzata con l’utente, sfruttando il tipo di modelli di apprendimento linguistico sofisticati visti in tecnologie come ChatGPT. In questo contesto, l’introduzione di ReALM, un modello linguistico compatto, suggerisce possibili miglioramenti che Siri 2.0 potrebbe introdurre per i suoi utenti. Le sezioni successive discuteranno il ruolo di ReALM e la sua possibile influenza come un importante passo nell’avanzamento continuo di Siri.

Presentazione di ReALM

ReALM, che sta per Reference Resolution As Language Modeling, è un modello linguistico specializzato nel decifrare riferimenti contestuali e ambigui durante le conversazioni, come “quello” o “questo”. Si distingue per la sua capacità di elaborare riferimenti conversazionali e visivi, trasformandoli in un formato testuale. Questa capacità consente a ReALM di interpretare e interagire con layout e elementi dello schermo in modo fluido all’interno di un dialogo, una funzione critica per gestire con precisione le query in contesti visivamente dipendenti.

L’architettura di ReALM va dalle versioni più piccole come ReALM-80M a quelle più grandi come ReALM-3B, sono state ottimizzate per essere computazionalmente efficienti per l’integrazione in dispositivi mobili. Questa efficienza consente prestazioni coerenti con un uso ridotto di potenza e minor carico sui risorse di elaborazione, importante per estendere la durata della batteria e fornire tempi di risposta rapidi su una varietà di dispositivi.

Inoltre, la progettazione di ReALM prevede aggiornamenti moduli, facilitando l’integrazione senza soluzione di continuità degli ultimi progressi nella risoluzione dei riferimenti. Questo approccio modulare non solo migliora l’adattabilità e la flessibilità del modello, ma assicura anche la sua vitalità e efficacia a lungo termine, consentendogli di soddisfare le esigenze degli utenti in evoluzione e gli standard tecnologici su un’ampia gamma di dispositivi.

ReALM vs. modelli linguistici

Mentre i modelli linguistici tradizionali come GPT-3.5 elaborano principalmente testi, ReALM prende una strada multimodale, simile a modelli come Gemini, lavorando con testi e visuali. A differenza delle funzionalità più ampie di GPT-3.5 e Gemini, che gestiscono attività come la generazione di testi, la comprensione e la creazione di immagini, ReALM è particolarmente rivolto al decifrare contesti conversazionali e visivi. Tuttavia, a differenza dei modelli multimodali come Gemini che elaborano direttamente dati visivi e testuali, ReALM traduce il contenuto visivo degli schermi in testo, annotando entità e dettagli spaziali. Questa conversione consente a ReALM di interpretare il contenuto dello schermo in modo testuale, facilitando un’identificazione e comprensione più precisa dei riferimenti sullo schermo.

Come ReALM potrebbe trasformare Siri?

ReALM potrebbe migliorare notevolmente le capacità di Siri, trasformandolo in un assistente più intuitivo e consapevole del contesto. Ecco come potrebbe impattare:

  • Migliore comprensione del contesto: ReALM si specializza nel decifrare riferimenti ambigui nelle conversazioni, potenzialmente migliorando notevolmente la capacità di Siri di comprendere le query dipendenti dal contesto. Ciò consentirebbe agli utenti di interagire con Siri in modo più naturale, poiché potrebbe afferrare riferimenti come “riproduci quella canzone di nuovo” o “chiama lei” senza ulteriori dettagli.
  • Miglior interazione con lo schermo: Con la sua competenza nell’interpretare layout e elementi dello schermo all’interno dei dialoghi, ReALM potrebbe abilitare Siri a integrarsi più fluidamente con il contenuto visivo del dispositivo. Siri potrebbe quindi eseguire comandi relativi a elementi sullo schermo, come “apri l’app accanto a Mail” o “scorri verso il basso su questa pagina”, ampliando la sua utilità in vari compiti.
  • Personalizzazione: Imparando dalle interazioni precedenti, ReALM potrebbe migliorare la capacità di Siri di offrire risposte personalizzate e adattive. Nel tempo, Siri potrebbe prevedere le esigenze e le preferenze degli utenti, suggerendo o iniziando azioni in base al comportamento passato e alla comprensione del contesto, simile a un assistente personale esperto.
  • Miglior accessibilità: Le capacità di comprensione del contesto e dei riferimenti di ReALM potrebbero beneficiare notevolmente l’accessibilità, rendendo la tecnologia più inclusiva. Siri, alimentato da ReALM, potrebbe interpretare comandi vaghi o parziali in modo preciso, facilitando un uso più naturale e facile dei dispositivi per le persone con disabilità fisiche o visive.

ReALM e la strategia AI di Apple

Il lancio di ReALM riflette un aspetto chiave della strategia AI di Apple, enfatizzando l’intelligenza sul dispositivo. Questo sviluppo si allinea con la più ampia tendenza dell’industria verso l’elaborazione edge, dove i dati vengono elaborati localmente sui dispositivi, riducendo la latenza, conservando la larghezza di banda e proteggendo i dati degli utenti sul dispositivo stesso.

Il progetto ReALM mostra anche gli obiettivi AI più ampi di Apple, concentrandosi non solo sull’esecuzione dei comandi, ma anche sulla comprensione e previsione più profonda delle esigenze degli utenti. ReALM rappresenta un passo verso future innovazioni in cui i dispositivi potrebbero fornire supporto più personalizzato e predittivo, informato da una comprensione approfondita delle abitudini e delle preferenze degli utenti.

Il punto chiave

L’evoluzione di Apple da Siri a ReALM sottolinea una continua evoluzione nella tecnologia degli assistenti vocali, concentrandosi su una migliore comprensione del contesto e sull’interazione con l’utente. ReALM segna un passaggio verso assistenti vocali più intelligenti, personalizzati e consapevoli della privacy, allineandosi con la tendenza dell’industria verso l’elaborazione edge per un miglioramento dell’elaborazione e della sicurezza sul dispositivo.

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.