Tekoäly

Vallankumouksellistavaa AI:ta Apple:n ReALM:in avulla: Älykkäiden avustajien tulevaisuus

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Tekoälymaisemassa, joka kehittyy jatkuvasti, Apple on hiljaisesti uranuurtanut uraauurtavan lähestymistavan, joka voisi määritellä uudelleen, miten vuorovaikutamme iPhone-laitteidemme kanssa. ReALM, tai Reference Resolution as Language Modeling, on tekoälymalli, joka lupailee tuoda uuden tason kontekstuaalista tietoisuutta ja vaivatonta apua.

Teknologiamaailma kuhisee jännityksestä OpenAI:n GPT-4:n ja muiden suurten kielen mallien (LLM) ympärillä, Apple:n ReALM edustaa ajattelutavan muutosta – siirtymistä pelkästään pilvipohjaisen tekoälyn käytöstä enemmän henkilökohtaiseen, laitteistopohjaiseen lähestymistapaan. Tavoitteena on luoda älykäs avustaja, joka todella ymmärtää sinut, maailmasi ja päivittäisten digitaalisten vuorovaikutustesi monimutkaisen koostumuksen.

ReALM:n ytimessä on kyky ratkaista viittaukset – ne epäselvät pronominet kuten “se“, “he” tai “se“, joita ihmiset navigoivat helposti kontekstuaalisten vihjeiden ansiosta. Tekoälyavustajille nämä ovat kuitenkin olleet pitkään este, johtuen turhauttaviin väärinymmärryksiin ja epäyhtenäiseen käyttökokemukseen.

Kuvittele tilanne, jossa pyydät Siriltä “etsi minulle terveellinen resepti siitä, mitä on jääkaapissani, mutta jätä sienet – en pidä niistä.” ReALM:n kanssa iPhone ymmärtäisi viittaukset näytön tietoihin (jääkaapin sisältö) ja muistaisi henkilökohtaiset mieltymyksesi (sienten vastaisuus) ja laajemman kontekstin reseptin etsimiseen näiden parametrejen mukaan.

Tämä taso kontekstuaalista tietoisuutta on kvanttiponnahdus nykyisten tekoälyavustajien avainsanamallista. Kouluttamalla LLM:itä ratkaisemaan viittauksia kolmessa avainalueessa – keskustelussa, näytöllä ja taustalla – ReALM pyrkii luomaan todella älykkään digitaalisen kumppanin, joka tuntuu vähemmän robotisoituneelta ääniohjaukselta ja enemmän oman ajatteluprosessin laajennukselta.

Keskustelualue: Muisti siitä, mitä edellä

Keskustelutekoälyssä ReALM käsittelee pitkään ollutta haastetta: yhtenäisyyden ja muistin ylläpitäminen useiden vuoropuhelujen aikana. Sen kyvyn ansiosta ratkaista viittauksia keskustelun aikana ReALM voisi lopulta toteuttaa luonnollisen, edestakaisen vuorovaikutuksen digitaalisen avustajasi kanssa.

Kuvittele, että pyydät Siriltä “muistuta minua varata liput lomalle, kun saan palkan perjantaina.” ReALM:n kanssa Siri ymmärtäisi kontekstin lomasuunnitelmistasi (mahdollisesti aiemmasta keskustelusta tai näytön tiedoista) ja olisi tietoinen “palkan” yhteydestä säännölliseen palkkapäivään.

Tämä taso keskusteluintelligenssiä tuntuu olevan todellinen edistysaskel, mahdollistaen vaivattomat monivuoroinen dialogit ilman turhauttavaa kontekstin uudelleen selittämistä tai toistamista.

Näytön alue: Antaa avustajalle silmät

ReALM:n ehkä mullistavin puoli on kuitenkin sen kyky ratkaista viittauksia näytön entiteetteihin – tärkeä askel kohti todella käsivapautta, ääniohjattua käyttöliittymää.

Apple:n tutkimusartikkeli käsittelee uudenlaista tekniikkaa visuaalisen tiedon koodaamiseksi laitteen näytöltä muotoon, jota LLM:t voivat prosessoida. Rakentamalla näytön ulkoasun uudelleen tekstimuotoon ReALM voi “nähdä” ja ymmärtää eri näytöllä olevien elementtien välistä suhdetta.

Kuvittele tilanne, jossa katsot ravintoloiden listaa ja pyydät Siriltä “ohjeet siihen, joka on Main Streetillä.” ReALM:n kanssa iPhone ymmärtäisi viittauksen tiettyyn sijaintiin ja sitoi sen relevanttiin näytöllä olevaan entiteettiin – ravintolan, joka vastaa kuvausta.

Tämä taso visuaalista ymmärtämistä avaa maailman mahdollisuuksia, alkaen vaivattomasta toiminnasta viittauksien parissa sovelluksissa ja verkkosivuilla ja päättyen tuleviin AR-liittymään ja jopa havainnoimiseen ja reagointiin oikeaan maailmaan laitteen kameran kautta.

Tutkimusartikkeli Apple:n ReALM-mallista puhuu yksityiskohtaisesti järjestelmän tavoista koodata näytöllä olevat entiteetit ja ratkaista viittauksia eri konteksteissa. Tässä on yksinkertaistettu selitys algoritmeista ja esimerkeistä, jotka esitetään artikkelissa:

Näytöllä olevien entiteettien koodaus: Artikkeli tarkastelee useita strategioita koodata näytöllä olevat elementit tekstimuotoon, jota suuri kielen malli (LLM) voi prosessoida. Yksi lähestymistapa sisältää läheisten objektien ryhmittelyn niiden spatiaalisen lähimmyyden perusteella ja luominen vihjeitä, jotka sisältävät nämä ryhmitellyt objektit. Tämä menetelmä voi kuitenkin johtaa liian pitkiin vihjeisiin, kun entiteettien määrä kasvaa.

Lopullinen lähestymistapa, jonka tutkijat ottivat käyttöön, on näytön parsiminen ylhäältä alas, vasemmalta oikealle, edustaen ulkoasua tekstimuodossa. Tämä saavutetaan Algoritmi 2:n avulla, joka lajittelee näytöllä olevat objektit niiden keskipistekoordinaattien mukaan, määrittää pystytasot ryhmittämällä objektit tietyn marginaalin sisällä, ja rakentaa näytön parsen liittämällä nämä tasot välillä olevilla välilehdillä erottamaan objekteja samalla rivillä.

Lisäämällä relevantit entiteetit (puhelinnumerot tässä tapauksessa) tekstimuotoon LLM voi ymmärtää näytön kontekstin ja ratkaista viittaukset vastaavasti.

Viittauksien ratkaisun esimerkkejä: Artikkeli tarjoaa useita esimerkkejä havainnollistamaan ReALM-mallin kykyä ratkaista viittauksia eri konteksteissa:

a. Keskustelun viittaukset: Pyynnölle “Siri, etsi minulle terveellinen resepti siitä, mitä on jääkaapissani, mutta jätä sienet – en pidä niistä”, ReALM voi ymmärtää näytön kontekstin (jääkaapin sisältö), keskustelukontekstin (reseptin etsintä) ja käyttäjän mieltymykset (sienten vastaisuus).

b. Taustan viittaukset: Esimerkissä “Siri, soita se kappale, joka soi supermarketissa aiemmin”, ReALM voi mahdollisesti havainnoida ja tunnistaa taustan ääniä viittauksen ratkaisemiseksi tiettyyn kappaleeseen.

c. Näytön viittaukset: Pyynnölle “Siri, muistuta minua varata liput lomalle, kun saan palkan perjantaina”, ReALM voi yhdistää tietoa käyttäjän rutiineista (palkkapäivä), näytöllä olevista keskusteluista tai verkkosivuista (lomasuunnitelmat) ja kalenterista ymmärtääkseen ja toimia pyynnön mukaan.

Nämä esimerkit osoittavat ReALM:n kyvyn ratkaista viittauksia keskustelun, näytön ja taustan konteksteissa, mahdollistaen luonnollisemman ja vaivattomamman vuorovaikutuksen älykkäiden avustajien kanssa.

Taustan alue

Siirtyminen keskustelun ja näytön konteksteista taustan kontekstiin, ReALM tutkii myös kyvyn ratkaista viittauksia taustaan liittyviin entiteetteihin – niitä ääri-ilmiöitä ja prosesseja, joita nykyiset tekoälyavustajamme usein huomaamatta ohittavat.

Kuvittele tilanne, jossa pyydät Siriltä “soita se kappale, joka soi supermarketissa aiemmin.” ReALM:n kanssa iPhone voisi mahdollisesti havainnoida ja tunnistaa taustan ääniä, mahdollistaen Sirin etsimän ja soittamaan kappaleen, jota ajattelit.

Tämä taso taustatietoisuutta tuntuu olevan ensimmäinen askel kohti todella kaikkialla läsnä olevaa, kontekstuaalista tekoälyapua – digitaalinen kumppani, joka ymmärtää sekä sanasi että rikkaan koostumuksen päivittäisistä kokemuksistasi.

Laitteistopohjaisen tekoälyn lupa: Yksityisyys ja henkilökohtaisuus

Vaikka ReALM:n ominaisuudet ovat ilmiselvästi vaikuttavia, sen merkittävin etu lienee Apple:n pitkäaikainen sitoutuminen laitteistopohjaiseen tekoälyyn ja käyttäjien yksityisyyteen.

Toisin kuin pilvipohjaiset tekoälymallit, jotka riippuvat käyttäjätietojen lähettämisestä etäpalvelimille prosessointia varten, ReALM on suunniteltu toimimaan kokonaan iPhone:ssa tai muissa Apple-laitteissa. Tämä ei ainoastaan vastaa tietosuojaa koskevia huolia vaan myös avaa uusia mahdollisuuksia tekoälyavuksi, jotka todella ymmärtävät ja mukautuvat sinuun yksilöllisesti.

Opettamalla suoraan laitteistotiedoistasi – keskusteluistasi, sovellus käyttäytymistöstäsi ja jopa taustasensoreiden syötteistä – ReALM voisi mahdollisesti luoda hyperhenkilökohtaisen digitaalisen avustajan, joka on räätälöity yksinomaan sinun tarpeisiisi, mieltymyksiisi ja päivittäisiin rutiineihisi.

Tämä taso henkilökohtaisuutta tuntuu olevan paradigman muutos nykyisten tekoälyavustajien yhden kokoa sopii kaikille -lähestymistavasta, joka usein kamppailee sopeutuakseen yksilöllisten käyttäjien omituisuuksiin ja konteksteihin.

ReALM-250M-malli saavuttaa vaikuttavat tulokset:

- Keskustelun ymmärtäminen: 97.8
- Synthetic Task Comprehension: 99.8
- Näytön tehtävän suoritus: 90.6
- Näkymättömän alueen käsittely: 97.2

Eettiset huomioonotot

Tietysti, tällaisen henkilökohtaisen ja kontekstuaalisen tietoisuuden kanssa tulee mukaan joukko etiikkaa koskevia huomioonottoja yksityisyydestä, avoimuudesta ja tekoälyjärjestelmien potentiaalisesta vaikuttamisesta tai jopa manipuloinnista käyttäjän käyttäytymistä.

Kun ReALM saa syvemmän ymmärryksen päivittäisestä elämästäsi – ruokatottumuksistasi ja mediankulutusmallistasi sosiaalisiin vuorovaikutuksiisi ja henkilökohtaisiin mieltymyksiisi – on riski, että tätä teknologiaa voidaan käyttää tavoin, jotka loukkaavat käyttäjien luottamusta tai rikkoavat eettisiä rajoja.

Apple:n tutkijat ovat tietoisia tästä jännitteestä ja tunnustavat artikkelissaan tarpeen löytää tasapaino todella avuliaan ja henkilökohtaisen tekoälykokemuksen tarjoamisen ja käyttäjien yksityisyyden ja toimivallan kunnioittamisen välillä.

Tämä haaste ei ole ainutlaatuinen Apple:lle tai ReALM:ille – se on keskustelu, johon koko teknologiaindustri on osallistunut, kun tekoälyjärjestelmät tulevat yhä monimutkaisemmiksi ja integroiduksi arkeen.

Kohti älykkäämpää, luonnollisempaa tekoälykokemusta

Kun Apple jatkaa laitteistopohjaisen tekoälyn rajojen työntämistä malleilla kuten ReALM, lupaava todella älykkään, kontekstuaalisen digitaalisen avustajan toteutuminen tuntuu lähempänä kuin koskaan aiemmin.

Kuvittele maailma, jossa Siri (tai mikä tahansa tulevaisuuden tekoälyavustaja) tuntuu vähemmän irti irronneelta ääniohjaukselta ja enemmän oman ajatteluprosessin laajennukselta – kumppanina, joka ymmärtää sekä sanasi että rikkaan koostumuksen digitaalista elämääsi, päivittäisiä rutiinejasi ja yksilöllisiä kontekstejasi.

ReALM edustaa merkittävää askelta kohti luonnollisempaa, vaivattomampaa tekoälykokemusta, joka häivyttää rajat digitaalisen ja fyysisen maailman välillä.

Toteuttamaan tämän visio, vaaditaan kuitenkin enemmän kuin pelkästään tekninen innovaatio – se vaatii myös tarkoituksenmukaisen, eettisen lähestymistavan tekoälykehitykseen, joka priorisoi käyttäjien yksityisyyden, avoimuuden ja toimivallan.

Kun Apple jatkaa ReALM:n kykyjen jalostamista ja laajentamista, teknologiamaailma seuraa varmasti jännittyneenä, odottaen nähdä, miten tämä uraauurtava tekoälymalli muokkaa älykkäiden avustajien tulevaisuutta ja vie meidät uuden aikakauden henkilökohtaiseen, kontekstuaaliseen laskentaan.

Onko ReALM lupaava ylittämään jopa mahtavan GPT-4:n, aika näyttää. Yksi asia on kuitenkin varma: älykkäiden avustajien aika, jotka todella ymmärtävät meidät – sanamme, maailmamme ja päivittäisten digitaalisten vuorovaikutustemme rikkaan koostumuksen – on täällä, ja Apple:n viimeisin innovaatio saattaa olla tämän vallankumouksen eturintamassa.

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.

Unite.AI