Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

FrÄn Siri till ReALM: Apples resa till smartare röstassistenter

mm

Sedan Siris lansering 2011 har Apple konsekvent legat i framkanten av röstassistentinnovation och anpassat sig till globala anvÀndarbehov. Introduktionen av ReALM markerar en viktig punkt i denna resa, och ger en inblick i röstassistenternas förÀnderliga roll i vÄr interaktion med enheterna. Den hÀr artikeln undersöker effekterna av ReALM pÄ Siri och de potentiella anvisningarna för framtida röstassistenter.

The Rise of Voice Assistants: Siri's Genesis

Resan började nÀr Apple integrerade Siri, ett sofistikerat artificiell intelligenssystem, i sina enheter, och förÀndrade hur vi interagerar med vÄr teknik. Kommer frÄn teknik utvecklad av SRI International, blev Siri guldstandarden för röststyrda assistenter. AnvÀndare kan utföra uppgifter som internetsökningar och schemalÀggning genom enkla röstkommandon, tÀnja pÄ grÀnserna för samtalsgrÀnssnitt och starta en konkurrensutsatt kapplöpning pÄ röstassistentmarknaden.

Siri 2.0: En ny era av röstassistenter

Som Apple rustar upp för lanseringen av iOS 18 vid Worldwide Developers Conference (WWDC) i juni 2024 byggs förvĂ€ntan inom teknikgemenskapen för vad som förvĂ€ntas bli en betydande utveckling av Siri. Denna nya fas, kallad Siri 2.0, lovar att ta generativa AI-framsteg i framkant, vilket potentiellt förvandlar Siri till en Ă€nnu mer sofistikerad virtuell assistent. Även om de exakta förbĂ€ttringarna förblir konfidentiella, vimlar teknikvĂ€rlden av utsikterna att Siri kan nĂ„ nya höjder inom konversationsintelligens och personlig anvĂ€ndarinteraktion, genom att utnyttja den typ av sofistikerade sprĂ„kinlĂ€rningsmodeller som finns i teknologier som ChatGPT. I detta sammanhang föreslĂ„r introduktionen av ReALM, en kompakt sprĂ„kmodell, möjliga förbĂ€ttringar som Siri 2.0 kan introducera för sina anvĂ€ndare. Följande avsnitt kommer att diskutera ReALM:s roll och dess potentiella inflytande som ett viktigt steg i Siris pĂ„gĂ„ende utveckling.

AvtÀckning av ReALM

ReALM, som stÄr för Reference Resolution As Language Modeling, Àr en specialiserad sprÄkmodell som Àr skicklig pÄ att dechiffrera kontextuella och tvetydiga referenser under konversationer, som "den dÀr" eller "den hÀr". Den utmÀrker sig för sin förmÄga att bearbeta konversations- och visuella referenser och omvandla dem till ett textformat. Denna förmÄga gör det möjligt för ReALM att tolka och interagera med skÀrmlayouter och element sömlöst i en dialog, en kritisk funktion för att korrekt hantera frÄgor i visuellt beroende sammanhang.

Arkitekturen för ReALM strÀcker sig frÄn mindre versioner som ReALM-80M till större som ReALM-3B, Àr optimerade för att vara berÀkningseffektiva för integration i mobila enheter. Denna effektivitet möjliggör konsekvent prestanda med minskad energianvÀndning och mindre pÄfrestning pÄ bearbetningsresurser, viktigt för att förlÀnga batteritiden och ge snabba svarstider pÄ en mÀngd olika enheter.

Dessutom rymmer ReALMs design modulÀra uppdateringar, vilket underlÀttar sömlös integrering av de senaste framstegen inom referensupplösning. Detta modulÀra tillvÀgagÄngssÀtt förbÀttrar inte bara modellens anpassningsförmÄga och flexibilitet utan sÀkerstÀller ocksÄ dess lÄngsiktiga livskraft och effektivitet, vilket gör att den kan möta förÀnderliga anvÀndarbehov och tekniska standarder över ett brett spektrum av enheter.

ReALM vs. sprÄkmodeller

Medan traditionella sprÄkmodeller gillar GPT-3.5 huvudsakligen bearbetar text, ReALM tar en multimodal vÀg, liknande modeller som Gemini, genom att arbeta med bÄde text och bild. Till skillnad frÄn de bredare funktionerna i GPT-3.5 och tvillingarna, som hanterar uppgifter som textgenerering, förstÄelse och bildskapande, Àr ReALM sÀrskilt inriktat pÄ att dechiffrera konversations- och visuella sammanhang. Men till skillnad frÄn multimodala modeller som Gemini som direkt bearbetar visuella och textdata, översÀtter ReALM visuellt innehÄll pÄ skÀrmar till text, annoterande enheter och deras rumsliga detaljer. Denna konvertering tillÄter ReALM att tolka skÀrminnehÄllet pÄ ett textmÀssigt sÀtt, vilket underlÀttar mer exakt identifiering och förstÄelse av referenser pÄ skÀrmen.

Hur kan ReALM förvandla Siri?

ReALM kan avsevÀrt förbÀttra Siris kapacitet och förvandla den till en mer intuitiv och sammanhangsmedveten assistent. SÄ hÀr kan det pÄverka:

  • BĂ€ttre kontextuell förstĂ„else: ReALM Ă€r specialiserat pĂ„ att dechiffrera tvetydiga referenser i konversationer, vilket potentiellt förbĂ€ttrar Siris förmĂ„ga att förstĂ„ kontextberoende frĂ„gor. Detta skulle tillĂ„ta anvĂ€ndare att interagera med Siri mer naturligt, eftersom det kunde förstĂ„ referenser som "spela den lĂ„ten igen" eller "ringa henne" utan ytterligare detaljer.
  • FörbĂ€ttrad skĂ€rminteraktion: Med sin skicklighet i att tolka skĂ€rmlayouter och element i dialoger kan ReALM göra det möjligt för Siri att integreras mer flytande med en enhets visuella innehĂ„ll. Siri kunde sedan utföra kommandon relaterade till objekt pĂ„ skĂ€rmen, till exempel "öppna appen bredvid Mail" eller "rulla ner pĂ„ den hĂ€r sidan" och utöka dess nytta i olika uppgifter.
  • personalisering: Genom att lĂ€ra av tidigare interaktioner kan ReALM förbĂ€ttra Siris förmĂ„ga att erbjuda personliga och adaptiva svar. Med tiden kan Siri förutsĂ€ga anvĂ€ndarnas behov och preferenser, föreslĂ„ eller initiera Ă„tgĂ€rder baserat pĂ„ tidigare beteende och kontextuell förstĂ„else, liknande en kunnig personlig assistent.
  • FörbĂ€ttrad tillgĂ€nglighet: Kontext- och referensförstĂ„elseförmĂ„gan hos ReALM kan avsevĂ€rt gynna tillgĂ€ngligheten och göra tekniken mer inkluderande. Siri, som drivs av ReALM, kunde tolka vaga eller partiella kommandon korrekt, vilket underlĂ€ttar enklare och mer naturlig enhetsanvĂ€ndning för personer med fysiska eller synskadade.

ReALM och Apples AI-strategi

ReALMs lansering Äterspeglar en nyckelaspekt av Apples AI-strategi, med tonvikt pÄ intelligens pÄ enheten. Denna utveckling Àr i linje med den bredare branschtrenden av edge computing, dÀr data bearbetas lokalt pÄ enheter, vilket minskar latensen, sparar bandbredd och sÀkrar anvÀndardata pÄ sjÀlva enheten.

ReALM-projektet visar ocksÄ upp Apples bredare AI-mÄl, med fokus inte bara pÄ kommandoexekvering utan ocksÄ pÄ en djupare förstÄelse och förutsÀgelse av anvÀndarbehov. ReALM representerar ett steg mot framtida innovationer dÀr enheter kan ge mer personligt och förutsÀgande stöd, informerat av ett djupgÄende grepp om anvÀndarvanor och preferenser.

The Bottom Line

Apples utveckling frÄn Siri till ReALM belyser en fortsatt utveckling inom röstassistentteknik, med fokus pÄ förbÀttrad kontextförstÄelse och anvÀndarinteraktion. ReALM innebÀr en förÀndring mot mer intelligent, personlig och integritetsmedveten röstassistans, i linje med branschtrenden med edge computing för förbÀttrad bearbetning och sÀkerhet pÄ enheten.

Dr. Tehseen Zia Ă€r fast docent vid COMSATS University Islamabad och har en doktorsexamen i AI frĂ„n Wiens tekniska universitet, Österrike. Han Ă€r specialiserad pĂ„ artificiell intelligens, maskininlĂ€rning, datavetenskap och datorseende och har gjort betydande bidrag med publikationer i vĂ€lrenommerade vetenskapliga tidskrifter. Dr. Tehseen har ocksĂ„ lett olika industriella projekt som huvudutredare och fungerat som AI-konsult.