Yapay Zekâ

Apple’ın ReALM’i ile Yapay Zekayı Devrimleştirme: Akıllı Asistanların Geleceği

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Yapay zeka peyzajında sürekli olarak değişen bir manzara içinde, Apple sessizce bir dizi devrim niteliğinde bir yaklaşım geliştirmiştir ve bu, iPhone’lar ile etkileşim şeklimizi yeniden tanımlayabilir. ReALM veya Referans Çözümü olarak Dil Modelleme, bağlamsal farkındalık ve sorunsuz asistanlık düzeyini getirebilecek bir yapay zeka modelidir.

Teknoloji dünyası OpenAI’nin GPT-4 ve diğer büyük dil modelleri (LLM’ler) hakkında heyecanla konuşurken, Apple’ın ReALM’i bir düşünce değişimini temsil ediyor – yalnızca bulut tabanlı yapay zekaya değil, daha kişiselleştirilmiş, cihazda çalışan bir yaklaşıma doğru bir hareket. Hedef? Gerçekten sizi, dünyanızı ve günlük dijital etkileşimlerinizi anlayan bir akıllı asistan oluşturmak.

ReALM’in kalbinde, referansları çözebilme yetisi yatıyor – insanların bağlamsal ipuçları sayesinde kolayca gezinebildiği ancak yapay zeka asistanları için uzun süredir bir engel olan o belirsiz zamirleri gibi “o”, “onlar” veya “şu”.

Siri’ye “buzdolabimdaki şeylere dayanarak mantarları hariç tutarak bana sağlıklı bir tarif bul” diye sorduğunuzu hayal edin. ReALM ile iPhone’unuz, yalnızca ekrandaki bilgileri (buzdolabının içeriği) değil, aynı zamanda kişisel tercihlerinizi (mantarları sevmeme) ve bu parametrelere göre bir tarif bulma bağlamını da anlayacaktır.

Bu düzeyde bağlamsal farkındalık, çoğu current yapay zeka asistanının kullandığı anahtar kelime eşleştirme yaklaşımından çok daha ileri bir seviyedir. Konuşma, ekrandaki ve arka plan olmak üzere üç ana alandaki referansları sorunsuz bir şekilde çözebilme yetisi ile ReALM, gerçekten akıllı bir dijital yardımcı oluşturmayı hedefliyor – daha çok kendi düşünce süreçlerinizin bir uzantısı gibi hissedeceğiniz bir yardımcı.

Konuşma Alanı: Öncesini Hatırlama

ReALM, konuşma yapay zekası alanında uzun süredir devam eden bir sorunu ele alıyor: çoklu diyalog döngülerinde tutarlılık ve hafıza koruma. Referansları devam eden bir konuşma içinde çözebilme yetisi ile ReALM, nihayet doğal, ileri geri bir etkileşim vaadini gerçekleştirebilir.

Siri’ye “Cuma günü maaşımı aldığım zaman tatil için biletleri hatırlat” diye sorduğunuzu hayal edin. ReALM ile Siri, yalnızca tatil planlarınızın bağlamını (potansiyel olarak önceki bir konuşmadan veya ekrandaki bilgilerden) değil, aynı zamanda “maaş alma”yı düzenli maaş gününüzle bağlama yeteneğine de sahip olacaktır.

Bu düzeyde konuşma zekası, gerçekten ileri bir adımdır ve sürekli olarak bağlamı yeniden açıklamak veya kendini tekrarlamak zorunda kalmadan sorunsuz çoklu diyaloglar sağlar.

Ekrandaki Alan: Asistanınıza Gözler Verme

Ancak ReALM’in belki de en devrim niteliğinde olan yönü, ekrandaki varlıklara referansları çözebilme yetisidir – gerçekten elsiz, sesle yönlendirilen bir kullanıcı deneyimi yaratma yönünde önemli bir adımdır.

Apple’ın araştırma makalesi, cihazınızın ekranından görsel bilgileri bir Large Language Model (LLM) tarafından işlenebilecek bir forma dönüştürmek için yeni bir teknikten bahseder. Ekranın düzenini metin tabanlı bir temsil olarak yeniden oluşturarak, ReALM “görebilir” ve ekrandaki çeşitli öğeler arasındaki uzaysal ilişkileri anlayabilir.

Siri’ye “Main Street’teki restorana yönlerimi göster” diye sorduğunuzu hayal edin. ReALM ile iPhone’unuz, yalnızca belirli bir konum referansını değil, aynı zamanda bu tanıma uyan restoran listesini de ekrandaki ilgili varlıkla bağlayacaktır.

Bu düzeyde görsel anlama, uygulamalar ve web siteleri içinde referanslara göre hareket etmekten, gelecekteki AR arayüzleriyle entegre olmaya ve hatta cihazınızın kamerası aracılığıyla gerçek dünya nesnelerine ve ortamlarına tepki vermeye kadar bir dizi olasılık açar.

Araştırma makalesi, sistemlerin ekrandaki varlıkları nasıl kodladıkları ve çeşitli bağlamlarda referansları nasıl çözdükleri hakkında ayrıntılı açıklamalar içerir. İşte makalede verilen algoritmaların ve örneklerin basitleştirilmiş bir açıklaması:

Ekrandaki Varlıkları Kodlama: Makale, ekrandaki öğeleri Large Language Model (LLM) tarafından işlenebilecek bir metin formatına dönüştürmek için çeşitli stratejileri araştırır. Bir yaklaşım, çevreleyen nesneleri uzaysal yakınlıklarına göre gruplamak ve bu gruplandırılmış nesneleri içeren promt’lar oluşturmaktır. Ancak bu method, nesne sayısı arttıkça aşırı uzun promt’lara neden olabilir.

Araştırmacılar tarafından benimsenen nihai yaklaşım, ekranı üstten alta, soldan sağa doğru sıralayarak, düzeni metin formatında temsil etmektir. Bu, Algoritma 2 ile gerçekleştirilir; bu, ekrandaki nesneleri merkez koordinatlarına göre sıralar, belirli bir marj içinde gruplandırılmış nesneler tarafından dikey seviyeleri belirler ve bu seviyeleri aynı satırdaki nesneleri ayıran sekme karakterleriyle birleştirerek ekrandaki parse’ı oluşturur.

İlgili varlıkları (bu durumda telefon numaraları) metin temsiline enjekte ederek, LLM ekrandaki bağlamı anlayabilir ve referansları uygun şekilde çözebilir.

Referans Çözümleme Örnekleri: Makale, ReALM modelinin çeşitli bağlamlarda referansları çözebilme yeteneklerini göstermek için birkaç örnek sağlar:

a. Konuşma Referansları: “Siri, buzdolabimdaki şeylere dayanarak mantarları hariç tutarak bana sağlıklı bir tarif bul – ben mantarı sevmiyorum” gibi bir istek için, ReALM ekrandaki bağlamı (buzdolabının içeriği), konuşma bağlamını (tarif bulma) ve kullanıcı tercihlerini (mantar sevmeme) anlayabilir.

b. Arka Plan Referansları: “Siri, daha önce süpermarkette çalan o şarkıyı çal” gibi bir örnek için, ReALM potansiyel olarak ambiente ses parçalarını yakalayabilir ve belirli şarkıya referansı çözebilir.

c. Ekrandaki Referanslar: “Siri, Cuma günü maaşımı aldığım zaman tatil için biletleri hatırlat” gibi bir istek için, ReALM kullanıcı rutinlerini (maaş günü), ekrandaki konuşmaları veya web sitelerini (tatil planları) ve takvimi birleştirerek isteği anlayabilir ve üzerine eyleyebilir.

Bu örnekler, ReALM’in konuşma, ekrandaki ve arka plan bağlamlarında referansları çözebilme yeteneğini göstermektedir ve daha doğal, sorunsuz bir etkileşimi sağlar.

Arka Plan Alanı

Sadece konuşma ve ekrandaki bağlamların ötesine geçerek, ReALM ayrıca arka plan varlıklarına referansları çözebilme yeteneğini araştırıyor – genellikle mevcut yapay zeka asistanlarımızın dikkat etmediği periferik olaylar ve süreçler.

Siri’ye “süpermarkette daha önce çalan o şarkıyı çal” diye sorduğunuzu hayal edin. ReALM ile iPhone’unuz, potansiyel olarak ambiente ses parçalarını yakalayabilir ve Siri’nin aklınıza gelen şarkıyı kolayca çalmaya başlayabilmesi için referansı çözebilir.

Bu düzeyde arka plan farkındalığı, gerçekten her yerde ve bağlamsal olarak farkında olan yapay zeka asistanlarının ilk adımı gibi hissediyor – yalnızca sizin sözlerinizi değil, aynı zamanda günlük deneyimlerinizin zengin dokusunu anlayan bir dijital yardımcı.

Cihazda Yapay Zeka’nın Vaadi: Gizlilik ve Kişiselleştirme

ReALM’in yetenekleri şüphesiz etkileyici, ancak belki de en önemli avantajı, Apple’ın uzun süredir devam eden cihazda yapay zeka ve kullanıcı gizliliği taahhüdüdür.

Bulut tabanlı yapay zeka modellerinin aksine, ReALM tamamen iPhone’unuz veya diğer Apple cihazlarınızda çalışmak üzere tasarlanmıştır. Bu, yalnızca veri gizliliği endişelerini ele almakla kalmaz, aynı zamanda size gerçekten adapte olabilen ve öğrenen bir AI asistanı oluşturur.

Cihazınızdaki verilerinizi öğrenerek – konuşmalarınız, uygulama kullanım kalıplarınız ve hatta ambiente sensör girişleriniz – ReALM, benzersiz ihtiyaçlarınıza, tercihlerinize ve günlük rutinlerinize göre uyarlanmış bir dijital asistan oluşturabilir.

Bu düzeyde kişiselleştirme, mevcut AI asistanlarının sıklıkla bireysel kullanıcıların özelliklerine ve bağlamlarına uyum sağlamakta zorlandığı bir paradigma değişikliği gibi hissediyor.

ReALM-250M modeli etkileyici sonuçlar elde ediyor:

- Konuşma Anlama: 97.8
- Sentetik Görev Anlama: 99.8
- Ekrandaki Görev Performansı: 90.6
- Görülmemiş Alan İşleme: 97.2

Etik Düşünceler

Elbette, bu düzeyde kişiselleştirme ve bağlamsal farkındalık ile birlikte, gizlilik, şeffaflık ve AI sistemlerinin kullanıcı davranışını etkileyip etkileyemeyeceği veya manipüle edip edemeyeceği konusunda bir dizi etik düşünce ortaya çıkıyor.

ReALM, günlük hayatınızın her yönünü – yemek alışkanlıklarınızdan, medya tüketim kalıplarınıza, sosyal etkileşimlerinize ve kişisel tercihlerinize kadar – daha derin bir şekilde anladıkça, bu teknolojinin kullanıcı güvenini ihlal edecek veya etik sınırları aşacak şekilde kullanılma riski ortaya çıkıyor.

Apple’ın araştırmacıları, bu gerilimi farkında olarak, makalelerinde gerçekten yardımcı ve kişiselleştirilmiş bir AI deneyimi sunmak ile kullanıcı gizliliği ve ajansını saygı göstermek arasında dikkatli bir denge kurma ihtiyacını vurguluyorlar.

Bu zorluk, elbette ki yalnızca Apple veya ReALM ile sınırlı değil – bu, tüm teknoloji endüstrisinin gelişen AI sistemleri günlük hayatlarımızın bir parçası haline geldikçe başa çıkması gereken bir konuşma.

Daha Akıllı, Daha Doğal Bir AI Deneyimi Doğruyu

Apple, ReALM gibi modellerle cihazda yapay zeka sınırlarını itmeye devam ederken, gerçekten akıllı, bağlamsal olarak farkında olan bir dijital asistan vaadi daha önce hiç olmadığı kadar yakın hissediyor.

Siri’nin (veya gelecekte bu AI asistanının adlandırılabileceği herhangi bir isim) buluttan gelen bir ses yerine kendi düşünce süreçlerinizin bir uzantısı gibi hissettiren bir dünya hayal edin – bir partner ki yalnızca sözlerinizi değil, aynı zamanda dijital hayatınızın, günlük rutinlerinizin ve benzersiz tercihlerinizin zengin dokusunu da anlar.

Uygulamalar ve web siteleri içinde referanslara göre hareket etmekten, konumunuza, aktivitenize ve ambiente sensör girişlerine dayanarak ihtiyaçlarınızı öngörerek, ReALM gerçekten doğal, sorunsuz bir AI deneyimine doğru önemli bir adımdır – bu, dijital ve fiziksel dünyalarımız arasındaki sınırları bulanıklaştırır.

Elbette bu vizyonu gerçekleştirmek, yalnızca teknik inovasyondan daha fazlasını gerektirecek – aynı zamanda AI geliştirmeye etik, düşünceli bir yaklaşım da gerekecek; bu, kullanıcı gizliliği, şeffaflık ve ajansını önceliklendirecektir.

Apple, ReALM’in yeteneklerini geliştirip genişletmeye devam ederken, teknoloji dünyası nefeslerini tutarak izleyecek ve bu öncü AI modelinin akıllı asistanların geleceğini nasıl şekillendireceğini ve gerçekten kişiselleştirilmiş, bağlamsal olarak farkında olan bir hesaplama çağını nasıl başlatacağını görecek.

ReALM’in, hatta güçlü GPT-4’i geride bırakıp bırakamayacağı henüz görülmesi gereken bir şey. Ancak bir şey kesin: gerçekten bizi anlayan – sözlerimizi, dünyamızı ve günlük hayatlarımızın zengin dokusunu anlayan – AI asistanlarının çağı başladı ve Apple’ın son inovasyonu bu devrimin ön saflarında olabilir.

Aayush Mittal

Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.

Unite.AI