Yapay Zeka

Mobil Aracılar: Görsel Algıya Sahip Otonom Çok Modlu Mobil Cihaz Aracısı

Yayınlanan Şubat 26, 2024

Kunal Kejriwal

Çok Modlu Büyük Dil Modellerinin (MLLM) ortaya çıkışı, metin, görüntü ve ses aracılığıyla dünyayı anlama ve onunla etkileşim kurma becerisine sahip mobil cihaz aracılarında yeni bir çağ başlattı. Bu aracılar, kullanıcıların cihazlarıyla etkileşim kurması için daha zengin ve daha sezgisel bir yol sunarak geleneksel yapay zekaya göre önemli bir ilerlemeye işaret ediyor. Bu aracılar, MLLM'den yararlanarak çeşitli yöntemlerden gelen büyük miktarlarda bilgiyi işleyebilir ve sentezleyebilir, böylece kişiselleştirilmiş yardım sunmalarına ve kullanıcı deneyimlerini daha önce hayal bile edilemeyecek şekillerde geliştirmelerine olanak tanır.

Bu aracılar, son teknoloji ürünü makine öğrenimi teknikleri ve gelişmiş doğal dil işleme yetenekleriyle desteklenerek insan benzeri metinleri anlamalarına ve oluşturmalarına, ayrıca görsel ve işitsel verileri dikkate değer bir doğrulukla yorumlamalarına olanak tanır. Görüntülerdeki nesneleri ve sahneleri tanımaktan, konuşulan komutları anlamaya ve metin duyarlılığını analiz etmeye kadar bu çok modlu aracılar, çok çeşitli girdileri sorunsuz bir şekilde işleyecek donanıma sahiptir. Bu teknolojinin potansiyeli çok büyüktür; insan duygularına uyum sağlayan sanal asistanlar ve bireysel öğrenme stillerine uyum sağlayan eğitim araçları gibi daha karmaşık ve bağlamsal olarak bilinçli hizmetler sunar. Ayrıca erişilebilirlikte devrim yaratarak teknolojiyi dil ve duyu engellerini aşarak daha ulaşılabilir hale getirme potansiyeline de sahipler.

Bu yazıda, ilk olarak görsel algılama araçlarının yeteneğinden yararlanarak görsel ve metinsel öğeleri bir mobil uygulamanın ön uç arayüzü ile doğru bir şekilde tanımlayıp konumlandıran otonom, çok modlu bir cihaz aracısı olan Mobile-Agent'lardan bahsedeceğiz. Bu algılanan vizyon bağlamını kullanarak, Mobile-Agent çerçevesi karmaşık operasyon görevini otonom bir şekilde planlayıp ayrıştırır ve mobil uygulamalarda adım adım operasyonlar gerçekleştirir. Mobile-Agent çerçevesi, mobil sistem meta verilerine veya mobil uygulamaların XML dosyalarına dayanmadığı ve çeşitli mobil işletim ortamlarında vizyon merkezli bir şekilde gelişmiş uyarlanabilirlik için alan sağladığı için mevcut çözümlerden farklıdır. Mobil Aracı çerçevesi tarafından izlenen yaklaşım, sisteme özgü özelleştirmelere olan gereksinimi ortadan kaldırarak performansın artmasına ve bilgi işlem gereksinimlerinin azalmasına neden olur.

Mobil Aracılar: Otonom Çok Modlu Mobil Cihaz Aracısı

Mobil teknolojinin hızlı dünyasında, öncü bir konsept öne çıkıyor: Büyük Dil Modelleri, özellikle de Çok Modlu Büyük Dil Modelleri veya farklı dillerde çok çeşitli metin, resim, video ve konuşma üretebilen MLLM'ler. MLLM çerçevelerinin son birkaç yılda hızlı gelişimi, MLLM'lerin yeni ve güçlü bir uygulamasının ortaya çıkmasına neden oldu: otonom mobil aracılar. Otonom mobil aracılar, doğrudan insan komutlarına ihtiyaç duymadan bağımsız olarak hareket eden, hareket eden ve işlev gören, görevleri gerçekleştirmek, bilgi toplamak veya sorunları çözmek için ağlar veya cihazlar arasında geçiş yapmak üzere tasarlanmış yazılım varlıklarıdır.

Mobil Aracılar, kullanıcının mobil cihazını kullanıcı talimatlarına ve ekran görsellerine göre çalıştırmak üzere tasarlanmıştır; bu görev, aracıların hem anlamsal anlama hem de görsel algılama yeteneklerine sahip olmasını gerektirir. Bununla birlikte, mevcut mobil etmenler, çok modlu büyük dil modellerine dayandıkları için mükemmel olmaktan uzaktır ve hatta GPT-4V dahil olmak üzere en son teknolojiye sahip MLLM çerçeveleri bile, etkili bir iletişim aracı olarak hizmet etmek için gereken görsel algılama yeteneklerinden yoksundur. mobil temsilci. Ayrıca, mevcut çerçeveler etkili operasyonlar üretebilse de, bu operasyonların konumunu ekran üzerinde doğru bir şekilde konumlandırmakta zorluk çekiyor, bu da uygulamaları ve mobil aracıların mobil cihazlar üzerinde çalışma yeteneğini sınırlıyor.

Bu sorunun üstesinden gelmek için bazı çerçeveler, GPT-4V'ye veya diğer MLLM'lere yerelleştirme yetenekleri konusunda yardımcı olmak için kullanıcı arayüzü düzen dosyalarından yararlanmayı tercih etti; bazı çerçeveler, uygulamanın XML dosyalarına erişerek ekrandaki eyleme geçirilebilir konumları çıkarmayı yönetirken, diğer çerçeveler uygulamanın XML dosyalarına erişerek ekrandaki işlem yapılabilir konumları çıkarmayı yönetiyor. web uygulamalarından HTML kodunu kullanmayı tercih etti. Görüldüğü gibi, bu çerçevelerin çoğunluğu, temeldeki ve yerel uygulama dosyalarına erişime dayanmaktadır ve çerçevenin bu dosyalara erişememesi durumunda yöntemi neredeyse etkisiz hale getirmektedir. Bu sorunu çözmek ve yerel aracıların yerelleştirme yöntemlerindeki temel dosyalara bağımlılığını ortadan kaldırmak için geliştiriciler, etkileyici görsel algılama yeteneklerine sahip otonom bir mobil aracı olan Mobile-Agent üzerinde çalıştı. Mobile-Agent çerçevesi, görsel algılama modülünü kullanarak işlemleri doğru bir şekilde konumlandırmak için mobil cihazdan alınan ekran görüntülerini kullanır. Görsel algı modülü, ekrandaki metnin tanımlanmasından ve mobil ekranın belirli bir bölgesindeki içeriğin tanımlanmasından sorumlu OCR ve algılama modellerini barındırır. Mobil Aracı çerçevesi dikkatle hazırlanmış istemleri kullanır ve araçlar ile aracılar arasında verimli etkileşimi kolaylaştırır, böylece mobil cihaz işlemlerini otomatikleştirir.

Ayrıca, Mobile-Agents çerçevesi, GPT-4V gibi son teknoloji ürünü MLLM çerçevelerinin bağlamsal yeteneklerinden yararlanarak modelin operasyon geçmişine, kullanıcı talimatlarına ve ekran görüntülerine dayalı olarak görevleri bütünsel olarak planlamasına olanak tanıyan kendi kendini planlama yeteneklerine ulaşmayı amaçlamaktadır. Aracının eksik talimatları ve yanlış işlemleri belirleme yeteneğini daha da geliştirmek için Mobil Aracı çerçevesi bir öz değerlendirme yöntemi sunar. Dikkatlice hazırlanmış istemlerin rehberliğinde, aracı, hatalı ve geçersiz işlemler üzerinde sürekli olarak düşünür ve görev veya talimat tamamlandıktan sonra işlemleri durdurur.

Genel olarak Mobil Aracı çerçevesinin katkıları şu şekilde özetlenebilir:

Mobile-Agent, operasyon yerelleştirmesini gerçekleştirmek için görsel algılama araçlarını kullanan otonom bir mobil cihaz aracısı olarak görev yapar. Her adımı sistematik bir şekilde planlar ve iç gözlem yapar. Mobile-Agent, herhangi bir sistem kodu kullanmadan yalnızca cihaz ekran görüntülerine dayanarak, tamamen görme tekniklerine dayalı bir çözüm sunar.
Mobile-Agent, mobil cihaz aracılarını değerlendirmek için tasarlanmış bir kıyaslama olan Mobile-Eval'i sunar. Bu kıyaslama, en sık kullanılan on mobil uygulamanın çeşitliliğini ve bu uygulamalar için üç zorluk düzeyine ayrılmış akıllı talimatları içerir.

Mobil Ajan: Mimari ve Metodoloji

Mobil Aracı çerçevesi özünde son teknoloji ürünüdür Çok Modlu Büyük Dil ModeliGPT-4V, metin yerelleştirme görevleri için kullanılan bir metin algılama modülüdür. Mobile-Agent, GPT-4V'nin yanı sıra simge yerelleştirmesi için bir simge algılama modülü de kullanır.

Görsel algı

Daha önce de belirtildiği gibi, GPT-4V MLLM talimatlar ve ekran görüntüleri açısından tatmin edici sonuçlar veriyor ancak operasyonların gerçekleştiği konumu etkili bir şekilde ortaya koyamıyor. Bu sınırlama nedeniyle, GPT-4V modelini uygulayan Mobil Aracı çerçevesinin, işlem yerelleştirmesine yardımcı olmak için harici araçlara güvenmesi gerekir, böylece mobil ekrandaki işlem çıktısını kolaylaştırır.

Metin Yerelleştirme

Mobile-Agent çerçevesi, aracının mobil ekranda görüntülenen belirli bir metne dokunması gerektiğinde ekrandaki ilgili metnin konumunu tespit etmek için bir OCR aracı uygular. Üç benzersiz metin yerelleştirme senaryosu vardır.

Senaryo 1: Belirtilen Metin Algılanmadı

Konu: OCR, karmaşık görüntülerde veya OCR sınırlamalarından dolayı oluşabilecek belirtilen metni algılayamıyor.

Cevabı: Temsilciye aşağıdakilerden birini yapmasını söyleyin:

Dokunma için metni yeniden seçin, OCR'nin denetiminin manuel olarak düzeltilmesine izin verin veya
Farklı bir giriş yöntemi kullanmak veya eldeki göreve uygun başka bir eylem gerçekleştirmek gibi alternatif bir işlem seçin.

Akıl Yürütme: Bu esneklik, GPT-4V'de ara sıra meydana gelen yanlışlıkları veya halüsinasyonları yönetmek ve ajanın etkili bir şekilde ilerleyebilmesini sağlamak için gereklidir.

Senaryo 2: Belirtilen Metnin Tek Örneği Algılandı

Çalışma: Algılanan metin kutusunun merkez koordinatlarına tıklamak için otomatik olarak bir eylem oluşturun.

Gerekçe: Yalnızca tek bir örnek tespit edildiğinde, doğru tanımlama olasılığı yüksektir, bu da doğrudan eyleme geçmeyi verimli hale getirir.

Senaryo 3: Belirtilen Metnin Birden Çok Örneği Algılandı

Değerlendirme: Öncelikle tespit edilen örneklerin sayısını değerlendirin:

Birçok Örnek: Benzer içerikle dolu, seçim sürecini zorlaştıran bir ekranı belirtir.

Eylem: Seçimi hassaslaştırmak veya arama parametrelerini ayarlamak amacıyla temsilciden metni yeniden seçmesini isteyin.

Birkaç Örnek: Yönetilebilir sayıda tespit, daha incelikli bir yaklaşıma olanak tanır.

Eylem: Ek bağlam yakalamak için metin algılama kutularını dışarı doğru genişleterek bu örneklerin etrafındaki bölgeleri kırpın. Bu genişleme, daha fazla bilginin korunmasını sağlayarak karar vermeye yardımcı olur.

Sonraki adım: Kırpılan görsellerin üzerine algılama kutuları çizin ve bunları temsilciye sunun. Bu görsel yardım, bağlamsal ipuçlarına veya görev gereksinimlerine göre aracının hangi örnekle etkileşim kuracağına karar vermesine yardımcı olur.

Bu yapılandırılmış yaklaşım, OCR sonuçları ile aracı işlemleri arasındaki etkileşimi optimize ederek, sistemin çeşitli senaryolarda metin tabanlı görevleri ele alma konusundaki güvenilirliğini ve uyarlanabilirliğini artırır. Tüm süreç aşağıdaki görselde gösterilmektedir.

Simge Yerelleştirmesi

Mobile-Agent çerçevesi, aracının mobil ekranda tıklaması gerektiğinde bir simgenin konumunu bulmak için bir simge algılama aracı uygular. Daha spesifik olmak gerekirse, çerçeve ilk olarak aracıdan şekil ve renk de dahil olmak üzere görüntünün belirli niteliklerini sağlamasını ister ve ardından çerçeve, ekran görüntüsünde yer alan tüm simgeleri tanımlamak için istem simgesiyle Topraklama DINO yöntemini uygular. Nihayet, Mobil AjanTıklama bölgesinin açıklaması arasındaki benzerliği hesaplamak için CLIP çerçevesini kullanır ve silinen simgeler arasındaki benzerliği hesaplar ve bir tıklama için en yüksek benzerliğe sahip bölgeyi seçer.

Talimatın Yürütülmesi

Eylemlerin temsilciler tarafından ekrandaki işlemlere dönüştürülmesi için Mobile-Agent çerçevesi 8 farklı işlem tanımlar.

Uygulamayı Başlat (Uygulama Adı): Belirlenen uygulamayı masaüstü arayüzünden başlatın.
Metin (Metin Etiketi) üzerine dokunun: “Metin Etiketi” etiketini gösteren ekran kısmıyla etkileşim kurun.
Simgeyle Etkileşim (Simge Açıklaması, Konum): Belirlenen simge alanını hedefleyin ve dokunun; burada "Simge Açıklaması", simgenin rengi ve şekli gibi özelliklerin ayrıntılarını verir. Üst, alt, sol, sağ veya orta gibi seçeneklerden "Konum"u seçin; hassas gezinme sağlamak ve hataları azaltmak için muhtemelen ikisini birleştirin.
Metni Girin (Giriş Metni): Verilen “Giriş Metni”ni aktif metin alanına girin.
Yukarı ve Aşağı Kaydırma: Mevcut sayfanın içeriğinde yukarı veya aşağı doğru gezinin.
Geri dön: Daha önce görüntülenen sayfaya geri dönün.
Kapat: Geçerli ekrandan doğrudan masaüstüne geri dönün.
Dur: Görev tamamlandığında işlemi sonlandırın.

Kişisel Planlama

İşlemin her adımı çerçeve tarafından yinelemeli olarak yürütülür ve her yinelemenin başlangıcından önce kullanıcının bir giriş talimatı sağlaması gerekir ve Mobil Aracı modeli, tüm süreç için bir sistem istemi oluşturmak için talimatı kullanır. Ayrıca, her yinelemenin başlangıcından önce çerçeve bir ekran görüntüsü yakalar ve bunu aracıya iletir. Aracı daha sonra ekran görüntüsünü, işlem geçmişini ve sistem komutlarını gözlemleyerek işlemlerin bir sonraki adımının çıktısını alır.

Kendini Düşünme

İşlemleri sırasında, aracı bir komutu başarıyla yürütmesini engelleyen hatalarla karşılaşabilir. Talimat yerine getirme oranını artırmak için, iki belirli koşulda etkinleşen bir öz değerlendirme yaklaşımı uygulanmıştır. Başlangıçta, aracı ilerlemeyi durduran hatalı veya geçersiz bir işlem gerçekleştirirse (örneğin, işlem sonrası ekran görüntüsünün değişmeden kaldığını fark ettiğinde veya yanlış bir sayfa görüntülediğinde), alternatif işlemleri değerlendirmesi veya mevcut işlemin parametrelerini ayarlaması istenecektir. İkinci olarak, aracı karmaşık bir yönergenin bazı unsurlarını gözden kaçırabilir. Aracı, ilk planına dayalı bir dizi işlemi yürüttükten sonra, görevin tamamlanıp tamamlanmadığını değerlendirmek için işlem sırasını, en son ekran görüntüsünü ve kullanıcının yönergesini incelemesi istenecektir. Tutarsızlıklar bulunursa, aracı yönergeyi yerine getirmek için otonom olarak yeni eylemler oluşturmakla görevlendirilir.

Mobil Ajan: Deneyler ve Sonuçlar

Yeteneklerini kapsamlı bir şekilde değerlendirmek için Mobile-Agent çerçevesi, yaygın olarak kullanılan 10 uygulamadan oluşan Mobile-Eval kıyaslamasını sunar ve her uygulama için üç talimat tasarlar. İlk işlem basittir ve yalnızca temel uygulama işlemlerini kapsar; ikinci işlem ise bazı ek gereksinimlere sahip olduğundan birinciden biraz daha karmaşıktır. Son olarak, üçüncü işlem, kullanıcının hangi uygulamayı kullanacağını veya hangi işlemi gerçekleştireceğini açıkça belirtmediği soyut kullanıcı talimatlarını içerdiğinden, bunların en karmaşık olanıdır.

Performansı farklı perspektiflerden değerlendirmek için Mobil Aracı çerçevesi 4 farklı ölçüm tasarlar ve uygular.

Su veya Başarı: Mobil temsilci talimatları tamamlarsa başarılı sayılır.

Süreç Puanı veya PS: Süreç Puanı metriği, kullanıcı talimatlarının yürütülmesi sırasında her adımın doğruluğunu ölçer ve doğru adım sayısının toplam adım sayısına bölünmesiyle hesaplanır.

Göreceli Verimlilik veya RE: Göreceli verimlilik puanı, bir insanın talimatı manuel olarak yerine getirmesi için gereken adım sayısı ile aracının aynı talimatı yerine getirmesi için gereken adım sayısı arasındaki oran veya karşılaştırmadır.

Tamamlanma Oranı veya CR: Tamamlanma oranı ölçüsü, çerçevenin başarılı bir şekilde tamamladığı insan tarafından gerçekleştirilen adımların sayısını, bir insanın talimatı tamamlamak için attığı toplam adım sayısına böler. Etmen talimatı başarıyla tamamladığında CR'nin değeri 1'dir.

Sonuçlar aşağıdaki şekilde gösterilmektedir.

Başlangıçta, verilen üç görev için Mobile-Agent sırasıyla %91, %82 ve %82 tamamlanma oranlarına ulaştı. Tüm görevler kusursuz bir şekilde tamamlanmasa da, her görev kategorisi için başarı oranları %90'ı aştı. Ayrıca, PS metriği, Mobile-Agent'ın üç görev için de yaklaşık %80 başarı oranıyla doğru eylemleri gerçekleştirme olasılığının yüksek olduğunu gösteriyor. Ayrıca, RE metriğine göre, Mobile-Agent, operasyonları insan optimalliğine benzer bir seviyede gerçekleştirmede %80 verimlilik sergiliyor. Bu sonuçlar toplu olarak Mobile-Agent'ın bir mobil cihaz asistanı olarak yetkinliğini vurguluyor.

Aşağıdaki şekil, Mobile-Agent'ın kullanıcı komutlarını kavrama ve eylemlerini bağımsız olarak düzenleme yeteneğini göstermektedir. Talimatlarda açık işlem ayrıntıları olmasa bile, Mobile-Agent kullanıcının ihtiyaçlarını ustaca yorumlayarak bunları eyleme dönüştürülebilir görevlere dönüştürmüştür. Bu anlayış doğrultusunda, ajan talimatları sistematik bir planlama süreciyle uygulamıştır.

Son Düşüncelerimiz

Bu makalede, bir mobil uygulama arayüzündeki hem görsel hem de metinsel bileşenleri hassas bir şekilde tespit etmek ve belirlemek için görsel algılama teknolojilerini kullanan çok modlu otonom bir cihaz aracı olan Mobile-Agents'tan bahsettik. Bu görsel bağlamı göz önünde bulundurarak, Mobile-Agent çerçevesi karmaşık görevleri otonom bir şekilde özetler ve yönetilebilir eylemlere böler ve mobil uygulamalarda adım adım sorunsuz bir şekilde gezinmenizi sağlar. Bu çerçeve, mobil sistemin meta verilerine veya mobil uygulamaların XML dosyalarına bağlı olmaması ve görsel odaklı işleme odaklanarak çeşitli mobil işletim sistemlerinde daha fazla esneklik sağlaması nedeniyle mevcut metodolojilerden farklıdır. Mobile-Agent çerçevesinin kullandığı strateji, sisteme özgü uyarlamalara olan ihtiyacı ortadan kaldırarak verimliliği artırır ve hesaplama taleplerini azaltır.

Kunal Kejriwal

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.