saplama Vision Transformers, Yeni 'Yamadan Kümeye Dikkat' Yöntemiyle Zorlukları Aşıyor - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Vision Transformers, Yeni 'Yamadan Kümeye Dikkat' Yöntemiyle Zorlukları Aşıyor

Yayınlanan

 on

Yapay zeka (AI) teknolojileri, özellikle Vision Transformers (ViT'ler), görüntülerdeki nesneleri tanımlama ve kategorize etme yeteneklerinde büyük umut vaat ediyor. Bununla birlikte, pratik uygulamaları iki önemli zorlukla sınırlandırılmıştır: yüksek hesaplama gücü gereksinimleri ve karar vermede şeffaflığın olmaması. Şimdi, bir grup araştırmacı çığır açan bir çözüm geliştirdi: "Yamadan Kümeye Dikkat" (PaCa) olarak bilinen yeni bir metodoloji. PaCa, ViT'lerin görüntü nesnesi tanımlama, sınıflandırma ve segmentasyon yeteneklerini geliştirirken aynı zamanda uzun süredir devam eden hesaplama talepleri ve karar verme netliği sorunlarını çözmeyi amaçlamaktadır.

ViT'lerin Zorluklarını Ele Alma: Yeni Çözüme Bir Bakış

Transformers, üstün yetenekleri sayesinde yapay zeka dünyasının en etkili modelleri arasında yer alıyor. Bu modellerin gücü, görsel girdilerle eğitilmiş bir transformatör sınıfı olan ViT'ler aracılığıyla görsel verilere genişletildi. Görüntüleri yorumlama ve anlamada ViT'lerin sunduğu muazzam potansiyele rağmen, birkaç önemli sorun onları geride bıraktı.

İlk olarak, büyük miktarda veri içeren görüntülerin doğası gereği, ViT'ler önemli hesaplama gücü ve hafıza gerektirir. Bu karmaşıklık, özellikle yüksek çözünürlüklü görüntüleri işlerken birçok sistem için bunaltıcı olabilir. İkincisi, ViT'lerdeki karar verme süreci genellikle dolambaçlı ve anlaşılmazdır. Kullanıcılar, çok sayıda uygulama için çok önemli olan, ViT'lerin bir görüntüdeki çeşitli nesneler veya özellikler arasında nasıl ayrım yaptığını anlamakta zorlanırlar.

Ancak, yenilikçi PaCa metodolojisi bu iki zorluğa da bir çözüm sunuyor. Çalışmayla ilgili bir makalenin ilgili yazarı ve Doçent Tianfu Wu, "Transformatör mimarisinin bir görüntüdeki nesneleri daha iyi tanımlamasını ve bunlara odaklanmasını sağlayan kümeleme tekniklerini kullanarak hesaplama ve bellek talepleriyle ilgili zorluğu ele alıyoruz" diye açıklıyor. North Carolina Eyalet Üniversitesi'nde Elektrik ve Bilgisayar Mühendisliği.

PaCa'da kümeleme tekniklerinin kullanılması, hesaplama gereksinimlerini önemli ölçüde azaltır ve sorunu ikinci dereceden bir süreçten yönetilebilir bir doğrusal olana dönüştürür. Wu, süreci şöyle açıklıyor: "Kümeleme yaparak, bunu, her bir küçük birimin yalnızca önceden belirlenmiş sayıda kümeyle karşılaştırılması gereken doğrusal bir süreç haline getirebiliyoruz."

Kümeleme ayrıca ViT'lerde karar verme sürecini netleştirmeye hizmet eder. Küme oluşturma süreci, görüntü verilerinin bölümlerini birlikte gruplandırmada hangi özelliklerin önemli olduğuna ViT'nin nasıl karar verdiğini ortaya çıkarır. Yapay zeka yalnızca sınırlı sayıda küme oluşturduğundan, kullanıcılar karar verme sürecini kolayca anlayabilir ve inceleyebilir, bu da modelin yorumlanabilirliğini önemli ölçüde geliştirir.

PaCa Metodolojisi Diğer Son Teknoloji ViT'lerden Daha İyi

Araştırmacılar, kapsamlı testler yoluyla PaCa metodolojisinin birkaç cephede diğer ViT'lerden daha iyi performans gösterdiğini keşfetti. Wu, "PaCa'nın her yönden SWin ve PVT'den daha iyi performans gösterdiğini bulduk." Test süreci, PaCa'nın görüntülerdeki nesneleri sınıflandırma ve tanımlamada ve segmentasyonda mükemmel olduğunu ve görüntülerdeki nesnelerin sınırlarını verimli bir şekilde çizdiğini ortaya çıkardı. Ayrıca, görevleri diğer ViT'lerden daha hızlı gerçekleştirerek zamandan daha verimli olduğu bulundu.

PaCa'nın başarısından cesaret alan araştırma ekibi, PaCa'yı daha büyük temel veri kümeleri üzerinde eğiterek geliştirmeyi hedefliyor. Bunu yaparak, görüntü tabanlı yapay zeka ile şu anda mümkün olanın sınırlarını zorlamayı umuyorlar.

Araştırma ödevi “PaCa-ViT: Görüntü Transformatörlerinde Yamadan Kümeye Dikkati Öğrenme”, önümüzdeki günlerde sunulacak Bilgisayarla Görü ve Örüntü Tanıma Üzerine IEEE/CVF Konferansı. Daha verimli, şeffaf ve erişilebilir AI sistemlerinin önünü açabilecek önemli bir kilometre taşıdır.

Alex McFarland, yapay zekadaki en son gelişmeleri araştıran bir yapay zeka gazetecisi ve yazarıdır. Dünya çapında çok sayıda yapay zeka girişimi ve yayınıyla işbirliği yaptı.