Yapay Zeka
SEER: Kendi Kendini Denetleyen Bilgisayarla Görme Modellerinde Bir Atılım mı?

Geçtiğimiz on yılda Yapay Zeka (AI) ve Makine Öğrenimi (ML) muazzam ilerleme kaydetti. Bugün, her zamankinden daha doğru, verimli ve yetenekliler. Modern AI ve ML modelleri, görüntülerdeki veya video dosyalarındaki nesneleri sorunsuz ve doğru bir şekilde tanıyabilir. Ayrıca insan zekasına paralel metin ve konuşma üretebilirler.
Günümüzün AI ve ML modelleri, onlara bir metin bloğunu nasıl yorumlayacaklarını, bir görüntü veya video çerçevesindeki nesneleri nasıl tanımlayacaklarını ve diğer birkaç görevi öğreten etiketli veri kümesi üzerindeki eğitime büyük ölçüde güveniyor.
Yeteneklerine rağmen, yapay zeka ve makine öğrenimi modelleri mükemmel değildir ve bilim adamları, kendilerine verilen bilgilerden öğrenebilen ve etiketli veya açıklamalı verilere güvenmek zorunda olmayan modeller oluşturmak için çalışıyorlar. Bu yaklaşım olarak bilinir öz denetimli öğrenme, ve " şu özelliklere sahip makine öğrenimi ve yapay zeka modelleri oluşturmanın en verimli yöntemlerinden biridir:sağduyu” veya günümüz AI modellerinin yeteneklerinin ötesindeki sorunları çözmek için arka plan bilgisi.
Kendi kendini denetleyen öğrenme, geliştiricilerin muazzam miktarda veriyle çalışabilen büyük modelleri eğitmesine olanak tanıdığından ve doğal dil işleme alanlarında birçok atılımın gerçekleşmesine olanak sağladığından, sonuçlarını zaten Doğal Dil İşleme'de göstermiştir. doğal dil çıkarımı, makine çevirisi ve soru yanıtlama.
Facebook yapay zekasının SEER modeli, bilgisayarlı görme alanında kendi kendini denetleyen öğrenmenin yeteneklerini en üst düzeye çıkarmayı hedefliyor. SEER veya KENDİNDEN DENETİMLİ Bir milyardan fazla parametresi olan, kendi kendini denetleyen bir bilgisayarlı görme öğrenme modelidir ve internette bulunan rastgele bir grup görüntüden, uygun açıklamalar veya etiketler olmadan bile desenler bulma veya öğrenme yeteneğine sahiptir.
Bilgisayarla Görüde Kendi Kendini Denetleyen Öğrenme İhtiyacı
Veri açıklaması veya veri etiketleme, makine öğrenimi ve yapay zeka modellerinin geliştirilmesinde bir ön işleme aşamasıdır. Veri ek açıklama işlemi, görüntüler veya video çerçeveleri gibi ham verileri tanımlar ve ardından model için verilerin bağlamını belirtmek üzere verilere etiketler ekler. Bu etiketler, modelin veriler üzerinde doğru tahminler yapmasını sağlar.
Geliştiricilerin bilgisayarla görme modelleri üzerinde çalışırken karşılaştıkları en büyük engellerden ve zorluklardan biri, yüksek kaliteli açıklamalı verileri bulmaktır. Bilgisayar görüşü günümüzde modeller, görüntüdeki nesneleri tanımalarına izin veren kalıpları öğrenmek için bu etiketli veya açıklamalı veri kümesine güveniyor.
Veri açıklaması ve bilgisayarla görme modelinde kullanımı aşağıdaki zorlukları ortaya çıkarır:
Tutarlı Veri Kümesi Kalitesini Yönetme
Muhtemelen geliştiricilerin önündeki en büyük engel, yüksek kaliteli veri setine tutarlı bir şekilde erişim elde etmektir çünkü uygun etiketlere ve net görüntülere sahip yüksek kaliteli veri seti, daha iyi öğrenme ve doğru modeller sağlar. Ancak, yüksek kaliteli veri setine erişmenin sürekli olarak kendi zorlukları vardır.
İşgücü yönetimi
Veri etiketleme, genellikle iş gücü yönetimi sorunlarıyla birlikte gelir; çünkü çok sayıda çalışanın, kaliteyi garanti altına alırken büyük miktarda yapılandırılmamış ve etiketlenmemiş veriyi işleyip etiketlemesi gerekir. Bu nedenle, geliştiricilerin veri etiketleme konusunda kalite ve nicelik arasında bir denge kurması çok önemlidir.
Finansal Kısıtlamalar
Muhtemelen en büyük engel, veri etiketleme sürecine eşlik eden mali kısıtlamalardır ve çoğu zaman veri etiketleme maliyeti, toplam proje maliyetinin önemli bir yüzdesini oluşturur.
Gördüğünüz gibi, özellikle büyük miktarda eğitim verisi ile ilgilenen karmaşık modeller geliştirmek söz konusu olduğunda, veri açıklaması, gelişmiş bilgisayarlı görü modelleri geliştirmede büyük bir engeldir. Bilgisayarlı görü endüstrisinin, mevcut modellerin kapsamının ötesindeki görevlerin üstesinden gelebilecek karmaşık ve gelişmiş bilgisayarlı görü modelleri geliştirmek için kendi kendini denetleyen öğrenmeye ihtiyaç duymasının nedeni budur.
Bununla birlikte, kontrollü bir ortamda ve öncelikle ImageNet veri setinde iyi performans gösteren çok sayıda kendi kendine denetimli öğrenme modeli zaten var. Bu modeller iyi bir iş çıkarıyor olsalar da, bilgisayarla görmede kendi kendini denetleyen öğrenmenin birincil koşulunu karşılamazlar: yalnızca iyi tanımlanmış bir veri kümesinden değil, herhangi bir sınırsız veri kümesinden veya rastgele görüntüden öğrenmek için. İdeal olarak uygulandığında, kendi kendini denetleyen öğrenme, daha doğru ve aynı zamanda uygun maliyetli ve uygulanabilir olan daha yetenekli bilgisayarla görme modellerinin geliştirilmesine yardımcı olabilir.
SEER veya KENDİNDEN DENETİMLİ MODEL: GİRİŞ
Yapay zeka ve makine öğrenimi endüstrisindeki son trendler, yarı denetimli, zayıf denetimli ve kendi kendine denetimli öğrenme gibi model öncesi eğitim yaklaşımlarının, aşağı akış görevleri için çoğu derin öğrenme modelinin performansını önemli ölçüde artırabileceğini göstermiştir.
Bu derin öğrenme modellerinin performansındaki artışa büyük ölçüde katkıda bulunan iki temel faktör vardır.
Devasa Veri Kümelerinde Ön Eğitim
Devasa veri kümeleri üzerinde ön eğitim, modeli çok çeşitli verilere maruz bıraktığından genellikle daha iyi doğruluk ve performansla sonuçlanır. Büyük veri kümesi, modellerin verilerdeki kalıpları daha iyi anlamasını sağlar ve sonuçta modelin gerçek hayat senaryolarında daha iyi performans göstermesiyle sonuçlanır.
GPT-3 modeli ve Wav2vec 2.0 modeli gibi en iyi performans gösteren modellerden bazıları, büyük veri kümeleri üzerinde eğitilmiştir. GPT-3 dil modeli, birden fazla eğitim içeren bir eğitim öncesi veri kümesi kullanır. 300 milyar kelime oysa konuşma tanıma için Wav2vec 2.0 modeli, üzerinde bir veri kümesi kullanır. 53 bin saat ses verisi.
Muazzam Kapasiteli Modeller
Daha fazla sayıda parametreye sahip modeller genellikle doğru sonuçlar verir çünkü daha fazla sayıda parametre, modelin verilerdeki girişim veya gürültüye odaklanmak yerine yalnızca verilerdeki gerekli olan nesnelere odaklanmasına olanak tanır.
Geçmişte geliştiriciler, etiketlenmemiş veya düzeltilmemiş veriler üzerinde, ancak yalnızca birkaç milyon görüntü içeren daha küçük veri kümeleriyle kendi kendini denetleyen öğrenme modellerini eğitme girişimlerinde bulundular. Ancak kendi kendini denetleyen öğrenme modelleri, büyük miktarda etiketlenmemiş ve işlenmemiş veri üzerinde eğitildiklerinde yüksek doğruluk sağlayabilir mi? SEER modelinin cevaplamayı amaçladığı soru tam olarak budur.
MKS SEER modeli, küratörlü veya etiketli veri kümelerinden bağımsız olarak internette bulunan görüntüleri kaydetmeyi amaçlayan derin bir öğrenme çerçevesidir.. SEER çerçevesi, geliştiricilerin herhangi bir denetim olmaksızın rastgele veriler üzerinde büyük ve karmaşık makine öğrenimi modellerini eğitmesine olanak tanır; yani model, verileri analiz eder ve kalıpları veya bilgileri herhangi bir ek manuel giriş olmaksızın kendi başına öğrenir.
SEER modelinin nihai hedefi, transfer öğreniminde birinci sınıf performans sunmak amacıyla onaylanmamış verileri kullanan eğitim öncesi süreç için stratejiler geliştirmeye yardımcı olmaktır. Ayrıca, SEER modeli aynı zamanda kendi kendini denetleyen bir şekilde hiç bitmeyen bir veri akışından sürekli olarak öğrenebilen sistemler oluşturmayı da amaçlar..
SEER çerçevesi, internetten çıkarılan milyarlarca rastgele ve kısıtlamasız görüntü üzerinde yüksek kapasiteli modeller eğitir. Bu görüntüler üzerinde eğitilen modeller, modeli eğitmek veya verileri filtrelemek için görüntü meta verilerine veya ek açıklamalara güvenmez. Son zamanlarda, kendi kendini denetleyen öğrenme, işlenmemiş veriler üzerindeki eğitim modelleri, sonraki görevler için denetlenen önceden eğitilmiş modellerle karşılaştırıldığında daha iyi sonuçlar verdiğinden, yüksek potansiyel göstermiştir.
SEER Çerçevesi ve RegNet: Bağlantı Nedir?
SEER modelini analiz etmek için, iki temel nedenden dolayı SEER'in işlenmemiş veriler üzerinde kendi kendini denetlemeli öğrenme hedefiyle uyumlu 700 milyondan fazla parametreye sahip RegNet mimarisine odaklanır:
- Performans ve verimlilik arasında mükemmel bir denge sunarlar.
- Oldukça esnektirler ve bir dizi parametreyi ölçeklendirmek için kullanılabilirler.

SEER Çerçevesi: Farklı Alanlardan Önceki Çalışmalar
SEER çerçevesi, kendi kendini denetleyen öğrenmeyi kullanarak, düzeltilmemiş veya etiketlenmemiş veri kümelerinde büyük model mimarileri eğitmenin sınırlarını keşfetmeyi amaçlar ve model, bu alandaki önceki çalışmalardan ilham alır.
Görsel Özelliklerin Denetimsiz Ön Eğitimi
Kendi kendini denetleyen öğrenme, bir süredir bilgisayar görüşünde şu anda kullanılan yöntemlerle uygulanmaktadır. otomatik kodlayıcılar, örnek düzeyinde ayrım veya kümeleme. Son zamanlarda karşılaştırmalı öğrenmeyi kullanan yöntemler, aşağı yönlü görevler için denetimsiz öğrenmeyi kullanan eğitim öncesi modellerin denetimli öğrenme yaklaşımından daha iyi performans gösterebileceğini göstermiştir.
Görsel özelliklerin denetimsiz öğreniminden elde edilen en önemli çıkarım şudur: filtrelenmiş veriler üzerinde eğitim aldığınız sürece denetimli etiketlere gerek yoktur. SEER modeli, büyük model mimarileri büyük miktarda işlenmemiş, etiketlenmemiş ve rastgele görüntüler üzerinde eğitildiğinde, modelin doğru temsilleri öğrenip öğrenemeyeceğini keşfetmeyi amaçlar.
Görsel Özellikleri Geniş Ölçekte Öğrenme
Önceki modeller, zayıf denetimli öğrenme, denetimli öğrenme ve milyonlarca filtrelenmiş görüntü üzerinde yarı denetimli öğrenme ile büyük etiketli veri kümelerindeki modellerin ön eğitiminden yararlanmıştır. Ayrıca, model analizi, modeli milyarlarca görüntü üzerinde önceden eğitmenin, modeli sıfırdan eğitmeye kıyasla genellikle daha iyi doğruluk sağladığını da göstermiştir.
Ayrıca, modeli büyük ölçekte eğitmek, genellikle görüntülerin hedef kavramlarla yankılanmasını sağlamak için veri filtreleme adımlarına dayanır. Bu filtreleme adımları, ya önceden eğitilmiş bir sınıflandırıcıdan gelen tahminleri kullanır ya da genellikle sistemin sistem ağları olan hashtag'leri kullanır. IMAGEnet sınıflar. SEER modeli, herhangi bir rastgele görüntüdeki özellikleri öğrenmeyi amaçladığından farklı çalışır ve bu nedenle SEER modeli için eğitim verileri, önceden tanımlanmış bir dizi özellik veya kavramla eşleşecek şekilde düzenlenmez.
Görüntü Tanıma için Ölçeklendirme Mimarileri
Modeller genellikle daha iyi kalitede görsel özelliklerle sonuçlanan büyük mimarileri eğitmekten yararlanır. Sınırlı kapasiteye sahip bir model genellikle gereğinden az sığacağından, büyük bir veri kümesi üzerinde ön eğitim önemli olduğunda büyük mimarileri eğitmek çok önemlidir. Karşılaştırmalı öğrenme ile birlikte ön eğitim yapıldığında daha da önemlidir çünkü bu gibi durumlarda modelin daha iyi görsel temsilleri öğrenebilmesi için veri kümesi örnekleri arasında nasıl ayrım yapacağını öğrenmesi gerekir.
Bununla birlikte, görüntü tanıma için ölçekleme mimarisi, modelin derinliğini ve genişliğini değiştirmekten çok daha fazlasını içerir ve daha yüksek kapasiteye sahip ölçek verimli bir model oluşturmak için çok sayıda literatürün ayrılması gerekir. SEER modeli, kullanmanın faydalarını gösterir. RegNet'ler kendi kendini denetleyen öğrenmeyi geniş ölçekte devreye almak için modeller ailesi.
SEER: Yöntemler ve Bileşenler Kullanımları
SEER çerçevesi, görsel temsilleri öğrenmek için modeli önceden eğitmek için çeşitli yöntemler ve bileşenler kullanır. SEER çerçevesi tarafından kullanılan ana yöntemlerden ve bileşenlerden bazıları şunlardır: RegNet ve SwAV. SEER çerçevesinde kullanılan yöntem ve bileşenlerden kısaca bahsedelim.
SwaV ile Kendi Kendini Denetleyen Ön Eğitim
SEER çerçevesi, çevrimiçi kendi kendini denetleyen bir öğrenme yaklaşımı olan SwAV ile önceden eğitilmiştir. SwAV bir ek açıklamalar olmadan convnets çerçevesini eğitmek için kullanılan çevrimiçi kümeleme yöntemi. SwAV çerçevesi, aynı görüntünün farklı görünümleri arasında tutarlı bir şekilde küme atamaları üreten bir yerleştirmeyi eğiterek çalışır. Sistem daha sonra, veri büyütme için değişmez olan kümeleri inceleyerek anlamsal temsilleri öğrenir.
Uygulamada, SwAV çerçevesi, bağımsız küme atamalarını kullanarak bir görüntünün farklı görünümlerinin özelliklerini karşılaştırır. Bu atamalar aynı veya benzer özellikleri yakalarsa, bir görüntünün atamasını başka bir görünümün özelliğini kullanarak tahmin etmek mümkündür.
SEER modeli, bir dizi K kümeler ve bu kümelerin her biri öğrenilebilir bir d boyutlu vektör vk. bir parti için B görüntüler, her görüntü i iki farklı görünüme dönüştürülür: xi1 ve xi2. Görünümler daha sonra bir konvnet yardımıyla özelliklendirilir ve iki özellik grubuyla sonuçlanır: (f11, …, FB2) ve (f12, … , FB2). Her bir özellik seti daha sonra bağımsız bir şekilde bir küme prototipinin yardımıyla atanır. Optimum Taşıma çözücü.
Optimal Transport çözücü, özelliklerin kümeler arasında eşit olarak dağılmasını sağlar ve tüm gösterimlerin tek bir prototipe eşlendiği önemsiz çözümlerden kaçınmaya yardımcı olur. Ortaya çıkan atama daha sonra iki küme arasında değiştirilir: küme ataması yi1 görünüm xi1 f özellik gösterimi kullanılarak tahmin edilmesi gerekiri2 görünüm xi2, ve tersi.
Prototip ağırlıkları ve konvnet daha sonra tüm örnekler için kaybı en aza indirecek şekilde eğitilir. Küme tahmin kaybı l esasen f'nin iç çarpımının bir softmax'ı ile küme ataması arasındaki çapraz entropidir.

RegNetY: Ölçek Verimli Model Ailesi
Ölçeklendirme modeli kapasitesi ve veriler, yalnızca bellek açısından değil, aynı zamanda çalışma zamanı açısından da verimli olan mimariler gerektirir ve RegNets çerçevesi, bu amaç için özel olarak tasarlanmış bir model ailesidir.
RegNet mimari ailesi, her aşamanın bir dizi özdeş blok içerdiği ve blok yapısının, özellikle de artık darboğaz bloğunun sabit kalmasını sağladığı, 4 aşamalı bir konvnet tasarım alanı ile tanımlanır.
SEER çerçevesi, RegNetY mimarisine odaklanır ve Sıkma ve Uyarma performanslarını iyileştirmek amacıyla standart RegNets mimarisine. Ayrıca, RegNetY modeli, makul kaynakları tüketen sabit sayıda FLOP ile iyi örneklerin aranmasına yardımcı olan 5 parametreye sahiptir. SEER modeli, RegNetY mimarisini doğrudan kendi kendini denetleyen eğitim öncesi görevine uygulayarak sonuçlarını iyileştirmeyi amaçlar.
RegNetY 256GF Mimarisi: SEER modeli, ağırlıklı olarak RegNetY ailesindeki RegNetY 256GF mimarisine odaklanır ve parametreleri, RegNets mimarisinin ölçekleme kuralını kullanır. Parametreler aşağıdaki gibi açıklanmıştır.

RegNetY 256GF mimarisi, 4 milyondan fazla parametreye eklenen aşama genişlikleri (528, 1056, 2904, 7392) ve aşama derinlikleri (2,7,17,1) ile 696 aşamaya sahiptir. 512 V100 32 GB NVIDIA GPU'larda eğitim yaparken, 6125 görüntüden oluşan bir toplu iş boyutu için her yineleme yaklaşık 8,704 ms sürer. Modeli, 8,704'den fazla GPU'da 512 görüntüden oluşan toplu iş boyutuna sahip bir milyardan fazla görüntü içeren bir veri kümesi üzerinde eğitmek, 114,890 yineleme gerektirir ve eğitim yaklaşık 8 gün sürer.
Geniş Ölçekte Optimizasyon ve Eğitim
SEER modeli, bu yöntemleri büyük ölçekte uygulamak ve uyarlamak için kendi kendini denetleyen yöntemleri eğitmek için çeşitli ayarlamalar önerir. Bu yöntemler:
- Öğrenme Hızı programı.
- GPU başına bellek tüketimini azaltmak.
- Eğitim hızını optimize etme.
- Büyük ölçekte Ön Eğitim verileri.
Bunları kısaca tartışalım.
Öğrenme Oranı Programı
SEER modeli, iki öğrenme oranı çizelgesi kullanma olasılığını araştırır: kosinüs dalgası öğrenme oranı çizelgesi, ve sabit öğrenme oranı çizelgesi.
Kosinüs dalgası öğrenme programı, güncelleme sayısına uyum sağladığı için farklı modelleri adil bir şekilde karşılaştırmak için kullanılır. Bununla birlikte, kosinüs dalgası öğrenme hızı çizelgesi, eğitim sırasında görüldükleri zamana göre görüntüleri farklı şekilde ağırlıklandırdığı ve ayrıca planlama için eksiksiz güncellemeleri kullandığı için, büyük ölçekli bir eğitime uyum sağlamaz.
Sabit öğrenme oranlı programlama, öğrenme oranını kayıp azalmayana kadar sabit tutar ve ardından öğrenme oranı 2'ye bölünür. Analiz, sabit öğrenme oranlı programlamanın, eğitimi daha esnek hale getirmek için alana sahip olduğu için daha iyi çalıştığını gösterir. Bununla birlikte, model yalnızca 1 milyar görüntü üzerinde eğitim verdiğinden, en büyük modelini eğitmek için kosinüs dalga öğrenme oranını kullanır. RegNet 256GF.
GPU Başına Bellek Tüketiminin Azaltılması
Model aynı zamanda karma kesinlik ve derecelendirme kontrol noktalarından yararlanarak eğitim süresi boyunca ihtiyaç duyulan GPU miktarını azaltmayı da hedefliyor. Model, kıvrımlar ve GEMM'ler gibi işlemleri 1 bit kayan nokta hassasiyetinde gerçekleştirmek için NVIDIA Apex Library'nin O16 Optimizasyon seviyesinden yararlanır. Model ayrıca PyTorch'un bilgisayarları bellekle takas eden gradyan kontrol noktası uygulamasını kullanır.
Ayrıca model, ileri geçiş sırasında yapılan herhangi bir ara aktivasyonları da atar ve geri geçiş sırasında bu aktivasyonları yeniden hesaplar.
Egzersiz Hızını Optimize Etme
Hızlandırıcılar, FP16'ye kıyasla iş hacmini artırarak FP32'nın küçültülmüş boyutundan yararlandığından, bellek kullanımını optimize etmek için karma kesinlik kullanmanın ek faydaları vardır. Bellek bant genişliği darboğazını iyileştirerek eğitim sürecini hızlandırmaya yardımcı olur.
SEER modeli aynı zamanda Toplu İş Normu Genellikle daha fazla zaman alan küresel eşitlemeyi kullanmak yerine süreç grupları oluşturmak için GPU'lar arasında katman oluşturun. Son olarak, SEER modelinde kullanılan veri yükleyici, daha fazla eğitim grubunu önceden getirir ve bu da, SEER modeline kıyasla daha yüksek miktarda verinin işlenmesine yol açar PyTorch'un veri yükleyici
Büyük Ölçekli Eğitim Öncesi Verileri
SEER modeli, ön eğitim sırasında bir milyardan fazla görüntü kullanır ve doğrudan internetten ve Instagram'dan rastgele görüntüleri örnekleyen bir veri yükleyiciyi dikkate alır. SEER modeli, bu görüntüleri vahşi ve çevrimiçi olarak eğittiği için, bu görüntüler üzerinde herhangi bir ön işleme uygulamaz veya tekilleştirme veya hashtag filtreleme gibi işlemleri kullanarak onları iyileştirmez.
Veri setinin statik olmadığını ve veri setindeki görüntülerin her üç ayda bir yenilendiğini belirtmekte fayda var. Ancak, veri kümesinin yenilenmesi modelin performansını etkilemez.
SEER Modeli Uygulaması
SEER modeli, her görüntü 256×2 + 224×4 çözünürlüğe sahip olacak şekilde, görüntü başına altı kırpma kullanarak SwAV ile bir RegNetY 96GF'yi önceden eğitir. Ön eğitim aşamasında model, 3×10444, 8192×8192 ve 8192×8192 boyutlarındaki projeksiyon kafalarına sahip 256 katmanlı bir MLP veya Çok Katmanlı Perceptron kullanır.
Kafada BatchNorm katmanlarını kullanmak yerine SEER modeli, sıcaklık ile 16 bin prototip kullanıyor. t 0.1 olarak ayarlayın. bu Sinkhorn düzenlileştirme parametresi 0.05 olarak ayarlanır ve algoritmanın 10 yinelemesini gerçekleştirir. Model, GPU genelinde BatchNorm istatistiklerini daha da senkronize eder ve senkronizasyon için suze 64 ile çok sayıda işlem grubu oluşturur.
Ayrıca model, 10'luk bir ağırlık düşüşü olan bir LARS veya Katman-bazlı Uyarlanabilir Hız Ölçeklendirme optimize edici kullanır.-5, aktivasyon kontrol noktaları ve O1 karma hassasiyetli optimizasyon. Model daha sonra 8192 NVIDIA GPU'ya dağıtılan 512 rastgele görüntüden oluşan bir toplu iş boyutu kullanılarak stokastik gradyan inişiyle eğitilir ve GPU başına 16 görüntü elde edilir.
Öğrenme oranı, ilk 0.15 bin eğitim güncellemesi için doğrusal olarak 9.6'ten 8'ya çıkar. Isınmadan sonra, model, 0.0096'lık bir son değere düşen bir kosinüs öğrenme oranı çizelgesini takip eder. Genel olarak SEER modeli, 122 bin yinelemede bir milyardan fazla görüntüyü eğitir.
SEER Çerçevesi: Sonuçlar
Kendi kendini denetleyen ön eğitim yaklaşımı tarafından üretilen özelliklerin kalitesi, çeşitli ölçütler ve sonraki görevler üzerinde incelenir ve analiz edilir. Model ayrıca, aşağı akış görevleri için görüntülere ve etiketlerine sınırlı erişim sağlayan bir düşük çekim ayarını da dikkate alır.
FineTuning Büyük Ön Eğitimli Modeller
Rastgele veriler üzerinde önceden eğitilmiş modellerin kalitesini nesne sınıflandırması için ImageNet kıyaslamasına aktararak ölçer. Önceden eğitilmiş büyük modellerde ince ayar sonuçları aşağıdaki parametrelere göre belirlenir.
Deneysel Ayarlar
Model, farklı kapasitelere sahip 6 RegNet mimarisini önceden eğitir: RegNetY- {8,16,32,64,128,256}GF, SwAV ile 1 milyardan fazla rastgele ve herkese açık Instagram görüntüsünde. Daha sonra modeller, uygun etiketlerle 1.28 milyonun üzerinde standart eğitim görüntüsü kullanan ve değerlendirme için 50 binin üzerinde görüntü içeren standart bir doğrulama setine sahip olan ImageNet üzerinde görüntü sınıflandırması amacıyla ince ayarlara tabi tutulur.
Model daha sonra SwAV'deki ile aynı veri büyütme tekniklerini uygular ve SGD optimize edici veya 35 toplu iş boyutu ve 256 dönemden sonra 0.0125 kat azaltılan 10'lik bir öğrenme oranıyla Stokastik Gradient Descent ile 30 dönem için ince ayar yapar. 0.9 momentum ve 10 ağırlık düşüşü-4. Model, 1×224'lük merkez birliği kullanarak doğrulama veri kümesinde ilk 224 doğruluğu rapor ediyor.
Diğer Kendinden Denetimli Eğitim Öncesi Yaklaşımlarla Karşılaştırma
Aşağıdaki tabloda, RegNetY-256GF'deki önceden eğitilmiş en büyük model, kendi kendine denetimli öğrenme yaklaşımını kullanan mevcut önceden eğitilmiş modellerle karşılaştırılır.

Gördüğünüz gibi, SEER modeli ImageNet'te %1'lik ilk 84.2 doğruluk oranıyla dönüyor ve mevcut en iyi önceden eğitilmiş model olan SimCLRv2'yi %1 oranında şaşırtıyor.
Ayrıca, aşağıdaki şekil SEER çerçevesini farklı kapasitelerdeki modellerle karşılaştırmaktadır. Gördüğünüz gibi, model kapasitesi ne olursa olsun, RegNet çerçevesini SwAV ile birleştirmek, ön eğitim sırasında doğru sonuçlar verir.

SEER modeli, işlenmemiş ve rastgele görüntüler üzerinde önceden eğitilmiştir ve bunlar, SwAV kendi kendini yöneten öğrenme yöntemiyle RegNet mimarisine sahiptir. SEER modeli, farklı ağ mimarilerine sahip SimCLRv2 ve ViT modelleriyle karşılaştırılmıştır. Son olarak, ImageNet veri setinde modelin ince ayarı yapılır ve ilk 1 doğruluk raporlanır.
Model Kapasitesinin Etkisi
Model kapasitesinin, ön eğitimin model performansı üzerinde önemli bir etkisi vardır ve aşağıdaki şekilde sıfırdan eğitim sırasındaki etki ile karşılaştırılmaktadır.

Ön eğitimli modellerin ilk 1 doğruluk puanının sıfırdan eğitimli modellere göre daha yüksek olduğu ve parametre sayısı arttıkça farkın daha da büyüdüğü açıkça görülmektedir. Ayrıca, model kapasitesi hem önceden eğitilmiş hem de sıfırdan eğitilmiş modellere fayda sağlasa da, büyük miktarda parametreyle uğraşırken önceden eğitilmiş modellerde etkinin daha büyük olduğu da açıktır.
Bir modeli sıfırdan eğitmenin, ImageNet veri kümesi üzerinde eğitim yapılırken gereğinden fazla uymasının olası bir nedeni, küçük veri kümesi boyutudur.
Düşük Hızda Öğrenme
Düşük olasılıklı öğrenme, SEER modelinin performansını düşük seviyeli bir ortamda değerlendirmeyi ifade eder, yani aşağı akış görevlerini gerçekleştirirken toplam verilerin yalnızca bir kısmını kullanır.
Deneysel Ayarlar
SEER çerçevesi, düşük seviyeli öğrenme için iki veri seti kullanır: Yerler205 ve IMAGEnet. Ayrıca model, transfer öğrenimi sırasında veri kümesine hem görüntüler hem de etiketleri açısından sınırlı bir erişimin olduğunu varsayar. Bu sınırlı erişim ayarı, modelin tüm veri kümesine erişimi olduğu ve yalnızca görüntü etiketlerine erişimin sınırlı olduğu kendi kendine denetimli öğrenme için kullanılan varsayılan ayarlardan farklıdır.
-
Place205 Veri Kümesindeki Sonuçlar
Aşağıdaki şekil, modelin önceden eğitilmesinin Place205 veri kümesinin farklı bölümleri üzerindeki etkisini göstermektedir.

Kullanılan yaklaşım, aynı RegNetY-128 GF mimarisi ile denetim altında ImageNet veri kümesi üzerinde modelin önceden eğitilmesiyle karşılaştırılır. Places2.5 veri setinde ince ayar için mevcut eğitim verisi kısmına bakılmaksızın, ilk 1 doğrulukta yaklaşık %205'lik istikrarlı bir kazanç olduğu gözlemlenebildiğinden, karşılaştırmadan elde edilen sonuçlar şaşırtıcıdır.
Denetimli ve kendi kendini denetimli ön eğitim süreçleri arasında gözlemlenen fark, eğitim verilerinin doğasındaki farklılık göz önüne alınarak açıklanabilir, çünkü model tarafından vahşi doğadaki rastgele görüntülerden öğrenilen özellikler sahneyi sınıflandırmak için daha uygun olabilir. Ayrıca, temel kavramın tekdüze olmayan bir dağılımı, Places205 gibi dengesiz bir veri kümesi üzerinde ön eğitim için bir avantaj olabilir.
ImageNet'teki Sonuçlar

Yukarıdaki tablo, SEER modelinin yaklaşımını kendi kendini denetleyen ön eğitim yaklaşımları ve düşük ihtimalli öğrenmeye ilişkin yarı denetimli yaklaşımlarla karşılaştırır. Tüm bu yöntemlerin ön eğitim için ImageNet veri setindeki 1.2 milyon görüntünün tamamını kullandığını ve yalnızca etiketlere erişimi kısıtladığını belirtmekte fayda var. Öte yandan, SEER modelinde kullanılan yaklaşım, veri setindeki görüntülerin yalnızca %1 ila 10'unu görmesine izin vermektedir.
Ağlar, ön eğitim sırasında aynı dağıtımdan daha fazla görüntü gördüğünden, bu yaklaşımlara son derece fayda sağlar. Ancak etkileyici olan, SEER modelinin ImageNet veri setinin yalnızca %1 ila 10'unu görmesine rağmen, yine de yaklaşık %1'lik bir ilk 80 doğruluk puanı elde edebilmesidir; bu, tartışılan yaklaşımların doğruluk puanının hemen altında kalır. yukarıdaki tabloda
Model Kapasitesinin Etkisi
Aşağıdaki şekil, model kapasitesinin düşük hızlı öğrenme üzerindeki etkisini tartışmaktadır: ImageNet veri setinin %1, %10 ve %100'ünde.

Model kapasitesini artırmanın veri setindeki hem görsellere hem de etiketlere erişimi azalttığı için modelin doğruluk puanını artırabileceği gözlemlenebilir.
Diğer Ölçütlere Aktar
SEER modelini daha fazla değerlendirmek ve performansını analiz etmek için önceden eğitilmiş özellikler diğer aşağı akış görevlerine aktarılır.
Görüntü Sınıflandırmanın Doğrusal Değerlendirmesi

Yukarıdaki tablo, SEER'in önceden eğitilmiş RegNetY-256GF ve ImageNet veri setinde önceden eğitilmiş RegNetY128-GF'nin özelliklerini, denetimli ve denetimsiz aynı mimariye sahip olarak karşılaştırır. Özelliklerin kalitesini analiz etmek için model, ağırlıkları dondurur ve aşağı yönlü görevler için eğitim setini kullanarak özelliklerin üzerinde doğrusal bir sınıflandırıcı kullanır. Süreç için aşağıdaki kriterler dikkate alınır: Open-Images(OpIm), iNaturalist(iNat), Places205(Places) ve Pascal VOC(VOC).
Algılama ve Segmentasyon
Aşağıda verilen şekil, önceden eğitilmiş algılama ve segmentasyon özelliklerini karşılaştırır ve değerlendirir.

SEER çerçevesi, yapı taşları olarak önceden eğitilmiş RegNetY-64GF ve RegNetY-128GF ile COCO kıyaslamasında bir Mask-RCNN modelini eğitir. Hem mimari hem de aşağı akış görevleri için SEER'in kendi kendini denetleyen eğitim öncesi yaklaşımı, denetimli eğitimden daha iyi performans gösterir. 1.5 ila 2 AP noktası.
Zayıf Denetimli Ön Eğitim ile Karşılaştırma
İnternette bulunan resimlerin çoğunda genellikle bir meta açıklama veya alternatif metin veya açıklamalar veya ön eğitim sırasında kaldıraç sağlayabilecek coğrafi konumlar bulunur. Önceki çalışmalar, derlenmiş veya etiketlenmiş bir hashtag kümesini tahmin etmenin, ortaya çıkan görsel özellikleri tahmin etme kalitesini artırabileceğini göstermiştir. Ancak, bu yaklaşımın görüntüleri filtrelemesi gerekir ve yalnızca bir metin meta verisi mevcut olduğunda en iyi şekilde çalışır.
Aşağıdaki şekil, rastgele görüntüler üzerinde eğitilen bir ResNetXt101-32dx8d mimarisinin ön eğitimini, hashtag'ler ve meta verilerle etiketlenmiş görüntüler üzerinde eğitilen aynı mimariyle karşılaştırır ve her ikisi için de ilk 1 doğruluğunu bildirir.

SEER çerçevesinin ön eğitim sırasında meta veri kullanmamasına rağmen, doğruluğunun ön eğitim için meta veri kullanan modellerle karşılaştırılabilir olduğu görülmektedir.
Ablasyon Çalışmaları
Ablasyon çalışması, belirli bir bileşenin modelin genel performansı üzerindeki etkisini analiz etmek için gerçekleştirilir. Bileşeni modelden tamamen çıkararak bir ablasyon çalışması yapılır ve modelin nasıl performans gösterdiği anlaşılır. Geliştiricilere söz konusu bileşenin modelin performansı üzerindeki etkisine ilişkin kısa bir genel bakış sağlar.
Model Mimarisinin Etkisi
Model mimarisi, özellikle model ölçeklendiğinde veya eğitim öncesi verilerin özellikleri değiştirildiğinde, modelin performansı üzerinde önemli bir etkiye sahiptir.
Aşağıdaki şekil, ImageNet veri setini doğrusal olarak değerlendirerek mimariyi değiştirmenin önceden eğitilmiş özelliklerin kalitesini nasıl etkilediğini tartışmaktadır. Önceden eğitilmiş özellikler bu durumda doğrudan incelenebilir çünkü değerlendirme, ImageNet veri kümesinde sıfırdan eğitildiğinde yüksek doğruluk sağlayan modeli desteklemez.

ResNeXts ve ResNet mimarisi için sondan bir önceki katmandan elde edilen özelliklerin mevcut ayarlarla daha iyi çalıştığı gözlemlenebilir. Öte yandan, RegNet mimarisi diğer mimarilerden daha iyi performans gösteriyor.
Genel olarak, model kapasitesinin artırılmasının özelliklerin kalitesi üzerinde olumlu bir etkiye sahip olduğu ve model performansında logaritmik bir kazanç olduğu sonucuna varılabilir.
Eğitim Öncesi Verileri Ölçeklendirme
Bir modeli daha büyük bir veri kümesinde eğitmenin, modelin öğrendiği görsel özelliğin genel kalitesini iyileştirmesinin iki temel nedeni vardır: daha fazla benzersiz görüntü ve daha fazla parametre. Bu sebeplerin model performansını nasıl etkilediğine kısaca bir göz atalım.
Benzersiz Görsellerin Sayısını Artırma

Yukarıdaki şekil, aynı sayıda parametreye sahip, ancak farklı sayıda benzersiz görüntü üzerinde eğitilmiş iki farklı mimariyi, RegNet8 ve RegNet16'yı karşılaştırmaktadır. SEER çerçevesi, modelleri bir milyar görüntü için 1 döneme veya 32 benzersiz görüntü için 32 döneme karşılık gelen ve tek yarım dalga kosinüs öğrenme oranıyla güncellemeler için eğitir.
Bir modelin iyi performans göstermesi için ideal olarak modele beslenen benzersiz görüntü sayısının daha fazla olması gerektiği gözlemlenebilir. Bu durumda model, ImageNet veri setinde bulunan görüntülerden daha büyük benzersiz görüntülerle beslendiğinde iyi performans gösterir.
Daha Fazla Parametre
Aşağıdaki şekil, RegNet-128GF mimarisi kullanılarak bir milyar görüntü üzerinde eğitilen bir modelin performansını göstermektedir. Parametre sayısı arttıkça modelin performansının istikrarlı bir şekilde arttığı görülmektedir.

Gerçek Dünyada Kendi Kendini Denetleyen Bilgisayar Görüntüsü
Şimdiye kadar, kendi kendini denetleyen öğrenmenin ve bilgisayar görüşü için SEER modelinin teoride nasıl çalıştığını tartıştık. Şimdi, kendi kendini denetleyen bilgisayar görüşünün gerçek dünya senaryolarında nasıl çalıştığına ve SEER'in neden kendi kendini denetleyen bilgisayar görüşünün geleceği olduğuna bir göz atalım.
SEER modeli, en son teknolojiye sahip modellerin, modelin ön eğitimi sırasında trilyonlarca metin kelimesiyle birleştirilmiş trilyonlarca veri kümesini ve parametreyi kullandığı Doğal Dil İşleme endüstrisinde yapılan çalışmalara rakiptir. Aşağı akış görevlerindeki performans genellikle modeli eğitmek için girdi verilerinin sayısındaki artışla artar ve aynısı bilgisayarla görme görevleri için de geçerlidir.
Ancak Doğal Dil İşleme için kendi kendini denetleyerek öğrenme tekniklerini kullanmak, bilgisayar görüşü için kendi kendini denetleyerek öğrenmeyi kullanmaktan farklıdır. Bunun nedeni, metinlerle uğraşırken anlamsal kavramların genellikle ayrık sözcüklere bölünmesidir, ancak görüntülerle uğraşırken, modelin hangi pikselin hangi kavrama ait olduğuna karar vermesi gerekir.
Ek olarak, farklı görüntülerin farklı görünümleri vardır ve birden çok görüntü aynı nesneye sahip olabilse de konsept önemli ölçüde değişebilir. Örneğin, bir kedinin resimlerini içeren bir veri kümesini düşünün. Birincil nesne olan kedi tüm görüntülerde ortak olsa da, kedi bir görüntüde hareketsiz dururken bir sonrakinde topla oynuyor olabileceğinden ve bu böyle devam ederek kavram önemli ölçüde değişebilir. Görüntüler genellikle değişen konsepte sahip olduğundan, aynı konsept etrafındaki farklılıkları kavramak için modelin önemli miktarda görüntüye bakması önemlidir.
Bir modeli, yüksek boyutlu ve karmaşık görüntü verileriyle verimli bir şekilde çalışacak şekilde başarıyla ölçeklendirmek için iki bileşen gerekir:
- Çok büyük bir görüntü veri kümesinden görsel kavramları yakalayacak ve öğrenecek kadar büyük bir evrişimli sinir ağı veya CNN.
- Herhangi bir etiket, ek açıklama veya meta veri olmadan çok sayıda görüntüden kalıpları öğrenebilen bir algoritma.
SEER modeli, yukarıdaki bileşenleri bilgisayarla görme alanına uygulamayı amaçlamaktadır. SEER modeli, görüntüleri paralel görsel kavramlarla gruplamak veya eşleştirmek için çevrimiçi kümelemeyi kullanan ve kalıpları daha iyi tanımlamak için bu benzerliklerden yararlanan kendi kendini denetleyen bir öğrenme çerçevesi olan SwAV tarafından yapılan ilerlemelerden yararlanmayı amaçlar.

SwAV mimarisi ile SEER modeli, bilgisayarlı görüde kendi kendini denetleyen öğrenme kullanımını çok daha etkin hale getirebilmekte ve eğitim süresini 6 kata kadar azaltabilmektedir.
Ayrıca, bu ölçekte 1 milyardan fazla görüntü içeren geniş ölçekte model eğitimi, yalnızca terimler veya çalışma zamanı ve bellek açısından değil, aynı zamanda doğruluk açısından da verimli olan bir model mimarisi gerektirir. RegNet modelleri burada devreye giriyor çünkü bu RegNets modelleri trilyonlarca parametreyi ölçekleyebilen ve bellek sınırlamaları ve çalışma zamanı düzenlemelerine uyma gereksinimlerine göre optimize edilebilen ConvNets modelleri.
Sonuç: Kendi Kendini Denetleyen Bir Gelecek
Kendi kendini denetleyen öğrenme, bir süredir yapay zeka ve makine öğrenimi endüstrisinde önemli bir tartışma konusu olmuştur çünkü yapay zeka modellerinin, dikkatlice seçilmiş ve etiketlenmiş veriye güvenmek yerine doğrudan internette rastgele bulunan büyük miktarda veriden bilgi öğrenmesine olanak tanır. tek amacı yapay zeka modellerini eğitmek olan veri kümesi.
Kendi kendini denetleyen öğrenme, yapay zeka ve makine öğreniminin geleceği için hayati bir kavramdır çünkü geliştiricilerin gerçek dünya senaryolarına iyi uyum sağlayan yapay zeka modelleri oluşturmasına olanak sağlama potansiyeline sahiptir ve belirli bir amaca sahip olmak yerine birden çok kullanım durumu vardır ve SEER, bilgisayarlı görü endüstrisinde kendi kendine denetimli öğrenmenin uygulanmasında bir kilometre taşı.
SEER modeli, bilgisayarlı görü endüstrisinin dönüşümünde ilk adımı atıyor ve etiketli veri setine olan bağımlılığımızı azaltıyor. SEER modeli, geliştiricilerin çeşitli ve büyük miktarda veriyle çalışmasına izin verecek veri kümesine açıklama ekleme ihtiyacını ortadan kaldırmayı amaçlar. SEER'in uygulanması, tıp endüstrisi gibi sınırlı görüntülere veya meta verilere sahip alanlarla ilgilenen modeller üzerinde çalışan geliştiriciler için özellikle yararlıdır.
Ayrıca, insan ek açıklamalarını ortadan kaldırmak, geliştiricilerin modeli daha hızlı geliştirmelerine ve dağıtmalarına olanak tanıyacak ve bu da hızla gelişen durumlara daha hızlı ve daha doğru yanıt vermelerine olanak tanıyacaktır.












