AI 101

Bilgisayarla Görme Nedir?

Güncellenmiş on Temmuz 21, 2023

Bilgisayarla Görme Nedir?

Bilgisayarla görme algoritmaları şu anda dünyadaki en dönüştürücü ve güçlü yapay zeka sistemlerinden biridir. Bilgisayar görme sistemleri otonom araçlarda, robot navigasyonunda, yüz tanıma sistemlerinde ve daha fazlasında kullanıma bakın. Ancak, bilgisayar görme algoritmaları tam olarak nedir? Nasıl çalışırlar? Bu soruları yanıtlamak için, bilgisayarla görmenin, bilgisayarla görme algoritmalarının ve bilgisayarla görme sistemlerine yönelik uygulamaların arkasındaki teoriye derinlemesine dalacağız.

Bilgisayarla Görme Sistemleri Nasıl Çalışır?

Bilgisayarla görme sistemlerinin nasıl çalıştığını tam olarak anlayabilmek için, önce insanların nesneleri nasıl tanıdığına bir göz atalım. Nöropsikolojinin nesneleri nasıl tanıdığımıza dair sahip olduğu en iyi açıklama, yaşamın ilk aşamasını tanımlayan bir modeldir. nesne tanıma nesnelerin biçim, renk ve derinlik gibi temel bileşenlerinin ilk olarak beyin tarafından yorumlandığı bir sistemdir. Gözden beyne giren sinyaller, önce bir nesnenin kenarlarını çıkarmak için analiz edilir ve bu kenarlar, nesnenin formunu tamamlayan daha karmaşık bir temsil halinde birleştirilir.

Bilgisayarlı görü sistemleri, insan görsel sistemine çok benzer şekilde, önce bir nesnenin kenarlarını ayırt ederek ve ardından bu kenarları nesnenin biçiminde birleştirerek çalışır. En büyük fark, bilgisayarların görüntüleri sayılar olarak yorumlaması nedeniyle, bir bilgisayar görme sisteminin görüntüyü oluşturan tek tek pikselleri yorumlamak için bir yola ihtiyaç duymasıdır. Bilgisayarlı görü sistemi görüntüdeki piksellere değerler atayacak ve piksellerin bir bölgesi ile başka bir piksel bölgesi arasındaki değer farkını inceleyerek bilgisayar kenarları ayırt edebilir. Örneğin, söz konusu görüntü gri tonlamalıysa, değerler siyahtan (0 ile temsil edilir) beyaza (255 ile temsil edilir) değişir. Birbirine yakın piksellerin değer aralığındaki ani bir değişiklik bir kenarı gösterecektir.

Piksel değerlerinin karşılaştırılmasına ilişkin bu temel ilke, bilgisayarın farklı RGB renk kanalları arasındaki farkları karşılaştırmasıyla renkli görüntülerle de yapılabilir. Bilgisayarlı görü sisteminin bir görüntüyü yorumlamak için piksel değerlerini nasıl incelediğini bildiğimize göre, bilgisayarlı görü sisteminin mimarisine bir göz atalım.

Evrişimli Sinir Ağları (CNN'ler)

Bilgisayarlı görü görevlerinde kullanılan birincil yapay zeka türü, evrişimli sinir ağlarına dayalı. Evrişim tam olarak nedir?

Konvolüsyonlar, ağın pikseller arasındaki değer farkını belirlemek için kullandığı matematiksel işlemlerdir. Piksel değerlerinden oluşan bir ızgara tasarlarsanız, bu ana ızgara üzerinde taşınan daha küçük bir ızgara hayal edin. İkinci ızgaranın altındaki değerler ağ tarafından analiz ediliyor, bu nedenle ağ bir seferde yalnızca bir avuç pikseli inceliyor. Buna genellikle "sürgülü pencereler" tekniği denir. Kayan pencere tarafından analiz edilen değerler ağ tarafından özetlenir, bu da görüntünün karmaşıklığının azaltılmasına yardımcı olur ve ağın kalıpları çıkarmasını kolaylaştırır.

Evrişimli sinir ağları iki farklı bölüme ayrılmıştır, kıvrımlı bölüm ve tam bağlantılı bölüm. Ağın evrişimli katmanları, işi görüntü içindeki pikselleri analiz etmek ve sinir ağının yoğun şekilde bağlı katmanlarının kalıpları öğrenebileceği temsillerini oluşturmak olan özellik çıkarıcılardır. Evrişimli katmanlar, sadece pikselleri inceleyerek ve görüntünün kenarlar gibi düşük seviyeli özelliklerini çıkararak başlar. Daha sonra evrişimli katmanlar, kenarları daha karmaşık şekillerde birleştirir. Sonunda, ağın tamamen bağlı katmanlara iletebileceği görüntünün kenarlarının ve ayrıntılarının bir temsiline sahip olacağı umulmaktadır.

Görüntü Açıklaması

Evrişimli bir sinir ağı, görüntülerden desenleri kendi başına çıkarabilirken, bilgisayarlı görme sisteminin doğruluğu, görüntülere açıklama eklenerek büyük ölçüde geliştirilebilir. Görüntü açıklaması görüntüdeki önemli nesneleri algılamada sınıflandırıcıya yardımcı olan görüntüye meta veri ekleme işlemidir. Otonom bir aracı veya robotu kontrol ederken olduğu gibi, bilgisayarla görme sistemlerinin yüksek doğrulukta olması gerektiğinde görüntü açıklamalarının kullanılması önemlidir.

Bir bilgisayarlı görü sınıflandırıcısının performansını iyileştirmek için görüntülere açıklama eklenebilecek çeşitli yollar vardır. Görüntü açıklamaları genellikle, hedef nesnenin kenarlarını çevreleyen ve bilgisayara dikkatini kutunun içine odaklamasını söyleyen sınırlayıcı kutularla yapılır. Semantik segmentasyon, görüntüdeki her piksele bir görüntü sınıfı atayarak çalışan başka bir görüntü açıklama türüdür. Başka bir deyişle, "çimen" veya "ağaç" olarak değerlendirilebilecek her piksel, bu sınıflara ait olarak etiketlenecektir. Teknik, piksel düzeyinde kesinlik sağlar, ancak semantik segmentasyon ek açıklamaları oluşturmak, basit sınırlayıcı kutular oluşturmaktan daha karmaşık ve zaman alıcıdır. Çizgiler ve noktalar gibi diğer açıklama yöntemleri de mevcuttur.

Bir sonraki

Karışıklık Matrisi nedir?

Kaçırmayın

Sinir Ağları nedir?

daniel nelson

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenme ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.