saplama Büyük Veri Nedir? - Unite.AI
Bizimle iletişime geçin

AI 101

Büyük Veri Nedir?

mm
Güncellenmiş on

Büyük Veri Nedir?

"Büyük Veri", çağımızın yaygın olarak kullanılan vızıltı kelimelerinden biridir, ancak gerçekte ne anlama geliyor?

İşte büyük verinin hızlı ve basit bir tanımı. Büyük veri geleneksel veri işleme ve depolama yöntemleriyle işlenemeyecek kadar büyük ve karmaşık verilerdir. Bu, buluşsal olarak kullanabileceğiniz hızlı bir tanım olsa da, büyük verileri daha derin ve daha eksiksiz bir şekilde anlamak faydalı olacaktır. Depolama, yapı ve işleme gibi büyük verilerin altında yatan bazı kavramlara bir göz atalım.

Büyük Veri Ne Kadar Büyük?

“'X' boyutunun üzerindeki her veri büyük veridir” demek kadar basit değil, verinin işlendiği ortam son derece önemli bir faktör. Neyin büyük veri olarak nitelendirildiğini belirlemek. Verilerin büyük veri olarak değerlendirilmesi için olması gereken boyut, bağlama veya verilerin kullanıldığı göreve bağlıdır. Çok farklı boyutlardaki iki veri kümesi, farklı bağlamlarda "büyük veri" olarak kabul edilebilir.

Daha somut olmak gerekirse, 200 megabaytlık bir dosyayı e-posta eki olarak göndermeye çalışırsanız, bunu yapamazsınız. Bu bağlamda 200 megabaytlık dosya büyük veri olarak değerlendirilebilir. Buna karşılık, 200 megabaytlık bir dosyayı aynı LAN içindeki başka bir cihaza kopyalamak hiç zaman almayabilir ve bu bağlamda büyük veri olarak değerlendirilmez.

Ancak bilgisayarlı görme uygulamalarının eğitiminde kullanılmak üzere 15 terabaytlık videonun önceden işlenmesi gerektiğini varsayalım. Bu durumda, video dosyaları o kadar fazla yer kaplar ki, güçlü bir bilgisayarın bile hepsini işlemesi uzun zaman alır ve dolayısıyla işlem süresini azaltmak için işlem normalde birbirine bağlı birden fazla bilgisayara dağıtılır. Bu 15 terabaytlık video verisi kesinlikle büyük veri olarak nitelendirilecektir.

Büyük Veri Yapılarının Türleri

Büyük veri üç farklı yapı kategorisine ayrılır: yapılandırılmamış veri, yarı yapılandırılmış ve yapılandırılmış veri.

Yapılandırılmamış veriler, tanımlanabilir bir yapıya sahip olmayan verilerdir; yani veriler esasen tek bir büyük havuzda bulunur. Yapılandırılmamış verilere örnek olarak etiketlenmemiş görüntülerle dolu bir veritabanı verilebilir.

Yarı yapılandırılmış veriler, resmi bir yapıya sahip olmayan ancak gevşek bir yapı içinde var olan verilerdir. Örneğin, e-posta verileri yarı yapılandırılmış veriler olarak sayılabilir, çünkü tek tek e-postalarda yer alan verilere atıfta bulunabilirsiniz, ancak resmi veri kalıpları oluşturulmamıştır.

Yapılandırılmış veriler, farklı özelliklere göre kategorize edilmiş veri noktaları ile resmi bir yapıya sahip verilerdir. Yapılandırılmış verilere bir örnek, adlar, e-postalar, telefon numaraları ve web siteleri gibi iletişim bilgilerini içeren bir excel elektronik tablosudur.

Bu veri türleri arasındaki farklar hakkında daha fazla bilgi edinmek isterseniz buradaki bağlantıya göz atın.

Büyük Veriyi Değerlendirme Metrikleri

Büyük veriler üç farklı metrik açısından analiz edilebilir: hacim, hız ve çeşitlilik.

Hacim, verilerin boyutunu ifade eder. Veri kümelerinin ortalama boyutu genellikle artıyor. Örneğin, 2006'daki en büyük sabit disk 750 GB'lık bir sabit diskti. Buna karşılık, Facebook'un günde 500 terabayttan fazla veri ürettiği düşünülüyor ve bugün mevcut olan en büyük tüketici sabit diski 16 terabaytlık bir sabit disktir. Bir çağda büyük veri olarak nitelendirilen şey, başka bir çağda büyük veri olmayabilir. Çevremizdeki nesnelerin giderek daha fazla sensörler, kameralar, mikrofonlar ve diğer veri toplama cihazları ile donatılması nedeniyle bugün daha fazla veri üretiliyor.

Hız, verilerin ne kadar hızlı hareket ettiğini veya başka bir deyişle, belirli bir süre içinde ne kadar veri üretildiğini ifade eder. Sosyal medya akışları her dakika yüz binlerce gönderi ve yorum üretirken, kendi e-posta gelen kutunuz muhtemelen çok daha az etkinliğe sahip olacaktır. Büyük veri akışları, genellikle yüzbinlerce veya milyonlarca olayı az çok gerçek zamanlı olarak işleyen akışlardır. Bu veri akışlarının örnekleri, çevrimiçi oyun platformları ve yüksek frekanslı hisse senedi alım satım algoritmalarıdır.

Çeşitlilik, veri kümesinde bulunan farklı veri türlerini ifade eder. Veriler, ses, video, metin, fotoğraflar veya seri numaraları gibi birçok farklı biçimden oluşabilir. Genel olarak, geleneksel veritabanları bir veya birkaç veri türünü işleyecek şekilde biçimlendirilir. Başka bir deyişle, geleneksel veritabanları oldukça homojen ve tutarlı, öngörülebilir bir yapıya sahip verileri tutacak şekilde yapılandırılmıştır. Uygulamalar daha çeşitli hale geldikçe, farklı özelliklerle dolu hale geldikçe ve daha fazla kişi tarafından kullanıldıkça, veritabanlarının daha fazla veri türünü depolamak için gelişmesi gerekmiştir. Yapılandırılmamış veritabanları, birbiriyle ilişkili olmayan birden fazla veri türünü tutabildikleri için büyük verileri tutmak için idealdir.

Büyük Veriyi İşleme Yöntemleri

Büyük verilerin analizini kolaylaştırmak için tasarlanmış bir dizi farklı platform ve araç vardır. Verilerden anlamlı kalıplar çıkarmak için büyük veri havuzlarının analiz edilmesi gerekir; bu, geleneksel veri analizi araçlarıyla oldukça zorlayıcı olabilecek bir görevdir. Büyük hacimli verileri analiz etmek için araçlara duyulan ihtiyaca yanıt olarak, çeşitli şirketler büyük veri analiz araçları oluşturmuştur. Büyük veri analiz araçları, ZOHO Analytics, Cloudera ve Microsoft BI gibi sistemleri içerir.

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenme ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.