Yapay Zekâ
Büyük Veri Nedir?

Büyük Veri Nedir?
“Büyük Veri” current era’nın sıkça kullanılan moda kelimelerinden biridir, ancak gerçekten ne anlama geliyor?
Büyük verinin basit bir tanımı burada. Büyük veri geleneksel veri işleme ve depolama yöntemleriyle işlenip depolanamayacak kadar büyük ve karmaşık olan verilerdir. Bu, bir hızlı tanımlama için kullanılabilir, ancak büyük verinin daha derin, daha tam bir anlayışına sahip olmak yararlı olacaktır. Büyük verinin temelini oluşturan bazı kavramlara, seperti depolama, yapı ve işleme bakalım.
Büyük Veri Ne Kadar Büyük?
“Büyük veri”nin herhangi bir boyutun üzerindeki verilerin tümünü kapsadığını söylemek kadar basit değildir, verilerin işlendiği ortam büyük verinin ne olduğunu belirlemede非常 önemli bir faktördür. Bir verinin büyük veri olarak kabul edilebilmesi için gerekli boyuta, bağlam veya görev göre değişir. İki farklı boyuttaki veri setleri farklı bağlamlarda “büyük veri” olarak kabul edilebilir.
Daha somut olmak gerekirse, 200 megabaytlık bir dosyayı e-posta ekine eklemeye çalışırsanız, bunu yapamazsınız. Bu bağlamda, 200 megabaytlık dosya büyük veri olarak kabul edilebilir. Buna karşılık, aynı yerel ağ içindeki bir cihaza 200 megabaytlık bir dosyayı kopyalamak hiç zaman almayabilir ve bu bağlamda büyük veri olarak görülmez.
Ancak, 15 terabayt video verisinin bilgisayar görme uygulamalarında eğitim için önceden işlenmesi gerektiğini varsayalım. Bu durumda, video dosyaları o kadar çok yer kaplar ki, güçlü bir bilgisayar bile hepsini işleyecek uzun bir süreye sahip olur ve işleme genellikle birden fazla bilgisayarın bağlı olduğu bir ağa dağıtılır. Bu 15 terabayt video verisi kesinlikle büyük veri olarak kabul edilebilir.
Büyük Veri Yapıları Tipleri
Büyük veri, yapı bakımından üç farklı kategoriye sahiptir: yapılandırılmamış veri, yarı yapılandırılmış ve yapılandırılmış veri.
Yapılandırılmamış veri, belirli bir yapısı olmayan verilerdir, yani veri esasen büyük bir havuzda bulunur. Yapılandırılmamış verilerin örnekleri, etiketsiz resimlerle dolu bir veritabanıdır.
Yarı yapılandırılmış veri, resmi bir yapısı olmayan ancak gevşek bir yapı içinde bulunan verilerdir. Örneğin, e-posta verileri yarı yapılandırılmış veri olarak kabul edilebilir, çünkü bireysel e-postalardaki verilere atıfta bulunabilirsiniz, ancak resmi veri kalıpları kurulmamıştır.
Yapılandırılmış veri, belirli bir yapısı olan ve farklı özelliklere göre kategorilere ayrılmış veri noktalarına sahip verilerdir. Yapılandırılmış verilerin bir örneği, isimler, e-postalar, telefon numaraları ve web siteleri gibi iletişim bilgilerini içeren bir Excel elektronik tablosudur.
Bu veri türlerindeki farklılıklar hakkında daha fazla bilgi okumak istiyorsanız, buradaki bağlantıyı kontrol edebilirsiniz.
Büyük Veri Değerlendirmesi için Metrikler
Büyük veri, üç farklı metriğe göre analiz edilebilir: hacim, hız ve çeşitlilik.
Hacim, verinin boyutunu ifade eder. Veri setlerinin ortalama boyutu genellikle artmaktadır. Örneğin, 2006 yılında en büyük sabit sürücü 750 GB’lik bir sürücüydü. Buna karşılık, Facebook’un günde 500 terabaytın üzerinde veri ürettiği düşünülmektedir ve bugün mevcut olan en büyük tüketici sabit sürücüsü 16 terabaytlık bir sürücüdür. Bir dönem için büyük veri olarak kabul edilen bir şey, başka bir dönem için büyük veri olmayabilir. Daha fazla veri, daha fazla nesnenin sensörler, kameralar, mikrofonlar ve diğer veri toplama cihazları ile donatıldığı için günümüzde üretilmektedir.
Hız, verilerin ne kadar hızlı hareket ettiğini veya belirli bir süre içinde ne kadar veri üretildiğini ifade eder. Sosyal medya akışları, her dakika yüz binlerce gönderi ve yorum üretirken, kendi e-posta kutunuzun çok daha az aktivitesi olacaktır. Büyük veri akışları, genellikle gerçek zamanlı olarak veya gerçek zamanlı olmayan şekilde yüz binlerce veya milyonlarca olayı işleyen akışlardır. Bu veri akışlarının örnekleri, online oyun platformları ve yüksek frekanslı hisse senedi alım satım algoritmalarıdır.
Çeşitlilik, veri seti içindeki farklı veri türlerini ifade eder. Veriler, ses, video, metin, fotoğraflar veya seri numaraları gibi birçok farklı formatta olabilir. Genel olarak, geleneksel veritabanları, bir veya birkaç veri türünü işleyecek şekilde tasarlanmıştır. Başka bir deyişle, geleneksel veritabanları, oldukça homojen ve öngörülebilir bir yapıya sahip verilerin depolanması için tasarlanmıştır. Uygulamalar daha çeşitli hale geldikçe, daha fazla özelliklere sahip hale geldikçe ve daha fazla insan tarafından kullanıldıkça, veritabanlarının daha fazla veri türünü depolayabilmesi için evrimleşmesi gerekmiştir. Yapılandırılmamış veritabanları, birbirleriyle ilgili olmayan birden fazla veri türünü depolayabildikleri için büyük veri depolamak için idealdir.
Büyük Veri İşleme Yöntemleri
Büyük verilerin analizini kolaylaştırmak için tasarlanmış birçok platform ve araç vardır. Büyük veri havuzlarından anlamlı kalıpları çıkarmak için analiz edilmelidir, bu görev geleneksel veri analiz araçlarıyla oldukça zor olabilir. Büyük miktarda verinin analiz edilmesi ihtiyacına yanıt olarak, birçok şirket büyük veri analiz araçları oluşturmuştur. Büyük veri analiz araçları, ZOHO Analytics, Cloudera ve Microsoft BI gibi sistemleri içerir.












