Yapay Zekâ 101
Veri Bilimi Nedir?

Veri bilimindeki alan sadece her geçen gün daha da büyük ve popüler hale geliyor. LinkedIn’e göre, veri bilimi 2017 yılında en hızlı büyüyen iş alanlarından biriydi ve 2020’de Glassdoor, veri bilimcisi işini Amerika Birleşik Devletleri’ndeki üç en iyi işlerden biri olarak sıraladı. Veri biliminin artan popülerliğine rağmen, daha fazla insanın bu alana ilgi duyması şaşırtıcı değildir. Yine de veri bilimi tam olarak nedir?
Veri bilimini tanıyalım, veri bilimini tanımlamak, büyük veri ve yapay zekanın bu alandaki değişimi keşfetmek, bazı ortak veri bilim araçlarını öğrenmek ve veri bilim örneklerini incelemek için biraz zaman harcayalım.
Veri Bilimi Nedir?
Veri bilim araçlarını veya örneklerini keşfedebilmemiz için önce veri bilimi tanımını kısaca yapmak istiyoruz.
“Veri bilimi” tanımını yapmak aslında biraz zor, çünkü bu terim birçok farklı görev ve sorgulama ve analiz yöntemine uygulanıyor. “Bilim” teriminin ne anlama geldiğini hatırlayarak başlayabiliriz. Bilim, gözlem ve deneysel yöntemler yoluyla fiziksel ve doğal dünyayı sistematik olarak incelemek ve insanların doğal süreçler hakkında anlayışını ilerletmek amaçlı bir çalışmadır. Bu tanımdaki önemli kelimeler “gözlem” ve “anlama”.
Veri bilimi, dünyayı veri desenlerinden anlamak süreciyse, bir veri bilimcinin sorumluluğu, verileri dönüştürmek, verileri analiz etmek ve verilerden desenler çıkarmaktır. Diğer bir deyişle, bir veri bilimcisiye veri verilir ve onlar çeşitli araçlar ve teknikler kullanarak verileri analiz etmeye hazır hale getirmek (ön işleme) ve sonra verileri anlamlı desenler için analiz etmek için kullanır.
Bir veri bilimcinin rolü, geleneksel bir bilimcinin rolüne benzer. İkisi de, dünyayı nasıl işlediğine dair hipotezleri desteklemek veya reddetmek için veri analiziyle ilgilenirler, dünyamızın anlayışımızı iyileştirmek için veri desenlerinden anlam çıkarmaya çalışırlar. Veri bilimcileri, geleneksel bir bilimci gibi aynı bilimsel yöntemleri kullanırlar. Bir veri bilimcisi, incelemek istedikleri bir olgu hakkında gözlemler toplamakla başlar. Sonra ilgili olgu hakkında bir hipotez oluşturur ve hipotezini某 şekilde geçersiz kılacak verileri bulmaya çalışır.
Eğer hipotez veriyle çelişmiyorsa, bir teori veya model oluşturabilirler, ki bu daha sonra diğer benzer veri kümeleri için geçerli olup olmadığını görmek için tekrar tekrar test edilebilir. Bir model yeterince güçlü ise, desenleri iyi açıklar ve diğer testlerde geçersiz kılınmazsa, gelecekteki olayların öngörülmesinde bile kullanılabilir.
Bir veri bilimcisi genellikle kendi verilerini bir deney yoluyla toplamaz. Kontrollü ve çift kör denemelerle hipotezini etkileyebilecek karışıklık değişkenlerini keşfetmek için deneyler tasarlamaz. Bir veri bilimcisi tarafından analiz edilen veriler genellikle gözlemsel çalışmalar ve sistemler yoluyla elde edilir, bu da bir veri bilimcinin işinin, genellikle daha fazla deney yapan geleneksel bir bilimcinin işinden farklı olabileceği bir yoldur.
Bununla birlikte, bir veri bilimcisi, sistemdeki değişikliklere bağlı olarak veri desenlerinin nasıl değiştiğini görmek için A/B testi olarak adlandırılan bir tür deneyleme çağrılabilir.
Kullanılan teknik ve araçlardan bağımsız olarak, veri bilimi sonunda veriden anlam çıkarmak suretiyle dünyamızın anlayışımızı iyileştirmeyi amaçlar ve veri, gözlem ve deneysel yöntemler yoluyla elde edilir. Veri bilimi, algoritmalar, istatistiksel ilkeler ve çeşitli araçlar ve makineler kullanarak veriden içgörüler elde etme sürecidir, bu içgörüler bize世界 etrafındaki desenleri anlamamıza yardımcı olur.
Veri Bilimcileri Ne Yapar?
Veri analizi bilimsel bir şekilde yapılan herhangi bir faaliyetin veri bilimi olarak adlandırılabileceğini görebilirsiniz, bu da veri bilimini tanımlamanın neden bu kadar zor olduğunu açıklar. Daha net olması için, bir veri bilimcinin günlük olarak neler yapabileceğini keşedelim.

Veri bilimi birçok farklı disiplin ve uzmanlığı bir araya getirir. Foto: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
Bir veri bilimcisi, herhangi bir gün, veri depolama ve alma şemalarını oluşturmak, veri ETL (extract, transform, load) boru hatlarını oluşturmak ve verileri temizlemek, istatistiksel yöntemleri kullanmak, veri görselleştirmeleri ve panelleri oluşturmak, yapay zeka ve makine öğrenimi algoritmalarını uygulamak ve verilere dayalı eylemler için önerilerde bulunmak ile görevlendirilebilir.
Yukarıda belirtilen görevleri biraz daha açıklamak isteriz.
Bir veri bilimcisi, verilerin depolanması ve alınması için gerekli teknolojilerin kurulumunu yönetmekle görevlendirilebilir, hem donanım hem de yazılım açısından. Bu pozisyondan sorumlu kişi ayrıca “Veri Mühendisi” olarak da adlandırılabilir. Ancak bazı şirketler bu sorumlulukları veri bilimcilerinin rolü altında dahil eder. Bir veri bilimcisi ayrıca ETL boru hatlarının oluşturulmasına veya oluşturulmasına yardım edebilir. Veriler genellikle bir veri bilimcisine gerekli形式de gelmez. Bunun yerine, veriler ham形式de veri kaynağından alınır, kullanılabilir bir forma dönüştürülür ve ön işleme tabi tutulur (verileri standardize etme, redundansları düşürme, bozuk verileri temizleme gibi işlemler).
Veri Bilimi İstatistiksel Yöntemleri
Verileri sadece incelemek ve yorumlamak yerine bir bilim haline getirmek için istatistiğin uygulanması gerekli. İstatistiksel yöntemler, veri kümelerinden ilgili desenleri çıkarmak için kullanılır ve bir veri bilimcisine istatistiksel kavramlarda uzman olması gerekir. Anlamlı korelasyonları sahte korelasyonlardan ayırt edebilmeli, karışıklık değişkenlerini kontrol ederek ve model/hesaplamadaki hangi özelliklerin önemli olduğunu belirlemek için doğru araçları kullanabilmelidir. Bir regresyon yaklaşımını bir sınıflandırma yaklaşımından ayırt edebilmeli ve bir örneğin ortalamasını örneklemenin medyanından daha önemli olup olmadığını bilmelidir. Bir veri bilimcisi bu kritik becerilere sahip olmazsa bilimadamı olamaz.
Veri Görselleştirme
Bir veri bilimcinin işinin kritik bir parçası, bulgularını başkalarına iletmektir. Bir veri bilimcisi bulgularını başkalarına etkili bir şekilde iletemezse, bulgularının sonuçları önemli olmaz. Bir veri bilimcisi aynı zamanda iyi bir hikaye anlatıcısı olmalıdır. Bu, veri kümesindeki ve içindeki desenlerde ilgili noktaları ileten görselleştirmeler üretmek anlamına gelir. Bir veri bilimcisi, temel, başlangıç amaçlı keşif (keşifsel veri analizi) veya modelin ürettiği sonuçları görselleştirmek için çeşitli veri görselleştirme araçları kullanabilir.
Öneriler ve İş Uygulamaları
Bir veri bilimcisine, organizasyonunun veya işinin gereksinimlerini ve hedeflerini hakkında bazı sezgileri olması gerekir. Bir veri bilimcisine, hangi değişkenleri ve özellikleri analiz etmesi gerektiğini bilmesi gerekir, organizasyonunun hedeflerine ulaşmasına yardımcı olacak desenleri keşfetmelidir. Veri bilimcileri, operasyonel kısıtlamalar ve organizasyon liderliğinin yaptığı varsayımlar hakkında farkında olmalıdır.
Makine Öğrenimi ve Yapay Zeka
Makine öğrenimi ve diğer yapay zeka algoritmaları ve modeller, veri bilimcilerinin veri analizinde, veri içindeki desenleri tanımlamada, değişkenler arasındaki ilişkileri belirlemede ve gelecekteki olayları öngörmesinde kullandıkları araçlardır.
Geleneksel Veri Bilimi vs. Büyük Veri Bilimi
Veri toplama yöntemleri daha da gelişmiş ve veritabanları daha büyük hale geldikçe, geleneksel veri bilimi ve “büyük veri” bilimi arasında bir fark ortaya çıktı.
Geleneksel veri analitiği ve veri bilimi, betimsel ve keşifsel analitiklerle yapılır, projelerin performans sonuçlarını analiz etmek ve desenleri bulmak amaçlıdır. Geleneksel veri analitiği yöntemleri genellikle sadece geçmiş ve güncel verilerle ilgilenir. Veri analistleri genellikle zaten temizlenip standartlaştırılmış verilerle ilgilenirken, veri bilimcileri genellikle karmaşık ve kirli verilerle ilgilenirler. Daha gelişmiş veri analitiği ve veri bilimi teknikleri, gelecekteki davranışları öngörmek için kullanılabilir, ancak bu genellikle büyük verilerle yapılır, çünkü öngörücü modeller güvenilir bir şekilde inşa edilmeleri için büyük miktarda veri gerektirir.
“Büyük veri” terimi, geleneksel veri analitiği ve bilim yöntemleri ve araçlarıyla ele alınamayacak kadar büyük ve karmaşık olan verilere atıfta bulunur. Büyük veri genellikle online platformlar aracılığıyla toplanır ve büyük miktardaki verilerin veri bilimcileri tarafından incelenebilir hale getirilmesi için gelişmiş veri dönüştürme araçları kullanılır. Daha fazla veri toplandıkça, bir veri bilimcinin işinin daha büyük bir kısmı büyük veri analizi ile ilgilidir.
Veri Bilimi Araçları
Ortak veri bilimi araçları, verileri depolamak, keşifsel veri analizini gerçekleştirmek, verileri modellemek, ETL gerçekleştirmek ve verileri görselleştirmek için kullanılan araçları içerir. Amazon Web Services, Microsoft Azure ve Google Cloud gibi platformlar, veri bilimcilerin verileri depolamasına, dönüştürmesine, analiz etmesine ve modellemesine yardımcı olacak araçlar sunar. Ayrıca Airflow (veri altyapısı) ve Tableau (veri görselleştirme ve analitiği) gibi bağımsız veri bilimi araçları da vardır.
Makine öğrenimi ve yapay zeka algoritmalarının veri modellemesi için, genellikle veri bilimi modülleri ve platformları aracılığıyla sağlanır, bunlar arasında TensorFlow, PyTorch ve Azure Machine Learning stüdyosu bulunur. Bu platformlar, veri bilimcilerin verilerini düzenlenmesine, makine öğrenimi mimarilerini oluşturmasına ve makine öğrenimi modellerini eğitmelerine olanak tanır.
Diğer ortak veri bilimi araçları ve kütüphaneleri arasında SAS (istatistiksel modelleme için), Apache Spark (akış veri analizinde), D3.js (tarayıcıdaki etkileşimli görselleştirmeler için) ve Jupyter (etkileşimli, paylaşımlı kod blokları ve görselleştirmeler için) bulunur.

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Veri Bilimi Örnekleri
Veri bilimi ve uygulamalarının örnekleri her yerde. Veri bilimi, gıda teslimatı, spor, trafik ve sağlık gibi her şeyde uygulamalara sahiptir. Veri her yerde ve bu nedenle veri bilimi her şeye uygulanabilir.
Gıda açısından, Uber, Uber Eats olarak adlandırılan yemek teslimatı odaklı bir sistem genişletmesine yatırım yapıyor, Uber Eats. Uber Eats, insanların yemeklerini zamanında, sıcak ve taze olarak almasını sağlamak zorundadır. Bunun gerçekleşmesi için, şirketin veri bilimcilerinin, restoranlardan teslimat noktalarına olan mesafe, tatil yoğunluğu, pişirme süresi ve hatta hava koşulları gibi faktörleri dikkate alan istatistiksel modelleme kullanması gerekir, tüm bunlar teslimat sürelerini optimize etme amacını taşır.
Spor istatistikleri, takım yöneticileri tarafından en iyi oyuncuları belirlemek ve güçlü, güvenilir takımlar oluşturmak için kullanılır, bu takımlar oyunları kazanacaktır. Bir örnek, Michael Lewis’in Moneyball kitabında belgelenen veri bilimidir, burada Oakland Athletics takımının genel müdürü, takıma düşük maliyetle imzalayabileceği kaliteli oyuncuları belirlemek için çeşitli istatistikleri analiz etmiştir.
Trafik desenlerinin analizi, otonom araçların oluşturulması için kritiktir. Otonom araçlar, etrafındaki aktiviteleri öngörebilmeli ve yol koşullarındaki değişikliklere, yağmur yağdığında gereken daha uzun durma mesafesi gibi, yanıtlar verebilmelidir, ayrıca trafik saatlerinde yoldaki daha fazla araca dikkat etmelidir. Otonom araçlardan başka, Google Maps gibi uygulamalar, çeşitli rotalar ve ulaşım araçları kullanarak varış noktalarına ulaşmak için gereken süreyi analiz eder.
Sağlık açısından veri bilimi, bilgisayar vizyonu genellikle görüntü sınıflandırıcılar oluşturmak için makine öğrenimi ve diğer yapay zeka teknikleriyle birleştirilir, bu sınıflandırıcılar, X-ray, FMRİ ve ultrason gibi taramaları inceleyerek, taramada potansiyel tıbbi sorunların olup olmadığını görebilir. Bu algoritmalar, klinikçilerin hastalıkları teşhis etmelerine yardımcı olmak için kullanılabilir.
Sonuç olarak, veri bilimi birçok farklı faaliyeti kapsar ve çeşitli disiplinlerin yönlerini bir araya getirir. Ancak veri bilimi her zaman, veriden ilginç ve çarpıcı hikayeler anlatmakla ve veriyi dünyayı daha iyi anlamak için kullanmakla ilgilenir.












