saplama Veri Bilimi Nedir? - Unite.AI
Bizimle iletişime geçin

AI 101

Veri Bilimi Nedir?

mm
Güncellenmiş on

Veri bilimi alanı her geçen gün daha da büyüyor ve daha popüler hale geliyor gibi görünüyor. LinkedIn'e göre, veri bilimi 2017'de en hızlı büyüyen iş alanlarından biriydi ve 2020'de Glassdoor, veri biliminin işini şu şekilde sıraladı: Amerika Birleşik Devletleri'ndeki en iyi üç işten biri. Veri biliminin artan popülaritesi göz önüne alındığında, daha fazla insanın bu alana ilgi duyması şaşırtıcı değil. Yine de veri bilimi tam olarak nedir?

Veri bilimini tanımlamak için biraz zaman ayırarak veri bilimi ile tanışalım, büyük veri ve yapay zekanın alanı nasıl değiştirdiğini keşfedelim, bazı yaygın veri bilimi araçları hakkında bilgi edinelim ve bazı veri bilimi örneklerini inceleyelim.

Veri Bilimi Nedir?

Herhangi bir veri bilimi aracını veya örneğini keşfetmeden önce, veri biliminin özlü bir tanımını yapmak isteyeceğiz. veri bilimi.

"Veri bilimini" tanımlamak aslında biraz zordur, çünkü terim birçok farklı görev ve sorgulama ve analiz yöntemine uygulanmaktadır. Kendimize "bilim" teriminin ne anlama geldiğini hatırlatarak başlayabiliriz. Bilim, insanın doğal süreçlere ilişkin anlayışını geliştirmeyi amaçlayan, gözlem ve deney yoluyla fiziksel ve doğal dünyanın sistematik olarak incelenmesidir. Bu tanımdaki önemli kelimeler “gözlem” ve “anlama” dır.

Veri bilimi, dünyayı verilerdeki kalıplardan anlama süreciyse, o zaman bir veri bilimcinin sorumluluğu verileri dönüştürmek, verileri analiz etmek ve verilerden kalıpları çıkarmaktır. Başka bir deyişle, bir veri bilimciye veriler sağlanır ve verileri önceden işlemek (analiz için hazır hale getirmek) ve ardından verileri anlamlı modeller için analiz etmek için bir dizi farklı araç ve teknik kullanır.

Bir veri bilimcinin rolü, geleneksel bir bilim insanının rolüne benzer. Her ikisi de verilerin analizi ile ilgilidir. hipotezleri desteklemek veya reddetmek dünyanın nasıl çalıştığı hakkında, dünyayı anlayışımızı geliştirmek için verilerdeki kalıpları anlamlandırmaya çalışmak. Veri bilimcileri, geleneksel bir bilim insanının kullandığı aynı bilimsel yöntemleri kullanır. Bir veri bilimcisi, çalışmak istedikleri bazı fenomenler hakkında gözlemler toplayarak başlar. Daha sonra söz konusu fenomen hakkında bir hipotez formüle ederler ve bir şekilde hipotezlerini geçersiz kılan verileri bulmaya çalışırlar.

Hipotez verilerle çelişmiyorsa, fenomenin nasıl çalıştığı hakkında bir teori veya model oluşturabilirler ve diğer benzer veri kümeleri için doğru olup olmadığını görerek tekrar tekrar test edebilirler. Bir model yeterince sağlamsa, kalıpları iyi açıklıyorsa ve diğer testler sırasında geçersiz kılınmıyorsa, bu olgunun gelecekteki oluşumlarını tahmin etmek için bile kullanılabilir.

Bir veri bilimcisi genellikle kendi verilerini bir deney yoluyla toplamaz. Genellikle bir hipoteze müdahale edebilecek kafa karıştırıcı değişkenleri keşfetmek için kontroller ve çift-kör denemeler içeren deneyler tasarlamazlar. Bir veri bilimcisi tarafından analiz edilen verilerin çoğu, gözlemsel çalışmalar ve sistemler yoluyla elde edilen veriler olacaktır; bu, bir veri bilimcinin işinin, daha fazla deney yapma eğiliminde olan geleneksel bir bilim insanının işinden farklı olabileceği bir yoldur.

Bununla birlikte, bir veri bilimcisinden bir tür deney yapması istenebilir. A/B testi denir veri kalıplarının nasıl değiştiğini görmek için veri toplayan bir sistemde ince ayarların yapıldığı yer.

Kullanılan teknikler ve araçlardan bağımsız olarak, veri bilimi nihayetinde verilerden anlam çıkararak dünyayı anlamamızı geliştirmeyi amaçlar ve veriler gözlem ve deney yoluyla elde edilir. Veri bilimi, verilerden içgörüler, çevremizdeki dünyadaki kalıpları anlamamıza yardımcı olan içgörüler çıkarmak için algoritmaları, istatistiksel ilkeleri ve çeşitli araç ve makineleri kullanma sürecidir.

Veri Bilimcileri Ne Yapar?

Verilerin bilimsel bir şekilde analiz edilmesini içeren herhangi bir etkinliğin veri bilimi olarak adlandırılabileceğini görüyor olabilirsiniz ki bu, veri bilimini tanımlamayı bu kadar zorlaştıran şeyin bir parçasıdır. Daha açık hale getirmek için, bir veri bilimcinin yaptığı etkinliklerden bazılarını keşfedelim. yapabilir günlük şekilde.

Veri bilimi birçok farklı disiplini ve uzmanlığı bir araya getirir. Fotoğraf: Wikimeedia Commons aracılığıyla Calvin Andrus, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Herhangi bir günde bir veri bilimciden şunları yapması istenebilir: veri depolama ve alma şeması oluşturma, veri ETL (çıkarma, dönüştürme, yükleme) işlem hatları oluşturma ve verileri temizleme, istatistiksel yöntemler kullanma, veri görselleştirmeleri ve gösterge tabloları oluşturma, yapay zeka uygulama ve Makine öğrenimi algoritmaları, verilere dayalı eylemler için önerilerde bulunur.

Yukarıda listelenen görevleri biraz parçalayalım.

Hem donanıma hem de yazılıma dikkat ederek verileri depolamak ve almak için gereken teknolojilerin kurulumunu yapmak için bir veri bilimci gerekebilir. Bu pozisyondan sorumlu olan kişiye “” olarak da atıfta bulunulabilir.Veri Mühendisi”. Ancak bazı şirketler bu sorumlulukları veri bilimci rolü altına alıyor. Bir veri bilimcinin ayrıca şunları yaratması veya yaratılmasına yardımcı olması gerekebilir: ETL boru hatları. Veriler çok nadiren tam da bir veri bilimcinin ihtiyaç duyduğu şekilde biçimlendirilmiş olarak gelir. Bunun yerine, verilerin veri kaynağından ham biçimde alınması, kullanılabilir bir biçime dönüştürülmesi ve önceden işlenmesi (verilerin standartlaştırılması, fazlalıkların kaldırılması ve bozuk verilerin kaldırılması gibi şeyler) gerekir.

Veri Biliminin İstatistiksel Yöntemleri

The istatistik uygulaması sadece veriye bakmayı ve onu yorumlamayı gerçek bir bilime dönüştürmek gerekiyor. İstatistiksel Yöntemler veri kümelerinden ilgili kalıpları çıkarmak için kullanılır ve bir veri bilimcinin istatistiksel kavramlar konusunda bilgili olması gerekir. Karıştırıcı değişkenleri kontrol ederek sahte korelasyonlardan anlamlı korelasyonları ayırt edebilmeleri gerekir. Ayrıca, veri kümesindeki hangi özelliklerin modelleri için önemli olduğunu/öngörü gücüne sahip olduğunu belirlemek için kullanılacak doğru araçları da bilmeleri gerekir. Bir veri bilimcinin, bir sınıflandırma yaklaşımına karşı bir regresyon yaklaşımını ne zaman kullanacağını ve bir örneğin ortalamasına karşı bir örneğin ortancasını ne zaman önemseyeceğini bilmesi gerekir. Bir veri bilimcisi, bu önemli beceriler olmadan bir bilim adamı olamaz.

Veri Goruntuleme

Bir veri bilimcinin işinin önemli bir parçası, bulgularını başkalarına iletmektir. Bir veri bilimcisi bulgularını başkalarına etkili bir şekilde iletemezse, bulgularının sonuçları önemli değildir. Bir veri bilimcisi aynı zamanda etkili bir hikaye anlatıcısı olmalıdır. Bu, veri kümesi ve içinde keşfedilen modeller hakkında ilgili noktaları ileten görselleştirmeler üretmek anlamına gelir. Çok sayıda farklı var veri goruntuleme bir veri bilimcinin kullanabileceği araçlardır ve ilk, temel keşif (keşif amaçlı veri analizi) amacıyla verileri görselleştirebilir veya bir modelin ürettiği sonuçları görselleştirebilirler.

Öneriler ve İş Uygulamaları

Bir veri bilimcinin, kuruluşlarının veya işlerinin gereksinimleri ve hedefleri hakkında biraz sezgiye sahip olması gerekir. Bir veri bilimcinin bunları anlaması gerekir çünkü ne tür değişkenleri ve özellikleri analiz etmeleri gerektiğini bilmeleri, kuruluşlarının hedeflerine ulaşmasına yardımcı olacak kalıpları keşfetmeleri gerekir. Veri bilimcilerin, altında faaliyet gösterdikleri kısıtlamaların ve kuruluşun liderliğinin yaptığı varsayımların farkında olmaları gerekir.

Makine Öğrenimi ve AI

Makine öğrenme ve diğer yapay zeka algoritmaları ve modelleri, veri bilimcileri tarafından verileri analiz etmek, verilerdeki kalıpları belirlemek, değişkenler arasındaki ilişkileri ayırt etmek ve gelecekteki olaylar hakkında tahminler yapmak için kullanılan araçlardır.

Geleneksel Veri Bilimi ve Büyük Veri Bilimi Karşılaştırması

Veri toplama yöntemleri daha sofistike hale geldikçe ve veritabanları büyüdükçe, geleneksel veri bilimi ile geleneksel veri bilimi arasında bir fark ortaya çıktı. "Büyük veri" bilim.

Geleneksel veri analitiği ve veri bilimi, desenleri bulmayı ve projelerin performans sonuçlarını analiz etmeyi amaçlayan tanımlayıcı ve keşif analitiği ile yapılır. Geleneksel veri analitiği yöntemleri genellikle yalnızca geçmiş verilere ve mevcut verilere odaklanır. Veri analistleri genellikle zaten temizlenmiş ve standartlaştırılmış verilerle uğraşırken, veri bilimcileri genellikle karmaşık ve kirli verilerle uğraşır. Gelecekteki davranışı tahmin etmek için daha gelişmiş veri analitiği ve veri bilimi teknikleri kullanılabilir, ancak bu daha çok büyük verilerle yapılır, çünkü tahmine dayalı modeller genellikle güvenilir bir şekilde inşa edilmek için büyük miktarda veriye ihtiyaç duyar.

"Büyük veri", geleneksel veri analitiği ve bilim teknikleri ve araçlarıyla ele alınamayacak kadar büyük ve karmaşık verileri ifade eder. Büyük veriler genellikle çevrimiçi platformlar aracılığıyla toplanır ve büyük hacimli verileri veri bilimi tarafından incelemeye hazır hale getirmek için gelişmiş veri dönüştürme araçları kullanılır. Her zaman daha fazla veri toplandıkça, veri bilimcilerin işi daha çok büyük verilerin analizini içerir.

Veri Bilimi Araçları

Ortak veri bilimi araçlar verileri depolamak, keşif amaçlı veri analizi yapmak, verileri modellemek, ETL gerçekleştirmek ve verileri görselleştirmek için araçlar içerir. Amazon Web Services, Microsoft Azure ve Google Cloud gibi platformların tümü, veri bilimcilerin verileri depolamasına, dönüştürmesine, analiz etmesine ve modellemesine yardımcı olacak araçlar sunar. Airflow (veri altyapısı) ve Tableau (veri görselleştirme ve analitiği) gibi bağımsız veri bilimi araçları da vardır.

Verileri modellemek için kullanılan makine öğrenimi ve yapay zeka algoritmaları açısından bunlar genellikle veri bilimi modülleri ve TensorFlow, PyTorch ve Azure Machine-learning stüdyosu gibi platformlar aracılığıyla sağlanır. Veri bilimcileri gibi bu platformlar, veri kümelerinde düzenlemeler yapar, makine öğrenimi mimarileri oluşturur ve makine öğrenimi modellerini eğitir.

Diğer yaygın veri bilimi araçları ve kitaplıkları arasında SAS (istatistiksel modelleme için), Apache Spark (akan verilerin analizi için), D3.js (tarayıcıda etkileşimli görselleştirmeler için) ve Jupyter (etkileşimli, paylaşılabilir kod blokları ve görselleştirmeler için) bulunur. .

Fotoğraf: Flickr aracılığıyla Seonjae Jo, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Veri Bilimi Örnekleri

Veri bilimi örnekleri ve uygulamaları her yerdedir. Veri biliminin gıda dağıtımından spora, trafikten sağlığa kadar her alanda uygulamaları vardır. Veri her yerdedir ve bu nedenle veri bilimi her şeye uygulanabilir.

Yiyecek açısından Uber, yiyecek dağıtımına odaklanan araç paylaşım sistemini genişletmeye yatırım yapıyor. Uber Yiyor. Uber Eats'in insanlara yiyeceklerini zamanında ve henüz sıcak ve tazeyken ulaştırması gerekiyor. Bunun gerçekleşmesi için şirketteki veri bilimcilerin, tümü teslimat sürelerini optimize etme amacıyla dikkate alınan restoranlardan teslimat noktalarına olan mesafe, tatil yoğunluğu, yemek pişirme süresi ve hatta hava koşulları gibi hususları hesaba katan istatistiksel modelleme kullanmaları gerekir. .

Spor istatistikleri, takım yöneticileri tarafından en iyi oyuncuların kim olduğunu belirlemek ve maçları kazanacak güçlü, güvenilir takımlar oluşturmak için kullanılır. Dikkate değer bir örnek, Michael Lewis tarafından kitapta belgelenen veri bilimidir. MoneyballOakland Athletics takımının genel menajeri, takıma nispeten düşük maliyetle imzalanabilecek kaliteli oyuncuları belirlemek için çeşitli istatistikleri analiz etti.

Trafik modellerinin analizi, sürücüsüz araçların yaratılması için kritik öneme sahiptir. Kendi kendine giden araçlar Etraflarındaki aktiviteyi tahmin edebilmeli ve yağmur yağdığında gereken artan durma mesafesi ve trafiğin yoğun olduğu saatlerde yolda daha fazla araba bulunması gibi yol koşullarındaki değişikliklere yanıt verebilmelidir. Kendi kendini süren araçların ötesinde, Google Haritalar gibi uygulamalar, işe gidip gelenlere çeşitli rotaları ve ulaşım biçimlerini kullanarak hedeflerine varmalarının ne kadar süreceğini söylemek için trafik modellerini analiz eder.

Açısından sağlık veri bilimiBilgisayarlı görme, taramada ortaya çıkabilecek olası tıbbi sorunların olup olmadığını görmek için X-ışınları, FMRI'lar ve ultrason gibi şeyleri inceleyebilen görüntü sınıflandırıcıları oluşturmak için genellikle makine öğrenimi ve diğer yapay zeka teknikleriyle birleştirilir. Bu algoritmalar klinisyenlerin hastalığı teşhis etmesine yardımcı olmak için kullanılabilir.

Sonuç olarak, veri bilimi çok sayıda etkinliği kapsar ve farklı disiplinlerin yönlerini bir araya getirir. Bununla birlikte, veri bilimi her zaman verilerden zorlayıcı, ilginç hikayeler anlatmakla ve verileri dünyayı daha iyi anlamak için kullanmakla ilgilenir.

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenme ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.