Bizimle iletişime geçin

Yapay Zeka

Veri Bilimi Alanında Basit Doğrusal Regresyon

mm

Veri bilimi her geçen gün büyüyen geniş bir alandır. Günümüzde önde gelen şirketler, alan ve ilgili kavramlar hakkında güçlü bilgiye sahip profesyonel veri bilimcileri arıyor. Bu alanda iyi performans göstermek için tüm veri bilimi algoritmaları hakkında sağlam bilgiye sahip olmak önemlidir. En temel veri bilimi algoritmalarından biri basit doğrusal regresyondur. Her veri bilimci, sorunları çözmek ve anlamlı sonuçlar elde etmek için bu algoritmayı nasıl kullanacağını bilmelidir.

Basit doğrusal regresyon, girdi ve çıktı değişkenleri arasındaki ilişkiyi belirleme metodolojisidir. Girdi değişkenleri, bağımsız değişkenler veya öngörücüler olarak kabul edilir ve çıktı değişkenleri, bağımlı değişkenler veya yanıtlardır. Basit doğrusal regresyonda yalnızca bir girdi değişkeni dikkate alınır.

Gerçek Zamanlı Basit Doğrusal Regresyon Örneği

İki parametreden oluşan bir veri seti düşünelim: çalışılan saat sayısı ve yapılan iş miktarı. Basit doğrusal regresyon, çalışma saatleri verilirse yapılan iş miktarını tahmin etmeyi amaçlar. Minimum hata üreten bir regresyon çizgisi çizilir. Hemen hemen her veri seti için kullanılabilen doğrusal bir denklem de oluşturulur.

Basit doğrusal regresyonun amacını gösteren ilkeler: 

Bir veri setindeki değişkenler arasındaki ilişkiyi tahmin etmek ve anlamlı sonuçlar çıkarmak için basit doğrusal regresyon kullanılır. Basit lineer regresyon esas olarak değişkenler arasındaki yeterince doğru olmayan istatistiksel ilişkiyi türetmek için kullanılır. Dört temel ilke, basit doğrusal regresyonun kullanımını tasvir eder. Bu ilkeler aşağıda sıralanmıştır:

  1. İki değişken arasındaki ilişkinin doğrusal ve toplamsal olduğu kabul edilir: Her bir bağımlı ve bağımsız değişken çifti için bir düz çizgi fonksiyonu kurulur. Bu doğrunun eğimi, veri setinde bulunan değişkenlerin değerlerinden farklıdır. Bağımlı değişkenler, bağımsız değişkenlerin değerleri üzerinde ek bir etkiye sahiptir.
  2. Hatalar istatistiksel olarak bağımsızdır: Bu ilke, zamana ve seriye ilişkin bilgileri içeren bir veri seti için düşünülebilir. Böyle bir veri setinin ardışık hataları birbiriyle ilişkili değildir ve istatistiksel olarak bağımsızdır.
  3. Hataların sabit varyansı vardır (homoskedasite):  Hataların eş varyanslılığı çeşitli parametrelere göre değerlendirilebilir. Bu parametreler zamanı, diğer tahminleri ve diğer değişkenleri içerir.
  4. Hata dağılımı normalliği:  Bu, yukarıda belirtilen diğer üçünü desteklediği için önemli bir ilkedir. Bir veri setindeki değişkenler arasında herhangi bir ilişki kurulamıyorsa veya yukarıdaki ilkelerden herhangi biri kurulamıyorsa, model tarafından üretilen tüm tahminler ve sonuçlar yanlıştır. Yanlış ve yanıltıcı verilerin kullanılması durumunda gerçek sonuçlar elde edilemeyeceği için bu sonuçlar projede daha fazla kullanılamaz.

Basit Doğrusal Regresyonun Avantajları

  • Bu metodolojinin kullanımı son derece kolaydır ve sonuçlar zahmetsizce elde edilebilir.
  • Bu yöntem, öncelikle bağımlı ve bağımsız değişkenler arasındaki ilişki biliniyorsa, diğer veri bilimi algoritmalarından çok daha az karmaşıklığa sahiptir.
  • Aşırı uydurma, bu metodoloji anlamsız bilgiler aldığında ortaya çıkan yaygın bir durumdur. Bu sorunla başa çıkmak için, karmaşıklığı azaltarak aşırı uydurma sorununu azaltan düzenlileştirme tekniği mevcuttur.

Basit Doğrusal Regresyonun Dezavantajları

  • Aşırı uyum sorunu ortadan kaldırılabilse de göz ardı edilemez. Yöntem, anlamsız verileri hesaba katabilir ve ayrıca anlamlı bilgileri ortadan kaldırabilir. Böyle bir durumda, tüm tahminler belirli bir veri seti hakkında yanlış olacak sonuçlardır ve etkili sonuçlar üretilemez.
  • Veri aykırı değerleri sorunu da çok yaygındır. Aykırı değerler, kesin verilerle eşleşmeyen yanlış değerler olarak kabul edilir. Bu değerler dikkate alındığında tüm model hiçbir işe yaramayan yanıltıcı sonuçlar üretecektir.
  • Basit doğrusal regresyonda, eldeki veri setinin bağımsız verilere sahip olduğu kabul edilir. Bu varsayım yanlıştır çünkü değişkenler arasında bazı bağımlılıklar olabilir.

Basit doğrusal regresyon bir veri setindeki çeşitli girdi ve çıktı değişkenlerinin ilişkilerini belirlemek için yararlı bir tekniktir. Basit doğrusal regresyonun birkaç gerçek zamanlı uygulaması vardır. Bu algoritma, yüksek hesaplama gücü gerektirmez ve kolayca uygulanabilir. Elde edilen denklemler ve sonuçlar daha fazlasını inşa edebilir ve anlaşılması son derece basittir. Bununla birlikte, bazı profesyoneller, yapılan birçok varsayım olduğundan, basit doğrusal regresyonun çeşitli uygulamalar için kullanılacak doğru metodoloji olmadığını da düşünmektedir. Bu varsayımların yanlış olduğu da kanıtlanabilir. Bu nedenle bu tekniğin doğru uygulanabileceği her yerde kullanılması gerekmektedir.

BT endüstrisinde 8 yıldan fazla profesyonel deneyime sahip Veri Bilimcisi personeli. Veri Bilimi ve Dijital Pazarlama konusunda yetkin. Profesyonelce araştırılmış teknik içerikte uzmanlık.