potongan Apa itu Regresi Linear? - Bersatu.AI
Terhubung dengan kami

AI 101

Apa itu Regresi Linier?

mm
Updated on

Apa itu Regresi Linier?

Regresi linier adalah algoritma yang digunakan untuk memprediksi, atau memvisualisasikan, a hubungan antara dua fitur/variabel yang berbeda. Dalam tugas regresi linier, ada dua jenis variabel yang diperiksa: the variabel dependen dan variabel independen. Variabel bebas adalah variabel yang berdiri sendiri, tidak dipengaruhi oleh variabel lain. Saat variabel independen disesuaikan, tingkat variabel dependen akan berfluktuasi. Variabel dependen adalah variabel yang sedang dipelajari, dan itulah yang dipecahkan/diusahakan oleh model regresi untuk diprediksi. Dalam tugas regresi linier, setiap observasi/instance terdiri dari nilai variabel dependen dan nilai variabel independen.

Itu adalah penjelasan singkat tentang regresi linier, tetapi mari kita pastikan kita lebih memahami regresi linier dengan melihat contohnya dan memeriksa rumus yang digunakannya.

Memahami Regresi Linier

Asumsikan bahwa kita memiliki kumpulan data yang mencakup ukuran hard drive dan harga hard drive tersebut.

Misalkan kumpulan data yang kita miliki terdiri dari dua fitur berbeda: jumlah memori dan biaya. Semakin banyak memori yang kita beli untuk sebuah komputer, semakin mahal biaya pembeliannya. Jika kita memplot titik data individual pada sebar plot, kita mungkin mendapatkan grafik yang terlihat seperti ini:

Rasio memori-ke-biaya yang tepat dapat bervariasi antara produsen dan model hard drive, tetapi secara umum, tren data adalah yang dimulai di kiri bawah (di mana hard drive lebih murah dan memiliki kapasitas lebih kecil) dan berpindah ke kanan atas (di mana drive lebih mahal dan memiliki kapasitas lebih tinggi).

Jika kita memiliki jumlah memori pada sumbu X dan biaya pada sumbu Y, garis yang menangkap hubungan antara variabel X dan Y akan dimulai dari sudut kiri bawah dan berjalan ke kanan atas.

Fungsi model regresi adalah untuk menentukan fungsi linier antara variabel X dan Y yang paling menggambarkan hubungan antara kedua variabel tersebut. Dalam regresi linier, diasumsikan bahwa Y dapat dihitung dari beberapa kombinasi variabel masukan. Hubungan antara variabel input (X) dan variabel target (Y) dapat digambarkan dengan menggambar garis melalui titik-titik pada grafik. Garis mewakili fungsi yang paling menggambarkan hubungan antara X dan Y (misalnya, untuk setiap kali X bertambah 3, Y bertambah 2). Tujuannya adalah untuk menemukan “garis regresi” yang optimal, atau garis/fungsi yang paling sesuai dengan data.

Garis biasanya diwakili oleh persamaan: Y = m*X + b. X mengacu pada variabel terikat sedangkan Y adalah variabel bebas. Sementara itu, m adalah kemiringan garis, yang didefinisikan sebagai “naik” terhadap “lari”. Praktisi pembelajaran mesin merepresentasikan persamaan garis kemiringan yang terkenal dengan sedikit berbeda, dengan menggunakan persamaan ini:

kamu(x) = w0 + w1 * x

Pada persamaan di atas, y adalah variabel target sedangkan “w” adalah parameter model dan inputnya adalah “x”. Jadi persamaannya dibaca sebagai: "Fungsi yang menghasilkan Y, bergantung pada X, sama dengan parameter model dikalikan dengan fitur-fiturnya". Parameter model disesuaikan selama pelatihan untuk mendapatkan garis regresi yang paling sesuai.

Regresi Linier Berganda

Foto: Cbaf melalui Wikimedia Commons, Domain Publik (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Proses yang dijelaskan di atas berlaku untuk regresi linier sederhana, atau regresi pada kumpulan data yang hanya memiliki satu fitur/variabel independen. Namun, regresi juga dapat dilakukan dengan banyak fitur. Dalam kasus "regresi linier berganda”, persamaan diperluas dengan jumlah variabel yang ditemukan dalam kumpulan data. Dengan kata lain, sementara persamaan untuk regresi linier beraturan adalah y(x) = w0 + w1 * x, persamaan untuk regresi linier berganda adalah y(x) = w0 + w1x1 ditambah bobot dan masukan untuk berbagai fitur. Jika kita merepresentasikan jumlah bobot dan fitur sebagai w(n)x(n), maka kita dapat merepresentasikan rumus seperti ini:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Setelah menetapkan rumus untuk regresi linier, model pembelajaran mesin akan menggunakan nilai bobot yang berbeda, menggambar garis kecocokan yang berbeda. Ingatlah bahwa tujuannya adalah untuk menemukan garis yang paling sesuai dengan data untuk menentukan kemungkinan kombinasi bobot (dan karena itu garis mana yang mungkin) paling cocok dengan data dan menjelaskan hubungan antar variabel.

Fungsi biaya digunakan untuk mengukur seberapa dekat nilai Y yang diasumsikan dengan nilai Y aktual ketika diberi nilai bobot tertentu. Fungsi biaya untuk regresi linier adalah kesalahan kuadrat rata-rata, yang hanya mengambil kesalahan rata-rata (kuadrat) antara nilai prediksi dan nilai sebenarnya untuk semua berbagai titik data dalam kumpulan data. Fungsi biaya digunakan untuk menghitung biaya, yang menangkap perbedaan antara nilai target yang diprediksi dan nilai target yang sebenarnya. Jika garis fit jauh dari titik data, biayanya akan lebih tinggi, sedangkan biaya akan menjadi lebih kecil semakin dekat garis untuk menangkap hubungan sebenarnya antar variabel. Bobot model kemudian disesuaikan hingga ditemukan konfigurasi bobot yang menghasilkan jumlah error terkecil.

Blogger dan programmer dengan spesialisasi di Pembelajaran mesin dan Belajar mendalam topik. Daniel berharap dapat membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.