Connect with us

AI 101

Apa itu Machine Learning?

mm

Machine learning adalah salah satu bidang teknologi yang tumbuh paling cepat, tetapi meskipun kata-kata “machine learning” sering digunakan, dapat sulit untuk memahami apa itu machine learning secara tepat.

Machine learning tidak merujuk pada satu hal saja, itu adalah istilah payung yang dapat diterapkan pada banyak konsep dan teknik yang berbeda. Memahami machine learning berarti familiar dengan berbagai bentuk analisis model, variabel, dan algoritma. Mari kita lihat lebih dekat machine learning untuk memahami apa yang dimaksud.

Apa itu Machine Learning?

Sementara istilah machine learning dapat diterapkan pada banyak hal yang berbeda, secara umum, istilah tersebut merujuk pada memungkinkan komputer untuk melakukan tugas tanpa menerima instruksi baris per baris secara eksplisit. Seorang spesialis machine learning tidak perlu menulis semua langkah yang diperlukan untuk menyelesaikan masalah karena komputer dapat “belajar” dengan menganalisis pola dalam data dan menggeneralisasi pola tersebut ke data baru.

Sistem machine learning memiliki tiga bagian dasar:

  • Input
  • Algoritma
  • Output

Input adalah data yang dimasukkan ke dalam sistem machine learning, dan data input dapat dibagi menjadi label dan fitur. Fitur adalah variabel yang relevan, variabel yang akan dianalisis untuk mempelajari pola dan mengambil kesimpulan. Sementara itu, label adalah kelas/deskripsi yang diberikan pada contoh data individual.

Fitur dan label dapat digunakan dalam dua jenis masalah machine learning: pembelajaran terawasi dan pembelajaran tidak terawasi.

Pembelajaran Terawasi vs. Pembelajaran Tidak Terawasi

Dalam pembelajaran terawasi, data input disertai dengan kebenaran dasar. Masalah pembelajaran terawasi memiliki nilai output yang benar sebagai bagian dari dataset, sehingga kelas yang diharapkan diketahui sebelumnya. Ini memungkinkan ilmuwan data untuk memeriksa kinerja algoritma dengan menguji data pada dataset uji dan melihat persentase item yang diklasifikasikan dengan benar.

Dalam kontras, pembelajaran tidak terawasi tidak memiliki label kebenaran dasar yang melekat padanya. Algoritma machine learning yang dilatih untuk melakukan tugas pembelajaran tidak terawasi harus dapat menginfer pola yang relevan dalam data untuk dirinya sendiri.

Algoritma pembelajaran terawasi biasanya digunakan untuk masalah klasifikasi, di mana satu memiliki dataset besar yang diisi dengan contoh yang harus diurutkan ke dalam salah satu dari banyak kelas yang berbeda. Jenis lain dari pembelajaran terawasi adalah tugas regresi, di mana nilai output yang dihasilkan oleh algoritma adalah kontinu dalam sifatnya bukan kategoris.

Sementara itu, algoritma pembelajaran tidak terawasi digunakan untuk tugas seperti estimasi kepadatan, pengelompokan, dan pembelajaran representasi. Ketiga tugas ini memerlukan model machine learning untuk menginfer struktur data, tidak ada kelas yang telah ditentukan sebelumnya yang diberikan kepada model.

Mari kita lihat beberapa algoritma yang paling umum digunakan dalam pembelajaran terawasi dan tidak terawasi.

Jenis Pembelajaran Terawasi

Algoritma pembelajaran terawasi yang umum termasuk:

  • Naive Bayes
  • Support Vector Machines
  • Regresi Logistik
  • Hutan Acak
  • Jaringan Saraf Tiruan

Support Vector Machines adalah algoritma yang membagi dataset menjadi kelas yang berbeda. Titik data dikelompokkan ke dalam cluster dengan menggambar garis yang memisahkan kelas dari satu sama lain. Titik yang ditemukan di satu sisi garis akan termasuk dalam satu kelas, sementara titik di sisi lain garis adalah kelas yang berbeda. Support Vector Machines bertujuan untuk memaksimalkan jarak antara garis dan titik yang ditemukan di kedua sisi garis, dan semakin besar jaraknya, semakin yakin klasifikator bahwa titik tersebut termasuk dalam satu kelas dan tidak dalam kelas lain.

Regresi Logistik adalah algoritma yang digunakan dalam tugas klasifikasi biner ketika titik data perlu diklasifikasikan sebagai termasuk dalam salah satu dari dua kelas. Regresi Logistik bekerja dengan melabeli titik data sebagai 1 atau 0. Jika nilai yang dipersepsikan dari titik data adalah 0,49 atau lebih rendah, maka diklasifikasikan sebagai 0, sementara jika 0,5 atau lebih tinggi maka diklasifikasikan sebagai 1.

Algoritma Pohon Keputusan bekerja dengan membagi dataset menjadi fragmen yang lebih kecil dan lebih kecil. Kriteria yang digunakan untuk membagi data bergantung pada insinyur machine learning, tetapi tujuannya adalah untuk membagi data menjadi titik data tunggal, yang kemudian akan diklasifikasikan menggunakan kunci.

Algoritma Hutan Acak pada dasarnya adalah banyak klasifikasi Pohon Keputusan tunggal yang dihubungkan menjadi klasifikasi yang lebih kuat.

Klasifikasi Naive Bayes menghitung probabilitas bahwa titik data tertentu telah terjadi berdasarkan probabilitas kejadian sebelumnya. Ini didasarkan pada Teorema Bayes dan menempatkan titik data ke dalam kelas berdasarkan probabilitas yang dihitung. Ketika menerapkan klasifikasi Naive Bayes, diasumsikan bahwa semua prediktor memiliki pengaruh yang sama pada hasil kelas.

Jaringan Saraf Tiruan, atau multilayer perceptron, adalah algoritma machine learning yang terinspirasi oleh struktur dan fungsi otak manusia. Jaringan saraf tiruan mendapatkan namanya dari kenyataan bahwa mereka terdiri dari banyak node/neuron yang terhubung. Setiap neuron memanipulasi data dengan fungsi matematika. Dalam jaringan saraf tiruan, ada lapisan input, lapisan tersembunyi, dan lapisan output.

Lapisan tersembunyi jaringan saraf adalah tempat data sebenarnya ditafsirkan dan dianalisis untuk pola. Dengan kata lain, itulah tempat algoritma belajar. Semakin banyak neuron yang terhubung, semakin kompleks jaringannya dan semakin mampu mempelajari pola yang kompleks.

Jenis Pembelajaran Tidak Terawasi

Algoritma pembelajaran tidak terawasi termasuk:

  • K-means clustering
  • Autoencoder
  • Analisis Komponen Utama

K-means clustering adalah teknik klasifikasi tidak terawasi, dan bekerja dengan memisahkan titik data menjadi cluster atau kelompok berdasarkan fitur-fiturnya. K-means clustering menganalisis fitur-fitur yang ditemukan dalam titik data dan membedakan pola dalam fitur-fitur tersebut yang membuat titik data yang ditemukan dalam cluster tertentu lebih mirip satu sama lain daripada cluster yang berisi titik data lain. Ini dilakukan dengan menempatkan pusat cluster yang mungkin, atau sentroid, dalam grafik data dan mengubah posisi sentroid sampai posisi yang ditemukan yang meminimalkan jarak antara sentroid dan titik yang termasuk dalam kelas sentroid. Peneliti dapat menentukan jumlah cluster yang diinginkan.

Analisis Komponen Utama adalah teknik yang mengurangi jumlah fitur/variabel yang besar menjadi ruang fitur yang lebih kecil/jumlah fitur yang lebih sedikit. “Komponen utama” dari titik data dipilih untuk dipertahankan, sementara fitur lainnya dikompresi menjadi representasi yang lebih kecil. Hubungan antara data asli dipertahankan, tetapi karena kompleksitas data lebih sederhana, data lebih mudah untuk dikuantifikasi dan dijelaskan.

Autoencoder adalah versi jaringan saraf yang dapat diterapkan pada tugas pembelajaran tidak terawasi. Autoencoder dapat mengambil data yang tidak berlabel dan bebas, dan mengubahnya menjadi data yang dapat digunakan oleh jaringan saraf, pada dasarnya menciptakan data pelatihan berlabel mereka sendiri. Tujuan autoencoder adalah untuk mengubah data input dan membangunnya kembali dengan akurat, sehingga jaringan memiliki insentif untuk menentukan fitur mana yang paling penting dan mengekstraknya.

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.