Connect with us

AI 101

Apa itu Computer Vision?

mm

Apa itu Computer Vision?

Algoritma computer vision adalah salah satu sistem AI yang paling transformatif dan kuat di dunia saat ini. Sistem computer vision digunakan dalam kendaraan otonom, navigasi robot, sistem pengenalan wajah, dan lainnya. Namun, apa sebenarnya algoritma computer vision itu? Bagaimana cara kerjanya? Untuk menjawab pertanyaan-pertanyaan ini, kita akan menyelami teori di balik computer vision, algoritma computer vision, dan aplikasi untuk sistem computer vision.

Bagaimana Cara Kerja Sistem Computer Vision?

Untuk sepenuhnya menghargai cara kerja sistem computer vision, mari kita luangkan waktu sejenak untuk membahas bagaimana manusia mengenali objek. Penjelasan terbaik dari neuropsikologi tentang bagaimana kita mengenali objek adalah model yang menggambarkan fase awal pengenalan objek sebagai fase di mana komponen dasar objek, seperti bentuk, warna, dan kedalaman, pertama-tama diinterpretasikan oleh otak. Sinyal dari mata yang masuk ke otak dianalisis untuk pertama-tama menarik keluar tepi suatu objek, dan tepi-tepi ini disatukan menjadi representasi yang lebih kompleks yang melengkapi bentuk objek. Sistem computer vision beroperasi sangat mirip dengan sistem visual manusia, dengan pertama-tama membedakan tepi suatu objek dan kemudian menyatukan tepi-tepi ini menjadi bentuk objek. Perbedaan besarnya adalah karena komputer menginterpretasikan gambar sebagai angka, sistem computer vision memerlukan cara untuk menginterpretasikan piksel individual yang membentuk gambar. Sistem computer vision akan menetapkan nilai pada piksel dalam gambar dan dengan memeriksa perbedaan nilai antara satu wilayah piksel dan wilayah piksel lainnya, komputer dapat membedakan tepi. Misalnya, jika gambar yang dimaksud adalah skala abu-abu, maka nilainya akan berkisar dari hitam (diwakili oleh 0) hingga putih (diwakili oleh 255). Perubahan tiba-tiba dalam rentang nilai piksel yang berdekatan akan menunjukkan adanya tepi. Prinsip dasar membandingkan nilai piksel ini juga dapat dilakukan dengan gambar berwarna, dengan komputer membandingkan perbedaan antara saluran warna RGB yang berbeda. Jadi, sekarang kita tahu bagaimana sistem computer vision memeriksa nilai piksel untuk menginterpretasikan gambar, mari kita lihat arsitektur sistem computer vision.

Convolutional Neural Networks (CNNs)

Jenis AI utama yang digunakan dalam tugas-tugas computer vision adalah yang berbasis pada convolutional neural networks. Apa sebenarnya konvolusi itu? Konvolusi adalah proses matematika yang digunakan jaringan untuk menentukan perbedaan nilai antar piksel. Jika Anda membayangkan kisi nilai piksel, bayangkan kisi yang lebih kecil digerakkan di atas kisi utama ini. Nilai-nilai di bawah kisi kedua dianalisis oleh jaringan, sehingga jaringan hanya memeriksa segelintik piksel pada satu waktu. Ini sering disebut teknik “sliding windows”. Nilai-nilai yang dianalisis oleh sliding window diringkas oleh jaringan, yang membantu mengurangi kompleksitas gambar dan memudahkan jaringan untuk mengekstrak pola. Convolutional neural networks dibagi menjadi dua bagian yang berbeda, bagian konvolusional dan bagian fully connected. Lapisan konvolusional dari jaringan adalah pengekstrak fitur, yang tugasnya adalah menganalisis piksel dalam gambar dan membentuk representasi darinya sehingga lapisan terhubung padat dari jaringan saraf dapat mempelajari polanya. Lapisan konvolusional dimulai dengan hanya memeriksa piksel dan mengekstrak fitur tingkat rendah gambar seperti tepi. Lapisan konvolusional berikutnya menyatukan tepi menjadi bentuk yang lebih kompleks. Pada akhirnya, jaringan diharapkan memiliki representasi tepi dan detail gambar yang dapat diteruskan ke lapisan fully connected.

Anotasi Gambar

Meskipun convolutional neural network dapat mengekstrak pola dari gambar sendiri, akurasi sistem computer vision dapat sangat ditingkatkan dengan menganotasi gambar. Anotasi gambar adalah proses menambahkan metadata ke gambar yang membantu pengklasifikasi dalam mendeteksi objek penting dalam gambar. Penggunaan anotasi gambar penting setiap kali sistem computer vision perlu sangat akurat, seperti saat mengendalikan kendaraan otonom atau robot. Ada berbagai cara gambar dapat dianotasi untuk meningkatkan kinerja pengklasifikasi computer vision. Anotasi gambar sering dilakukan dengan bounding boxes, kotak yang mengelilingi tepi objek target dan memberi tahu komputer untuk memusatkan perhatiannya di dalam kotak tersebut. Segmentasi semantik adalah jenis anotasi gambar lain, yang beroperasi dengan menetapkan kelas gambar ke setiap piksel dalam sebuah gambar. Dengan kata lain, setiap piksel yang dapat dianggap sebagai “rumput” atau “pohon” akan diberi label sebagai milik kelas tersebut. Teknik ini memberikan presisi tingkat piksel, tetapi membuat anotasi segmentasi semantik lebih kompleks dan memakan waktu daripada membuat bounding boxes sederhana. Metode anotasi lain, seperti garis dan titik, juga ada.

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.