Kecerdasan buatan

Vision Transformers Mengatasi Tantangan dengan Metode ‘Patch-to-Cluster Attention’ Baru

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Teknologi kecerdasan buatan (AI), khususnya Vision Transformers (ViTs), telah menunjukkan janji besar dalam kemampuan mereka untuk mengidentifikasi dan mengkategorikan objek dalam gambar. Namun, penerapan praktis mereka telah dibatasi oleh dua tantangan signifikan: kebutuhan daya komputasi yang tinggi dan kurangnya transparansi dalam pengambilan keputusan. Sekarang, sekelompok peneliti telah mengembangkan solusi terobosan: metodologi baru yang dikenal sebagai “Patch-to-Cluster attention” (PaCa). PaCa bertujuan untuk meningkatkan kemampuan ViTs dalam identifikasi objek gambar, klasifikasi, dan segmentasi, sambil secara bersamaan menyelesaikan masalah lama tentang kebutuhan komputasi dan kejelasan pengambilan keputusan.

Mengatasi Tantangan ViTs: Sekilas tentang Solusi Baru

Transformers, karena kemampuan superior mereka, adalah di antara model paling berpengaruh di dunia AI. Kekuatan model ini telah diperluas ke data visual melalui ViTs, kelas transformer yang dilatih dengan input visual. Meskipun potensi besar yang ditawarkan oleh ViTs dalam menafsirkan dan memahami gambar, mereka telah dihalangi oleh beberapa masalah besar.

Pertama, karena sifat gambar yang mengandung sejumlah besar data, ViTs memerlukan daya komputasi dan memori yang substansial. Kompleksitas ini dapat membebani banyak sistem, terutama saat menangani gambar dengan resolusi tinggi. Kedua, proses pengambilan keputusan dalam ViTs seringkali membingungkan dan tidak transparan. Pengguna menemukan sulit untuk memahami bagaimana ViTs membedakan antara berbagai objek atau fitur dalam gambar, yang sangat penting untuk banyak aplikasi.

Namun, metodologi PaCa yang inovatif menawarkan solusi untuk kedua tantangan ini. “Kami mengatasi tantangan terkait kebutuhan komputasi dan memori dengan menggunakan teknik clustering, yang memungkinkan arsitektur transformer untuk lebih baik mengidentifikasi dan fokus pada objek dalam gambar,” jelas Tianfu Wu, penulis utama makalah tentang karya ini dan Associate Professor of Electrical and Computer Engineering at North Carolina State University.

Penggunaan teknik clustering dalam PaCa secara drastis mengurangi kebutuhan komputasi, mengubah masalah dari proses kuadrat menjadi proses linier yang dapat dikelola. Wu menjelaskan proses lebih lanjut, “Dengan clustering, kami dapat membuat proses ini menjadi linier, di mana setiap unit yang lebih kecil hanya perlu dibandingkan dengan jumlah cluster yang telah ditentukan.”

Clustering juga berfungsi untuk memperjelas proses pengambilan keputusan dalam ViTs. Proses pembentukan cluster mengungkapkan bagaimana ViT memutuskan fitur mana yang penting dalam mengelompokkan bagian data gambar. Karena AI hanya menciptakan jumlah cluster yang terbatas, pengguna dapat dengan mudah memahami dan mengeksaminasi proses pengambilan keputusan, secara signifikan meningkatkan interpretabilitas model.

Metodologi PaCa Mengungguli ViTs Lain yang Sudah Ada

Melalui pengujian komprehensif, peneliti menemukan bahwa metodologi PaCa mengungguli ViTs lain dalam beberapa aspek. Wu menjelaskan, “Kami menemukan bahwa PaCa mengungguli SWin dan PVT dalam semua aspek.” Proses pengujian mengungkapkan bahwa PaCa unggul dalam mengklasifikasikan dan mengidentifikasi objek dalam gambar dan segmentasi, dengan efisien menggaris batas objek dalam gambar. Selain itu, ditemukan bahwa PaCa lebih efisien waktu, menyelesaikan tugas lebih cepat daripada ViTs lain.

Dorongan oleh kesuksesan PaCa, tim peneliti berencana untuk lebih mengembangkan PaCa dengan melatihnya pada dataset dasar yang lebih besar. Dengan melakukan hal ini, mereka berharap untuk mendorong batas apa yang saat ini mungkin dengan AI berbasis gambar.

Makalah penelitian, “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“, akan disajikan pada konferensi IEEE/CVF Conference on Computer Vision and Pattern Recognition. Ini adalah tonggak penting yang dapat membuka jalan bagi sistem AI yang lebih efisien, transparan, dan dapat diakses.