Kecerdasan buatan

Pandangan Pribadi tentang Kecenderungan Literatur Penglihatan Komputer pada 2024

Published December 24, 2024

Updated April 27, 2026

Martin Anderson

ChatGPT image: 'A panoramic orthographic-view image of a stylized bunch of SIMs-style scientists working in white coats at a computer research laboratory. Ariel view, orthographic projection, stylized, cartoon-style.'

Saya telah terus-menerus mengikuti adegan penelitian penglihatan komputer (CV) dan sintesis gambar di Arxiv dan tempat lain selama sekitar lima tahun, sehingga kecenderungan menjadi jelas seiring waktu, dan mereka bergeser ke arah baru setiap tahun.

Oleh karena itu, ketika 2024 hampir berakhir, saya pikir sudah saatnya untuk melihat beberapa karakteristik baru atau berkembang dalam pengajuan Arxiv di bagian Penglihatan Komputer dan Pengenalan Pola section. Pengamatan ini, meskipun diberitahu oleh ratusan jam mempelajari adegan, secara ketat merupakan anekdata.

Munculnya Asia Timur

Pada akhir 2023, saya telah memperhatikan bahwa sebagian besar literatur dalam kategori ‘sintesis suara’ berasal dari Cina dan wilayah lain di Asia Timur. Pada akhir 2024, saya harus mengamati (anekdot) bahwa ini sekarang juga berlaku untuk adegan penelitian sintesis gambar dan video.

Ini tidak berarti bahwa Cina dan negara-negara tetangga selalu menghasilkan karya terbaik (memang, ada bukti yang bertentangan); atau itu tidak memperhitungkan kemungkinan besar di Cina (seperti di Barat) bahwa beberapa sistem baru yang paling menarik dan kuat sedang dikembangkan adalah milik perusahaan, dan dikecualikan dari literatur penelitian.

Tapi itu menunjukkan bahwa Asia Timur mengalahkan Barat dalam hal volume, dalam hal ini. Apa yang itu berarti tergantung pada seberapa besar Anda percaya pada viabilitas persistensi gaya Edison, yang biasanya terbukti tidak efektif di hadapan hambatan yang tidak dapat diatasi.

Ada banyak hambatan seperti itu dalam kecerdasan buatan generatif, dan tidak mudah untuk mengetahui mana yang dapat dipecahkan dengan mengatasi arsitektur yang ada, dan mana yang perlu dipertimbangkan dari awal.

Meskipun peneliti dari Asia Timur tampaknya menghasilkan jumlah kertas penglihatan komputer yang lebih besar, saya telah memperhatikan peningkatan frekuensi proyek-proyek ‘Frankenstein’ – inisiatif yang merupakan perpaduan karya sebelumnya, sambil menambahkan sedikit novitas arsitektur (atau mungkin hanya jenis data yang berbeda).

Pada tahun ini, jumlah entri Asia Timur (terutama kolaborasi Cina atau Cina) tampaknya didorong oleh kuota daripada merit, sehingga meningkatkan rasio sinyal-ke-bisingan dalam bidang yang sudah terlalu banyak.

Pada saat yang sama, jumlah kertas Asia Timur yang lebih besar juga telah menarik perhatian dan penghargaan saya pada 2024. Jadi, jika ini semua adalah permainan angka, itu tidak gagal – tetapi juga tidak murah.

Peningkatan Volume Pengajuan

Volume kertas, di seluruh negara asal, tampaknya telah meningkat pada 2024.

Hari publikasi paling populer bergeser sepanjang tahun; saat ini adalah hari Selasa, ketika jumlah pengajuan ke bagian Penglihatan Komputer dan Pengenalan Pola sering sekitar 300-350 dalam satu hari, pada periode “puncak” (Mei-Agustus dan Oktober-Desember, yaitu musim konferensi dan “kuota tahunan” musim, masing-masing).

Di luar pengalaman saya, Arxiv sendiri melaporkan rekor jumlah pengajuan pada Oktober 2024, dengan 6000 pengajuan baru total, dan bagian Penglihatan Komputer menjadi bagian kedua yang paling banyak diajukan setelah Pembelajaran Mesin.

Namun, karena bagian Pembelajaran Mesin di Arxiv sering digunakan sebagai kategori “tambahan” atau agregat, ini berarti bahwa Penglihatan Komputer dan Pengenalan Pola sebenarnya merupakan kategori Arxiv yang paling banyak diajukan.

Statistik Arxiv sendiri pasti menggambarkan ilmu komputer sebagai pemimpin yang jelas dalam pengajuan:

Ilmu Komputer (CS) mendominasi statistik pengajuan di Arxiv selama lima tahun terakhir. Sumber: https://info.arxiv.org/about/reports/submission_category_by_year.html

Laporan Indeks AI 2024 Stanford University , meskipun tidak dapat melaporkan statistik terbaru, juga menekankan peningkatan yang signifikan dalam pengajuan kertas akademis sekitar pembelajaran mesin dalam beberapa tahun terakhir:

Dengan angka yang tidak tersedia untuk 2024, laporan Stanford masih menunjukkan peningkatan volume pengajuan kertas pembelajaran mesin. Sumber: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Diffusi > Kerangka Mesh Berkembang

Satu tren lain yang jelas yang muncul bagi saya adalah peningkatan besar dalam kertas yang menangani pemanfaatan Model Difusi Laten (LDM) sebagai generator model CGI berbasis mesh, ‘tradisional’.

Proyek-proyek seperti ini termasuk InstantMesh3D, 3Dtopia, Diffusi², V3D, MVEdit, dan GIMDiffusi, di antara banyak penawaran serupa.

Pembangunan mesh dan penyempurnaan melalui proses berbasis Difusi di 3Dtopia. Sumber: https://arxiv.org/pdf/2403.02234

Tren penelitian ini muncul bisa dianggap sebagai pengakuan implisit tentang ketidakmampuan sistem generatif seperti model difusi, yang hanya dua tahun yang lalu dianggap sebagai pengganti potensial untuk semua sistem yang model difusi > mesh sekarang mencoba untuk mengisi; mengurangi difusi ke peran sebagai alat dalam teknologi dan alur kerja yang berasal dari tiga puluh atau lebih tahun yang lalu.

Stability.ai, asal dari model Stable Difusi sumber terbuka, baru saja merilis Stable Zero123, yang dapat, di antara hal-hal lain, menggunakan interpretasi Neural Radiance Fields (NeRF) dari gambar yang dihasilkan AI sebagai jembatan untuk membuat model CGI berbasis mesh eksplisit yang dapat digunakan dalam arena CGI seperti Unity, dalam permainan video, realitas tambahan, dan dalam platform lain yang memerlukan koordinat 3D eksplisit, bukan koordinat implisit dari fungsi kontinu.

Klik untuk memutar. Gambar yang dihasilkan dalam Stable Difusi dapat diubah menjadi mesh CGI rasional. Di sini kita melihat hasil dari alur kerja gambar > CGI menggunakan Stable Zero 123. Sumber: https://www.youtube.com/watch?v=RxsssDD48Xc

Semantik 3D

Ruang kecerdasan buatan generatif membuat perbedaan antara sistem 2D dan 3D implementasi penglihatan dan sistem generatif. Misalnya, kerangka landmark wajah, meskipun merepresentasikan objek 3D (wajah) dalam semua kasus, tidak semua perlu menghitung koordinat 3D yang dapat diatasi.

Sistem FANAlign populer, yang banyak digunakan dalam arsitektur deepfake era 2017 (di antara lainnya), dapat menampung kedua pendekatan ini:

Di atas, landmark 2D dihasilkan berdasarkan fitur dan garis wajah yang dikenali. Di bawah, mereka dirasionalisasi ke ruang 3D X / Y / Z. Sumber: https://github.com/1adrianb/face-alignment

Jadi, sama seperti ‘deepfake’ telah menjadi istilah yang samar, ‘3D’ juga telah menjadi istilah yang membingungkan dalam penelitian penglihatan komputer.

Bagi konsumen, ini biasanya menandakan media stereo (seperti film di mana pemirsa harus memakai kacamata khusus); bagi praktisi efek visual dan pemodel, ini menyediakan perbedaan antara karya seni 2D (seperti sketsa konseptual) dan model berbasis mesh yang dapat dimanipulasi dalam program ‘3D’ seperti Maya atau Cinema4D.

Tapi dalam penglihatan komputer, ini hanya berarti bahwa sistem koordinat Kartesius ada di suatu tempat dalam ruang laten model – tidak bahwa itu dapat diatasi atau dimanipulasi langsung oleh pengguna; setidaknya, tidak tanpa sistem CGI interpretatif pihak ketiga seperti 3DMM atau FLAME.

Oleh karena itu, konsep difusi > 3D tidak tepat; tidak hanya gambar apa pun (termasuk foto asli) dapat digunakan sebagai input untuk menghasilkan model CGI generatif, tetapi istilah ‘mesh’ lebih tepat.

Namun, untuk memperburuk kebingungan, difusi memang diperlukan untuk menafsirkan foto sumber menjadi mesh, dalam sebagian besar proyek yang muncul. Jadi, deskripsi yang lebih baik mungkin gambar-ke-mesh, sementara gambar > difusi > mesh adalah deskripsi yang lebih akurat.

Tapi itu adalah penjualan yang sulit di rapat dewan, atau dalam rilis publisitas yang dirancang untuk menghubungi investor.

Bukti Jalan Buntu Arsitektur

Bahkan dibandingkan dengan 2023, panen kertas terakhir 12 bulan ini menunjukkan peningkatan kesulitan sekitar menghilangkan batasan praktis yang keras pada generasi berbasis difusi.

Hambatan utama tetap adalah generasi video yang konsisten secara naratif dan temporal, dan mempertahankan penampilan konsisten karakter dan objek – tidak hanya di seluruh klip video yang berbeda, tetapi bahkan di seluruh runtime klip video yang dihasilkan.

Inovasi terakhir dalam sintesis berbasis difusi adalah advent of LoRA pada 2022. Sementara sistem yang lebih baru seperti Flux telah memperbaiki beberapa masalah outlier, seperti ketidakmampuan Stable Difusi sebelumnya untuk mereproduksi konten teks di dalam gambar yang dihasilkan, dan kualitas gambar secara keseluruhan telah ditingkatkan, sebagian besar kertas yang saya pelajari pada 2024 pada dasarnya hanya memindahkan makanan di atas piring.

Jalan buntu ini telah terjadi sebelumnya, dengan Jaringan Adversarial Generatif (GAN) dan dengan Medan Radiasi Saraf (NeRF), keduanya gagal memenuhi potensi awal yang tampaknya – dan keduanya semakin banyak digunakan dalam sistem yang lebih konvensional (seperti penggunaan NeRF dalam Stable Zero 123, lihat di atas). Ini juga tampaknya terjadi dengan model difusi.

Penelitian Gaussian Splatting Berubah

Tampaknya pada akhir 2023 bahwa metode rasterisasi 3D Gaussian Splatting (3DGS), yang debut sebagai teknik pencitraan medis pada awal 1990-an, akan tiba-tiba mengalahkan sistem berbasis autoencoder dalam tantangan sintesis gambar manusia (seperti simulasi wajah dan rekreasi, serta transfer identitas).

Kertas ASH 2023 berjanji manusia 3DGS penuh, sementara Gaussian Avatars menawarkan detail yang jauh lebih baik (dibandingkan dengan metode autoencoder dan metode lain yang bersaing), bersama dengan reenactment yang mengesankan.

Tahun ini, bagaimanapun, relatif singkat dalam momen pemecahan seperti itu untuk sintesis manusia 3DGS; sebagian besar kertas yang menangani masalah ini baik turunan dari karya di atas, atau gagal melebihi kemampuan mereka.

Sebaliknya, penekanan pada 3DGS telah berubah menjadi meningkatkan kemampuan arsitektur dasarnya, sehingga menghasilkan sejumlah kertas yang menawarkan lingkungan luar 3DGS yang ditingkatkan. Perhatian khusus telah diberikan pada pendekatan SLAM 3DGS, dalam proyek seperti Gaussian Splatting SLAM, Splat-SLAM, Gaussian-SLAM, DROID-Splat, di antara banyak lainnya.

Proyek-proyek yang mencoba melanjutkan atau memperluas sintesis manusia berbasis splat termasuk MIGS, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM, dan Topo4D. Meskipun ada yang lain, tidak ada dari proyek-proyek ini yang mencapai dampak awal dari kertas yang muncul pada akhir 2023.

‘Era Weinstein’ dari Sampel Uji dalam Penurunan

Penelitian dari Asia Tenggara secara umum (dan Cina secara khusus) sering menampilkan contoh uji yang bermasalah untuk diterbitkan dalam artikel ulasan, karena mereka menampilkan materi yang sedikit ‘pedas’.

Apakah ini karena ilmuwan peneliti di wilayah tersebut mencoba menarik perhatian untuk output mereka masih diperdebatkan; tapi selama 18 bulan terakhir, sejumlah kertas yang meningkat tentang kecerdasan buatan generatif (sintesis gambar dan/atau video) telah beralih ke menggunakan wanita muda dan setengah telanjang dalam contoh proyek. Contoh-contoh yang mendekati NSFW termasuk UniAnimate, ControlNext, dan bahkan kertas yang sangat ‘kering’ seperti Evaluasi Konsistensi Gerakan dengan Jarak Gerakan Video Fréchet (FVMD).

Ini mengikuti tren umum dari subreddit dan komunitas lain yang telah berkumpul di sekitar Model Difusi Laten (LDM), di mana Aturan 34 masih sangat berlaku.

Pertarungan Selebriti

Jenis contoh yang tidak pantas ini tumpang tindih dengan pengakuan yang meningkat bahwa proses AI tidak boleh secara sewenang-wenang mengeksploitasi kesamaan selebriti – terutama dalam studi yang tidak kritis menggunakan contoh menampilkan selebriti cantik, sering kali perempuan, dan meletakkan mereka dalam konteks yang dipertanyakan.

Salah satu contoh adalah AnyDressing, yang, selain menampilkan karakter wanita muda bergaya anime, juga secara bebas menggunakan identitas selebriti klasik seperti Marilyn Monroe, dan selebriti saat ini seperti Ann Hathaway (yang telah mengutuk penggunaan seperti itu dengan sangat vokal).

Penggunaan sewenang-wenang selebriti saat ini dan ‘klasik’ masih cukup umum dalam kertas dari Asia Tenggara, meskipun praktik ini sedikit menurun. Sumber: https://crayon-shinchan.github.io/AnyDressing/

Di barat kertas, praktik ini telah menurun secara signifikan sepanjang 2024, dipimpin oleh rilis yang lebih besar dari FAANG dan badan penelitian tingkat tinggi lain seperti OpenAI. Sadar akan potensi litigasi di masa depan, pemain korporat besar ini tampaknya semakin tidak mau untuk merepresentasikan bahkan orang fiksi yang fotorealistik.

Meskipun sistem yang mereka ciptakan (seperti Imagen dan Veo2) jelas dapat menghasilkan output seperti itu, contoh dari proyek AI generatif barat sekarang cenderung menampilkan gambar dan video yang ‘imut’, Disneyfied, dan sangat ‘aman’.

Meskipun Imagen diklaim dapat menghasilkan output ‘fotorealistik’, contoh yang dipromosikan oleh Google Research biasanya fantasi, ‘keluarga’ – manusia fotorealistik dengan hati-hati dihindari, atau contoh minimal disediakan. Sumber: https://imagen.research.google/

Mencuci Wajah

Di literatur CV barat, pendekatan yang tidak jujur ini sangat jelas dalam sistem penyesuaian – metode yang dapat menghasilkan kesamaan konsisten dari orang tertentu di seluruh contoh yang berbeda (yaitu seperti LoRA dan DreamBooth yang lebih tua).

Contoh termasuk penanaman visual ortogonal, LoRA-Composer, InstructBooth Google, dan banyak lagi.

InstructBooth Google meningkatkan faktor keimutan hingga 11, meskipun sejarah menunjukkan bahwa pengguna lebih tertarik untuk membuat manusia fotorealistik daripada karakter atau hewan yang imut. Sumber: https://sites.google.com/view/instructbooth

Namun, peningkatan ‘contoh imut’ juga terlihat dalam benang penelitian CV dan sintesis lain, dalam proyek seperti Comp4D, V3D, DesignEdit, UniEdit, FaceChain (yang mengakui harapan pengguna yang lebih realistis di halaman GitHub), dan DPG-T2I, di antara banyak lainnya.

Kemudahan dengan mana sistem seperti LoRAs dapat dibuat oleh pengguna rumahan dengan perangkat keras yang relatif sederhana telah menyebabkan ledakan model selebriti yang dapat diunduh secara gratis di domain civit.ai dan komunitas. Penggunaan tidak sah seperti itu tetap memungkinkan melalui open-sourcing arsitektur seperti Stable Difusi dan Flux.

Meskipun sering memungkinkan untuk menembus fitur keamanan sistem gambar-ke-teks (T2I) dan teks-ke-video (T2V) untuk menghasilkan materi yang dilarang oleh ketentuan penggunaan platform, kesenjangan antara kemampuan sistem terbatas yang terbaik (seperti RunwayML dan Sora) dan kemampuan sistem yang tidak terbatas (seperti Stable Video Difusi, CogVideo dan penerapan lokal Hunyuan), tidak benar-benar menutup, seperti yang banyak orang percaya.

Sebaliknya, sistem ini, baik yang milik perusahaan maupun open-source, berpotensi menjadi sama tidak berguna: sistem T2V hyperscale yang mahal mungkin menjadi terlalu terbatas karena takut akan tuntutan hukum, sementara kurangnya infrastruktur lisensi dan pengawasan dataset dalam sistem open-source dapat menguncinya sepenuhnya dari pasar ketika peraturan yang lebih ketat diterapkan.

Dipublikasikan pertama kali pada hari Selasa, 24 Desember 2024