Kecerdasan buatan

Tiga Tantangan di Depan untuk Stable Diffusion

Published September 6, 2022

Updated April 5, 2026

Martin Anderson

Rilis model sintesis gambar latensi difusi Stable Diffusion dari stability.ai beberapa minggu yang lalu mungkin merupakan salah satu pengungkapan teknologi paling signifikan sejak DeCSS pada 1999; ini pasti merupakan peristiwa terbesar dalam citra AI yang dihasilkan sejak kode deepfakes pada 2017 dicopy ke GitHub dan difork menjadi DeepFaceLab dan FaceSwap, serta perangkat lunak deepfakes streaming waktu nyata DeepFaceLive.

Dalam satu gerakan, frustrasi pengguna atas batasan konten dalam API sintesis gambar DALL-E 2 dihilangkan, karena ternyata filter NSFW Stable Diffusion dapat dinonaktifkan dengan mengubah satu baris kode. Reddit Stable Diffusion yang berfokus pada konten dewasa muncul hampir seketika, dan dengan cepat dihapus, sementara pengembang dan komunitas pengguna terbagi di Discord menjadi komunitas resmi dan NSFW, dan Twitter mulai dipenuhi dengan karya Stable Diffusion yang luar biasa.

Saat ini, setiap hari tampaknya membawa inovasi luar biasa dari pengembang yang telah mengadopsi sistem ini, dengan plugin dan tambahan pihak ketiga yang ditulis dengan tergesa-gesa untuk Krita, Photoshop, Cinema4D, Blender, dan banyak platform aplikasi lainnya.

https://www.youtube.com/watch?v=MVPu2L88jIw

Sementara itu, promptcraft – seni ‘AI whispering’ yang sekarang profesional, yang mungkin akan menjadi pilihan karir terpendek sejak ‘Filofax binder’ – sudah dikomersialisasikan, sementara monitisasi awal Stable Diffusion sedang berlangsung di tingkat Patreon, dengan kepastian penawaran yang lebih canggih akan datang, bagi mereka yang tidak mau menavigasi instalasi Conda dari kode sumber, atau filter NSFW yang preskriptif dari implementasi berbasis web.

Kecepatan pengembangan dan perasaan bebas eksplorasi dari pengguna sedang berlangsung dengan kecepatan yang sangat cepat sehingga sulit untuk melihat jauh ke depan. Pada dasarnya, kita tidak tahu persis apa yang kita hadapi sekarang, atau apa saja keterbatasan atau kemungkinan yang mungkin ada.

Namun, mari kita lihat tiga tantangan yang mungkin paling menarik dan menantang bagi komunitas Stable Diffusion yang terbentuk dan tumbuh dengan cepat untuk dihadapi dan, semoga, diatasi.

1: Mengoptimalkan Pipa Berbasis Tile

Dihadapkan pada sumber daya perangkat keras yang terbatas dan batas keras pada resolusi gambar pelatihan, tampaknya kemungkinan bahwa pengembang akan menemukan cara untuk meningkatkan kualitas dan resolusi output Stable Diffusion. Banyak proyek ini akan melibatkan eksploitasi keterbatasan sistem, seperti resolusi asli 512×512 piksel.

Seperti biasa dengan inisiatif sintesis gambar dan visi komputer, Stable Diffusion dilatih pada gambar dengan rasio kuadrat, dalam hal ini disampel ulang ke 512×512, sehingga gambar sumber dapat diregularisasi dan dapat masuk ke dalam keterbatasan GPU yang melatih model.

Oleh karena itu, Stable Diffusion ‘berpikir’ (jika itu berpikir sama sekali) dalam istilah 512×512, dan pasti dalam istilah kuadrat. Banyak pengguna yang saat ini menguji batas sistem melaporkan bahwa Stable Diffusion menghasilkan hasil yang paling dapat diandalkan dan paling sedikit glitchy pada rasio aspek yang agak terbatas ini (lihat ‘mengatasi ekstremitas’ di bawah).

Meskipun berbagai implementasi menampilkan upscaling melalui RealESRGAN (dan dapat memperbaiki wajah yang dirender dengan buruk melalui GFPGAN), beberapa pengguna saat ini mengembangkan metode untuk membagi gambar menjadi bagian 512x512px dan menyatukannya untuk membentuk karya komposit yang lebih besar.

Render 1024x576 ini, resolusi yang biasanya tidak mungkin dalam satu render Stable Diffusion, dibuat dengan menyalin dan menempelkan file attention.py Python dari fork DoggettX dari Stable Diffusion (versi yang mengimplementasikan upscaling berbasis tile) ke fork lain. Sumber: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Render 1024×576 ini, resolusi yang biasanya tidak mungkin dalam satu render Stable Diffusion, dibuat dengan menyalin dan menempelkan file attention.py Python dari fork DoggettX dari Stable Diffusion (versi yang mengimplementasikan upscaling berbasis tile) ke fork lain. Sumber: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

2: Mengatasi Masalah dengan Anggota Tubuh Manusia

Stable Diffusion tidak memenuhi namanya ketika menggambarkan kompleksitas anggota tubuh manusia. Tangan dapat berkembang biak secara acak, jari dapat menyatu, kaki ketiga muncul tanpa permisi, dan anggota tubuh yang ada dapat menghilang tanpa jejak. Dalam pertahanannya, Stable Diffusion berbagi masalah ini dengan stablemates-nya, dan sebagian besar dengan DALL-E 2.

Hasil tanpa diedit dari DALL-E 2 dan Stable Diffusion (1.4) pada akhir Agustus 2022, keduanya menunjukkan masalah dengan anggota tubuh. Prompt adalah ‘Seorang wanita memeluk seorang pria’

3: Kustomisasi

Salah satu kemungkinan paling menarik untuk masa depan Stable Diffusion adalah prospek pengguna atau organisasi mengembangkan sistem yang direvisi; modifikasi yang memungkinkan konten di luar lingkup LAION pra-latih untuk diintegrasikan ke dalam sistem – idealnya tanpa biaya yang tidak terkendali dari melatih seluruh model lagi, atau risiko yang terlibat ketika melatih volume besar gambar baru ke model yang ada dan mapan.