Model dan platform AI

Stable Diffusion 3.5: Kemajuan Arsitektur dalam Teknologi AI Text-to-Image

Diterbitkan 22 Oktober 2024

Diperbarui 20 Mei 2026

Oleh

Alex McFarland

Stability AI telah meluncurkan Stable Diffusion 3.5, yang menandai kemajuan lain dalam model AI text-to-image. Rilis ini merupakan perubahan komprehensif yang didorong oleh umpan balik komunitas yang berharga dan komitmen untuk mendorong batas teknologi AI generatif.

Setelah rilis Stable Diffusion 3 Medium pada Juni, Stability AI mengakui bahwa model tersebut tidak sepenuhnya memenuhi standar mereka atau harapan komunitas. Alih-alih melakukan perbaikan cepat, perusahaan tersebut mengambil pendekatan yang disengaja, fokus pada mengembangkan versi yang akan mendorong misi mereka untuk mengubah media visual sambil mengimplementasikan langkah-langkah keamanan sepanjang proses pengembangan.

Perbaikan Kunci dari Versi Sebelumnya

Rilis baru ini membawa perbaikan signifikan dalam beberapa area kritis:

Peningkatan Kepatuhan Prompt: Model ini menghasilkan gambar dengan pemahaman yang jauh lebih baik tentang prompt kompleks, menyaingi kemampuan model yang jauh lebih besar.
Perbaikan Arsitektur: Implementasi Normalisasi Query-Key dalam blok transformer telah membantu meningkatkan stabilitas pelatihan dan menyederhanakan proses fine-tuning.
Generasi Output yang Beragam: Kemampuan lanjutan dalam menghasilkan gambar yang mewakili berbagai warna kulit dan fitur tanpa memerlukan rekayasa prompt yang ekstensif.
Performa yang Dioptimalkan: Perbaikan signifikan dalam kualitas gambar dan kecepatan generasi, terutama dalam varian Turbo.

Apa yang membedakan Stable Diffusion 3.5 dalam lanskap perusahaan AI generatif adalah kombinasi unik dari aksesibilitas dan kekuatan. Rilis ini mempertahankan komitmen Stability AI untuk menyediakan alat kreatif yang dapat diakses secara luas sambil mendorong batas kemampuan teknis. Ini memposisikan keluarga model sebagai solusi yang layak untuk kreator individu dan pengguna perusahaan, didukung oleh kerangka lisensi komersial yang jelas yang mendukung bisnis menengah dan organisasi yang lebih besar.

Stable Diffusion output (Stability AI)

Tiga Model Kuat untuk Setiap Kasus Penggunaan

Stable Diffusion 3.5 Large

Model andalan dari rilis ini, Stable Diffusion 3.5 Large, membawa 8 miliar parameter kekuatan pemrosesan untuk tugas generasi gambar profesional.

Fitur kunci termasuk:

Output berkualitas profesional pada resolusi 1 megapiksel
Kepatuhan prompt yang unggul untuk kontrol kreatif yang presisi
Kemampuan lanjutan dalam menangani konsep gambar kompleks
Kinerja yang kuat di seluruh proses artistik yang beragam

Large Turbo

Varian Large Turbo ini merupakan terobosan dalam kinerja yang efisien, menawarkan:

Generasi gambar berkualitas tinggi dalam hanya 4 langkah
Kepatuhan prompt yang luar biasa meskipun kecepatan yang ditingkatkan
Kinerja yang kompetitif melawan model yang tidak terkonsentrasi
Keseimbangan optimal antara kecepatan dan kualitas untuk alur kerja produksi

Model Menengah

Dijadwalkan untuk rilis pada 29 Oktober, model Menengah dengan 2,5 miliar parameter mendemokratisasikan akses ke generasi gambar profesional:

Operasi yang efisien pada perangkat keras konsumen standar
Kemampuan generasi dari 0,25 hingga 2 megapiksel resolusi
Arsitektur yang dioptimalkan untuk kinerja yang ditingkatkan
Hasil yang unggul dibandingkan dengan model menengah lainnya

Setiap model telah diposisikan secara hati-hati untuk melayani kasus penggunaan yang spesifik sambil mempertahankan standar tinggi Stability AI untuk kualitas gambar dan kepatuhan prompt.

Stable Diffusion 3.5 Large (Stability AI)

Perbaikan Arsitektur Generasi Berikutnya

Arsitektur Stable Diffusion 3.5 ini merupakan lompatan besar dalam teknologi generasi gambar. Di intinya, arsitektur MMDiT-X yang dimodifikasi memperkenalkan kemampuan generasi multi-resolusi yang canggih, terutama dalam varian Menengah. Peningkatan arsitektur ini memungkinkan proses pelatihan yang lebih stabil sambil mempertahankan waktu inferensi yang efisien, mengatasi keterbatasan teknis kunci yang diidentifikasi dalam iterasi sebelumnya.

Normalisasi Query-Key (QK): Implementasi Teknis

Normalisasi QK muncul sebagai kemajuan teknis penting dalam arsitektur transformer model. Implementasi ini secara fundamental mengubah cara mekanisme perhatian bekerja selama pelatihan, menyediakan fondasi yang lebih stabil untuk representasi fitur. Dengan menormalisasi interaksi antara query dan kunci dalam mekanisme perhatian, arsitektur mencapai kinerja yang lebih konsisten di berbagai skala dan domain. Perbaikan ini terutama menguntungkan pengembang yang bekerja pada proses fine-tuning, karena mengurangi kompleksitas penyesuaian model untuk tugas yang spesifik.

Analisis Kinerja dan Benchmarking

Analisis kinerja menunjukkan bahwa Stable Diffusion 3.5 mencapai hasil yang luar biasa di berbagai metrik kunci. Varian Large menunjukkan kemampuan kepatuhan prompt yang menyaingi model yang jauh lebih besar, sambil mempertahankan kebutuhan komputasi yang wajar. Pengujian di berbagai konsep gambar menunjukkan perbaikan kualitas yang konsisten, terutama dalam area yang menantang versi sebelumnya. Benchmark ini dilakukan di berbagai konfigurasi perangkat keras untuk memastikan metrik kinerja yang dapat diandalkan.

Kebutuhan Perangkat Keras dan Arsitektur Penerapan

Arsitektur penerapan bervariasi secara signifikan antara varian. Model Large, dengan 8 miliar parameter, memerlukan sumber daya komputasi yang substansial untuk kinerja optimal, terutama saat menghasilkan gambar resolusi tinggi. Di sisi lain, varian Menengah memperkenalkan model penerapan yang lebih fleksibel, berfungsi secara efektif di berbagai konfigurasi perangkat keras sambil mempertahankan kualitas output profesional.

Stable Diffusion benchmarks (Stability AI)

Ringkasan

Stable Diffusion 3.5 ini merupakan tonggak penting dalam evolusi model AI generatif, menyeimbangkan kemampuan teknis lanjutan dengan aksesibilitas praktis. Rilis ini menunjukkan komitmen Stability AI untuk mengubah media visual sambil mengimplementasikan langkah-langkah keamanan komprehensif dan mempertahankan standar tinggi untuk kualitas gambar dan pertimbangan etis. Ketika AI generatif terus membentuk alur kerja kreatif dan perusahaan, arsitektur yang kuat dari Stable Diffusion 3.5, kinerja yang efisien, dan opsi penerapan yang fleksibel memposisikan sebagai alat yang berharga bagi pengembang, peneliti, dan organisasi yang mencari untuk memanfaatkan generasi gambar AI.

Alex McFarland

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.