Kecerdasan buatan

Panduan Perhatian Diri: Meningkatkan Kualitas Sampel Model Difusi

Published January 2, 2024

Updated April 27, 2026

Kunal Kejriwal

Self-Attention Guidance : Improving Sample Quality of Diffusion Models

Model Difusi Denoising adalah kerangka kerja kecerdasan buatan generatif yang mensintesis gambar dari kebisingan melalui proses denoising iteratif. Mereka dirayakan karena kemampuan generasi gambar yang luar biasa dan keragamannya, sebagian besar dikaitkan dengan metode bimbingan kondisional teks atau kelas, termasuk bimbingan klasifikasi dan bimbingan bebas klasifikasi. Model-model ini telah sangat sukses dalam menciptakan gambar yang beragam dan berkualitas tinggi. Studi-studi terbaru telah menunjukkan bahwa teknik bimbingan seperti caption kelas dan label memainkan peran penting dalam meningkatkan kualitas gambar yang dihasilkan oleh model-model ini.

Namun, model difusi dan metode bimbingan menghadapi keterbatasan dalam kondisi eksternal tertentu. Metode Bimbingan Bebas Klasifikasi (CFG) yang menggunakan label drop, menambah kompleksitas pada proses pelatihan, sedangkan metode Bimbingan Klasifikasi (CG) memerlukan pelatihan klasifikasi tambahan. Kedua metode tersebut sedikit terbatas oleh ketergantungannya pada kondisi eksternal yang sulit diperoleh, membatasi potensinya dan membatasi mereka pada pengaturan kondisional.

Untuk mengatasi keterbatasan ini, pengembang telah merumuskan pendekatan yang lebih umum untuk bimbingan difusi, yang dikenal sebagai Panduan Perhatian Diri (SAG). Metode ini memanfaatkan informasi dari sampel intermediat model difusi untuk menghasilkan gambar. Kami akan menjelajahi SAG dalam artikel ini, membahas cara kerjanya, metodologi, dan hasilnya dibandingkan dengan kerangka kerja dan pipeline yang ada saat ini.

Panduan Perhatian Diri: Meningkatkan Kualitas Sampel Model Difusi

Model Difusi Denoising (DDM) telah mendapatkan popularitas karena kemampuan mereka untuk menciptakan gambar dari kebisingan melalui proses denoising iteratif. Kemampuan sintesis gambar dari model-model ini sebagian besar disebabkan oleh metode bimbingan difusi yang digunakan. Meskipun kekuatan mereka, model difusi dan metode bimbingan berbasis menghadapi tantangan seperti kompleksitas tambahan dan biaya komputasi yang meningkat.

Untuk mengatasi keterbatasan saat ini, pengembang telah memperkenalkan metode Panduan Perhatian Diri, suatu formulasi yang lebih umum dari bimbingan difusi yang tidak bergantung pada informasi eksternal dari bimbingan difusi, sehingga memfasilitasi pendekatan yang bebas kondisi dan fleksibel untuk membimbing kerangka kerja difusi. Pendekatan yang dipilih oleh Panduan Perhatian Diri pada akhirnya membantu meningkatkan keteraplikasian metode bimbingan difusi tradisional pada kasus dengan atau tanpa persyaratan eksternal.

Panduan Perhatian Diri didasarkan pada prinsip formulasi umum yang sederhana, dan asumsi bahwa informasi internal yang terkandung dalam sampel intermediat dapat berfungsi sebagai bimbingan juga. Berdasarkan prinsip ini, metode SAG pertama kali memperkenalkan Bimbingan Kabur, suatu solusi sederhana dan langsung untuk meningkatkan kualitas sampel. Bimbingan kabur bertujuan untuk memanfaatkan sifat kabur Gaussian untuk menghilangkan detail skala halus secara alami dengan membimbing sampel intermediat menggunakan informasi yang dihilangkan sebagai hasil dari kabur Gaussian. Meskipun metode Bimbingan Kabur memang meningkatkan kualitas sampel dengan skala bimbingan moderat, metode ini gagal mereplikasi hasil pada skala bimbingan besar karena sering kali memperkenalkan ketidakjelasan struktural di seluruh wilayah. Sebagai hasilnya, metode Bimbingan Kabur menemukan kesulitan untuk memposisikan prediksi input asli dengan prediksi input yang rusak. Untuk meningkatkan stabilitas dan efektivitas metode Bimbingan Kabur pada skala bimbingan yang lebih besar, Panduan Perhatian Diri mencoba memanfaatkan mekanisme perhatian diri dari model difusi karena model difusi modern sudah mengandung mekanisme perhatian diri dalam arsitektur mereka.

Dengan asumsi bahwa perhatian diri penting untuk menangkap informasi yang menonjol, metode Panduan Perhatian Diri menggunakan peta perhatian diri dari model difusi untuk mengaburkan wilayah yang mengandung informasi yang menonjol, dan dalam prosesnya, membimbing model difusi dengan informasi residu yang diperlukan. Metode ini kemudian memanfaatkan peta perhatian selama proses reverse model difusi, untuk meningkatkan kualitas gambar dan menggunakan kondisi diri untuk mengurangi artefak tanpa memerlukan pelatihan tambahan atau informasi eksternal.

Untuk merangkum, metode Panduan Perhatian Diri

Merupakan suatu pendekatan baru yang menggunakan peta perhatian diri internal dari kerangka kerja difusi untuk meningkatkan kualitas sampel gambar yang dihasilkan tanpa memerlukan pelatihan tambahan atau bergantung pada kondisi eksternal.
Metode SAG mencoba untuk menggeneralisasi metode bimbingan kondisional menjadi metode bebas kondisi yang dapat diintegrasikan dengan model difusi mana pun tanpa memerlukan sumber daya tambahan atau kondisi eksternal, sehingga meningkatkan keteraplikasian kerangka kerja berbasis bimbingan.
Metode SAG juga mencoba untuk menunjukkan kemampuan ortogonalnya terhadap metode dan kerangka kerja kondisional yang ada, sehingga memfasilitasi peningkatan kinerja dengan memungkinkan integrasi yang fleksibel dengan metode dan model lain.

Melanjutkan, metode Panduan Perhatian Diri belajar dari temuan kerangka kerja yang terkait, termasuk Model Difusi Denoising, Bimbingan Sampel, Metode Perhatian Diri Kecerdasan Buatan, dan Representasi Internal Model Difusi. Namun, pada intinya, metode Panduan Perhatian Diri menerapkan pembelajaran dari DDPM atau Model Difusi Denoising Probabilistik, Bimbingan Klasifikasi, Bimbingan Bebas Klasifikasi, dan Perhatian Diri dalam Kerangka Kerja Difusi. Kami akan membahasnya secara mendalam di bagian berikutnya.

Panduan Perhatian Diri: Preliminer, Metodologi, dan Arsitektur

Model Difusi Denoising Probabilistik atau DDPM

DDPM atau Model Difusi Denoising Probabilistik adalah model yang menggunakan proses denoising iteratif untuk memulihkan gambar dari kebisingan putih. Secara tradisional, model DDPM menerima input gambar dan jadwal varians pada langkah waktu untuk mendapatkan gambar menggunakan proses maju yang dikenal sebagai proses Markovian.

Bimbingan Klasifikasi dan Bimbingan Bebas Klasifikasi dengan Implementasi GAN

GAN atau Jaringan Adversarial Generatif memiliki kemampuan perdagangan keanekaragaman untuk kesetiaan, dan untuk membawa kemampuan GAN ini ke model difusi, kerangka kerja Panduan Perhatian Diri mengusulkan untuk menggunakan metode bimbingan klasifikasi yang menggunakan klasifikasi tambahan. Sebaliknya, metode bimbingan bebas klasifikasi juga dapat diimplementasikan tanpa menggunakan klasifikasi tambahan untuk mencapai hasil yang sama. Meskipun metode ini menghasilkan hasil yang diinginkan, metode ini masih tidak layak dari segi komputasi karena memerlukan label tambahan, dan juga membatasi kerangka kerja pada model difusi kondisional yang memerlukan kondisi tambahan seperti teks atau kelas bersama dengan detail pelatihan tambahan yang menambah kompleksitas model.

Menggeneralisasi Bimbingan Difusi

Meskipun metode Bimbingan Klasifikasi dan Bimbingan Bebas Klasifikasi menghasilkan hasil yang diinginkan dan membantu dengan generasi kondisional dalam model difusi, metode ini bergantung pada input tambahan. Untuk langkah waktu tertentu, input untuk model difusi terdiri dari kondisi umum dan sampel terganggu tanpa kondisi umum. Lebih lanjut, kondisi umum mencakup informasi internal dalam sampel terganggu atau kondisi eksternal, atau keduanya. Bimbingan yang dihasilkan diformulasikan dengan menggunakan regresi imajiner dengan asumsi bahwa dapat memprediksi kondisi umum.

Meningkatkan Kualitas Gambar menggunakan Peta Perhatian Diri

Bimbingan Difusi Umum menyiratkan bahwa memungkinkan untuk memberikan bimbingan pada proses reverse model difusi dengan mengekstrak informasi yang menonjol dalam kondisi umum yang terkandung dalam sampel terganggu. Berdasarkan hal ini, metode Panduan Perhatian Diri menangkap informasi yang menonjol untuk proses reverse secara efektif sambil membatasi risiko yang timbul sebagai akibat dari masalah out-of-distribution pada model difusi pra-terlatih.

Bimbingan Kabur

Bimbingan kabur dalam Panduan Perhatian Diri didasarkan pada Kabur Gaussian, suatu metode penyaringan linier di mana sinyal input dikonvolusi dengan filter Gaussian untuk menghasilkan output. Dengan peningkatan deviasi standar, Kabur Gaussian mengurangi detail skala halus dalam sinyal input, dan menghasilkan sinyal input lokal yang tidak dapat dibedakan dengan menghaluskan mereka ke arah konstan. Lebih lanjut, eksperimen telah menunjukkan ketidakseimbangan informasi antara sinyal input dan sinyal output kabur Gaussian di mana sinyal output mengandung lebih banyak informasi skala halus.

Berdasarkan pembelajaran ini, kerangka kerja Panduan Perhatian Diri memperkenalkan Bimbingan Kabur, suatu teknik yang sengaja menghilangkan informasi dari rekonstruksi intermediat selama proses difusi, dan sebagai gantinya, menggunakan informasi ini untuk membimbing prediksi menuju meningkatkan relevansi gambar dengan informasi input. Bimbingan kabur pada dasarnya menyebabkan prediksi asli menyimpang lebih dari prediksi input kabur. Lebih lanjut, sifat kabur yang baik dalam kabur Gaussian mencegah sinyal output menyimpang secara signifikan dari sinyal asli dengan deviasi moderat. Dalam kata sederhana, pengkaburan terjadi secara alami dalam gambar yang membuat kabur Gaussian menjadi metode yang lebih sesuai untuk diterapkan pada model difusi pra-terlatih.

Dalam pipeline Panduan Perhatian Diri, sinyal input pertama kali dikaburkan menggunakan filter Gaussian, dan kemudian didifusikan dengan kebisingan tambahan untuk menghasilkan sinyal output. Dengan melakukan ini, pipeline SAG memitigasi efek sampingan kabur yang mengurangi kebisingan Gaussian, dan membuat bimbingan bergantung pada konten daripada bergantung pada kebisingan acak. Meskipun bimbingan kabur menghasilkan hasil yang memuaskan pada kerangka kerja dengan skala bimbingan moderat, metode ini gagal mereplikasi hasil pada model yang ada dengan skala bimbingan besar karena cenderung menghasilkan hasil yang berisik seperti yang ditunjukkan pada gambar berikut.

Hasil ini mungkin merupakan hasil dari ketidakjelasan struktural yang diperkenalkan dalam kerangka kerja oleh kabur global yang membuat pipeline SAG sulit untuk memposisikan prediksi input asli dengan prediksi input yang rusak, menghasilkan output yang berisik.

Mekanisme Perhatian Diri

Seperti yang disebutkan sebelumnya, model difusi biasanya memiliki komponen perhatian diri yang terintegrasi, dan ini adalah salah satu komponen yang lebih penting dalam kerangka kerja model difusi. Mekanisme Perhatian Diri diimplementasikan di inti model difusi, dan memungkinkan model untuk memperhatikan bagian yang menonjol dari input selama proses generatif seperti yang ditunjukkan pada gambar berikut dengan masker frekuensi tinggi pada baris atas, dan masker perhatian diri pada baris bawah dari gambar yang dihasilkan.

Metode Panduan Perhatian Diri yang diusulkan membangun pada prinsip yang sama, dan memanfaatkan kemampuan peta perhatian diri dalam model difusi. Secara keseluruhan, metode Panduan Perhatian Diri mengaburkan patch yang diperhatikan dalam sinyal input atau dengan kata sederhana, menyembunyikan informasi patch yang diperhatikan oleh model difusi. Lebih lanjut, sinyal output dalam Panduan Perhatian Diri mengandung wilayah yang utuh dari sinyal input yang berarti bahwa tidak menghasilkan ketidakjelasan struktural dari input, dan memecahkan masalah kabur global. Pipeline kemudian mendapatkan peta perhatian diri yang diagregasi dengan melakukan GAP atau Pencarian Rata-Rata Global untuk mengagregasi peta perhatian diri ke dimensi, dan upsampling tetangga terdekat untuk mencocokkan resolusi sinyal input.

Panduan Perhatian Diri: Eksperimen dan Hasil

Untuk mengevaluasi kinerjanya, pipeline Panduan Perhatian Diri disampling menggunakan 8 GPU Nvidia GeForce RTX 3090, dan dibangun atas kerangka kerja IDDPM, ADM, dan Stable Diffusion yang pra-terlatih.

Generasi Tak Bersyarat dengan Panduan Perhatian Diri

Untuk mengukur efektivitas pipeline SAG pada model tak bersyarat dan menunjukkan sifat bebas kondisi yang tidak dimiliki oleh Bimbingan Klasifikasi dan Bimbingan Bebas Klasifikasi, pipeline SAG dijalankan pada kerangka kerja yang pra-terlatih secara tak bersyarat pada 50 ribu sampel.

Seperti yang dapat dilihat, implementasi pipeline SAG meningkatkan metrik FID, sFID, dan IS dari input tak bersyarat sambil menurunkan nilai recall pada saat yang sama. Lebih lanjut, perbaikan kualitatif sebagai hasil dari implementasi pipeline SAG jelas terlihat pada gambar berikut di mana gambar di atas adalah hasil dari kerangka kerja ADM dan Stable Diffusion, sedangkan gambar di bawah adalah hasil dari kerangka kerja ADM dan Stable Diffusion dengan pipeline SAG.

Generasi Bersyarat dengan SAG

Integrasi pipeline SAG dalam kerangka kerja yang ada menghasilkan hasil yang luar biasa dalam generasi tak bersyarat, dan pipeline SAG mampu melakukan kebebasan kondisi yang memungkinkan pipeline SAG untuk diimplementasikan untuk generasi bersyarat juga.

Stable Diffusion dengan Panduan Perhatian Diri

Meskipun kerangka kerja Stable Diffusion asli menghasilkan gambar berkualitas tinggi, mengintegrasikan kerangka kerja Stable Diffusion dengan pipeline Panduan Perhatian Diri dapat meningkatkan hasil secara drastis. Untuk mengevaluasi efeknya, pengembang menggunakan prompt kosong untuk Stable Diffusion dengan benih acak untuk setiap pasangan gambar, dan menggunakan evaluasi manusia pada 500 pasang gambar dengan dan tanpa Panduan Perhatian Diri. Hasilnya ditunjukkan pada gambar berikut.

Lebih lanjut, implementasi SAG dapat meningkatkan kemampuan kerangka kerja Stable Diffusion karena menggabungkan Bimbingan Bebas Klasifikasi dengan Panduan Perhatian Diri dapat memperluas jangkauan model Stable Diffusion ke sintesis gambar-ke-teks. Lebih lanjut, gambar yang dihasilkan dari model Stable Diffusion dengan Panduan Perhatian Diri memiliki kualitas yang lebih tinggi dengan artefak yang lebih sedikit berkat efek kondisi diri dari pipeline SAG seperti yang ditunjukkan pada gambar berikut.

Keterbatasan Saat Ini

Meskipun implementasi pipeline Panduan Perhatian Diri dapat secara substansial meningkatkan kualitas gambar yang dihasilkan, metode ini masih memiliki beberapa keterbatasan.

Salah satu keterbatasan utama adalah ortogonalitas dengan Bimbingan Klasifikasi dan Bimbingan Bebas Klasifikasi. Seperti yang dapat dilihat, implementasi SAG memang meningkatkan skor FID dan skor prediksi yang berarti bahwa pipeline SAG mengandung komponen ortogonal yang dapat digunakan dengan metode bimbingan tradisional secara bersamaan.

Namun, masih memerlukan model difusi untuk dilatih dengan cara tertentu yang menambah kompleksitas serta biaya komputasi.

Lebih lanjut, implementasi Panduan Perhatian Diri tidak meningkatkan konsumsi memori atau waktu, suatu indikasi bahwa overhead yang dihasilkan dari operasi seperti masking & blurring dalam SAG adalah negligible. Namun, masih menambah biaya komputasi karena termasuk langkah tambahan dibandingkan dengan pendekatan tanpa bimbingan.

Pemikiran Akhir

Dalam artikel ini, kami telah membahas tentang Panduan Perhatian Diri, suatu formulasi baru dan umum dari metode bimbingan yang menggunakan informasi internal yang tersedia dalam model difusi untuk menghasilkan gambar berkualitas tinggi. Panduan Perhatian Diri didasarkan pada prinsip formulasi umum yang sederhana, dan asumsi bahwa informasi internal yang terkandung dalam sampel intermediat dapat berfungsi sebagai bimbingan juga. Pipeline Panduan Perhatian Diri adalah suatu pendekatan bebas kondisi dan bebas pelatihan yang dapat diimplementasikan di seluruh model difusi, dan menggunakan kondisi diri untuk mengurangi artefak dalam gambar yang dihasilkan, dan meningkatkan kualitas secara keseluruhan.

Related Topics:Denoising diffusion models

Kunal Kejriwal

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.