Kecerdasan Buatan

Model Difusi dalam AI – Semua yang Perlu Anda Ketahui

Diterbitkan

1 tahun lalu

31 Maret, 2023

Kolase wajah manusia yang dibuat menggunakan generator gambar AI

Dalam ekosistem AI, model difusi mengatur arah dan laju kemajuan teknologi. Mereka merevolusi cara kita mendekati kompleks AI generatif tugas. Model ini didasarkan pada matematika prinsip gaussian, varians, persamaan diferensial, dan urutan generatif. (Kami akan menjelaskan jargon teknis di bawah)

Produk dan solusi AI-sentris modern yang dikembangkan oleh Nvidia, Google, Adobe, dan OpenAI telah menempatkan model difusi sebagai pusat perhatian. DALL.E 2, Difusi Stabil, dan tengah perjalanan adalah contoh menonjol dari model difusi yang membuat putaran di internet baru-baru ini. Pengguna menyediakan prompt teks sederhana sebagai input, dan model ini dapat mengonversinya menjadi gambar realistis, seperti yang ditunjukkan di bawah ini.

Gambar dihasilkan dengan Midjourney v5 menggunakan input prompt: bunga poppy California yang semarak. Sumber: tengah perjalanan

Mari jelajahi prinsip kerja dasar model difusi dan bagaimana mereka mengubah arah dan norma dunia seperti yang kita lihat sekarang.

Apa itu Model Difusi?

Menurut publikasi penelitian “Model Probabilistik Difusi Denoising, ”model difusi didefinisikan sebagai:

“Model difusi atau model difusi probabilistik adalah rantai Markov berparameter yang dilatih menggunakan inferensi variasional untuk menghasilkan sampel yang cocok dengan data setelah waktu yang terbatas”

Sederhananya, model difusi dapat menghasilkan data yang mirip dengan yang dilatihkan. Jika model melatih gambar kucing, model ini dapat menghasilkan gambar kucing realistis yang serupa.

Sekarang mari kita coba uraikan definisi teknis yang disebutkan di atas. Model difusi mengambil inspirasi dari prinsip kerja dan dasar matematika dari model probabilistik yang dapat menganalisis dan memprediksi perilaku sistem yang bervariasi terhadap waktu, seperti memprediksi return pasar saham atau penyebaran pandemi.

Definisi tersebut menyatakan bahwa mereka adalah rantai Markov berparameter yang dilatih dengan inferensi variasional. Rantai Markov adalah model matematis yang menentukan sistem yang beralih di antara keadaan yang berbeda dari waktu ke waktu. Keadaan sistem yang ada hanya dapat menentukan kemungkinan transisi ke keadaan tertentu. Dengan kata lain, keadaan sistem saat ini menyimpan kemungkinan keadaan yang dapat diikuti atau diperoleh sistem pada waktu tertentu.

Melatih model menggunakan inferensi variasional melibatkan perhitungan kompleks untuk distribusi probabilitas. Ini bertujuan untuk menemukan parameter yang tepat dari rantai Markov yang cocok dengan data yang diamati (diketahui atau aktual) setelah waktu tertentu. Proses ini meminimalkan nilai fungsi kerugian model, yang merupakan perbedaan antara keadaan yang diprediksi (tidak diketahui) dan yang diamati (diketahui).

Setelah dilatih, model dapat menghasilkan sampel yang cocok dengan data yang diamati. Sampel ini mewakili lintasan yang mungkin atau keadaan yang dapat diikuti atau diperoleh sistem dari waktu ke waktu, dan setiap lintasan memiliki kemungkinan terjadinya yang berbeda. Oleh karena itu, model dapat memprediksi perilaku masa depan sistem dengan menghasilkan berbagai sampel dan menemukan probabilitasnya masing-masing (kemungkinan kejadian ini terjadi).

Bagaimana Menafsirkan Model Difusi dalam AI?

Model difusi adalah model generatif mendalam yang bekerja dengan menambahkan derau (derau Gaussian) ke data pelatihan yang tersedia (juga dikenal sebagai proses difusi maju) dan kemudian membalikkan proses (dikenal sebagai denoising atau proses difusi balik) untuk memulihkan data. Model secara bertahap belajar menghilangkan kebisingan. Proses denoising yang dipelajari ini menghasilkan gambar baru berkualitas tinggi dari benih acak (gambar bernoise acak), seperti yang ditunjukkan pada ilustrasi di bawah ini.

Proses difusi terbalik: Sebuah gambar yang bising didenisikan untuk memulihkan gambar asli (atau menghasilkan variasinya) melalui model difusi yang terlatih. Sumber: Model Probabilistik Difusi Denoising

3 Kategori Model Difusi

Ada tiga kerangka matematika dasar yang mendukung ilmu di balik model difusi. Ketiganya bekerja dengan prinsip yang sama yaitu menambahkan noise dan kemudian menghilangkannya untuk menghasilkan sampel baru. Mari kita bahas di bawah ini.

Model difusi menambahkan dan menghilangkan noise dari suatu gambar. Sumber: Model Difusi dalam Visi: Survei

1. Model Probabilistik Difusi Denoising (DDPM)

Seperti dijelaskan di atas, DDPM adalah model generatif yang terutama digunakan untuk menghilangkan derau dari data visual atau audio. Mereka telah menunjukkan hasil yang mengesankan pada berbagai tugas denoising gambar dan audio. Misalnya, industri pembuatan film menggunakan alat pemrosesan gambar dan video modern untuk meningkatkan kualitas produksi.

2. Model Generatif Berbasis Skor (SGM) yang Dikondisikan oleh Kebisingan

SGM dapat menghasilkan sampel baru dari distribusi yang diberikan. Mereka bekerja dengan mempelajari fungsi skor estimasi yang dapat memperkirakan kerapatan log dari distribusi target. Estimasi kepadatan log membuat asumsi untuk titik data yang tersedia yang merupakan bagian dari kumpulan data yang tidak diketahui (kumpulan pengujian). Fungsi skor ini kemudian dapat menghasilkan titik data baru dari distribusi.

Misalnya, palsu terkenal karena memproduksi video dan audio palsu dari tokoh terkenal. Tetapi mereka sebagian besar dikaitkan dengan Jaringan Permusuhan Generatif (GAN). Namun, SGM punya menunjukkan kemampuan serupa – terkadang mengungguli – dalam menghasilkan wajah selebriti berkualitas tinggi. Selain itu, SGM dapat membantu memperluas kumpulan data perawatan kesehatan, yang tidak tersedia dalam jumlah besar karena peraturan dan standar industri yang ketat.

3. Persamaan Diferensial Stokastik (SDE)

SDE menggambarkan perubahan dalam proses acak terkait waktu. Mereka banyak digunakan dalam fisika dan pasar keuangan yang melibatkan faktor acak yang secara signifikan memengaruhi hasil pasar.

Misalnya, harga komoditas sangat dinamis dan dipengaruhi oleh berbagai faktor acak. SDE menghitung derivatif keuangan seperti kontrak berjangka (seperti kontrak minyak mentah). Mereka dapat memodelkan fluktuasi dan menghitung harga yang menguntungkan secara akurat untuk memberikan rasa aman.

Aplikasi Utama Model Difusi dalam AI

Mari kita lihat beberapa praktik yang diadaptasi secara luas dan penggunaan model difusi dalam AI.

Pembuatan Video Berkualitas Tinggi

Membuat video kelas atas menggunakan belajar mendalam menantang karena membutuhkan kontinuitas frame video yang tinggi. Di sinilah model difusi berguna karena dapat menghasilkan subset bingkai video untuk mengisi di antara bingkai yang hilang, menghasilkan video berkualitas tinggi dan halus tanpa latensi.

Para peneliti telah mengembangkan Model Difusi Fleksibel dan Difusi Video Sisa teknik untuk melayani tujuan ini. Model-model ini juga dapat menghasilkan video realistis dengan menambahkan bingkai yang dihasilkan AI secara mulus di antara bingkai sebenarnya.

Model-model ini dapat dengan mudah memperluas FPS (frame per second) dari video FPS rendah dengan menambahkan frame dummy setelah mempelajari pola dari frame yang tersedia. Dengan hampir tanpa kehilangan bingkai, kerangka kerja ini selanjutnya dapat membantu model berbasis pembelajaran mendalam untuk menghasilkan video berbasis AI dari awal yang terlihat seperti bidikan alami dari pengaturan kamera kelas atas.

Berbagai macam luar biasa Pembuat video AI tersedia pada tahun 2023 untuk membuat produksi dan pengeditan konten video menjadi cepat dan mudah.

Pembuatan Teks-ke-Gambar

Model teks-ke-gambar menggunakan petunjuk input untuk menghasilkan gambar berkualitas tinggi. Misalnya, memberikan input “apel merah di atas piring” dan menghasilkan gambar fotorealistik apel di atas piring. Difusi campuran dan batalkan KLIP adalah dua contoh menonjol dari model yang dapat menghasilkan gambar yang sangat relevan dan akurat berdasarkan input pengguna.

Juga, MELUNCUR oleh OpenAI adalah solusi terkenal lainnya yang dirilis pada tahun 2021 yang menghasilkan gambar fotorealistik menggunakan input pengguna. Belakangan, OpenAI merilis DALL.E-2, model pembuatan gambar tercanggihnya.

Demikian pula, Google juga telah mengembangkan model pembuatan gambar yang dikenal sebagai Gambar, yang menggunakan model bahasa besar untuk mengembangkan pemahaman tekstual yang mendalam dari teks input dan kemudian menghasilkan gambar fotorealistik.

Kami telah menyebutkan alat pembuat gambar populer lainnya seperti Midjourney dan Stable Diffusion (studio impian) di atas. Lihat gambar yang dihasilkan menggunakan Difusi Stabil di bawah ini.

Kolase wajah manusia yang dibuat dengan Stable Diffusion 1.5

Sebuah gambar yang dibuat dengan Stable Diffusion 1.5 menggunakan perintah berikut: “kolase, hiper-realistis, banyak variasi potret thom yorke yang sangat tua, variasi wajah, penyanyi-penulis lagu, profil (samping), berbagai usia, lensa makro, ruang liminal, oleh lee bermejo, alphonse mucha dan greg rutkowski, greybeard, wajah mulus, tulang pipi”

Model Difusi dalam AI – Apa yang Diharapkan di Masa Depan?

Model difusi telah mengungkapkan potensi yang menjanjikan sebagai pendekatan yang kuat untuk menghasilkan sampel berkualitas tinggi dari kumpulan data gambar dan video yang kompleks. Dengan meningkatkan kemampuan manusia untuk menggunakan dan memanipulasi data, model difusi berpotensi merevolusi dunia seperti yang kita lihat sekarang. Kita dapat berharap untuk melihat lebih banyak aplikasi model difusi menjadi bagian integral dari kehidupan kita sehari-hari.

Karena itu, model difusi bukan satu-satunya teknik AI generatif. Peneliti juga menggunakan Generative Adversarial Networks (GANs), Variational Autoencoder, dan model generatif dalam berbasis aliran untuk menghasilkan konten AI. Memahami karakteristik mendasar yang membedakan model difusi dari model generatif lainnya dapat membantu menghasilkan solusi yang lebih efektif dalam beberapa hari mendatang.

Untuk mempelajari lebih lanjut tentang teknologi berbasis AI, kunjungi Bersatu.ai. Lihat sumber daya pilihan kami tentang alat AI generatif di bawah ini.