AI 101

Model Difusi dalam AI – Semua yang Perlu Anda Ketahui

Published March 31, 2023

Updated April 5, 2026

Haziqa Sajid

A collage of human faces created using AI image generator

Dalam ekosistem AI, model difusi menetapkan arah dan kecepatan kemajuan teknologi. Mereka mengubah cara kita mendekati tugas AI generatif yang kompleks. Model-model ini berdasar pada matematika prinsip gaussian, varians, persamaan diferensial, dan urutan generatif. (Kami akan menjelaskan istilah teknis di bawah)

Produk dan solusi AI modern yang dikembangkan oleh Nvidia, Google, Adobe, dan OpenAI telah menempatkan model difusi di pusat perhatian. DALL.E 2, Stable Diffusion, dan Midjourney adalah contoh menonjol dari model difusi yang sedang viral di internet baru-baru ini. Pengguna memberikan prompt teks sederhana sebagai input, dan model-model ini dapat mengubahnya menjadi gambar realistis, seperti yang ditunjukkan di bawah.

An image generated with Midjourney v5 using input prompt: vibrant California poppies. Source: Midjourney

Mari kita jelajahi prinsip kerja dasar model difusi dan bagaimana mereka mengubah arah dan norma dunia seperti yang kita lihat hari ini.

Apa itu Model Difusi?

Menurut publikasi penelitian “Denoising Diffusion Probabilistic Models,” model difusi didefinisikan sebagai:

“Model difusi atau model probabilitas difusi adalah rantai Markov parameter yang dilatih menggunakan inferensi variational untuk menghasilkan sampel yang sesuai dengan data setelah waktu tertentu”

Dengan sederhana, model difusi dapat menghasilkan data yang serupa dengan data yang mereka latih. Jika model dilatih pada gambar kucing, maka model dapat menghasilkan gambar kucing yang realistis.

Sekarang, mari kita coba memecahkan definisi teknis yang disebutkan di atas. Model difusi mengambil inspirasi dari prinsip kerja dan fondasi matematika model probabilitas yang dapat menganalisis dan memprediksi perilaku sistem yang bervariasi dengan waktu, seperti memprediksi pengembalian pasar saham atau penyebaran pandemi.

Definisi tersebut menyatakan bahwa mereka adalah rantai Markov parameter yang dilatih dengan inferensi variational. Rantai Markov adalah model matematika yang mendefinisikan sistem yang beralih antara berbagai keadaan dengan waktu. Keadaan sistem yang ada hanya dapat menentukan kemungkinan transisi ke keadaan tertentu. Dengan kata lain, keadaan sistem yang ada memegang kemungkinan keadaan yang sistem dapat ikuti atau peroleh pada waktu tertentu.

Melatih model dengan inferensi variational melibatkan perhitungan yang kompleks untuk distribusi probabilitas. Tujuannya adalah untuk menemukan parameter rantai Markov yang tepat yang sesuai dengan data yang diamati (diketahui atau sebenarnya) setelah waktu tertentu. Proses ini meminimalkan nilai fungsi kerugian model, yang merupakan perbedaan antara keadaan yang diprediksi (tidak diketahui) dan keadaan yang diamati (diketahui).

Setelah dilatih, model dapat menghasilkan sampel yang sesuai dengan data yang diamati. Sampel-sampel ini mewakili kemungkinan trajektori atau keadaan yang sistem dapat ikuti atau peroleh dengan waktu, dan setiap trajektori memiliki kemungkinan yang berbeda untuk terjadi. Dengan demikian, model dapat memprediksi perilaku sistem di masa depan dengan menghasilkan berbagai sampel dan menemukan kemungkinan masing-masing (kemungkinan kejadian tersebut terjadi).

Bagaimana Menafsirkan Model Difusi dalam AI?

Model difusi adalah model generatif dalam yang bekerja dengan menambahkan noise (noise Gaussian) ke data pelatihan yang tersedia (juga disebut proses difusi maju) dan kemudian membalikkan proses (dikenal sebagai denoising atau proses difusi terbalik) untuk memulihkan data. Model secara bertahap belajar untuk menghilangkan noise. Proses denoising yang dipelajari ini menghasilkan gambar baru dengan kualitas tinggi dari biji acak (gambar bising acak), seperti yang ditunjukkan pada ilustrasi di bawah.

Reverse diffusion process: A noisy image is denoised to recover the original image (or generate its variations) via a trained diffusion model. Source: Denoising Diffusion Probabilistic Models

3 Kategori Model Difusi

Terdapat tiga kerangka matematika dasar yang mendasari ilmu di balik model difusi. Ketiganya bekerja pada prinsip menambahkan noise dan kemudian menghilangkannya untuk menghasilkan sampel baru. Mari kita bahas di bawah.

A diffusion model adds and removes noise from an image. Source: Diffusion Models in Vision: A Survey

1. Denoising Diffusion Probabilistic Models (DDPMs)

Seperti yang dijelaskan di atas, DDPMs adalah model generatif yang utamanya digunakan untuk menghilangkan noise dari data visual atau audio. Mereka telah menunjukkan hasil yang impresif pada berbagai tugas denoising gambar dan audio. Misalnya, industri pembuatan film menggunakan alat pengolahan gambar dan video modern untuk meningkatkan kualitas produksi.

2. Noise-Conditioned Score-Based Generative Models (SGMs)

SGMs dapat menghasilkan sampel baru dari distribusi yang diberikan. Mereka bekerja dengan mempelajari fungsi skor yang dapat memperkirakan log densitas distribusi target. Perkiraan densitas log membuat asumsi untuk titik data yang tersedia bahwa itu adalah bagian dari dataset yang tidak diketahui (test set). Fungsi skor ini kemudian dapat menghasilkan titik data baru dari distribusi.

Misalnya, deep fakes terkenal karena menghasilkan video dan audio palsu dari tokoh terkenal. Namun, mereka sebagian besar dikaitkan dengan Generative Adversarial Networks (GANs). Namun, SGMs telah menunjukkan kemampuan serupa – bahkan mengungguli – dalam menghasilkan wajah selebriti dengan kualitas tinggi. Selain itu, SGMs dapat membantu memperluas dataset kesehatan, yang tidak tersedia dalam jumlah besar karena peraturan dan standar industri yang ketat.

3. Stochastic Differential Equations (SDEs)

SDEs menjelaskan perubahan dalam proses acak sehubungan dengan waktu. Mereka secara luas digunakan dalam fisika dan pasar keuangan yang melibatkan faktor acak yang signifikan yang mempengaruhi hasil pasar.

Misalnya, harga komoditas sangat dinamis dan dipengaruhi oleh berbagai faktor acak. SDEs menghitung turunan keuangan seperti kontrak futures (seperti kontrak minyak mentah). Mereka dapat memodelkan fluktuasi dan menghitung harga yang menguntungkan dengan akurat untuk memberikan rasa keamanan.

Aplikasi Utama Model Difusi dalam AI

Mari kita lihat beberapa praktik dan penggunaan model difusi dalam AI yang paling umum.

Generasi Video Berkualitas Tinggi

Menghasilkan video berkualitas tinggi menggunakan pembelajaran dalam sangat menantang karena memerlukan kontinuitas yang tinggi dari bingkai video. Inilah di mana model difusi berguna karena mereka dapat menghasilkan subset bingkai video untuk mengisi bingkai yang hilang, menghasilkan video berkualitas tinggi dan mulus tanpa latency.

Peneliti telah mengembangkan Flexible Diffusion Model dan Residual Video Diffusion untuk tujuan ini. Model-model ini juga dapat menghasilkan video realistis dengan menambahkan bingkai AI yang dihasilkan di antara bingkai yang sebenarnya.

Model-model ini dapat dengan mudah memperluas FPS (frame per detik) dari video dengan FPS rendah dengan menambahkan bingkai dummy setelah mempelajari pola dari bingkai yang tersedia. Dengan hampir tidak ada kehilangan bingkai, kerangka kerja ini juga dapat membantu model berbasis pembelajaran dalam untuk menghasilkan video AI dari awal yang terlihat seperti bidikan alami dari kamera berkualitas tinggi.

Berbagai pembangkit video AI yang luar biasa tersedia pada 2023 untuk membuat produksi dan pengeditan konten video menjadi cepat dan sederhana.

Generasi Teks-ke-Gambar

Model teks-ke-gambar menggunakan prompt input untuk menghasilkan gambar berkualitas tinggi. Misalnya, memberikan input “apel merah di atas piring” dan menghasilkan gambar realistis dari apel di atas piring. Blended diffusion dan unCLIP adalah dua contoh menonjol dari model-model ini yang dapat menghasilkan gambar yang sangat relevan dan akurat berdasarkan input pengguna.

Juga, GLIDE oleh OpenAI adalah solusi lain yang terkenal yang menghasilkan gambar realistis menggunakan input pengguna. Kemudian, OpenAI merilis DALL.E-2, model generasi gambar yang paling maju hingga saat ini.

Serupa, Google juga telah mengembangkan model generasi gambar yang disebut Imagen, yang menggunakan model bahasa besar untuk mengembangkan pemahaman tekstual yang dalam tentang input teks dan kemudian menghasilkan gambar realistis.

Kami telah menyebutkan alat generasi gambar lain yang populer seperti Midjourney dan Stable Diffusion (DreamStudio) di atas. Lihatlah gambar yang dihasilkan menggunakan Stable Diffusion di bawah.

<img class=" wp-image-186646" src="https://www.unite.ai/wp-content/uploads/2023/03/image3-2-300×300.png" alt="An image created with Stable Diffusion 1.5 using the following prompt: “collages, hyper-realistic, many variations portrait of very old thom yorke, face variations, singer-songwriter, ( side ) profile, various ages, macro lens, liminal space, by lee bermejo, alphonse mucha and greg rutkowski, greybeard, smooth face, cheekbones”

Model Difusi dalam AI – Apa yang Dapat Diharapkan di Masa Depan?

Model difusi telah menunjukkan potensi yang menjanjikan sebagai pendekatan yang kuat untuk menghasilkan sampel berkualitas tinggi dari dataset gambar dan video yang kompleks. Dengan meningkatkan kemampuan manusia untuk menggunakan dan memanipulasi data, model difusi dapat secara potensial mengubah dunia seperti yang kita lihat hari ini. Kita dapat berharap untuk melihat lebih banyak aplikasi model difusi yang menjadi bagian integral dari kehidupan sehari-hari.

Dengan dikatakan, model difusi bukanlah satu-satunya teknik AI generatif. Peneliti juga menggunakan Generative Adversarial Networks (GANs), Variational Autoencoders, dan model generatif dalam berbasis aliran untuk menghasilkan konten AI. Memahami karakteristik dasar yang membedakan model difusi dari model generatif lain dapat membantu menghasilkan solusi yang lebih efektif di masa depan.

Untuk mempelajari lebih lanjut tentang teknologi berbasis AI, kunjungi Unite.ai. Lihatlah sumber daya yang kami kumpulkan tentang alat generatif AI di bawah.