Kecerdasan buatan

EasyPhoto: Penghasil Foto AI Pribadi Anda

Published October 30, 2023

Updated April 28, 2026

Kunal Kejriwal

EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Web User Interface, atau SD-WebUI, adalah proyek komprehensif untuk model Stable Diffusion yang menggunakan perpustakaan Gradio untuk menyediakan antarmuka browser. Hari ini, kita akan membahas tentang EasyPhoto, plugin WebUI inovatif yang memungkinkan pengguna akhir untuk menghasilkan potret AI dan gambar. Plugin WebUI EasyPhoto membuat potret AI menggunakan berbagai templat, mendukung gaya foto yang berbeda dan beberapa modifikasi. Selain itu, untuk meningkatkan kemampuan EasyPhoto lebih lanjut, pengguna dapat menghasilkan gambar menggunakan model SDXL untuk hasil yang lebih memuaskan, akurat, dan beragam. Mari kita mulai.

Pengenalan EasyPhoto dan Stable Diffusion

Kerangka Stable Diffusion adalah kerangka generasi difusi berbasis yang populer dan kuat yang digunakan oleh pengembang untuk menghasilkan gambar realistis berdasarkan deskripsi teks input. Berkat kemampuannya, kerangka Stable Diffusion memiliki berbagai aplikasi, termasuk outpainting gambar, inpainting gambar, dan terjemahan gambar-ke-gambar. Antarmuka Web Stable Diffusion, atau SD-WebUI, menonjol sebagai salah satu aplikasi paling populer dan terkenal dari kerangka ini. Ini memiliki antarmuka browser yang dibangun di atas perpustakaan Gradio, menyediakan antarmuka interaktif dan ramah pengguna untuk model Stable Diffusion. Untuk lebih meningkatkan kontrol dan kemudahan penggunaan dalam generasi gambar, SD-WebUI mengintegrasikan berbagai aplikasi Stable Diffusion.

Karena kenyamanan yang ditawarkan oleh kerangka SD-WebUI, pengembang kerangka EasyPhoto memutuskan untuk membuatnya sebagai plugin web bukan sebagai aplikasi lengkap. Berbeda dengan metode yang ada yang sering menderita kehilangan identitas atau memperkenalkan fitur tidak realistis ke dalam gambar, kerangka EasyPhoto menggunakan kemampuan gambar-ke-gambar dari model Stable Diffusion untuk menghasilkan gambar yang akurat dan realistis. Pengguna dapat dengan mudah menginstal kerangka EasyPhoto sebagai ekstensi dalam WebUI, meningkatkan kemudahan penggunaan dan aksesibilitas untuk pengguna yang lebih luas. Kerangka EasyPhoto memungkinkan pengguna untuk menghasilkan potret AI yang dipandu identitas, berkualitas tinggi, dan realistis yang sangat mirip dengan identitas input.

Pertama, kerangka EasyPhoto meminta pengguna untuk membuat doppelganger digital dengan mengunggah beberapa gambar untuk melatih model LoRA atau Low-Rank Adaptation online. Kerangka LoRA dengan cepat melakukan fine-tuning model difusi dengan menggunakan teknologi adaptasi peringkat rendah. Proses ini memungkinkan model dasar untuk memahami informasi ID pengguna tertentu. Model yang dilatih kemudian digabungkan dan diintegrasikan ke dalam model Stable Diffusion dasar untuk interferensi. Selain itu, selama proses interferensi, model menggunakan model difusi stabil dalam upaya untuk mengganti daerah wajah dalam templat interferensi, dan kesamaan antara gambar input dan output diverifikasi menggunakan berbagai unit ControlNet.

Kerangka EasyPhoto juga menerapkan proses difusi dua tahap untuk menangani masalah potensial seperti artefak batas dan kehilangan identitas, sehingga memastikan bahwa gambar yang dihasilkan meminimalkan inkonsistensi visual sambil mempertahankan identitas pengguna. Selain itu, pipa interferensi dalam kerangka EasyPhoto tidak hanya terbatas pada menghasilkan potret, tetapi juga dapat digunakan untuk menghasilkan apa pun yang terkait dengan ID pengguna. Ini berarti bahwa setelah Anda melatih model LoRA untuk ID tertentu, Anda dapat menghasilkan berbagai gambar AI, dan dengan demikian dapat memiliki aplikasi yang luas, termasuk virtual try-ons.

Untuk merangkum, kerangka EasyPhoto

Mengusulkan pendekatan baru untuk melatih model LoRA dengan menggabungkan beberapa model LoRA untuk mempertahankan keaslian wajah gambar yang dihasilkan.
Menggunakan berbagai metode pembelajaran penguatan untuk mengoptimalkan model LoRA untuk imbalan identitas wajah yang lebih lanjut membantu dalam meningkatkan kesamaan identitas antara gambar pelatihan dan hasil yang dihasilkan.
Mengusulkan proses difusi dua tahap berbasis inpaint yang bertujuan untuk menghasilkan foto AI dengan estetika tinggi dan kesamaan.

EasyPhoto: Arsitektur & Pelatihan

Gambar berikut menunjukkan proses pelatihan kerangka AI EasyPhoto.

Seperti yang dapat dilihat, kerangka pertama kali meminta pengguna untuk memasukkan gambar pelatihan, dan kemudian melakukan deteksi wajah untuk mendeteksi lokasi wajah. Setelah kerangka mendeteksi wajah, kerangka memotong gambar input menggunakan rasio tertentu yang fokus hanya pada daerah wajah. Kerangka kemudian menerapkan model kecantikan kulit dan deteksi saliensi untuk mendapatkan gambar wajah pelatihan yang jernih dan bersih. Kedua model ini memainkan peran penting dalam meningkatkan kualitas visual wajah dan memastikan bahwa informasi latar belakang telah dihapus, dan gambar pelatihan sebagian besar berisi wajah. Akhirnya, kerangka menggunakan gambar yang diproses dan prompt input untuk melatih model LoRA, dan dengan demikian memberinya kemampuan untuk memahami karakteristik wajah pengguna tertentu lebih efektif dan akurat.

Selain itu, selama fase pelatihan, kerangka termasuk langkah validasi kritis, di mana kerangka menghitung celah ID wajah antara gambar input pengguna dan gambar verifikasi yang dihasilkan oleh model LoRA yang dilatih. Langkah validasi adalah proses fundamental yang memainkan peran kunci dalam mencapai fusi model LoRA, sehingga memastikan bahwa kerangka LoRA yang dilatih bertransformasi menjadi doppelganger, atau representasi digital akurat pengguna. Selain itu, gambar verifikasi yang memiliki skor ID wajah optimal akan dipilih sebagai gambar ID wajah, dan gambar ID wajah ini kemudian digunakan untuk meningkatkan kesamaan identitas generasi interferensi.

Bergerak maju, berdasarkan proses ensemble, kerangka melatih model LoRA dengan perkiraan kemungkinan sebagai tujuan utama, sedangkan mempertahankan kesamaan identitas wajah sebagai tujuan hilir. Untuk menangani masalah ini, kerangka EasyPhoto menggunakan teknik pembelajaran penguatan untuk mengoptimalkan tujuan hilir secara langsung. Sebagai hasilnya, fitur wajah yang dipelajari oleh model LoRA menunjukkan perbaikan yang mengarah pada kesamaan yang ditingkatkan antara hasil generasi templat, dan juga menunjukkan generalisasi di seluruh templat.

Proses Interferensi

Gambar berikut menunjukkan proses interferensi untuk ID Pengguna individu dalam kerangka EasyPhoto, dan dibagi menjadi tiga bagian

Praproses Wajah untuk mendapatkan referensi ControlNet, dan gambar input yang diproses.

Difusi Pertama yang membantu dalam menghasilkan hasil kasar yang menyerupai input pengguna.

Difusi Kedua yang memperbaiki artefak batas, sehingga membuat gambar lebih akurat dan terlihat lebih realistis.

Untuk input, kerangka mengambil gambar ID wajah (dihasilkan selama validasi pelatihan menggunakan skor ID wajah optimal), dan templat interferensi. Outputnya adalah potret pengguna yang sangat detail, akurat, dan realistis, dan sangat mirip dengan identitas dan penampilan unik pengguna berdasarkan templat inferensi. Mari kita lihat proses ini dengan lebih detail.

Praproses Wajah

Cara untuk menghasilkan potret AI berdasarkan templat interferensi tanpa penalaran sadar adalah dengan menggunakan model SD untuk mengisi daerah wajah dalam templat interferensi. Selain itu, menambahkan kerangka ControlNet ke dalam proses tidak hanya meningkatkan pelestarian identitas pengguna, tetapi juga meningkatkan kesamaan antara gambar yang dihasilkan. Namun, menggunakan ControlNet secara langsung untuk inpainting regional dapat memperkenalkan masalah potensial yang dapat mencakup

Inkonsistensi antara Gambar Input dan Gambar yang Dihasilkan: Jelas bahwa titik kunci dalam gambar templat tidak kompatibel dengan titik kunci dalam gambar ID wajah, yang mengapa menggunakan ControlNet dengan gambar ID wajah sebagai referensi dapat menyebabkan beberapa inkonsistensi dalam output.

Defek di Daerah Inpaint: Menggunakan topeng untuk mengisi daerah dapat menyebabkan defek yang terlihat, terutama di sepanjang batas inpaint yang tidak hanya mempengaruhi autentisitas gambar yang dihasilkan, tetapi juga mempengaruhi realisme gambar.
Kehilangan Identitas oleh Control Net: Karena proses pelatihan tidak menggunakan kerangka ControlNet, menggunakan ControlNet selama fase interferensi dapat mempengaruhi kemampuan model LoRA yang dilatih untuk melestarikan identitas pengguna.

Untuk menangani masalah yang disebutkan di atas, kerangka EasyPhoto mengusulkan tiga prosedur.

Align dan Tempel: Dengan menggunakan algoritma tempel wajah, kerangka EasyPhoto bertujuan untuk menangani masalah ketidakcocokan antara landmark wajah antara gambar ID wajah dan templat. Pertama, model menghitung landmark wajah gambar ID wajah dan gambar templat, kemudian model menentukan matriks transformasi afinitas yang akan digunakan untuk menyelaraskan landmark wajah gambar templat dengan gambar ID wajah. Gambar yang dihasilkan mempertahankan landmark wajah yang sama dengan gambar ID wajah, dan juga selaras dengan gambar templat.

Face Fuse: Face Fuse adalah pendekatan baru yang digunakan untuk memperbaiki artefak batas yang dihasilkan oleh inpainting mask, dan melibatkan koreksi artefak menggunakan kerangka ControlNet. Metode ini memungkinkan kerangka EasyPhoto untuk memastikan pelestarian tepi yang harmonis, dan dengan demikian memandu proses generasi gambar. Algoritma fusi wajah lebih lanjut menggabungkan gambar roop (gambar pengguna asli) dan templat, yang memungkinkan gambar yang dihasilkan menunjukkan stabilisasi batas tepi yang lebih baik, yang kemudian mengarah pada output yang ditingkatkan selama tahap difusi pertama.
Validasi ControlNet yang Dipandu: Karena model LoRA tidak dilatih menggunakan kerangka ControlNet, menggunakan kerangka tersebut selama proses inferensi dapat mempengaruhi kemampuan model LoRA untuk melestarikan identitas. Untuk meningkatkan kemampuan generalisasi EasyPhoto, kerangka mempertimbangkan pengaruh kerangka ControlNet, dan mengintegrasikan model LoRA dari tahap yang berbeda.

Difusi Pertama

Tahap difusi pertama menggunakan gambar templat untuk menghasilkan gambar dengan ID unik yang menyerupai ID pengguna input. Gambar input adalah fusi dari gambar input pengguna dan gambar templat, sedangkan masker wajah yang dikalibrasi adalah masker input. Untuk lebih meningkatkan kontrol atas generasi gambar, kerangka EasyPhoto mengintegrasikan tiga unit ControlNet di mana unit ControlNet pertama fokus pada kontrol gambar yang digabungkan, unit ControlNet kedua mengontrol warna gambar yang digabungkan, dan unit ControlNet terakhir adalah openpose (kontrol pose manusia waktu nyata) dari gambar yang diganti yang tidak hanya berisi struktur wajah gambar templat, tetapi juga identitas wajah pengguna.

Difusi Kedua

Pada tahap difusi kedua, artefak di dekat batas wajah diperhalus dan diperbarui, serta memberikan pengguna fleksibilitas untuk menutupi area tertentu dalam gambar dalam upaya untuk meningkatkan efektivitas generasi dalam area yang didedikasikan. Pada tahap ini, kerangka menggabungkan gambar output yang diperoleh dari tahap difusi pertama dengan gambar roop atau hasil gambar pengguna, sehingga menghasilkan gambar input untuk tahap difusi kedua. Secara keseluruhan, tahap difusi kedua memainkan peran penting dalam meningkatkan kualitas keseluruhan dan detail gambar yang dihasilkan.

ID Pengguna Multi

Salah satu sorotan EasyPhoto adalah dukungannya untuk menghasilkan beberapa ID pengguna, dan gambar berikut menunjukkan pipa proses interferensi untuk ID pengguna multi dalam kerangka EasyPhoto.

Untuk memberikan dukungan untuk generasi ID pengguna multi, kerangka EasyPhoto pertama kali melakukan deteksi wajah pada templat interferensi. Templat interferensi ini kemudian dibagi menjadi beberapa masker, di mana setiap masker berisi hanya satu wajah, dan sisanya dari gambar dimasker dengan warna putih, sehingga memecah generasi ID pengguna multi menjadi tugas sederhana untuk menghasilkan ID pengguna individu. Setelah kerangka menghasilkan gambar ID pengguna, gambar-gambar ini digabungkan ke dalam templat interferensi, sehingga memfasilitasi integrasi yang mulus dari gambar templat dengan gambar yang dihasilkan, yang pada akhirnya menghasilkan gambar berkualitas tinggi.

Eksperimen dan Hasil

Sekarang bahwa kita memiliki pemahaman tentang kerangka EasyPhoto, saatnya bagi kita untuk mengeksplorasi kinerja kerangka EasyPhoto.

Gambar di atas dihasilkan oleh plugin EasyPhoto, dan menggunakan model SD berbasis gaya untuk generasi gambar. Seperti yang dapat dilihat, gambar yang dihasilkan terlihat realistis dan cukup akurat.

Gambar yang ditambahkan di atas dihasilkan oleh kerangka EasyPhoto menggunakan model SD berbasis gaya komik. Seperti yang dapat dilihat, foto komik dan foto realistis terlihat cukup realistis dan sangat mirip dengan gambar input berdasarkan prompt atau kebutuhan pengguna.

Gambar yang ditambahkan di bawah ini telah dihasilkan oleh kerangka EasyPhoto dengan menggunakan templat multi-pengguna. Seperti yang dapat dilihat dengan jelas, gambar yang dihasilkan jernih, akurat, dan menyerupai gambar asli.

Dengan bantuan EasyPhoto, pengguna sekarang dapat menghasilkan berbagai potret AI, atau menghasilkan beberapa ID pengguna menggunakan templat yang dipreservasi, atau menggunakan model SD untuk menghasilkan templat interferensi. Gambar yang ditambahkan di atas menunjukkan kemampuan kerangka EasyPhoto dalam menghasilkan gambar AI yang beragam dan berkualitas tinggi.

Kesimpulan

Dalam artikel ini, kita telah membahas tentang EasyPhoto, sebuah plugin WebUI novel yang memungkinkan pengguna akhir untuk menghasilkan potret AI dan gambar. Plugin WebUI EasyPhoto menghasilkan potret AI menggunakan templat sewenang-wenang, dan implikasi saat ini dari plugin WebUI EasyPhoto mendukung gaya foto yang berbeda dan beberapa modifikasi. Selain itu, untuk lebih meningkatkan kemampuan EasyPhoto, pengguna dapat menghasilkan gambar menggunakan model SDXL untuk menghasilkan gambar yang lebih memuaskan, akurat, dan beragam. Kerangka EasyPhoto menggunakan model difusi stabil dasar yang dipasangkan dengan model LoRA pra-latih yang menghasilkan output gambar berkualitas tinggi.