სტუბი EasyPhoto: თქვენი პერსონალური AI ფოტო გენერატორი - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

EasyPhoto: თქვენი პერსონალური AI ფოტო გენერატორი

mm
განახლებულია on
EasyPhoto: თქვენი პერსონალური AI პორტრეტების გენერატორი

სტაბილური დიფუზია ვებ მომხმარებლის ინტერფეისი, ან SD-WebUI, არის ყოვლისმომცველი პროექტი სტაბილური დიფუზიის მოდელებისთვის, რომელიც იყენებს Gradio ბიბლიოთეკას ბრაუზერის ინტერფეისის უზრუნველსაყოფად. დღეს ჩვენ ვაპირებთ ვისაუბროთ EasyPhoto-ზე, ინოვაციურ WebUI დანამატზე, რომელიც საშუალებას აძლევს საბოლოო მომხმარებლებს შექმნან ხელოვნური ინტელექტის პორტრეტები და სურათები. EasyPhoto WebUI მოდული ქმნის ხელოვნური ინტელექტის პორტრეტებს სხვადასხვა შაბლონების გამოყენებით, მხარს უჭერს სხვადასხვა ფოტო სტილს და მრავალ მოდიფიკაციას. გარდა ამისა, EasyPhoto-ს შესაძლებლობების შემდგომი გასაუმჯობესებლად, მომხმარებლებს შეუძლიათ შექმნან სურათები SDXL მოდელის გამოყენებით უფრო დამაკმაყოფილებელი, ზუსტი და მრავალფეროვანი შედეგებისთვის. Მოდით დავიწყოთ.

შესავალი EasyPhoto და სტაბილური დიფუზია

Stable Diffusion Framework არის პოპულარული და ძლიერი დიფუზიაზე დაფუძნებული გენერირების ჩარჩო, რომელსაც იყენებენ დეველოპერები რეალისტური სურათების შესაქმნელად, შეყვანილი ტექსტის აღწერილობების საფუძველზე. მისი შესაძლებლობების წყალობით, Stable Diffusion Framework ამაყობს აპლიკაციების ფართო სპექტრით, მათ შორის გამოსახულების შეღებვა, სურათის შეღებვა და გამოსახულება-სურათზე თარგმნა. Stable Diffusion Web UI, ან SD-WebUI, გამოირჩევა, როგორც ამ ჩარჩოს ერთ-ერთი ყველაზე პოპულარული და ცნობილი აპლიკაცია. მას აქვს Gradio ბიბლიოთეკაზე აგებული ბრაუზერის ინტერფეისი, რომელიც უზრუნველყოფს ინტერაქტიულ და მოსახერხებელი ინტერფეისს სტაბილური დიფუზიის მოდელებისთვის. სურათის გენერირებაში კონტროლისა და გამოყენებადობის შემდგომი გასაუმჯობესებლად, SD-WebUI აერთიანებს სტაბილური დიფუზიის მრავალ აპლიკაციას.

SD-WebUI ჩარჩოს მოხერხებულობის გამო, EasyPhoto Framework-ის დეველოპერებმა გადაწყვიტეს შეექმნათ იგი როგორც ვებ მოდული და არა სრულფასოვანი აპლიკაცია. არსებული მეთოდებისგან განსხვავებით, რომლებიც ხშირად განიცდიან იდენტურობის დაკარგვას ან სურათებში არარეალურ მახასიათებლებს ნერგავენ, EasyPhoto ჩარჩო იყენებს სტაბილური დიფუზიის მოდელების გამოსახულება-სურათის შესაძლებლობებს ზუსტი და რეალისტური სურათების შესაქმნელად. მომხმარებლებს შეუძლიათ მარტივად დააინსტალირონ EasyPhoto ჩარჩო, როგორც გაფართოება WebUI-ში, რაც აძლიერებს მომხმარებლის მეგობრობას და ხელმისაწვდომობას მომხმარებელთა ფართო სპექტრისთვის. EasyPhoto ჩარჩო საშუალებას აძლევს მომხმარებლებს შექმნან იდენტურობით მართვადი, მაღალი ხარისხის და რეალისტური AI პორტრეტები რომლებიც ძალიან ჰგავს შეყვანის იდენტობას.

პირველი, EasyPhoto ჩარჩო სთხოვს მომხმარებლებს შექმნან თავიანთი ციფრული doppelganger რამდენიმე სურათის ატვირთვით, რათა მოამზადონ სახის LoRA ან დაბალი რანგის ადაპტაციის მოდელი ონლაინ რეჟიმში. LoRA ჩარჩო სწრაფად ასწორებს დიფუზიის მოდელებს დაბალი დონის ადაპტაციის ტექნოლოგიის გამოყენებით. ეს პროცესი საშუალებას აძლევს დაფუძნებულ მოდელს გაიგოს კონკრეტული მომხმარებლების ID ინფორმაცია. შემდეგ მომზადებული მოდელები გაერთიანებულია და ინტეგრირებულია საბაზისო სტაბილური დიფუზიის მოდელში ჩარევისთვის. გარდა ამისა, ინტერფერენციის პროცესის დროს მოდელი იყენებს სტაბილურ დიფუზიის მოდელებს ინტერფერენციის შაბლონში სახის უბნების ხელახლა დახატვის მცდელობაში და შეყვანისა და გამომავალი გამოსახულებების მსგავსება მოწმდება სხვადასხვა ControlNet ერთეულების გამოყენებით. 

EasyPhoto ჩარჩო ასევე ახორციელებს ორეტაპიანი დიფუზიის პროცესს პოტენციური საკითხების მოსაგვარებლად, როგორიცაა საზღვრის არტეფაქტები და პირადობის დაკარგვა, რაც უზრუნველყოფს, რომ გენერირებული სურათები მინიმუმამდე დაიყვანოს ვიზუალური შეუსაბამობები მომხმარებლის იდენტურობის შენარჩუნებისას. გარდა ამისა, EasyPhoto ჩარჩოში ჩარევის მილსადენი არ შემოიფარგლება მხოლოდ პორტრეტების გენერირებით, არამედ ის ასევე შეიძლება გამოყენებულ იქნას ნებისმიერი ნივთის გენერირებისთვის, რაც დაკავშირებულია მომხმარებლის ID-თან. ეს გულისხმობს, რომ ერთხელ თქვენ ივარჯიშებთ LoRA მოდელი კონკრეტული პირადობის მოწმობისთვის, შეგიძლიათ შექმნათ ხელოვნური ინტელექტის სურათების ფართო სპექტრი და, ამრიგად, მას შეიძლება ჰქონდეს ფართო აპლიკაციები, მათ შორის ვირტუალური ცდები. 

თქვენ შეაჯამეთ, EasyPhoto ჩარჩო

  1. გვთავაზობს ახალ მიდგომას LoRA მოდელის მომზადებისთვის მრავალი LoRA მოდელის ინკორპორირებით, გენერირებული სურათების სახის ერთგულების შესანარჩუნებლად. 
  2. იყენებს განმამტკიცებელი სწავლის სხვადასხვა მეთოდს LoRA მოდელების ოპტიმიზაციისთვის სახის იდენტიფიკაციის ჯილდოებისთვის, რაც კიდევ უფრო უწყობს ხელს ტრენინგის სურათებსა და გამომუშავებულ შედეგებს შორის იდენტობების მსგავსების გაზრდას. 
  3. გვთავაზობს ორეტაპიან ფერწერაზე დაფუძნებული დიფუზიის პროცესს, რომელიც მიზნად ისახავს AI ფოტოების გენერირებას მაღალი ესთეტიკით და მსგავსებით. 

EasyPhoto: არქიტექტურა და ტრენინგი

შემდეგი სურათი გვიჩვენებს EasyPhoto AI ჩარჩოს სასწავლო პროცესს. 

როგორც ხედავთ, ჩარჩო ჯერ სთხოვს მომხმარებლებს შეიყვანონ ტრენინგის სურათები, შემდეგ კი ახორციელებს სახის ამოცნობას სახის მდებარეობის დასადგენად. მას შემდეგ, რაც ჩარჩო ამოიცნობს სახეს, ის აჭრის შეყვანილ სურათს წინასწარ განსაზღვრული სპეციფიკური თანაფარდობის გამოყენებით, რომელიც ფოკუსირებულია მხოლოდ სახის მიდამოზე. შემდეგ ჩარჩო იყენებს კანის გალამაზებას და გამოვლენის მოდელს, რათა მიიღოთ სუფთა და მკაფიო სახის ვარჯიშის სურათი. ეს ორი მოდელი გადამწყვეტ როლს ასრულებს სახის ვიზუალური ხარისხის გასაუმჯობესებლად და ასევე უზრუნველყოფს, რომ ფონის ინფორმაცია წაიშლება და ტრენინგის სურათი უპირატესად შეიცავს სახეს. საბოლოოდ, ჩარჩო იყენებს ამ დამუშავებულ სურათებს და შეყვანის მოთხოვნებს LoRA მოდელის მოსამზადებლად და ამით აღჭურავს მას მომხმარებლის სპეციფიკური სახის მახასიათებლების უფრო ეფექტურად და ზუსტად გაგების უნარით. 

გარდა ამისა, ტრენინგის ფაზაში, ჩარჩო მოიცავს კრიტიკული ვალიდაციის საფეხურს, რომელშიც ფრეიმორკი გამოთვლის სახის ID უფსკრული მომხმარებლის შეყვანის სურათსა და ვერიფიკაციის სურათს შორის, რომელიც გენერირებული იყო გაწვრთნილი LoRA მოდელის მიერ. ვალიდაციის ნაბიჯი არის ფუნდამენტური პროცესი, რომელიც თამაშობს მთავარ როლს LoRA მოდელების შერწყმის მიღწევაში, რაც საბოლოოდ უზრუნველყოფს იმას, რომ გაწვრთნილი LoRA ჩარჩო გარდაიქმნება დოპელგანჯერად, ან მომხმარებლის ზუსტ ციფრულ წარმომადგენლობად. გარდა ამისა, დამადასტურებელი სურათი, რომელსაც აქვს face_id ოპტიმალური ქულა, შეირჩევა face_id სურათად და ეს face_id სურათი გამოყენებული იქნება ინტერფერენციის გენერაციის იდენტურობის მსგავსების გასაძლიერებლად. 

ანსამბლის პროცესზე დაყრდნობით, ჩარჩო ავარჯიშებს LoRA-ს მოდელებს, რომლის ალბათობის შეფასებაა პირველადი მიზანი, ხოლო სახის იდენტურობის მსგავსების შენარჩუნება არის ქვედა დინების მიზანი. ამ საკითხის გადასაჭრელად EasyPhoto ჩარჩო იყენებს გაძლიერების სწავლის ტექნიკას, რათა უშუალოდ ოპტიმიზაცია მოახდინოს ქვემოთ მოცემული მიზნისთვის. შედეგად, სახის თვისებები, რომლებსაც LoRA მოდელები სწავლობენ, აჩვენებს გაუმჯობესებას, რაც იწვევს შაბლონის გენერირებულ შედეგებს შორის გაძლიერებულ მსგავსებას და ასევე აჩვენებს განზოგადებას შაბლონებს შორის. 

ჩარევის პროცესი

შემდეგი სურათი გვიჩვენებს ჩარევის პროცესს ინდივიდუალური მომხმარებლის ID-ისთვის EasyPhoto ჩარჩოში და დაყოფილია სამ ნაწილად

  • სახის წინასწარი პროცესი ControlNet მითითების და წინასწარ დამუშავებული შეყვანის სურათის მისაღებად. 
  • პირველი დიფუზია ეს ხელს უწყობს უხეში შედეგების გამომუშავებას, რომლებიც წააგავს მომხმარებლის შეყვანას. 
  • მეორე დიფუზია რომელიც აფიქსირებს სასაზღვრო არტეფაქტებს, რითაც სურათებს უფრო ზუსტს და რეალისტურს ხდის. 

შეყვანისთვის, ჩარჩო იღებს face_id სურათს (გენერირდება ტრენინგის ვალიდაციის დროს ოპტიმალური face_id ქულის გამოყენებით) და ჩარევის შაბლონს. გამომავალი არის მომხმარებლის უაღრესად დეტალური, ზუსტი და რეალისტური პორტრეტი და ძალიან ჰგავს მომხმარებლის იდენტურობას და უნიკალურ გარეგნობას დასკვნის შაბლონის საფუძველზე. მოდით, დეტალურად განვიხილოთ ეს პროცესები.

სახის წინასწარი პროცესი

ჩარევის შაბლონზე დაფუძნებული ხელოვნური ინტელექტის პორტრეტის გენერირების გზა შეგნებული მსჯელობის გარეშე არის SD მოდელის გამოყენება ჩარევის შაბლონში სახის რეგიონის შესაღებად. გარდა ამისა, პროცესზე ControlNet Framework-ის დამატება არა მხოლოდ აძლიერებს მომხმარებლის იდენტურობის შენარჩუნებას, არამედ აძლიერებს მსგავსებას გენერირებულ სურათებს შორის. თუმცა, ControlNet-ის პირდაპირ გამოყენებამ რეგიონალური შეღებვისთვის შეიძლება წარმოადგინოს პოტენციური პრობლემები, რომლებიც შეიძლება შეიცავდეს

  • შეუსაბამობა შეყვანასა და გენერირებულ სურათს შორის: აშკარაა, რომ შაბლონის გამოსახულების ძირითადი პუნქტები არ არის თავსებადი face_id გამოსახულების საკვანძო პუნქტებთან, რის გამოც ControlNet-ის გამოყენება face_id გამოსახულებასთან, როგორც მითითება, შეიძლება გამოიწვიოს გამომავალში გარკვეული შეუსაბამობები. 
  • დეფექტები Inpaint რეგიონში: რეგიონის შენიღბვა და შემდეგ მისი ახალი სახით შეღებვა შეიძლება გამოიწვიოს შესამჩნევი დეფექტები, განსაკუთრებით შეღებვის საზღვრის გასწვრივ, რაც არა მხოლოდ იმოქმედებს წარმოქმნილი სურათის ავთენტურობაზე, არამედ უარყოფითად იმოქმედებს გამოსახულების რეალიზმზე. 
  • პირადობის დაკარგვა საკონტროლო ქსელით: ვინაიდან სასწავლო პროცესი არ იყენებს ControlNet Framework-ს, ControlNet-ის გამოყენებამ ინტერფერენციის ფაზაში შეიძლება გავლენა მოახდინოს გაწვრთნილი LoRA მოდელების უნარზე შეინარჩუნოს შეყვანილი მომხმარებლის id იდენტურობა. 

ზემოთ აღნიშნული საკითხების მოსაგვარებლად EasyPhoto ჩარჩო გთავაზობთ სამ პროცედურას. 

  • გასწორება და ჩასმა: სახის ჩასმის ალგორითმის გამოყენებით EasyPhoto ჩარჩო მიზნად ისახავს გაუმკლავდეს სახის ნიშანს შორის შეუსაბამობის საკითხს სახის id-სა და შაბლონს შორის. პირველ რიგში, მოდელი ითვლის face_id-ისა და შაბლონის გამოსახულების სახის ნიშნებს, რის შემდეგაც მოდელი განსაზღვრავს აფინური ტრანსფორმაციის მატრიცას, რომელიც გამოყენებული იქნება შაბლონის გამოსახულების სახის ნიშნების face_id სურათთან გასასწორებლად. შედეგად მიღებული სურათი ინარჩუნებს face_id გამოსახულების იგივე ნიშნებს და ასევე შეესაბამება შაბლონის სურათს. 
  • სახის დაუკრავენ: Face Fuse არის ახალი მიდგომა, რომელიც გამოიყენება ნიღბის შეღებვის შედეგად წარმოქმნილი სასაზღვრო არტეფაქტების გამოსასწორებლად და ის მოიცავს არტეფაქტების გასწორებას ControlNet Framework-ის გამოყენებით. მეთოდი საშუალებას აძლევს EasyPhoto ჩარჩოს უზრუნველყოს ჰარმონიული კიდეების შენარჩუნება და ამით საბოლოოდ წარმართავს გამოსახულების გენერირების პროცესს. სახის შერწყმის ალგორითმი შემდგომში აერთიანებს როოპ (მიწის სიმართლის მომხმარებლის სურათები) გამოსახულებას და შაბლონს, რაც საშუალებას აძლევს მიღებულ შერწყმა სურათს აჩვენოს კიდეების საზღვრების უკეთესი სტაბილიზაცია, რაც შემდეგ იწვევს გაძლიერებულ გამომავალს პირველი დიფუზიის ეტაპზე. 
  • ControlNet მართვადი ვალიდაცია: ვინაიდან LoRA მოდელები არ იყო გაწვრთნილი ControlNet Framework-ის გამოყენებით, მისი გამოყენება დასკვნის პროცესში შეიძლება გავლენა იქონიოს LoRA მოდელის უნარზე შეინარჩუნოს იდენტობები. EasyPhoto-ს განზოგადების შესაძლებლობების გასაზრდელად, ფრეიმვორი განიხილავს ControlNet Framework-ის გავლენას და აერთიანებს LoRA მოდელებს სხვადასხვა სტადიიდან. 

პირველი დიფუზია

პირველი დიფუზიის ეტაპი იყენებს შაბლონის სურათს უნიკალური ID-ის მქონე გამოსახულების შესაქმნელად, რომელიც წააგავს მომხმარებლის შეყვანის ID-ს. შეყვანის სურათი არის მომხმარებლის შეყვანის სურათისა და შაბლონის სურათის შერწყმა, ხოლო დაკალიბრებული სახის ნიღაბი არის შეყვანის ნიღაბი. სურათის გენერირებაზე კონტროლის შემდგომი გასაზრდელად EasyPhoto Framework აერთიანებს სამ ControlNet ერთეულს, სადაც პირველი ControlNet ერთეული ფოკუსირებულია შერწყმული სურათების კონტროლზე, მეორე ControlNet განყოფილება აკონტროლებს შერწყმული სურათის ფერებს და საბოლოო ControlNet ერთეული არის openpose. შეცვლილი სურათის (რეალურ დროში მრავალპირიანი ადამიანის პოზის კონტროლი) რომელიც შეიცავს არა მხოლოდ შაბლონის სურათის სახის სტრუქტურას, არამედ მომხმარებლის სახის ვინაობას.

მეორე დიფუზია

მეორე დიფუზიის ეტაპზე, სახის საზღვრის მახლობლად არტეფაქტები დახვეწილია და სრულყოფილად მორგებულია და მომხმარებლებს აძლევს მოქნილობას, დაფარონ გამოსახულების კონკრეტული რეგიონი, რათა გაზარდონ წარმოების ეფექტურობა ამ გამოყოფილ ზონაში. ამ ეტაპზე, ჩარჩო აერთიანებს პირველი დიფუზიური ეტაპიდან მიღებულ გამომავალ სურათს როოპ სურათთან ან მომხმარებლის სურათის შედეგთან, რითაც წარმოქმნის შეყვანის სურათს მეორე დიფუზიის ეტაპისთვის. საერთო ჯამში, მეორე დიფუზიის ეტაპი გადამწყვეტ როლს ასრულებს საერთო ხარისხისა და გენერირებული გამოსახულების დეტალების ამაღლებაში. 

მრავალ მომხმარებლის ID

EasyPhoto-ს ერთ-ერთი მთავარი პუნქტია მისი მხარდაჭერა მრავალი მომხმარებლის ID-ების გენერირებისთვის, ხოლო ქვემოთ მოყვანილი ფიგურა აჩვენებს ჩარევის პროცესის მილსადენს მრავალ მომხმარებლის ID-ებისთვის EasyPhoto ჩარჩოში. 

მრავალმომხმარებლის ID-ის გენერირებისთვის მხარდაჭერის უზრუნველსაყოფად, EasyPhoto ფრეიმვერი პირველად ასრულებს სახის ამოცნობას ჩარევის შაბლონზე. ჩარევის ეს შაბლონები შემდეგ იყოფა მრავალ ნიღბებად, სადაც თითოეული ნიღაბი შეიცავს მხოლოდ ერთ სახეს, ხოლო დანარჩენი სურათი ნიღბავს თეთრად, რითაც იშლება მრავალ მომხმარებლის ID-ის გენერაცია ინდივიდუალური მომხმარებლის ID-ების გენერირების მარტივ ამოცანად. მას შემდეგ, რაც ჩარჩო წარმოქმნის მომხმარებლის ID სურათებს, ეს სურათები გაერთიანებულია დასკვნის შაბლონში, რაც ხელს უწყობს შაბლონის სურათების შეუფერხებელ ინტეგრაციას გენერირებულ სურათებთან, რაც საბოლოო ჯამში იწვევს მაღალი ხარისხის სურათს. 

ექსპერიმენტები და შედეგები

ახლა, როდესაც ჩვენ გავიგეთ EasyPhoto ჩარჩოს შესახებ, დროა გამოვიკვლიოთ EasyPhoto ჩარჩოს შესრულება. 

ზემოაღნიშნული სურათი გენერირებულია EasyPhoto მოდულის მიერ და ის იყენებს Style-ზე დაფუძნებულ SD მოდელს გამოსახულების გენერირებისთვის. როგორც ჩანს, გენერირებული სურათები გამოიყურება რეალისტური და საკმაოდ ზუსტი. 

ზემოთ დამატებული სურათი გენერირებულია EasyPhoto ჩარჩოს მიერ Comic Style-ზე დაფუძნებული SD მოდელის გამოყენებით. როგორც ხედავთ, კომიკური ფოტოები და რეალისტური ფოტოები საკმაოდ რეალისტურად გამოიყურება და ძალიან ჰგავს შეყვანილ სურათს მომხმარებლის მოთხოვნის ან მოთხოვნების საფუძველზე. 

ქვემოთ დამატებული სურათი შექმნილია EasyPhoto ჩარჩოს მიერ მრავალპირიანი შაბლონის გამოყენებით. როგორც ნათლად ჩანს, წარმოქმნილი სურათები არის მკაფიო, ზუსტი და წააგავს ორიგინალურ სურათს. 

EasyPhoto-ს დახმარებით მომხმარებლებს ახლა შეუძლიათ შექმნან ხელოვნური ინტელექტის პორტრეტების ფართო სპექტრი, ან შექმნან მრავალი მომხმარებლის ID-ები შენახული შაბლონების გამოყენებით, ან გამოიყენონ SD მოდელი დასკვნის შაბლონების შესაქმნელად. ზემოთ დამატებული სურათები აჩვენებს EasyPhoto ჩარჩოს შესაძლებლობებს მრავალფეროვანი და მაღალი ხარისხის AI სურათების წარმოებაში.

დასკვნა

ამ სტატიაში ვისაუბრეთ EasyPhoto-ზე, ა ახალი WebUI მოდული რომელიც საშუალებას აძლევს საბოლოო მომხმარებლებს შექმნან AI პორტრეტები და სურათები. EasyPhoto WebUI მოდული წარმოქმნის AI პორტრეტებს თვითნებური შაბლონების გამოყენებით, ხოლო EasyPhoto WebUI-ის ამჟამინდელი შედეგები მხარს უჭერს სხვადასხვა ფოტო სტილს და მრავალ მოდიფიკაციას. გარდა ამისა, EasyPhoto-ს შესაძლებლობების შემდგომი გასაუმჯობესებლად, მომხმარებლებს აქვთ მოქნილობა, შექმნან სურათები SDXL მოდელის გამოყენებით, რათა შექმნან უფრო დამაკმაყოფილებელი, ზუსტი და მრავალფეროვანი სურათები. EasyPhoto ჩარჩო იყენებს სტაბილურ დიფუზიის საბაზისო მოდელს წინასწარ გაწვრთნილ LoRA მოდელთან ერთად, რომელიც აწარმოებს მაღალი ხარისხის გამოსახულებას.

გაინტერესებთ გამოსახულების გენერატორები? ჩვენ ასევე გთავაზობთ სიას საუკეთესო AI Headshot გენერატორები და საუკეთესო AI გამოსახულების გენერატორები რომლებიც მარტივი გამოსაყენებელია და არ საჭიროებს ტექნიკურ გამოცდილებას.

"პროფესიით ინჟინერი, ზეპირად მწერალი". კუნალი არის ტექნიკური მწერალი, რომელსაც აქვს AI და ML ღრმა სიყვარული და გაგება, რომელიც ეძღვნება ამ სფეროებში რთული კონცეფციების გამარტივებას მისი საინტერესო და ინფორმაციული დოკუმენტაციის საშუალებით.