სტუბი Instant-Style: Style-Preservation in Text-to-Image Generation - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

Instant-Style: Style-Preservation in Text-to-Image Generation

mm

გამოქვეყნებულია

 on

ბოლო რამდენიმე წლის განმავლობაში, ტუნინგზე დაფუძნებულმა დიფუზიურმა მოდელებმა აჩვენეს შესანიშნავი პროგრესი გამოსახულების პერსონალიზაციისა და პერსონალიზაციის ამოცანების ფართო სპექტრში. თუმცა, მიუხედავად მათი პოტენციალისა, ტუნინგზე დაფუძნებული დიფუზიის ამჟამინდელი მოდელები აგრძელებენ უამრავ კომპლექსურ გამოწვევას სტილთან შესაბამისობაში მყოფი სურათების წარმოებასა და გენერირებაში და შეიძლება არსებობდეს სამი მიზეზი იმავეს უკან. პირველი, სტილის კონცეფცია კვლავ რჩება ფართოდ განუსაზღვრელი და განუსაზღვრელი და მოიცავს ელემენტების ერთობლიობას, მათ შორის ატმოსფეროს, სტრუქტურას, დიზაინს, მასალას, ფერს და ბევრ სხვას. ინვერსიაზე დაფუძნებული მეორე მეთოდები მიდრეკილია სტილის დეგრადაციისკენ, რაც იწვევს წვრილმარცვლოვანი დეტალების ხშირ დაკარგვას. დაბოლოს, ადაპტერზე დაფუძნებული მიდგომები მოითხოვს წონის ხშირ რეგულირებას თითოეული საცნობარო სურათისთვის, რათა შეინარჩუნოს ბალანსი ტექსტის კონტროლირებადობასა და სტილის ინტენსივობას შორის. 

გარდა ამისა, სტილის გადაცემის მიდგომების უმრავლესობის ან სტილის გამოსახულების გენერირების ძირითადი მიზანია გამოიყენოს საცნობარო გამოსახულება და გამოიყენოს მისი სპეციფიკური სტილი მოცემული ქვეჯგუფიდან ან საცნობარო სურათიდან სამიზნე შინაარსის სურათზე. თუმცა, ეს არის სტილის ატრიბუტების დიდი რაოდენობა, რაც მკვლევარებს ართულებს სამუშაოს სტილიზებული მონაცემთა ნაკრების შეგროვებას, სტილის სწორად წარმოჩენას და გადაცემის წარმატების შეფასებას. ადრე, მოდელები და ჩარჩოები, რომლებიც ეხება დიფუზიის დახვეწაზე დაფუძნებულ პროცესს, ასწორებენ სურათების მონაცემთა ბაზას, რომლებიც იზიარებენ საერთო სტილს, პროცესი, რომელიც შრომატევადია და შეზღუდული განზოგადებით რეალურ ამოცანებში, რადგან ეს რთულია. შეაგროვოს სურათების ქვეჯგუფი, რომლებიც იზიარებენ იმავე ან თითქმის იდენტურ სტილს. 

ამ სტატიაში ვისაუბრებთ InstantStyle-ზე, ჩარჩოზე, რომელიც შექმნილია იმ პრობლემების გადასაჭრელად, რომელთა წინაშეც დგას მიმდინარე ტუნინგზე დაფუძნებული დიფუზიური მოდელები გამოსახულების გენერირებისა და პერსონალიზაციისთვის. ჩვენ ვისაუბრებთ InstantStyle ჩარჩოს მიერ განხორციელებულ ორ მთავარ სტრატეგიაზე: 

  1. მარტივი, მაგრამ ეფექტური მიდგომა სტილისა და შინაარსის გამოყოფის საცნობარო გამოსახულებებიდან ფუნქციების სივრცეში, პროგნოზირებული იმ ვარაუდით, რომ ფუნქციები იმავე ფუნქციების სივრცეში შეიძლება დაემატოს ან გამოკლდეს ერთმანეთს. 
  2. სტილის გაჟონვის თავიდან აცილება საცნობარო გამოსახულების მახასიათებლების ექსკლუზიურად სტილისთვის სპეციფიკურ ბლოკებში შეყვანით და მიზანმიმართულად თავიდან აცილების აუცილებლობას, რომ გამოიყენოს უხერხული წონები დახვეწისთვის, რაც ხშირად ახასიათებს უფრო პარამეტრებზე მძიმე დიზაინებს. 

ეს სტატია მიზნად ისახავს InstantStyle ჩარჩოს სიღრმისეულად გაშუქებას და ჩვენ ვიკვლევთ ფრეიმურის მექანიზმს, მეთოდოლოგიას, არქიტექტურას და მის შედარებას უახლეს ჩარჩოებთან. ჩვენ ასევე ვისაუბრებთ იმაზე, თუ როგორ აჩვენებს InstantStyle Framework თვალსაჩინო ვიზუალური სტილიზაციის შედეგებს და ამყარებს ოპტიმალურ ბალანსს ტექსტური ელემენტების კონტროლირებადობასა და სტილის ინტენსივობას შორის. ასე რომ, დავიწყოთ. 

InstantStyle: სტილის შენარჩუნება ტექსტიდან გამოსახულების გენერაციაში

დიფუზიაზე დაფუძნებული ტექსტი გამოსახულების გენერაციულ AI ჩარჩოებში შესამჩნევი და შესანიშნავი წარმატება მოიპოვა პერსონალიზაციისა და პერსონალიზაციის ამოცანების ფართო სპექტრში, განსაკუთრებით გამოსახულების გენერირების თანმიმდევრულ ამოცანებში, მათ შორის ობიექტების პერსონალიზაცია, სურათის შენარჩუნება და სტილის გადაცემა. თუმცა, მიუხედავად ბოლოდროინდელი წარმატებისა და შესრულების გაზრდისა, სტილის ტრანსფერი რჩება რთულ ამოცანად მკვლევრებისთვის სტილის განუსაზღვრელი და განუსაზღვრელი ბუნების გამო, რომელიც ხშირად მოიცავს სხვადასხვა ელემენტებს, მათ შორის ატმოსფეროს, სტრუქტურას, დიზაინს, მასალას, ფერს და სხვას. ამის გათვალისწინებით, სტილიზებული გამოსახულების გენერირების ან სტილის გადაცემის მთავარი მიზანი არის კონკრეტული სტილის გამოყენება მოცემული საცნობარო სურათიდან ან გამოსახულების საცნობარო ქვეჯგუფიდან. სამიზნე შინაარსის გამოსახულებამდე. თუმცა, სტილის ატრიბუტების ფართო რაოდენობა ართულებს სამუშაოს მკვლევარებისთვის სტილიზებული მონაცემთა ნაკრების შეგროვების, სტილის სწორად წარმოჩენისა და გადაცემის წარმატების შესაფასებლად. ადრე, მოდელები და ჩარჩოები, რომლებიც ეხება დიფუზიის დახვეწაზე დაფუძნებულ პროცესს, ასწორებენ სურათების მონაცემთა ბაზას, რომლებიც იზიარებენ საერთო სტილს, პროცესი, რომელიც შრომატევადია და შეზღუდული განზოგადებით რეალურ ამოცანებში, რადგან ეს რთულია. შეაგროვოს სურათების ქვეჯგუფი, რომლებიც იზიარებენ იმავე ან თითქმის იდენტურ სტილს. 

ამჟამინდელი მიდგომის წინაშე მდგარი გამოწვევებით, მკვლევარები დაინტერესდნენ სტილის გადაცემის დახვეწილი მიდგომების შემუშავებით ან სტილიზებული გამოსახულების გენერაციადა ეს ჩარჩოები შეიძლება დაიყოს ორ განსხვავებულ ჯგუფად: 

  • ადაპტერების გარეშე მიდგომები: ადაპტერების გარეშე მიდგომები და ჩარჩოები იყენებენ თვითყურადღების ძალას დიფუზიის პროცესში და საერთო ყურადღების ოპერაციის განხორციელებით, ამ მოდელებს შეუძლიათ უშუალოდ ამოიღონ ძირითადი მახასიათებლები, მათ შორის გასაღებები და მნიშვნელობები მოცემული საცნობარო სტილის სურათებიდან. 
  • ადაპტერზე დაფუძნებული მიდგომები: ადაპტერზე დაფუძნებული მიდგომები და ჩარჩოები, მეორეს მხრივ, აერთიანებს მსუბუქ მოდელს, რომელიც შექმნილია გამოსახულების დეტალური წარმოდგენის ამოსაღებად საცნობარო სტილის სურათებიდან. შემდეგ ჩარჩო აერთიანებს ამ წარმოდგენებს დიფუზიის პროცესში ოსტატურად ჯვარედინი ყურადღების მექანიზმების გამოყენებით. ინტეგრაციის პროცესის უპირველესი მიზანია გენერირების პროცესის წარმართვა და იმის უზრუნველყოფა, რომ მიღებული სურათი შეესაბამება საცნობარო გამოსახულების სასურველ სტილისტურ ნიუანსებს. 

თუმცა, დაპირებების მიუხედავად, ტუნინგის გარეშე მეთოდები ხშირად აწყდებიან რამდენიმე გამოწვევას. პირველ რიგში, ადაპტერისგან თავისუფალი მიდგომა მოითხოვს გასაღებისა და მნიშვნელობების გაცვლას თვითყურადღების ფენებში და წინასწარ იჭერს საკვანძო და მნიშვნელობის მატრიცებს, რომლებიც მიღებულია საცნობარო სტილის სურათებიდან. ბუნებრივ გამოსახულებებზე დანერგვისას, ადაპტერისგან თავისუფალი მიდგომა მოითხოვს გამოსახულების უკან დაბრუნებას ლატენტურ ხმაურზე ისეთი ტექნიკის გამოყენებით, როგორიცაა DDIM ან Denoising Diffusion Implicit Models ინვერსია. თუმცა, DDIM ან სხვა ინვერსიული მიდგომების გამოყენებამ შეიძლება გამოიწვიოს წვრილმარცვლოვანი დეტალების დაკარგვა, როგორიცაა ფერი და ტექსტურა, რაც ამცირებს სტილის ინფორმაციას გენერირებულ სურათებში. გარდა ამისა, ამ მიდგომებით დანერგილი დამატებითი ნაბიჯი არის შრომატევადი პროცესი და შეიძლება გამოიწვიოს მნიშვნელოვანი ხარვეზები პრაქტიკულ აპლიკაციებში. მეორეს მხრივ, ადაპტერზე დაფუძნებული მეთოდების მთავარი გამოწვევა მდგომარეობს სწორი ბალანსის დაცვაში კონტექსტის გაჟონვასა და სტილის ინტენსივობას შორის. კონტენტის გაჟონვა ხდება მაშინ, როდესაც სტილის ინტენსივობის მატება იწვევს საცნობარო გამოსახულების არასტილის ელემენტების გამოჩენას გენერირებულ გამომავალში, სირთულის მთავარი წერტილი არის საცნობარო გამოსახულების შინაარსისგან სტილის ეფექტურად გამოყოფა. ამ საკითხის გადასაჭრელად, ზოგიერთი ჩარჩო აყალიბებს დაწყვილებულ მონაცემთა ნაკრებებს, რომლებიც წარმოადგენენ ერთსა და იმავე ობიექტს სხვადასხვა სტილში, რაც ხელს უწყობს შინაარსის წარმოდგენის ამოღებას და განცალკევებულ სტილებს. თუმცა, სტილის არსებითად განუსაზღვრელი წარმოდგენის წყალობით, ფართომასშტაბიანი დაწყვილებული მონაცემთა ნაკრების შექმნის ამოცანა შეზღუდულია სტილის მრავალფეროვნების თვალსაზრისით, რაც მას შეუძლია და ასევე რესურსზე ინტენსიური პროცესია. 

ამ შეზღუდვების დასაძლევად დაინერგა InstantStyle Framework, რომელიც არის ახალი ტუნინგის გარეშე მექანიზმი, რომელიც დაფუძნებულია არსებულ ადაპტერზე დაფუძნებულ მეთოდებზე, რომელსაც შეუძლია შეუფერხებლად ინტეგრირდეს სხვა ყურადღებაზე დაფუძნებულ ინექციურ მეთოდებთან და მიაღწიოს კონტენტისა და სტილის ეფექტურად განცალკევებას. გარდა ამისა, InstantStyle Framework წარმოგიდგენთ არა ერთ, არამედ ორ ეფექტურ გზას სტილისა და კონტენტის განცალკევების დასასრულებლად, უკეთესი სტილის მიგრაციის მისაღწევად, დამატებითი მეთოდების დანერგვის აუცილებლობის გარეშე, რათა მივაღწიოთ დაწყვილებას ან შექმნას დაწყვილებული მონაცემთა ნაკრები. 

გარდა ამისა, ადაპტერზე დაფუძნებული წინა ჩარჩოები ფართოდ გამოიყენებოდა CLIP-ზე დაფუძნებულ მეთოდებში, როგორც გამოსახულების ფუნქციების ამომყვანი, ზოგიერთმა ფრეიმორმმა გამოიკვლია ფუნქციების გაყოფის შესაძლებლობა ფუნქციების სივრცეში, და როდესაც შევადარებთ სტილის განუსაზღვრელობას, უფრო ადვილია შინაარსის აღწერა ტექსტით. ვინაიდან სურათები და ტექსტები იზიარებენ ფუნქციების სივრცეს CLIP-ზე დაფუძნებულ მეთოდებში, კონტექსტური ტექსტის მახასიათებლებისა და გამოსახულების მახასიათებლების მარტივი გამოკლების ოპერაციამ შეიძლება მნიშვნელოვნად შეამციროს შინაარსის გაჟონვა. უფრო მეტიც, უმრავლესობაში დიფუზიის მოდელები, მის არქიტექტურაში არის კონკრეტული ფენა, რომელიც აწვდის სტილის ინფორმაციას და ახორციელებს შინაარსისა და სტილის განცალკევებას მხოლოდ კონკრეტული სტილის ბლოკებში გამოსახულების მახასიათებლების შეყვანით. ამ ორი მარტივი სტრატეგიის განხორციელებით, InstantStyle Framework-ს შეუძლია გადაჭრას კონტენტის გაჟონვის პრობლემები, რომლებსაც აწყდება არსებული ფრეიმორების უმეტესობა, სტილის სიძლიერის შენარჩუნებით. 

შეჯამებისთვის, InstantStyle Framework იყენებს ორ მარტივ, მარტივ, მაგრამ ეფექტურ მექანიზმს, რათა მივაღწიოთ შინაარსისა და სტილის ეფექტური განცალკევებას საცნობარო სურათებისგან. Instant-Style Framework არის მოდელის დამოუკიდებელი და რეგულირებისგან თავისუფალი მიდგომა, რომელიც აჩვენებს შესანიშნავი შესრულებას სტილის გადაცემის ამოცანებს, დიდი პოტენციალით ქვემოთ ამოცანების შესრულებისთვის. 

Instant-Style: მეთოდოლოგია და არქიტექტურა

როგორც წინა მიდგომებით აჩვენა, არსებობს ბალანსი სტილის პირობების ინექციაში ტიუნინგის გარეშე დიფუზიურ მოდელებში. თუ გამოსახულების მდგომარეობის ინტენსივობა ძალიან მაღალია, ამან შეიძლება გამოიწვიოს შინაარსის გაჟონვა, ხოლო თუ სურათის მდგომარეობის ინტენსივობა ძალიან დაბალია, სტილი შეიძლება არ იყოს საკმარისად აშკარა. ამ დაკვირვების მთავარი მიზეზი არის ის, რომ გამოსახულებაში სტილი და შინაარსი ურთიერთდაკავშირებულია და თანდაყოლილი განუსაზღვრელი სტილის ატრიბუტების გამო, ძნელია სტილისა და განზრახვის გამოყოფა. შედეგად, ზედმიწევნითი წონა ხშირად რეგულირდება თითოეული საცნობარო სურათისთვის, რათა დაბალანსდეს ტექსტის კონტროლირებადი და სტილის სიძლიერე. გარდა ამისა, მოცემული შეყვანის საცნობარო სურათისთვის და მისი შესაბამისი ტექსტის აღწერისთვის ინვერსიაზე დაფუძნებულ მეთოდებში, ინვერსიული მიდგომები, როგორიცაა DDIM, მიღებულია სურათზე, რათა მიიღონ ინვერსიული დიფუზიის ტრაექტორია, პროცესი, რომელიც აახლოებს ინვერსიის განტოლებას სურათის ლატენტურად გარდაქმნისთვის. ხმაურის წარმოდგენა. იმავეზე დაყრდნობით და დაწყებული ინვერსიული დიფუზიის ტრაექტორიიდან ახალ მოთხოვნასთან ერთად, ეს მეთოდები წარმოქმნის ახალ შინაარსს მისი სტილით, რომელიც შეესაბამება შეყვანას. თუმცა, როგორც ნაჩვენებია ქვემოთ მოცემულ ფიგურაში, რეალური სურათებისთვის DDIM ინვერსიის მიდგომა ხშირად არასტაბილურია, რადგან ის ეყრდნობა ლოკალურ ხაზოვან დაშვებებს, რაც იწვევს შეცდომების გავრცელებას და იწვევს შინაარსის დაკარგვას და სურათის არასწორ რეკონსტრუქციას. 

რაც შეეხება მეთოდოლოგიას, იმის ნაცვლად, რომ გამოიყენოს რთული სტრატეგიები სურათებისგან შინაარსისა და სტილის გამოსაყოფად, Instant-Style Framework იყენებს უმარტივეს მიდგომას მსგავსი შესრულების მისაღწევად. როდესაც შევადარებთ სტილის განუსაზღვრელ ატრიბუტებს, კონტენტი შეიძლება იყოს წარმოდგენილი ბუნებრივი ტექსტით, რაც საშუალებას აძლევს Instant-Style ჩარჩოს გამოიყენოს CLIP-დან ტექსტის კოდირებული შინაარსის ტექსტის მახასიათებლების კონტექსტური წარმოდგენის სახით ამოსაღებად. ამავდროულად, Instant-Style Framework ახორციელებს CLIP გამოსახულების ენკოდერს საცნობარო გამოსახულების მახასიათებლების ამოსაღებად. CLIP-ის გლობალური მახასიათებლების დახასიათებით სარგებლობით და გამოსახულების ფუნქციებიდან შინაარსის ტექსტის მახასიათებლების გამოკლებით, Instant-Style Framework-ს შეუძლია სტილისა და შინაარსის მკაფიოდ გაყოფა. მიუხედავად იმისა, რომ ეს მარტივი სტრატეგიაა, ის ეხმარება, რომ Instant-Style ჩარჩო საკმაოდ ეფექტური იყოს შინაარსის გაჟონვის მინიმუმამდე შესანარჩუნებლად. 

გარდა ამისა, ღრმა ქსელში თითოეული ფენა პასუხისმგებელია სხვადასხვა სემანტიკური ინფორმაციის აღებაზე, ხოლო წინა მოდელებიდან მთავარი დაკვირვება არის ის, რომ არსებობს ორი ყურადღების ფენა, რომლებიც პასუხისმგებელნი არიან დამუშავების სტილზე. up კერძოდ, ეს არის blocks.0.attentions.1 და down blocks.2.attentions.1 ფენები, რომლებიც პასუხისმგებელნი არიან სტილის აღბეჭდვაზე, როგორიცაა ფერი, მასალა, ატმოსფერო და სივრცითი განლაგების ფენა ასახავს სტრუქტურას და კომპოზიციას. Instant-Style Framework იყენებს ამ შრეებს სტილის შესახებ ინფორმაციის ამოსაღებად და ხელს უშლის შინაარსის გაჟონვას სტილის სიძლიერის დაკარგვის გარეშე. სტრატეგია მარტივია, მაგრამ ეფექტური, რადგან მოდელმა განლაგებულია სტილის ბლოკები, რომლებსაც შეუძლიათ გამოსახულების მახასიათებლების შეყვანა ამ ბლოკებში, რათა მიაღწიონ სტილის უპრობლემოდ გადაცემას. გარდა ამისა, იმის გამო, რომ მოდელი მნიშვნელოვნად ამცირებს ადაპტერის პარამეტრების რაოდენობას, გაუმჯობესებულია ჩარჩოს ტექსტის კონტროლის უნარი და მექანიზმი ასევე გამოიყენება ყურადღებაზე დაფუძნებული ფუნქციის ინექციის სხვა მოდელებზე რედაქტირებისთვის და სხვა ამოცანებისთვის. 

Instant-Style: ექსპერიმენტები და შედეგები

Instant-Style Framework დანერგილია Stable Diffusion XL Framework-ზე და ის იყენებს საყოველთაოდ მიღებულ წინასწარ გაწვრთნილ IR-ადაპტერს, როგორც მის მაგალითს მისი მეთოდოლოგიის დასადასტურებლად და აჩუმებს ყველა ბლოკს, გარდა სტილის ბლოკებისა, გამოსახულების მახასიათებლებისთვის. Instant-Style მოდელი ასევე ავარჯიშებს IR-ადაპტერს 4 მილიონ ფართომასშტაბიანი ტექსტური გამოსახულების დაწყვილებულ მონაცემთა ნაკრებებზე ნულიდან და ყველა ბლოკის ვარჯიშის ნაცვლად, განაახლებს მხოლოდ სტილის ბლოკებს. 

განზოგადების შესაძლებლობებისა და სიმტკიცის განსახორციელებლად, Instant-Style Framework ატარებს მრავალრიცხოვან სტილის გადაცემის ექსპერიმენტებს სხვადასხვა სტილში სხვადასხვა შინაარსის მიხედვით და შედეგების დაკვირვება შესაძლებელია შემდეგ სურათებში. ერთი სტილის საცნობარო სურათის გათვალისწინებით, სხვადასხვა მოთხოვნებთან ერთად, Instant-Style Framework უზრუნველყოფს მაღალი ხარისხის, თანმიმდევრულ სტილს გამოსახულების გენერაცია

გარდა ამისა, ვინაიდან მოდელი აწვდის გამოსახულების ინფორმაციას მხოლოდ სტილის ბლოკებში, მას შეუძლია მნიშვნელოვნად შეამსუბუქოს შინაარსის გაჟონვის საკითხი და, შესაბამისად, არ საჭიროებს წონის დარეგულირებას. 

სვლასთან ერთად, Instant-Style Framework ასევე იღებს ControlNet არქიტექტურას, რათა მიაღწიოს გამოსახულებაზე დაფუძნებულ სტილიზაციას სივრცითი კონტროლით, და შედეგები ნაჩვენებია შემდეგ სურათზე. 

წინა თანამედროვე მეთოდებთან შედარებით, მათ შორის StyleAlign, B-LoRA, Swapping Self Attention და IP-Adapter, Instant-Style ჩარჩო აჩვენებს საუკეთესო ვიზუალურ ეფექტებს. 

საბოლოო ფიქრები

ამ სტატიაში ჩვენ ვისაუბრეთ Instant-Style-ზე, ზოგად ჩარჩოზე, რომელიც იყენებს ორ მარტივ, მაგრამ ეფექტურ სტრატეგიას, რათა მივაღწიოთ შინაარსისა და სტილის ეფექტური განცალკევებას საცნობარო სურათებისგან. InstantStyle Framework შექმნილია იმ პრობლემების გადასაჭრელად, რომლებსაც აწყდება ტუნინგზე დაფუძნებული დიფუზიური მოდელები გამოსახულების გენერირებისა და პერსონალიზაციისთვის. Instant-Style Framework ახორციელებს ორ სასიცოცხლო სტრატეგიას: მარტივი, მაგრამ ეფექტური მიდგომა სტილისა და შინაარსის გამოყოფის მიზნით საცნობარო გამოსახულებებს ფუნქციების სივრცეში, პროგნოზირებული იმ ვარაუდით, რომ ფუნქციები იმავე ფუნქციების სივრცეში შეიძლება დაემატოს ან გამოკლდეს ერთმანეთს. მეორე, სტილის გაჟონვის თავიდან აცილება საცნობარო გამოსახულების მახასიათებლების ექსკლუზიურად სტილისთვის სპეციფიკურ ბლოკებში შეყვანით და მიზანმიმართულად თავიდან ავიცილოთ უხერხული წონების გამოყენების აუცილებლობა დახვეწისთვის, რაც ხშირად ახასიათებს უფრო პარამეტრებზე მძიმე დიზაინებს. 

"პროფესიით ინჟინერი, ზეპირად მწერალი". კუნალი არის ტექნიკური მწერალი, რომელსაც აქვს AI და ML ღრმა სიყვარული და გაგება, რომელიც ეძღვნება ამ სფეროებში რთული კონცეფციების გამარტივებას მისი საინტერესო და ინფორმაციული დოკუმენტაციის საშუალებით.