სტუბი სამი გამოწვევა წინ არის სტაბილური დიფუზიისთვის - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

წინ სამი გამოწვევა სტაბილური დიფუზიისთვის

mm
განახლებულია on

ის გაათავისუფლონ სტაბილურობის.აის სტაბილური დიფუზია ლატენტური დიფუზია სურათის სინთეზის მოდელი რამდენიმე კვირის წინ შეიძლება იყოს ერთ-ერთი ყველაზე მნიშვნელოვანი ტექნოლოგიური გამჟღავნება DeCSS-დან 1999 წლიდან; ეს, რა თქმა უნდა, ყველაზე დიდი მოვლენაა ხელოვნური ინტელექტის მიერ გენერირებული სურათებში 2017 წლის შემდეგ deepfakes კოდი დაკოპირდა GitHub-ში და ჩანგალი შევიდა რა გახდებოდა DeepFaceLab მდე სახის გაცვლა, ისევე როგორც რეალურ დროში სტრიმინგის ღრმა ფეიკის პროგრამული უზრუნველყოფა DeepFaceLive.

ინსულტის დროს, მომხმარებლის იმედგაცრუება მეტი შინაარსის შეზღუდვები DALL-E 2-ის გამოსახულების სინთეზის დროს API გვერდიდან იქნა ამოღებული, რადგან გაირკვა, რომ Stable Diffusion-ის NSFW ფილტრის გამორთვა შეიძლებოდა შეცვლით. კოდის ერთადერთი ხაზი. პორნოზე ორიენტირებული Stable Diffusion Reddits თითქმის მაშინვე გაჩნდა და სწრაფად შემცირდა, ხოლო დეველოპერებისა და მომხმარებლების ბანაკი Discord-ზე გაიყო ოფიციალურ და NSFW თემებად და Twitter-მა დაიწყო ფანტასტიკური Stable Diffusion-ის ქმნილებებით შევსება.

ამ დროისთვის, როგორც ჩანს, ყოველი დღე მოაქვს გასაოცარ სიახლეებს დეველოპერებისგან, რომლებმაც მიიღეს სისტემა, მოდულები და მესამე მხარის დამხმარე საშუალებები, რომლებიც ნაჩქარევად იწერება. კრისტი, Photoshop, Cinema4D, Blenderდა მრავალი სხვა აპლიკაციის პლატფორმა.

სტაბილური დიფუზია Krita Addon

იმავდროულად, სწრაფი - ახლა უკვე პროფესიონალური ხელოვნება "AI ჩურჩული", რომელიც შეიძლება დასრულდეს ყველაზე მოკლე კარიერის ვარიანტი "Filofax Binder"-ის შემდეგ - უკვე ხდება კომერციალიზებული, ხოლო სტაბილური დიფუზიის ადრეული მონეტიზაცია მიმდინარეობს პატრონის დონე, დარწმუნებული ვარ, რომ უფრო დახვეწილი შეთავაზებები მოვა, მათთვის, ვისაც არ სურს ნავიგაცია კონდაზე დაფუძნებული წყაროს კოდის ინსტალაცია ან ვებ დაფუძნებული განხორციელების პროსკრიპტული NSFW ფილტრები.

განვითარების ტემპი და მომხმარებლების მხრიდან ძიების თავისუფალი გრძნობა ისეთი თავბრუდამხვევი სისწრაფით მიმდინარეობს, რომ ძნელია წინსვლის დანახვა. არსებითად, ჩვენ ჯერ არ ვიცით ზუსტად რასთან გვაქვს საქმე, ან რა შეიძლება იყოს ყველა შეზღუდვა ან შესაძლებლობა.

მიუხედავად ამისა, მოდით გადავხედოთ სამს, რა შეიძლება იყოს ყველაზე საინტერესო და რთული დაბრკოლებები სწრაფად ჩამოყალიბებული და სწრაფად მზარდი სტაბილური დიფუზიის საზოგადოების წინაშე და, იმედია, გადალახოს.

1: ფილაზე დაფუძნებული მილსადენების ოპტიმიზაცია

წარმოდგენილი შეზღუდული ტექნიკის რესურსებითა და სავარჯიშო სურათების გარჩევადობის მკაცრი შეზღუდვებით, როგორც ჩანს, დეველოპერები იპოვიან გამოსავალს სტაბილური დიფუზიის ხარისხისა და გარჩევადობის გასაუმჯობესებლად. ამ პროექტებიდან ბევრი ითვალისწინებს სისტემის შეზღუდვების გამოყენებას, როგორიცაა მისი ძირითადი გარჩევადობა მხოლოდ 512×512 პიქსელი.

როგორც ყოველთვის ხდება კომპიუტერული ხედვისა და გამოსახულების სინთეზის ინიციატივების შემთხვევაში, სტაბილური დიფუზიის ტრენინგი ჩატარდა კვადრატული თანაფარდობის გამოსახულებებზე, ამ შემთხვევაში შერჩეული იქნა 512×512-მდე, რათა წყაროს გამოსახულებები დარეგულირებულიყო და შეესაბამებოდეს GPU-ების შეზღუდვებს. მოამზადა მოდელი.

მაშასადამე, სტაბილური დიფუზია „აზროვნებს“ (თუ საერთოდ ფიქრობს) 512×512 ტერმინებით და, რა თქმა უნდა, კვადრატული თვალსაზრისით. ბევრი მომხმარებელი, რომელიც ამჟამად იკვლევს სისტემის საზღვრებს, იტყობინება, რომ სტაბილური დიფუზია აწარმოებს ყველაზე საიმედო და ნაკლებად მბზინავ შედეგებს ამ საკმაოდ შეზღუდული ასპექტის თანაფარდობით (იხ. „კიდურების მიმართვა“ ქვემოთ).

თუმცა სხვადასხვა დანერგვა ახასიათებს სკალირების გაზრდას RealESRGAN (და შეუძლია ცუდად გამოსახული სახეების დაფიქსირება GFPGAN) რამდენიმე მომხმარებელი ამჟამად ავითარებს მეთოდებს სურათების 512x512px სექციებად დაყოფისა და სურათების ერთმანეთთან შეკერვის მიზნით უფრო დიდი კომპოზიციური ნამუშევრების შესაქმნელად.

ეს 1024x576 რენდერი, გარჩევადობა ჩვეულებრივ შეუძლებელია ერთი სტაბილური დიფუზიის რენდერში, შეიქმნა ყურადღება.py Python ფაილის სტაბილური დიფუზიის DoggettX ჩანგლიდან სხვა ჩანგალში კოპირებით და ჩასმით. წყარო: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

ეს 1024×576 რენდერი, გარჩევადობა ჩვეულებრივ შეუძლებელია ერთი სტაბილური დიფუზიის რენდერში, შეიქმნა ყურადღება.py Python ფაილის კოპირებით და ჩასმით. DoggettX სტაბილური დიფუზიის ჩანგალი (ვერსია, რომელიც ახორციელებს ფილაზე დაფუძნებულ ზრდას) სხვა ჩანგალში. წყარო: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

მიუხედავად იმისა, რომ ამ ტიპის ზოგიერთი ინიციატივა იყენებს ორიგინალურ კოდს ან სხვა ბიბლიოთეკებს, txt2imghd პორტი GOBIG-ის (რეჟიმი VRAM-მშიერი ProgRockDiffusion-ში) დაყენებულია, რათა მალე მიაწოდოს ეს ფუნქცია მთავარ ფილიალს. მიუხედავად იმისა, რომ txt2imghd არის GOBIG-ის გამოყოფილი პორტი, საზოგადოების დეველოპერების სხვა ძალისხმევა მოიცავს GOBIG-ის სხვადასხვა განხორციელებას.

მოხერხებულად აბსტრაქტული სურათი ორიგინალურ 512x512 პიქსელში (მარცხნივ და მეორე მარცხნიდან); განახლებულია ESGRAN-ის მიერ, რომელიც ახლა მეტ-ნაკლებად მშობლიურია ყველა სტაბილური დიფუზიის დისტრიბუციაში; და „განსაკუთრებული ყურადღების მიქცევა“ GOBIG-ის იმპლემენტაციის საშუალებით, რაც აწარმოებს დეტალებს, რომლებიც, სულ მცირე, გამოსახულების განყოფილების საზღვრებში, უკეთესად გამოიყურება. წყარო: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

მოხერხებულად აბსტრაქტული სურათი ორიგინალურ 512x512 პიქსელში (მარცხნივ და მეორე მარცხნიდან); განახლებულია ESGRAN-ის მიერ, რომელიც ახლა მეტ-ნაკლებად მშობლიურია ყველა სტაბილური დიფუზიის დისტრიბუციაში; და „განსაკუთრებული ყურადღების მიქცევა“ GOBIG-ის იმპლემენტაციის საშუალებით, რაც აწარმოებს დეტალებს, რომლებიც, სულ მცირე, გამოსახულების განყოფილების საზღვრებში, უკეთესად გამოიყურება. სჩვენი: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

ზემოთ მოყვანილ აბსტრაქტულ მაგალითს აქვს მრავალი „პატარა სამეფო“ დეტალებით, რომლებიც შეესაბამება ამ სოლიპსისტურ მიდგომას გაფართოებისადმი, მაგრამ რომელიც შეიძლება მოითხოვოს უფრო რთული კოდით ორიენტირებული გადაწყვეტილებები, რათა წარმოქმნას არაგანმეორებადი, თანმიმდევრული ზრდა, რომელიც არ შეესაბამება შეხედეთ თითქოს მრავალი ნაწილისგან იყო აწყობილი. არანაკლებ, ადამიანის სახეების შემთხვევაში, სადაც ჩვენ უჩვეულოდ ვართ შეგუებულნი აბერაციებთან ან „გამწარებულ“ არტეფაქტებთან. ამიტომ სახეებს შეიძლება საბოლოოდ დასჭირდეთ სპეციალური გადაწყვეტა.

Stable Diffusion-ს ამჟამად არ აქვს მექანიზმი, რომ რენდერის დროს სახეზე ყურადღების ფოკუსირება მოახდინოს ისე, როგორც ადამიანები პრიორიტეტს ანიჭებენ სახის ინფორმაციას. მიუხედავად იმისა, რომ ზოგიერთი დეველოპერი Discord-ის თემებში განიხილავს მეთოდებს ამ სახის „გაძლიერებული ყურადღების“ განსახორციელებლად, ამჟამად ბევრად უფრო ადვილია ხელით (და საბოლოოდ ავტომატურად) სახის გაძლიერება საწყისი რენდერის დასრულების შემდეგ.

ადამიანის სახეს აქვს შინაგანი და სრული სემანტიკური ლოგიკა, რომელიც არ მოიძებნება (მაგალითად) შენობის ქვედა კუთხის „ფილაზე“ და, შესაბამისად, ამჟამად შესაძლებელია ძალიან ეფექტურად „გადიდება“ და ხელახლა გადმოცემა. "ესკიზური" სახე სტაბილური დიფუზიის გამომავალში.

მარცხნივ, Stable Diffusion-ის თავდაპირველი მცდელობა მოწოდებით „სრულმეტრაჟიანი ფერადი ფოტო კრისტინა ჰენდრიქსი, რომელიც შედის ხალხმრავალ ადგილას, წვიმის ხალათით; Canon50, თვალის კონტაქტი, მაღალი დეტალები, სახის მაღალი დეტალები'. მარჯვნივ, გაუმჯობესებული სახე, რომელიც მიღებულია ბუნდოვანი და ესკიზური სახის პირველი რენდერიდან სტაბილური დიფუზიის სრული ყურადღების მიქცევით Img2Img-ის გამოყენებით (იხილეთ ანიმაციური სურათები ქვემოთ).

მარცხნივ, Stable Diffusion-ის თავდაპირველი მცდელობა მოწოდებით „სრულმეტრაჟიანი ფერადი ფოტო კრისტინა ჰენდრიქსი, რომელიც შედის ხალხმრავალ ადგილას, წვიმის ხალათით; Canon50, თვალის კონტაქტი, მაღალი დეტალები, სახის მაღალი დეტალები'. მარჯვნივ, გაუმჯობესებული სახე, რომელიც მიღებულია ბუნდოვანი და ესკიზური სახის პირველი რენდერიდან სტაბილური დიფუზიის სრული ყურადღების მიქცევით Img2Img-ის გამოყენებით (იხილეთ ანიმაციური სურათები ქვემოთ).

გამოყოფილი ტექსტური ინვერსიის გადაწყვეტის არარსებობის შემთხვევაში (იხ. ქვემოთ), ეს იმუშავებს მხოლოდ ცნობილი ადამიანების სურათებზე, სადაც მოცემული ადამიანი უკვე კარგად არის წარმოდგენილი LAION მონაცემთა ქვეჯგუფებში, რომლებიც ავარჯიშებდნენ სტაბილურ დიფუზიას. ამიტომ ის იმუშავებს ისეთებზე, როგორებიცაა ტომ კრუზი, ბრედ პიტი, ჯენიფერ ლოურენსი და ნამდვილი მედია ნათელმხილველების შეზღუდული სპექტრი, რომლებიც წარმოდგენილია წყაროს მონაცემებში სურათების დიდი რაოდენობით.

სარწმუნო პრესის სურათის გენერირება მოთხოვნით „კრისტინა ჰენდრიქსის სრულმეტრაჟიანი ფერადი ფოტო, რომელიც შედის ხალხმრავალ ადგილას, წვიმის ხალათით; Canon50, თვალის კონტაქტი, მაღალი დეტალები, სახის მაღალი დეტალები'.

სარწმუნო პრესის სურათის გენერირება მოთხოვნით „კრისტინა ჰენდრიქსის სრულმეტრაჟიანი ფერადი ფოტო, რომელიც შედის ხალხმრავალ ადგილას, წვიმის ხალათით; Canon50, თვალის კონტაქტი, მაღალი დეტალები, სახის მაღალი დეტალები'.

ხანგრძლივი და ხანგრძლივი კარიერის მქონე ცნობილი ადამიანებისთვის, სტაბილური დიფუზია, როგორც წესი, წარმოქმნის ადამიანის იმიჯს ბოლო (ანუ უფროს) ასაკში და საჭირო იქნება სწრაფი დანამატების დამატება, როგორიცაა "ახალგაზრდა" or 'წელს [YEAR]' ახალგაზრდული გამოსახულებების შესაქმნელად.

გამოჩენილი, ბევრი ფოტოგრაფიული და თანმიმდევრული კარიერით, რომელიც თითქმის 40 წელზე მეტია, მსახიობი ჯენიფერ კონელი ერთ-ერთია LAION-ის იმ ცნობილ ადამიანთა რიცხვს შორის, რომლებიც საშუალებას აძლევს Stable Diffusion-ს წარმოადგინოს სხვადასხვა ასაკი. წყარო: prepack Stable Diffusion, ლოკალური, v1.4 საგუშაგო; ასაკთან დაკავშირებული მოთხოვნები.

გამოჩენილი, ბევრი ფოტოგრაფიული და თანმიმდევრული კარიერით, რომელიც თითქმის 40 წელზე მეტია, მსახიობი ჯენიფერ კონელი ერთ-ერთია LAION-ის იმ ცნობილ ადამიანთა რიცხვს შორის, რომლებიც საშუალებას აძლევს Stable Diffusion-ს წარმოადგინოს სხვადასხვა ასაკი. წყარო: prepack Stable Diffusion, ლოკალური, v1.4 საგუშაგო; ასაკთან დაკავშირებული მოთხოვნები.

ეს დიდწილად გამოწვეულია ციფრული (და არა ძვირი, ემულსიაზე დაფუძნებული) პრესის ფოტოგრაფიის გავრცელებით 2000-იანი წლების შუა პერიოდიდან და შემდგომში გამოსახულების მოცულობის ზრდის გამო ფართოზოლოვანი სიჩქარის გაზრდის გამო.

გადაღებული სურათი გადაეცემა Img2Img-ს სტაბილური დიფუზიაში, სადაც არჩეულია „ფოკუსის არეალი“ და ახალი, მაქსიმალური ზომის რენდერი მზადდება მხოლოდ ამ არეზე, რაც სტაბილურ დიფუზიას საშუალებას აძლევს კონცენტრირდეს ყველა არსებული რესურსი სახის ხელახლა შექმნაზე.

გადაღებული სურათი გადაეცემა Img2Img-ს სტაბილური დიფუზიაში, სადაც არჩეულია „ფოკუსის არეალი“ და ახალი, მაქსიმალური ზომის რენდერი მზადდება მხოლოდ ამ არეზე, რაც სტაბილურ დიფუზიას საშუალებას აძლევს კონცენტრირდეს ყველა არსებული რესურსი სახის ხელახლა შექმნაზე.

"მაღალი ყურადღების" სახის შედგენა თავდაპირველ რენდერში. გარდა სახეებისა, ეს პროცესი იმუშავებს მხოლოდ ერთეულებთან, რომლებსაც აქვთ პოტენციური ცნობილი, შეკრული და ინტეგრალური გარეგნობა, როგორიცაა ორიგინალური ფოტოს ნაწილი, რომელსაც აქვს განსხვავებული ობიექტი, როგორიცაა საათი ან მანქანა. მაგალითად, კედლის მონაკვეთის გაზრდა გამოიწვევს ძალიან უცნაურ იერსახეს, ხელახლა აწყობილ კედელს, რადგან კრამიტის რენდერებს არ ჰქონდათ უფრო ფართო კონტექსტი ამ „ჯიგსონაჟის ნაჭერისთვის“, როგორც ისინი წარმოადგენდნენ.

"მაღალი ყურადღების" სახის შედგენა თავდაპირველ რენდერში. გარდა სახეებისა, ეს პროცესი იმუშავებს მხოლოდ ერთეულებთან, რომლებსაც აქვთ პოტენციური ცნობილი, შეკრული და ინტეგრალური გარეგნობა, როგორიცაა ორიგინალური ფოტოს ნაწილი, რომელსაც აქვს განსხვავებული ობიექტი, როგორიცაა საათი ან მანქანა. მაგალითად, კედლის მონაკვეთის გაზრდა გამოიწვევს ძალიან უცნაურ იერსახეს, ხელახლა აწყობილ კედელს, რადგან კრამიტის რენდერებს არ ჰქონდათ უფრო ფართო კონტექსტი ამ "ჯიგსონაჟის ნაჭერისთვის", როგორც ისინი წარმოადგენდნენ.

მონაცემთა ბაზაში ზოგიერთი ცნობილი სახე დროში „წინასწარ გაყინულია“, ან იმიტომ, რომ ადრე გარდაიცვალა (როგორიცაა მერლინ მონრო), ან მიაღწიეს მხოლოდ ხანმოკლე მეინსტრიმში პოპულარობას, აწარმოეს სურათების დიდი მოცულობის შეზღუდულ პერიოდში. Polling Stable Diffusion, სავარაუდოდ, უზრუნველყოფს ერთგვარ „მიმდინარე“ პოპულარობის ინდექსს თანამედროვე და ხანდაზმული ვარსკვლავებისთვის. ზოგიერთი ძველი და ამჟამინდელი ცნობილი ადამიანისთვის, წყაროს მონაცემებში არ არის საკმარისი გამოსახულება, რათა მიიღონ ძალიან კარგი მსგავსება, ხოლო კონკრეტული დიდი ხნის გარდაცვლილი ან სხვაგვარად გაცვეთილი ვარსკვლავების მუდმივი პოპულარობა უზრუნველყოფს მათი გონივრული მსგავსების მიღებას სისტემიდან.

სტაბილური დიფუზიის რენდერები სწრაფად ავლენს, რომელი ცნობილი სახეებია კარგად წარმოდგენილი ტრენინგის მონაცემებში. მიუხედავად მისი უზარმაზარი პოპულარობისა, როგორც ხანდაზმული თინეიჯერი წერის დროს, მილი ბობი ბრაუნი იყო ახალგაზრდა და ნაკლებად ცნობილი, როდესაც LAION წყაროს მონაცემთა ნაკრებები ამოიღეს ინტერნეტიდან, რაც სტაბილური დიფუზიის მაღალი ხარისხის მსგავსებას პრობლემურია მომენტში.

სტაბილური დიფუზიის რენდერები სწრაფად ავლენს, რომელი ცნობილი სახეებია კარგად წარმოდგენილი ტრენინგის მონაცემებში. მიუხედავად მისი უზარმაზარი პოპულარობისა, როგორც ხანდაზმული თინეიჯერი წერის დროს, მილი ბობი ბრაუნი იყო ახალგაზრდა და ნაკლებად ცნობილი, როდესაც LAION წყაროს მონაცემთა ნაკრებები ამოიღეს ინტერნეტიდან, რაც სტაბილური დიფუზიის მაღალი ხარისხის მსგავსებას პრობლემურია მომენტში.

სადაც მონაცემები ხელმისაწვდომია, სტაბილური დიფუზიის ფილებზე დაფუძნებული რეზოლუციის გადაწყვეტილებები შეიძლება უფრო შორს წავიდეს, ვიდრე სახეზე დაჭერა: მათ შეუძლიათ პოტენციურად გაააქტიურონ კიდევ უფრო ზუსტი და დეტალური სახეები სახის მახასიათებლების დაშლით და ადგილობრივი GPU-ს მთელი ძალის გადაქცევით. რესურსები გამორჩეულ მახასიათებლებზე ინდივიდუალურად, ხელახლა აწყობამდე - პროცესი, რომელიც ამჟამად, ისევ, სახელმძღვანელოა.

ეს არ შემოიფარგლება მხოლოდ სახეებით, არამედ შემოიფარგლება ობიექტების ნაწილებით, რომლებიც სულ მცირე ისეთივე პროგნოზირებად არის განთავსებული ჰოსტის ობიექტის ფართო კონტექსტში და რომლებიც შეესაბამება მაღალი დონის ჩაშენებებს, რომლებიც შეიძლება გონივრულად ველოდოთ ჰიპერმასშტაბში აღმოჩენას. მონაცემთა ნაკრები.

რეალური ლიმიტი არის მონაცემთა ნაკრებში არსებული საცნობარო მონაცემების რაოდენობა, რადგან, საბოლოოდ, ღრმად გამეორებული დეტალი გახდება სრულიად „ჰალუცინირებული“ (ე.ი. ფიქტიური) და ნაკლებად ავთენტური.

ასეთი მაღალი დონის მარცვლოვანი გაფართოებები მუშაობს ჯენიფერ კონელის შემთხვევაში, რადგან ის კარგად არის წარმოდგენილი სხვადასხვა ასაკში. LAION-ესთეტიკა (პირველადი ქვეჯგუფი LAION 5B რომ სტაბილური დიფუზია იყენებს) და ზოგადად LAION-ში; ბევრ სხვა შემთხვევაში, სიზუსტე დაზარალდება მონაცემთა ნაკლებობით, რაც საჭიროებს ან დაზუსტებას (დამატებითი ტრენინგი, იხილეთ „მორგება“ ქვემოთ) ან ტექსტური ინვერსია (იხ. ქვემოთ).

ფილები მძლავრი და შედარებით იაფი საშუალებაა სტაბილური დიფუზიისთვის მაღალი რეზოლუციის გამომუშავების გასააქტიურებლად, მაგრამ ამ ტიპის კრამიტის ალგორითმული ამაღლება, თუ მას არ გააჩნია რაიმე სახის ფართო, უფრო მაღალი დონის ყურადღების მექანიზმი, შეიძლება ჩამოუვარდეს მოსალოდნელს. სტანდარტებისთვის კონტენტის ტიპების სპექტრისთვის.

2: ადამიანის კიდურებთან დაკავშირებული საკითხების მოგვარება

სტაბილური დიფუზია არ შეესაბამება თავის სახელს, როდესაც ასახავს ადამიანის კიდურების სირთულეს. ხელები შეიძლება გამრავლდეს შემთხვევით, თითები ერთიანდება, მესამე ფეხები უცვლელი ჩანს და არსებული კიდურები უკვალოდ ქრება. თავის დაცვაში, Stable Diffusion იზიარებს პრობლემას თავის თანამოაზრეებთან და, რა თქმა უნდა, DALL-E 2-თან.

არარედაქტირებული შედეგები DALL-E 2-დან და სტაბილური დიფუზიიდან (1.4) 2022 წლის აგვისტოს ბოლოს, ორივე აჩვენებს კიდურებთან დაკავშირებულ პრობლემებს. მოთხოვნა არის "ქალი ეხვევა მამაკაცს"

არარედაქტირებული შედეგები DALL-E 2-დან და სტაბილური დიფუზიიდან (1.4) 2022 წლის აგვისტოს ბოლოს, ორივე აჩვენებს კიდურებთან დაკავშირებულ პრობლემებს. მოთხოვნა არის "ქალი ეხვევა მამაკაცს"

სტაბილური დიფუზიის გულშემატკივრები, რომლებიც იმედოვნებენ, რომ მომავალი 1.5 საგუშაგო (მოდელის უფრო ინტენსიურად გაწვრთნილი ვერსია, გაუმჯობესებული პარამეტრებით) მოაგვარებს კიდურების დაბნეულობას, სავარაუდოდ იმედგაცრუებული დარჩება. ახალი მოდელი, რომელიც გამოვა ქ დაახლოებით ორი კვირის განმავლობაში, ამჟამად პრემიერა კომერციული stability.ai პორტალზე მიმდინარეობს ოცნების სტუდია, რომელიც ნაგულისხმევად იყენებს 1.5-ს და სადაც მომხმარებლებს შეუძლიათ შეადარონ ახალი გამომავალი რენდერებს მათი ადგილობრივი ან სხვა 1.4 სისტემებიდან:

წყარო: Local 1.4 prepack და https://beta.dreamstudio.ai/

წყარო: Local 1.4 prepack და https://beta.dreamstudio.ai/

წყარო: Local 1.4 prepack და https://beta.dreamstudio.ai/

წყარო: Local 1.4 prepack და https://beta.dreamstudio.ai/

წყარო: Local 1.4 prepack და https://beta.dreamstudio.ai/

წყარო: Local 1.4 prepack და https://beta.dreamstudio.ai/

როგორც ხშირად ხდება, მონაცემთა ხარისხი შეიძლება იყოს მთავარი ხელშემწყობი მიზეზი.

ღია კოდის მონაცემთა ბაზებს, რომლებიც ამარაგებს გამოსახულების სინთეზის სისტემებს, როგორიცაა Stable Diffusion და DALL-E 2, შეუძლიათ მრავალი ეტიკეტის მიწოდება როგორც ცალკეული ადამიანებისთვის, ასევე ადამიანთაშორის ქმედებებისთვის. ეს ეტიკეტები სიმბიოტურად ივარჯიშებენ მათთან დაკავშირებულ სურათებთან ან სურათების სეგმენტებთან.

სტაბილური დიფუზიის მომხმარებლებს შეუძლიათ გამოიკვლიონ მოდელში გაწვრთნილი ცნებები LAION-ესთეტიკის მონაცემთა ნაკრების შეკითხვით, უფრო დიდი LAION 5B მონაცემთა ნაკრების ქვეჯგუფი, რომელიც აძლიერებს სისტემას. სურათები დალაგებულია არა მათი ანბანური ეტიკეტებით, არამედ მათი „ესთეტიკური ნიშნით“. წყარო: https://rom1504.github.io/clip-retrieval/

სტაბილური დიფუზიის მომხმარებლებს შეუძლიათ გამოიკვლიონ მოდელში გაწვრთნილი ცნებები LAION-ესთეტიკის მონაცემთა ნაკრების შეკითხვით, უფრო დიდი LAION 5B მონაცემთა ნაკრების ქვეჯგუფი, რომელიც აძლიერებს სისტემას. სურათები დალაგებულია არა მათი ანბანური ეტიკეტებით, არამედ მათი „ესთეტიკური ნიშნით“. წყარო: https://rom1504.github.io/clip-retrieval/

A კარგი იერარქია ინდივიდუალური ეტიკეტები და კლასები, რომლებიც ხელს უწყობენ ადამიანის მკლავის გამოსახვას სხეული>მკლავი>ხელი>თითები>[ქვეციფრები + ცერი]> [ციფრის სეგმენტები]>თითების ფრჩხილები.

ხელის ნაწილების მარცვლოვანი სემანტიკური სეგმენტაცია. ეს უჩვეულოდ დეტალური დეკონსტრუქციაც კი ტოვებს თითოეულ „თითს“, როგორც ერთადერთ არსს, რომელიც არ ითვალისწინებს თითის სამ მონაკვეთს და ცერა თითის ორ მონაკვეთს წყარო: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

ხელის ნაწილების მარცვლოვანი სემანტიკური სეგმენტაცია. ეს უჩვეულოდ დეტალური დეკონსტრუქციაც კი ტოვებს თითოეულ „თითს“ როგორც ერთადერთ არსს, რომელიც არ ითვალისწინებს თითის სამ მონაკვეთს და ცერა თითის ორ მონაკვეთს. წყარო: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

სინამდვილეში, წყაროს სურათები ნაკლებად სავარაუდოა, რომ ასე თანმიმდევრულად იყოს ანოტირებული მთელ მონაცემთა ბაზაში, და უკონტროლო მარკირების ალგორითმები, ალბათ, შეჩერდება უმაღლესი მაგალითად, „ხელის“ დონე და დატოვეთ შიდა პიქსელები (რომლებიც ტექნიკურად შეიცავს „თითის“ ინფორმაციას) პიქსელების არალეიბლირებულ მასად, საიდანაც თავისებურებები იქნება თვითნებურად მიღებული და რომელიც შეიძლება გამოვლინდეს მოგვიანებით წარმოდგენებში, როგორც შემზარავი ელემენტი.

როგორი უნდა იყოს (ზედა მარჯვენა, თუ არა ზედა ჭრილი) და როგორ უნდა იყოს (ქვედა მარჯვნივ), ეტიკეტირების შეზღუდული რესურსების გამო, ან ასეთი ეტიკეტების არქიტექტურული ექსპლუატაციის გამო, თუ ისინი არსებობს მონაცემთა ბაზაში.

როგორი უნდა იყოს (ზედა მარჯვენა, თუ არა ზედა ჭრილი) და როგორ უნდა იყოს (ქვედა მარჯვნივ), ეტიკეტირების შეზღუდული რესურსების გამო, ან ასეთი ეტიკეტების არქიტექტურული ექსპლუატაციის გამო, თუ ისინი არსებობს მონაცემთა ბაზაში.

ამგვარად, თუ ლატენტური დიფუზიის მოდელი აღწევს მკლავის რენდერირებამდე, ის თითქმის აუცილებლად შეძლებს ხელის გაწევას ამ მკლავის ბოლოში, რადგან მკლავი>ხელი არის მინიმალური საჭირო იერარქია, საკმაოდ მაღალ დონეზე, რაც არქიტექტურამ იცის „ადამიანის ანატომიის“ შესახებ.

ამის შემდეგ „თითები“ შეიძლება იყოს ყველაზე პატარა ჯგუფი, მიუხედავად იმისა, რომ ადამიანის ხელების გამოსახვისას გასათვალისწინებელია კიდევ 14 თითის/ცერის ქვენაწილი.

თუ ეს თეორია გამართლებულია, არ არსებობს რეალური გამოსავალი, რაც გამოწვეულია სექტორის მასშტაბით სახელმძღვანელოს ანოტაციისთვის ბიუჯეტის ნაკლებობით, და ადეკვატურად ეფექტური ალგორითმების არარსებობის გამო, რომლებსაც შეუძლიათ ეტიკეტირების ავტომატიზაცია შეცდომის დაბალი სიხშირის წარმოებისას. ფაქტობრივად, მოდელი შეიძლება ამჟამად ეყრდნობოდა ადამიანის ანატომიური თანმიმდევრულობას ქაღალდზე, მონაცემთა ნაკრების ნაკლოვანებებზე, რომლებზეც იყო ტრენინგი.

ამის ერთ-ერთი შესაძლო მიზეზი არ შეიძლება დაეყრდნონ ამას, ახლახან შემოთავაზებული Stable Diffusion Discord-ში არის ის, რომ მოდელი შეიძლება დაბნეული იყოს თითების სწორ რაოდენობასთან დაკავშირებით, რომელიც უნდა ჰქონდეს (რეალისტურ) ადამიანის ხელს, რადგან LAION-დან მიღებული მონაცემთა ბაზა, რომელიც მას აძლიერებს, შეიცავს მულტფილმის პერსონაჟებს, რომლებსაც შეიძლება ჰქონდეთ ნაკლები თითები (რაც თავისთავად არის შრომის დაზოგვის მალსახმობი).

ორი პოტენციური დამნაშავე "დაკარგული თითის" სინდრომის სტაბილურ დიფუზიაში და მსგავს მოდელებში. ქვემოთ მოცემულია მულტფილმის ხელების მაგალითები LAION-ესთეტიკის მონაცემთა ნაკრებიდან, რომელიც უზრუნველყოფს Stable Diffusion-ს. წყარო: https://www.youtube.com/watch?v=0QZFQ3gbd6I

ორი პოტენციური დამნაშავე "დაკარგული თითის" სინდრომის სტაბილურ დიფუზიაში და მსგავს მოდელებში. ქვემოთ მოცემულია მულტფილმის ხელების მაგალითები LAION-ესთეტიკის მონაცემთა ნაკრებიდან, რომელიც უზრუნველყოფს Stable Diffusion-ს. წყარო: https://www.youtube.com/watch?v=0QZFQ3gbd6I

თუ ეს ასეა, მაშინ ერთადერთი აშკარა გამოსავალია მოდელის გადამზადება, ადამიანზე დაფუძნებული არარეალისტური შინაარსის გამოკლებით, იმის უზრუნველყოფა, რომ გამოტოვების ნამდვილი შემთხვევები (მაგ. ამპუტირებული პირები) სათანადოდ იყოს მონიშნული, როგორც გამონაკლისი. მხოლოდ მონაცემთა დამუშავების თვალსაზრისით, ეს საკმაოდ გამოწვევა იქნება, განსაკუთრებით რესურსებით შიმშილი საზოგადოების მცდელობებისთვის.

მეორე მიდგომა იქნება ფილტრების გამოყენება, რომლებიც გამორიცხავს ამგვარ კონტენტს (ანუ „ხელი სამი/ხუთი თითით“) რენდერის დროს გამოვლენისგან, ისევე, როგორც OpenAI-ს აქვს, გარკვეულწილად, გაფილტრული GPT-3 და DALL-E2, რათა მათი გამომუშავება დარეგულირდეს წყაროს მოდელების გადამზადების გარეშე.

სტაბილური დიფუზიისთვის, ციფრებსა და კიდურებს შორის სემანტიკური განსხვავება შეიძლება საშინლად ბუნდოვანი გახდეს, რაც მახსენდება 1980-იანი წლების „სხეულის საშინელებათა“ ნაწილს საშინელებათა ფილმებიდან, როგორიცაა დევიდ კრონენბერგი. წყარო: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

სტაბილური დიფუზიისთვის, ციფრებსა და კიდურებს შორის სემანტიკური განსხვავება შეიძლება საშინლად ბუნდოვანი გახდეს, რაც მახსენდება 1980-იანი წლების „სხეულის საშინელებათა“ ნაწილს საშინელებათა ფილმებიდან, როგორიცაა დევიდ კრონენბერგი. წყარო: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

თუმცა, კიდევ ერთხელ, ეს მოითხოვს ეტიკეტებს, რომლებიც შეიძლება არ არსებობდეს ყველა დაზარალებულ სურათზე, რაც დაგვიტოვებს იგივე ლოგისტიკური და საბიუჯეტო გამოწვევის წინაშე.

შეიძლება ითქვას, რომ კიდევ ორი ​​გზა რჩება წინ: მეტი მონაცემების გადატანა პრობლემასთან დაკავშირებით და მესამე მხარის ინტერპრეტაციის სისტემების გამოყენება, რომლებსაც შეუძლიათ ჩაერიონ, როდესაც აქ აღწერილი ტიპის ფიზიკური სისულელეები წარედგინება საბოლოო მომხმარებელს (მინიმუმ, ეს უკანასკნელი მისცემდა OpenAI-ს მეთოდს, რათა უზრუნველყოს თანხის დაბრუნება "სხეულის საშინელებათა" რენდერებისთვის, თუ კომპანიას ამის მოტივაცია ექნება).

3: პერსონალიზაცია

სტაბილური დიფუზიის მომავლის ერთ-ერთი ყველაზე საინტერესო შესაძლებლობა არის მომხმარებლების ან ორგანიზაციების პერსპექტივა განავითარონ განახლებული სისტემები; მოდიფიკაციები, რომლებიც საშუალებას აძლევს კონტენტს LAION-ის სფეროს გარეთ ინტეგრირდეს სისტემაში - იდეალურ შემთხვევაში, მთელი მოდელის ხელახლა სწავლების უმართავი ხარჯების გარეშე, ან რისკის გარეშე, რომელიც მოჰყვება ახალი სურათების დიდი მოცულობის სწავლებას არსებულ, სრულწლოვან და შესაძლებლობებს. მოდელი.

ანალოგიით: თუ ორი ნაკლებად ნიჭიერი სტუდენტი შეუერთდება მოწინავე კლასს ოცდაათი სტუდენტისგან, ისინი ან აითვისებენ და მიაღწევენ, ან წარუმატებლობას განიცდიან; ორივე შემთხვევაში, კლასის საშუალო შესრულებაზე ალბათ არ იმოქმედებს. თუმცა, თუ 15 ნაკლებად ნიჭიერი სტუდენტი შეუერთდება, კლასების მრუდი სავარაუდოდ დაზარალდება.

ანალოგიურად, ურთიერთობების სინერგიული და საკმაოდ დელიკატური ქსელი, რომელიც აგებულია მოდელის მდგრად და ძვირადღირებულ ტრენინგზე, შეიძლება იყოს კომპრომეტირებული, ზოგიერთ შემთხვევაში ეფექტურად განადგურდეს გადაჭარბებული ახალი მონაცემებით, რაც ამცირებს მოდელის გამომუშავების ხარისხს მთლიანობაში.

ამის გაკეთების შემთხვევა, პირველ რიგში, არის ის, რომ თქვენი ინტერესი მდგომარეობს იმაში, რომ მოდელის მიერ ურთიერთობებისა და საგნების კონცეპტუალური გაგების სრულად დამალვა და მისი მითვისება იმ კონტენტის ექსკლუზიური წარმოებისთვის, რომელიც მსგავსია თქვენს მიერ დამატებული დამატებითი მასალის მსგავსი.

ამრიგად, ტრენინგი 500,000 XNUMX Simpsons ჩარჩოები არსებულ სტაბილური დიფუზიის საგუშაგოში, სავარაუდოდ, საბოლოოდ, უკეთესს გახდის Simpsons სიმულატორი, ვიდრე ორიგინალური კონსტრუქციის შეთავაზება შეიძლებოდა, ვარაუდით, რომ საკმარისი ფართო სემანტიკური ურთიერთობები გადარჩება პროცესს (ე.ი. ჰომერ სიმპსონი ჭამს ჰოთდოგს, რომელიც შეიძლება მოითხოვდეს მასალას ჰოთ-დოგების შესახებ, რომელიც არ იყო თქვენს დამატებით მასალაში, მაგრამ უკვე არსებობდა საგუშაგოზე) და ვარაუდით, რომ არ გსურთ მოულოდნელად გადართვა Simpsons შინაარსის შექმნა გრეგ რუტკოვსკის ზღაპრული პეიზაჟი – იმიტომ, რომ თქვენს შემდგომ მომზადებულ მოდელს ყურადღება მასიურად გადაიტანა და არ იქნება ისეთი კარგი საქმის კეთებაში, როგორც ადრე იყო.

ამის ერთ-ერთი თვალსაჩინო მაგალითია ვაიფუ-დიფუზია, რომელმაც წარმატებით 56,000 ანიმე სურათის შემდგომი ვარჯიში დასრულებულ და გაწვრთნილ სტაბილური დიფუზიის საგუშაგოში. თუმცა, ეს რთული პერსპექტივაა ჰობისტისთვის, რადგან მოდელი მოითხოვს მინიმუმ 30 GB VRAM-ს, რაც ბევრად აღემატება იმას, რაც სავარაუდოდ ხელმისაწვდომი იქნება სამომხმარებლო დონეზე NVIDIA-ს მომავალ 40XX სერიის გამოშვებებში.

მორგებული კონტენტის ტრენინგი სტაბილურ დიფუზიაში: მოდელს დასჭირდა ორი კვირის შემდგომი ტრენინგი, რათა ამ დონის ილუსტრაცია გამოეტანა. მარცხნივ ექვსი სურათი გვიჩვენებს მოდელის პროგრესს საგანში თანმიმდევრული გამომავალი ახალი სასწავლო მონაცემების საფუძველზე. წყარო: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

მორგებული კონტენტის სწავლება სტაბილურ დიფუზიაში waifu-დიფუზიის საშუალებით: მოდელს დასჭირდა ორი კვირის შემდგომი ტრენინგი, რათა გამოეტანა ამ დონის ილუსტრაცია. მარცხნივ ექვსი სურათი გვიჩვენებს მოდელის პროგრესს, ტრენინგის მიმდინარეობისას, ახალი ტრენინგის მონაცემების საფუძველზე საგნის თანმიმდევრული შედეგის მიღებისას. წყარო: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

დიდი ძალისხმევა შეიძლება დაიხარჯოს სტაბილური დიფუზიის საგუშაგოების ასეთ „ჩანგალებზე“, მხოლოდ ტექნიკური დავალიანების შეფერხების მიზნით. ოფიციალური Discord-ის დეველოპერებმა უკვე აღნიშნეს, რომ შემდგომი საგუშაგოების გამოშვებები სულაც არ იქნება უკან თავსებადი, თუნდაც სწრაფი ლოგიკით, რომელიც შეიძლება მუშაობდეს წინა ვერსიასთან, რადგან მათი მთავარი ინტერესი არის საუკეთესო მოდელის მიღება და არა მხარდაჭერა. მემკვიდრეობითი აპლიკაციები და პროცესები.

ამიტომ კომპანიას ან ინდივიდს, რომელიც გადაწყვეტს საკონტროლო პუნქტის კომერციულ პროდუქტად განშტოებას, უკან დასაბრუნებელი გზა არ აქვს; მოდელის მათი ვერსია, იმ მომენტში, არის „მყარი ჩანგალი“ და ვერ შეძლებენ სარგებლის მიღებას სტაბილურობის შემდგომი გამოშვებებიდან.ai – რაც საკმაოდ ვალდებულებაა.

სტაბილური დიფუზიის პერსონალიზაციის ამჟამინდელი და უფრო დიდი იმედია ტექსტური ინვერსია, სადაც მომხმარებელი ვარჯიშობს მცირე მუჭაში CLIP- გასწორებული სურათები.

თელ-ავივის უნივერსიტეტსა და NVIDIA-ს შორის თანამშრომლობა, ტექსტური ინვერსია იძლევა დისკრეტული და ახალი ერთეულების ტრენინგს, წყაროს მოდელის შესაძლებლობების განადგურების გარეშე. წყარო: https://textual-inversion.github.io/

თელ-ავივის უნივერსიტეტსა და NVIDIA-ს შორის თანამშრომლობა, ტექსტური ინვერსია იძლევა დისკრეტული და ახალი ერთეულების ტრენინგს, წყაროს მოდელის შესაძლებლობების განადგურების გარეშე. წყარო: https://textual-inversion.github.io/

ტექსტური ინვერსიის პირველადი აშკარა შეზღუდვა არის ის, რომ რეკომენდირებულია სურათების ძალიან მცირე რაოდენობა - სულ მცირე ხუთი. ეს ეფექტურად აწარმოებს შეზღუდულ ერთეულს, რომელიც შეიძლება უფრო სასარგებლო იყოს სტილის გადაცემის ამოცანებისთვის, ვიდრე ფოტორეალისტური ობიექტების ჩასმა.

მიუხედავად ამისა, ამჟამად მიმდინარეობს ექსპერიმენტები სხვადასხვა სტაბილური დიფუზიის უთანხმოების ფარგლებში, რომლებიც იყენებენ სავარჯიშო სურათებს გაცილებით დიდ რაოდენობას და ჯერ კიდევ გასარკვევია, რამდენად პროდუქტიული შეიძლება იყოს მეთოდი. ისევ და ისევ, ტექნიკა მოითხოვს დიდ VRAM-ს, დროსა და მოთმინებას.

ამ შემზღუდველი ფაქტორების გამო, შეიძლება დაგჭირდეთ ცოტა ხანი ლოდინი, რათა ვნახოთ უფრო დახვეწილი ტექსტური ინვერსიის ექსპერიმენტები Stable Diffusion-ის ენთუზიასტების მხრიდან – და შეუძლია თუ არა ამ მიდგომას „სურათზე“ ისე, რომ უკეთ გამოიყურებოდეს. Photoshop cut-and-paste, ოფიციალური გამშვები პუნქტების გასაოცარი ფუნქციონირების შენარჩუნებისას.

 

პირველად გამოქვეყნდა 6 წლის 2022 სექტემბერს.