ხელოვნური ინტელექტი

როგორ გავიგოთ, როდის აწარმოებენ გამოსახულების სინთეზის სისტემები ნამდვილ „ორიგინალურ“ მასალას

განახლებულია on დეკემბერი 9, 2022

"ტედი დათვები მუშაობენ 1990-იანი წლების ტექნოლოგიით წყალქვეშა ხელოვნური ინტელექტის ახალ კვლევაზე" - წყარო: https://www.creativeboom.com/features/meet-dall-e/

სამხრეთ კორეაში ჩატარებულმა ახალმა კვლევამ შესთავაზა მეთოდი იმის დასადგენად, აწარმოებენ თუ არა გამოსახულების სინთეზის სისტემები ჭეშმარიტად ახალ სურათებს, თუ "მცირე" ვარიანტებს სასწავლო მონაცემებზე, რომლებიც პოტენციურად ამარცხებენ ასეთი არქიტექტურის მიზანს (როგორიცაა ახალი და ორიგინალური სურათების წარმოება). .

ძალიან ხშირად, სტატიაში ვარაუდობენ, რომ ეს უკანასკნელი მართალია, რადგან არსებული მეტრიკა, რომელსაც ასეთი სისტემები იყენებენ თავიანთი გენერაციული შესაძლებლობების გასაუმჯობესებლად ტრენინგის განმავლობაში, იძულებულნი არიან უპირატესობა მიანიჭონ სურათებს, რომლებიც შედარებით ახლოს არიან მონაცემთა ნაკრების წყაროს (არაყალბი) სურათებთან. .

ყოველივე ამის შემდეგ, თუ გენერირებული გამოსახულება „ვიზუალურად ახლოს“ არის წყაროს მონაცემებთან, ის აუცილებლად მიიღებს უკეთეს ქულებს „ავთენტურობას“ ვიდრე „ორიგინალობას“, რადგან ის არის „ერთგული“ - თუ არ არის შთაგონებული.

სექტორში, რომელიც ზედმეტად ახალშობილს და არ უცდია, რომ მისი სამართლებრივი შედეგები ჯერ არ არის ცნობილი, ეს შეიძლება აღმოჩნდება მნიშვნელოვანი სამართლებრივი საკითხი, თუ აღმოჩნდა, რომ კომერციული სინთეზური გამოსახულების კონტენტი საკმარისად არ განსხვავდება საავტორო უფლებებით დაცული (ხშირად) წყაროს მასალისგან, რომელიც ამჟამად არის ნებადართულია პერფუზიის კვლევითი სექტორი პოპულარული ვებ-ნაწერი მონაცემთა ნაკრების სახით (ამ ტიპის დარღვევის შესახებ სამომავლო პრეტენზიების პოტენციალი აქვს საკმაოდ ცოტა ხნის წინ გახდა ცნობილი Microsoft-ის GitHub Co-Pilot AI-სთან დაკავშირებით).

მზარდი თანმიმდევრული და სემანტიკურად ძლიერი გამომავალი სისტემებისგან, როგორიცაა OpenAI DALL-E2, Google-ის გამოსახულებადა ჩინეთის CogView რელიზები (ისევე როგორც ქვედა სპეციფიური DALL-E მინი), ძალიან ცოტაა პოსტის ფაქტი გენერირებული გამოსახულების ორიგინალობის საიმედოდ ტესტირების გზები.

მართლაც, ახალი DALL-E 2-ის ზოგიერთი ყველაზე პოპულარული სურათის ძიება ხშირად იწვევს იმავე სურათების შემდგომ მაგალითებს, საძიებო სისტემიდან გამომდინარე.

სრული 9-სურათიანი DALL-E 2 გამომავალი ჯგუფის ატვირთვა იწვევს მხოლოდ DALL-E 2-ის სხვა გამომავალ ჯგუფებს. პირველი სურათის განცალკევება და ატვირთვა (8 წლის 2022 ივნისის ამ Twitter-ის პოსტიდან, „უცნაური Dall-E თაობების“ ანგარიშიდან) იწვევს Google-ს აფიქსირებს კალათბურთს სურათზე, სურათზე დაფუძნებული ძიება სემანტიკურ ჩიხში. იგივე გამოსახულებაზე დაფუძნებული ძიებისთვის, Yandex, როგორც ჩანს, მაინც აკეთებს რეალურ პიქსელზე დაფუძნებულ დეკონსტრუქციას და ფუნქციების შესატყვისს.

სრული 9-სურათიანი DALL-E 2 გამომავალი ჯგუფის ატვირთვა მხოლოდ უფრო მეტ DALL-E 2 გამომავალ ჯგუფს მივყავართ, რადგან ბადის სტრუქტურა ყველაზე ძლიერი ფუნქციაა. პირველი სურათის გამოყოფა და ატვირთვა (დან ეს Twitter პოსტი 8 წლის 2022 ივნისს, „უცნაური Dall-E თაობების“ ანგარიშიდან) აიძულებს Google-ს დააფიქსიროს კალათბურთის ბურთი სურათზე, სურათზე დაფუძნებული ძიება სემანტიკურ ჩიხში. იგივე გამოსახულებაზე დაფუძნებული ძიებისთვის, Yandex, როგორც ჩანს, მაინც აკეთებს რეალურ პიქსელზე დაფუძნებულ დეკონსტრუქციას და ფუნქციების შესატყვისს.

თუმცა Yandex უფრო სავარაუდოა, რომ ვიდრე Google Search გამოიყენებს რეალურს მახასიათებლები (ანუ გამოსახულება მიღებული/გამოთვლილია მახასიათებლები, არ არის აუცილებელი ადამიანების სახის ნაკვთები) და ვიზუალური წარმოდგენილი სურათის (და არა სემანტიკური) მახასიათებლები მსგავსი სურათების საპოვნელად, ყველა სურათზე დაფუძნებულ საძიებო სისტემას აქვს რაიმე სახის დღის წესრიგი ან პრაქტიკა რამაც შეიძლება გაართულოს შემთხვევების იდენტიფიცირება წყარო> გენერირებული პლაგიატი ვებ ძიების საშუალებით.

გარდა ამისა, გენერაციული მოდელის ტრენინგის მონაცემები შეიძლება არ იყოს საჯაროდ ხელმისაწვდომი, რაც შემდგომში აფერხებს გენერირებული სურათების ორიგინალურობის სასამართლო ექსპერტიზას.

საინტერესოა, რომ სურათზე დაფუძნებული ვებ ძიების შესრულება Google-ის მიერ გამორჩეულ ერთ-ერთ სინთეზურ სურათზე. გამოყოფილი Imagen საიტი აბსოლუტურად ვერაფერს ვერ პოულობს გამოსახულების საგანთან შესადარებლად, იმ თვალსაზრისით, რომ რეალურად უყურებს სურათს და მიუკერძოებლად ეძებს მსგავს სურათებს. უფრო მეტიც, სემანტიკურად დაფიქსირებული, როგორც არასდროს, Google Image ძიების შედეგები ამ Imagen სურათისთვის არ იძლევა სურათის სუფთა სურათზე დაფუძნებულ ვებ ძიებას საძიებო ტერმინების "imagen google" დამატებით (და შემზღუდველ) პარამეტრად დამატების გარეშე:

Yandex, პირიქით, პოულობს უამრავ მსგავს (ან თუნდაც ვიზუალურად დაკავშირებულ) რეალურ სამყაროში არსებულ სურათებს სამოყვარულო მხატვრული საზოგადოებისგან:

ზოგადად, უკეთესი იქნება, თუ გამოსახულების სინთეზის სისტემების სიახლის ან ორიგინალურობის გაზომვა შესაძლებელი იქნებოდა, მოდელის მომზადების დროს ინტერნეტში არსებული ყველა შესაძლო ვებ გამოსახულების ფუნქციების ამოღების საჭიროების გარეშე, ან არასაჯარო მონაცემთა ნაკრებებში, რომლებიც შესაძლოა იყენებდნენ საავტორო უფლებებით დაცულ მასალას.

ამ საკითხთან დაკავშირებით, კორეის მეცნიერებისა და ტექნოლოგიების ინსტიტუტის (KAIST AI) Kim Jaechul Graduate School-ის AI-ის მკვლევარები თანამშრომლობდნენ გლობალურ ICT და საძიებო კომპანია NAVER Corp-თან, რათა განავითარონ იშვიათობის ქულა რაც დაგეხმარებათ გამოსახულების სინთეზის სისტემების უფრო ორიგინალური ქმნილებების იდენტიფიცირებაში.

სურათები აქ გენერირდება StyleGAN-FFHQ-ის საშუალებით. მარცხნიდან მარჯვნივ, სვეტები მიუთითებს ყველაზე ცუდიდან საუკეთესო შედეგებამდე. ჩვენ ვხედავთ, რომ "Truncation trick" მეტრიკას (იხ. ქვემოთ) და რეალიზმის მეტრიკას აქვთ საკუთარი დღის წესრიგი, ხოლო ახალი "Rarity" ქულა (ზედა მწკრივი) ეძებს თანმიმდევრულ, მაგრამ ორიგინალურ გამოსახულებებს (და არა უბრალოდ შეკრულ გამოსახულებებს). ვინაიდან ამ სტატიაში არის გამოსახულების ზომის შეზღუდვები, გთხოვთ, იხილოთ საწყისი ქაღალდი უკეთესი დეტალებისა და გარჩევადობისთვის. წყარო: https://arxiv.org/pdf/2206.08549.pdf

ახალი ქაღალდი სახელდება იშვიათობის ქულა: ახალი მეტრიკა სინთეზირებული სურათების არაჩვეულებრივობის შესაფასებლად, და მოდის KAIST-ის სამი მკვლევარისგან და სამი NAVER Corp.

"იაფი ხრიკის" მიღმა

წინა მეტრიკებს შორის, რომელთა გაუმჯობესებასაც ახალი ნაშრომი ცდილობს, არის "Truncation trick" შესთავაზა 2019 გაერთიანებული სამეფოს Heriot-Watt University-ისა და Google-ის DeepMind-ის თანამშრომლობით.

Truncation Trick არსებითად იყენებს განსხვავებულ ლატენტურ განაწილებას სინჯის აღებისთვის, ვიდრე გამოიყენებოდა გენერაციული მოდელის ტრენინგისთვის.

მკვლევარები, რომლებმაც შეიმუშავეს ეს მეთოდი, გაკვირვებულები იყვნენ, რომ ის მუშაობდა, მაგრამ თავდაპირველ ნაშრომში აღიარებენ, რომ ის ამცირებს გენერირებული პროდუქტის მრავალფეროვნებას. მიუხედავად ამისა, Truncation Trick გახდა ეფექტური და პოპულარული, იმ კონტექსტში, რაც შეიძლება ხელახლა იყოს აღწერილი, როგორც "იაფი ხრიკი" ავთენტური გარეგნობის შედეგების მისაღებად, რომლებიც რეალურად არ ითვისებენ მონაცემებს თანდაყოლილ ყველა შესაძლებლობას და შესაძლოა. სასურველზე მეტად ემსგავსება წყაროს მონაცემებს.

რაც შეეხება Truncation Trick-ს, ახალი ნაშრომის ავტორები აკვირდებიან:

„[ის] გამიზნულია არა იშვიათი ნიმუშების შესაქმნელად სასწავლო მონაცემთა ნაკრებებში, არამედ ტიპიური სურათების უფრო სტაბილურად სინთეზირებისთვის. ჩვენ ვარაუდობთ, რომ არსებული გენერაციული მოდელები შეძლებენ უფრო მდიდარი ნიმუშების წარმოებას რეალური მონაცემების განაწილებით, თუ გენერატორი შეიძლება აიძულოს, რომ ეფექტურად აწარმოოს იშვიათი ნიმუშები.'

ზოგადი ტენდენციიდან, რომ დაეყრდნოთ ტრადიციულ მეტრებს, როგორიცაა Frechet Inception Distance (FID, რომელიც მწვავე კრიტიკის ქვეშ მოექცა 2021 წლის დეკემბერში, საწყისი ქულა (IS) და ბირთვის საწყისი მანძილი (KID), როგორც „პროგრესის ინდიკატორები“ გენერაციული მოდელის ტრენინგის დროს, ავტორები შემდგომ კომენტარს აკეთებენ*:

ეს სწავლის სქემა იწვევს გენერატორს არ მოახდინოს სინთეზირება ძალიან იშვიათი ნიმუშები, რომლებიც უნიკალურია და აქვთ ძლიერი მახასიათებლები, რომლებიც არ ითვალისწინებენ სურათების რეალური განაწილების დიდ ნაწილს. იშვიათი ნიმუშების მაგალითები საჯარო მონაცემთა ნაკრებიდან მოიცავს ადამიანებს სხვადასხვა აქსესუარებით FFHQ, თეთრი ცხოველები AFHQ-შიდა იშვიათი ქანდაკებები Metfaces-ში.

იშვიათი ნიმუშების გენერირების უნარი მნიშვნელოვანია არა მხოლოდ იმიტომ, რომ ეს დაკავშირებულია გენერაციული მოდელების ზღვრულ შესაძლებლობებთან, არამედ იმიტომაც, რომ უნიკალურობა მნიშვნელოვან როლს ასრულებს ისეთ კრეატიულ აპლიკაციებში, როგორიცაა ვირტუალური ადამიანები.

თუმცა, რამდენიმე ბოლო კვლევის თვისებრივი შედეგები იშვიათად შეიცავს ამ იშვიათ მაგალითებს. ჩვენ ვვარაუდობთ, რომ საპირისპირო სწავლების სქემის ბუნება აიძულებს შექმნას გამოსახულების განაწილება ტრენინგის მონაცემთა ნაკრების მსგავსი. ამრიგად, მკაფიო ინდივიდუალობის ან იშვიათი გამოსახულებები მხოლოდ მცირე როლს იღებენ მოდელების მიერ სინთეზირებულ სურათებში.'

ტექნიკა

მკვლევართა ახალი Rarity Score ადაპტირდება იდეაში წარმოდგენილი ადრე მუშაობს - გამოყენება K- უახლოესი მეზობლები (KNNs) გამოსახულების სინთეზის სისტემაში ნამდვილი (სავარჯიშო) და სინთეზური (გამომავალი) მონაცემების მასივების წარმოსაჩენად.

ანალიზის ამ ახალი მეთოდის შესახებ, ავტორები ამტკიცებენ:

„ჩვენ ვვარაუდობთ, რომ ჩვეულებრივი ნიმუშები უფრო ახლოს იქნებიან ერთმანეთთან, ხოლო უნიკალური და იშვიათი ნიმუშები იშვიათად განთავსდება ფუნქციურ სივრცეში.

შედეგების ზემოთ მოცემული სურათი გვიჩვენებს უახლოეს მეზობელ დისტანციებს (NND) უდიდესამდე, StyleGAN არქიტექტურაში FFHQ.

'ყველა მონაცემთა ნაკრებისთვის, ნიმუშები ყველაზე პატარა NND-ებით აჩვენებს წარმომადგენლობით და ტიპურ სურათებს. პირიქით, ყველაზე დიდი NND-ის მქონე ნიმუშებს აქვთ ძლიერი ინდივიდუალობა და მნიშვნელოვნად განსხვავდებიან ტიპიური სურათებისგან ყველაზე პატარა NND-ებით.'

თეორიულად, ამ ახალი მეტრიკის, როგორც დისკრიმინატორის გამოყენებით, ან თუნდაც მისი უფრო რთულ დისკრიმინატორულ არქიტექტურაში ჩართვით, გენერაციული სისტემა შეიძლება განადგურდეს სუფთა იმიტაციისგან უფრო გამომგონებლური ალგორითმისკენ, ამასთან, შეინარჩუნოს ცნებების არსებითი თანხვედრა, რომელიც შეიძლება იყოს კრიტიკული. ავთენტური გამოსახულების წარმოებისთვის (ე.ი "კაცი", "ქალი", 'მანქანა', "ეკლესია", და ა.შ.).

შედარება და ექსპერიმენტები

ტესტებში, მკვლევარებმა ჩაატარეს Rarity Score-ის მუშაობის შედარება როგორც Truncation Trick-ის, ისე NVIDIA-ს 2019 წლის წინააღმდეგ. რეალიზმის ქულა, და აღმოაჩინა, რომ სხვადასხვა ჩარჩოებსა და მონაცემთა ნაკრებებში, მიდგომას შეუძლია "უნიკალური" შედეგების ინდივიდუალურობა.

მიუხედავად იმისა, რომ ნაშრომში წარმოდგენილი შედეგები ზედმეტად ვრცელია აქ ჩასართავად, მკვლევარებმა, როგორც ჩანს, აჩვენეს ახალი მეთოდის უნარი, გამოავლინოს იშვიათობა როგორც წყაროს (რეალურ) ასევე გენერირებულ (ყალბ) სურათებში გენერაციულ პროცედურაში:

აირჩიეთ მაგალითები ნაშრომში რეპროდუცირებული ვრცელი ვიზუალური შედეგებიდან (დამატებითი ინფორმაციისთვის იხილეთ წყაროს URL ზემოთ). მარცხნივ, ნამდვილი მაგალითები FFHQ-დან, რომლებსაც აქვთ ძალიან ცოტა ახლო მეზობლები (ანუ ახალი და უჩვეულო) თავდაპირველ მონაცემთა ბაზაში; მარჯვნივ, StyleGAN-ის მიერ გენერირებული ყალბი სურათები, რომლებიც ახალმა მეტრულმა გამოავლინა, როგორც ნამდვილად ახალი. ვინაიდან ამ სტატიაში არის გამოსახულების ზომის შეზღუდვები, გთხოვთ, იხილოთ საწყისი ქაღალდი უკეთესი დეტალებისა და გარჩევადობისთვის.

Rarity Score-ის ახალი მეტრიკა არა მხოლოდ იძლევა შესაძლებლობას იდენტიფიცირდეს „ახალი“ გენერაციული გამომავალი ერთ არქიტექტურაში, არამედ, მკვლევარების მტკიცებით, იძლევა შედარების საშუალებას სხვადასხვა და განსხვავებული არქიტექტურის გენერაციულ მოდელებს შორის (მაგ. autoencoder, VAE, GAN და ა.შ.). ).

ნაშრომი აღნიშნავს, რომ Rarity Score განსხვავდება წინა მეტრიკებისგან გენერაციული ჩარჩოს უნარზე, შექმნას უნიკალური და იშვიათი სურათები, განსხვავებით „ტრადიციული“ მეტრიკებისგან, რომლებიც (უფრო მიოპიურად) იკვლევენ მრავალფეროვნებას თაობებს შორის მოდელის მომზადების დროს.

შეზღუდული ამოცანების მიღმა

მიუხედავად იმისა, რომ ახალი ნაშრომის მკვლევარებმა ჩაატარეს ტესტები შეზღუდული დომენის ჩარჩოებზე (როგორიცაა გენერატორი/მონაცემთა ნაკრების კომბინაციები, რომლებიც შექმნილია ადამიანების ან კატების სპეციალურად გამოსახულების შესაქმნელად), იშვიათობის ქულა შეიძლება გამოყენებულ იქნას ნებისმიერი თვითნებური სურათის სინთეზის პროცედურაზე, სადაც სასურველია გამოვავლინოთ გენერირებული მაგალითები, რომლებიც იყენებენ გაწვრთნილი მონაცემებიდან მიღებულ დისტრიბუციას, ნაცვლად იმისა, რომ გაზარდონ ავთენტურობა (და შემცირდეს მრავალფეროვნება) უცხო ლატენტური დისტრიბუციების ჩარევით, ან დაეყრდნონ სხვა „მალსახებს“, რომლებიც არღვევენ სიახლეს ავთენტურობის სასარგებლოდ.

ფაქტობრივად, ასეთ მეტრულს შეუძლია განასხვავოს მართლაც ახალი გამომავალი ინსტანციები ისეთ სისტემებში, როგორიცაა DALL-E სერია, გამოვლენილი მანძილის გამოყენებით აშკარა „განსხვავებულ“ შედეგს, ტრენინგის მონაცემებს და ანალოგიურ მოთხოვნებსა თუ შეყვანის შედეგებს შორის (მაგ. სურათი - დაფუძნებული მოთხოვნები).

პრაქტიკაში, და იმის მკაფიო გაგების არარსებობის პირობებში, თუ რამდენად აითვისა სისტემამ ვიზუალური და სემანტიკური ცნებები (ხშირად შეფერხებულია ტრენინგის მონაცემების შესახებ შეზღუდული ცოდნით), ეს შეიძლება იყოს ეფექტური მეთოდი ნამდვილი მომენტის იდენტიფიცირებისთვის. შთაგონება' გენერაციულ სისტემაში - წერტილი, როდესაც შეყვანის ცნებებისა და მონაცემების ადეკვატური რაოდენობა იწვევს რაღაც ჭეშმარიტად გამომგონებელს, ნაცვლად რაღაც ზედმეტად წარმოებული ან წყაროსთან ახლოს.

* ავტორის შიდა ციტატების ჩემი გადაყვანა ჰიპერბმულებზე.

პირველად გამოქვეყნდა 20 წლის 2022 ივნისს.

შემდეგი

ახალი მეთოდი ეხმარება თვითმართველ მანქანებს „მოგონებების“ შექმნაში

არ გამოტოვოთ

ინჟინრები ქმნიან დაწყობად და კონფიგურირებად AI ჩიპს

მარტინ ანდერსონი

მწერალი მანქანათმცოდნეობის, ხელოვნური ინტელექტისა და დიდი მონაცემების შესახებ.
პირადი საიტი: მარტინადერსონი.აი
კონტაქტი: [ელ.ფოსტით დაცულია]
Twitter: @manders_ai