სტუბი ღრმა სწავლის მოდელებს შესაძლოა გაუჭირდეთ ხელოვნური ინტელექტის მიერ გენერირებული სურათების ამოცნობა - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

ღრმა სწავლის მოდელებს შესაძლოა გაუჭირდეთ ხელოვნური ინტელექტის მიერ გენერირებული სურათების ამოცნობა

mm
განახლებულია on

ახალი ნაშრომის დასკვნები მიუთითებს იმაზე, რომ უახლესი ხელოვნური ხელოვნური ინტელექტი მნიშვნელოვნად ნაკლებად ახერხებს ხელოვნური ინტელექტის სინთეზირებული სურათების ამოცნობას და ინტერპრეტაციას, ვიდრე ადამიანებს, რაც შეიძლება შემაშფოთებელი იყოს მომავალ კლიმატში, სადაც მანქანური სწავლების მოდელები სულ უფრო მეტად ივარჯიშებენ სინთეზურ მონაცემებზე. და სადაც სულაც არ იქნება ცნობილი, არის თუ არა მონაცემები „რეალური“ თუ არა.

აქ ჩვენ ვხედავთ resnext101_32x8d_wsl პროგნოზირების მოდელს, რომელიც იბრძვის "bagel" კატეგორიაში. ტესტებში ჩაითვალა, რომ ამოცნობის წარუმატებლობა მოხდა, თუ ძირითადი სამიზნე სიტყვა (ამ შემთხვევაში "bagel") არ იყო წარმოდგენილი პირველ ხუთეულში წინასწარმეტყველურ შედეგებში. წყარო: https://arxiv.org/pdf/2208.10760.pdf

აქ ჩვენ ვხედავთ resnext101_32x8d_wsl პროგნოზირების მოდელს, რომელიც იბრძვის "bagel" კატეგორიაში. ტესტებში ჩაითვალა, რომ ამოცნობის წარუმატებლობა მოხდა, თუ ძირითადი სამიზნე სიტყვა (ამ შემთხვევაში "bagel") არ იყო წარმოდგენილი პირველ ხუთეულში წინასწარმეტყველურ შედეგებში. წყარო: https://arxiv.org/pdf/2208.10760.pdf

ახალმა კვლევამ გამოსცადა კომპიუტერულ ხედვაზე დაფუძნებული ამოცნობის ჩარჩოს ორი კატეგორია: ობიექტების ამოცნობა და ვიზუალური კითხვებზე პასუხის გაცემა.VQA).

მარცხნივ, დასკვნის წარმატებები და წარუმატებლობები ობიექტის ამოცნობის სისტემისგან; მარჯვნივ, VQA ამოცანები, რომლებიც შექმნილია სცენებისა და სურათების ხელოვნური ინტელექტის გაგების უფრო საძიებო და მნიშვნელოვანი გზით გამოსაკვლევად. წყაროები: https://arxiv.org/pdf/2105.05312.pdf და https://arxiv.org/pdf/1505.00468.pdf

მარცხნივ, დასკვნის წარმატებები და წარუმატებლობები ობიექტის ამოცნობის სისტემისგან; მარჯვნივ, VQA ამოცანები, რომლებიც შექმნილია სცენებისა და სურათების ხელოვნური ინტელექტის გაგების უფრო საძიებო და მნიშვნელოვანი გზით გამოსაკვლევად. წყაროები: https://arxiv.org/pdf/2105.05312.pdf და https://arxiv.org/pdf/1505.00468.pdf

ათი უახლესი მოდელიდან ტესტირება კურირებულ მონაცემთა ნაკრებებზე, რომლებიც გენერირებულია გამოსახულების სინთეზის ჩარჩოებით DALL-E2 მდე შუა მოგზაურობასაუკეთესო მოდელმა შეძლო მიაღწიოს მხოლოდ 60% და 80% top-5 სიზუსტეს ორი ტიპის ტესტის დროს, მაშინ როცა ImageNet, გაწვრთნილი არასინთეზურ, რეალურ სამყაროში არსებულ მონაცემებზე, შეუძლია, შესაბამისად, მიაღწიოს 91% და 99% იმავე კატეგორიებში, მაშინ როცა ადამიანის შესრულება, როგორც წესი, მნიშვნელოვნად მაღალია.

ირგვლივ არსებული საკითხების მოგვარება განაწილების ცვლა (ანუ „მოდელის დრიფტი“, სადაც პროგნოზირების მოდელები განიცდიან პროგნოზირების დაქვეითებულ შესაძლებლობებს, როდესაც სასწავლო მონაცემებიდან „რეალურ“ მონაცემებზე გადადიან), ნაშრომში ნათქვამია:

„ადამიანებს შეუძლიათ ამოიცნონ წარმოქმნილი სურათები და უპასუხონ მათ კითხვებს მარტივად. ჩვენ ვასკვნით, რომ ა) ღრმა მოდელები იბრძვიან გენერირებული შინაარსის გასაგებად და შეიძლება უკეთესად იმოქმედონ დაზუსტების შემდეგ, და ბ) არის დიდი გადანაწილება გენერირებულ სურათებსა და რეალურ ფოტოებს შორის. განაწილების ცვლა, როგორც ჩანს, დამოკიდებულია კატეგორიაზე.'

სინთეზური სურათების მოცულობის გათვალისწინებით, რომელიც უკვე დატბორა ინტერნეტში გასული კვირის შემდეგ სენსაციური ღია წყარო ძლევამოსილთა სტაბილური დიფუზია ფარული დიფუზიის სინთეზის მოდელი, ბუნებრივად ჩნდება შესაძლებლობა, რომ „ყალბი“ სურათები შეედინება ინდუსტრიის სტანდარტების მონაცემთა ნაკრებებში, როგორიცაა ჩვეულებრივი სეირნობა, წლების განმავლობაში სიზუსტის ცვალებადობამ შეიძლება მნიშვნელოვნად იმოქმედოს "არარეალურ" სურათებზე.

თუმცა სინთეზური მონაცემები იყო თავბრუდამხვევი როგორც მონაცემთა შიმშილი კომპიუტერული ხედვის კვლევის სექტორის პოტენციური მხსნელი, რომელსაც ხშირად არ გააჩნია რესურსები და ბიუჯეტები ჰიპერმასშტაბიანი კურირებისთვის, სტაბილური დიფუზიის სურათების ახალი ტორენტი (ერთად სინთეზური სურათების ზოგად ზრდასთან ერთად გაჩენის შემდეგ და კომერციალიზაციის of DALL-E2) ნაკლებად სავარაუდოა, რომ ყველას მოჰყვეს მოსახერხებელი ეტიკეტები, ანოტაციები და ჰეშთეგები, რომლებიც განასხვავებენ მათ, როგორც „ყალბს“ იმ მომენტში, როდესაც ხარბი მანქანური ხედვის სისტემები აშორებენ მათ ინტერნეტიდან.

ღია კოდის გამოსახულების სინთეზის ჩარჩოებში განვითარების სიჩქარე მნიშვნელოვნად აჭარბებს ამ სისტემების სურათების კატეგორიზაციის ჩვენს უნარს, რამაც გამოიწვია მზარდი ინტერესი "ყალბი გამოსახულების" გამოვლენის მიმართ სისტემები, მსგავსი ღრმა ფეიკის გამოვლენა სისტემები, მაგრამ ევალება მთლიანი სურათების შეფასება და არა სახეების მონაკვეთები.

ის ახალი ქაღალდი სახელდება რამდენად კარგია ღრმა მოდელები გენერირებული სურათების გაგებაში?, და მოდის სან-ფრანცისკოს მანქანათმცოდნეობის სტარტაპის Quintic AI-დან ალი ბორჯიდან.

თარიღი

კვლევა წინ უსწრებს სტაბილური დიფუზიის გამოშვებას და ექსპერიმენტები იყენებს DALL-E 2-ისა და Midjourney-ის მიერ გენერირებულ მონაცემებს 17 კატეგორიაში, მათ შორის სპილო, სოკო, პიცა, პრეტელზე, ტრაქტორი მდე კურდღელი.

სურათების მაგალითები, რომლიდანაც გამოწვეულ იქნა გამოცდილი ამოცნობის და VQA სისტემები ყველაზე მნიშვნელოვანი საკვანძო კონცეფციის დასადგენად.

სურათების მაგალითები, რომლიდანაც გამოწვეულ იქნა გამოცდილი ამოცნობის და VQA სისტემები ყველაზე მნიშვნელოვანი საკვანძო კონცეფციის დასადგენად.

სურათები იქნა მიღებული ვებ ძიების და Twitter-ის მეშვეობით და DALL-E 2-ის პოლიტიკის შესაბამისად (მინიმუმ, დროზე), არ მოიცავდა სურათებს ადამიანის სახეებით. შეირჩა მხოლოდ კარგი ხარისხის სურათები, რომლებიც ცნობადია ადამიანებისთვის.

დამუშავებული იყო სურათების ორი ნაკრები, თითო ობიექტის ამოცნობისა და VQA ამოცანებისთვის.

ობიექტების ამოცნობისთვის თითოეულ შემოწმებულ კატეგორიაში არსებული სურათების რაოდენობა.

ობიექტების ამოცნობისთვის თითოეულ შემოწმებულ კატეგორიაში არსებული სურათების რაოდენობა.

ობიექტის ამოცნობის ტესტირება

ობიექტების ამოცნობის ტესტებისთვის, ტესტირება ჩატარდა ათი მოდელი, ყველა მომზადებული ImageNet-ზე: ალექსნეტი, ResNet152, MobileNetV2, დენსნეტი, ResNext, GoogleNet, ResNet101, Inception_V3, დეიტდა ResNext_WSL.

ტესტირებული სისტემების ზოგიერთი კლასი იყო უფრო მარცვლოვანი, ვიდრე სხვები, რაც საჭიროებდა საშუალო მიდგომების გამოყენებას. მაგალითად, ImageNet შეიცავს სამ კლასს, რომლებიც ინარჩუნებენ „საათებს“ და საჭირო იყო რაიმე სახის საარბიტრაჟო მეტრიკის განსაზღვრა, სადაც ნებისმიერი ტიპის „საათი“ ჩართვა საუკეთესო ხუთეულში მიღებულ ეტიკეტებში ნებისმიერი სურათისთვის მიიჩნეოდა წარმატებულად. იმ შემთხვევაში.

თითო მოდელის შესრულება 17 კატეგორიაში.

თითო მოდელის შესრულება 17 კატეგორიაში.

ამ რაუნდში ყველაზე წარმატებული მოდელი იყო resnext101_32x8d_ws, რომელმაც მიაღწია თითქმის 60%-ს ტოპ-1-ისთვის (ანუ დრო, როდესაც მისი სასურველი პროგნოზი ხუთი ვარაუდიდან იყო სწორი კონცეფცია, რომელიც გამოსახული იყო სურათზე), და 80% ხუთეულში ( ე.ი. სასურველი კონცეფცია მაინც იყო სადღაც ჩამოთვლილი მოდელის ხუთ ვარაუდში სურათის შესახებ).

ავტორი ვარაუდობს, რომ ამ მოდელის კარგი შესრულება განპირობებულია იმით, რომ იგი გაწვრთნილი იყო ჰეშთეგების სუსტად ზედამხედველობით პროგნოზირებისთვის სოციალურ მედია პლატფორმებზე. თუმცა, ეს წამყვანი შედეგები, ავტორი აღნიშნავს, მნიშვნელოვნად ჩამორჩება იმას, რისი მიღწევაც ImageNet-ს შეუძლია რეალურ მონაცემებზე, ანუ 91% და 99%. ის ვარაუდობს, რომ ეს გამოწვეულია ImageNet სურათების (რომლებიც ასევე ამოღებულია ინტერნეტიდან) განაწილებასა და გენერირებულ სურათებს შორის.

სისტემისთვის ხუთი ყველაზე რთული კატეგორია, სირთულის მიხედვით, იყო ქაიტი, კუს, squirrel, სათვალე მდე ჩაფხუტი. გაზეთი აღნიშნავს, რომ ქაიტი კლასი ხშირად დაბნეულია ბუშტი, parachute მდე ქოლგა, თუმცა ეს განსხვავებები ტრივიალურად ადვილია ადამიანის დამკვირვებლებისთვის ინდივიდუალურად.

გარკვეული კატეგორიები, მათ შორის ქაიტი მდე კუს, გამოიწვია უნივერსალური მარცხი ყველა მოდელში, ხოლო სხვები (განსაკუთრებით პრეტელზე მდე ტრაქტორი) გამოიწვია თითქმის უნივერსალური წარმატება ტესტირებულ მოდელებში.

პოლარიზებული კატეგორიები: არჩეული ზოგიერთი სამიზნე კატეგორიის ან მელა იყო ყველა მოდელი, ან სხვაგვარად იყო საკმაოდ მარტივი იდენტიფიცირება ყველა მოდელისთვის.

პოლარიზებული კატეგორიები: არჩეული ზოგიერთი სამიზნე კატეგორიის ან მელა იყო ყველა მოდელი, ან სხვაგვარად იყო საკმაოდ მარტივი იდენტიფიცირება ყველა მოდელისთვის.

ავტორები ამტკიცებენ, რომ ეს დასკვნები მიუთითებს, რომ ობიექტების ამოცნობის ყველა მოდელს შეიძლება ჰქონდეს მსგავსი ძლიერი და სუსტი მხარეები.

ტესტირება ვიზუალური კითხვაზე პასუხი

შემდეგ, ავტორმა გამოსცადა VQA მოდელები ღია და თავისუფალი ფორმის VQA-ზე, ორობითი კითხვებით (ანუ კითხვები, რომლებზეც პასუხი შეიძლება იყოს მხოლოდ „დიახ“ ან „არა“). ნაშრომში აღნიშნულია, რომ უახლესი თანამედროვე VQA მოდელებს შეუძლიათ მიაღწიონ 95% სიზუსტეს. VQA-v2 მონაცემთა ნაკრები.

ტესტირების ამ ეტაპისთვის ავტორმა მოამზადა 50 სურათი და ჩამოაყალიბა 241 კითხვა მათ გარშემო, რომელთაგან 132-ს დადებითი პასუხი ჰქონდა, 109-ს კი უარყოფითი. კითხვის საშუალო სიგრძე იყო 5.12 სიტყვა.

ამ რაუნდმა გამოიყენა OFA მოდელი, ამოცანის აგნოსტიკურ და მოდალობა-აგნოსტიკურ ჩარჩოს ამოცანის ყოვლისმომცველობის შესამოწმებლად და ახლახან იყო წამყვანი ბომბარდირი VQA-v2 test-std ნაკრები. OFA-მ დააგროვა 77.27% სიზუსტე გენერირებულ სურათებზე, ვიდრე საკუთარ 94.7% ქულას VQA-v2 test-std ნაკრებში.

კითხვების და შედეგების მაგალითები ტესტების VQA განყოფილებიდან. "GT" არის "ძირითადი სიმართლე", ანუ სწორი პასუხი.

კითხვების და შედეგების მაგალითები ტესტების VQA განყოფილებიდან. "GT" არის "ძირითადი სიმართლე", ანუ სწორი პასუხი.

ნაშრომის ავტორი ვარაუდობს, რომ მიზეზი შეიძლება იყოს ის, რომ გენერირებული სურათები შეიცავს სემანტიკურ ცნებებს, რომლებიც არ არის VQA-v2 მონაცემთა ნაკრებიდან და რომ VQA ტესტებისთვის დაწერილი კითხვები შეიძლება იყოს უფრო რთული VQA-v2 კითხვების ზოგადი სტანდარტისთვის, თუმცა ის თვლის, რომ წინა მიზეზი უფრო სავარაუდოა.

LSD მონაცემთა ნაკადში?

აზრის ხელოვნური ინტელექტის სინთეზირებული გამოსახულების ახალმა გავრცელებამ, რომელსაც შეუძლია წარმოადგინოს ბუნებაში არარსებული ძირითადი ცნებების მყისიერი კავშირი და აბსტრაქციები, და რომელთა წარმოებაც აკრძალულად შრომატევადი იქნება ჩვეულებრივი მეთოდებით, შეიძლება წარმოადგენდეს განსაკუთრებულ პრობლემას სუსტად ზედამხედველობითი მონაცემებისთვის. შეგროვების სისტემები, რომლებიც შეიძლება ვერ მოხერხდეს წარუმატებლად - ძირითადად იმიტომ, რომ ისინი არ იყო შექმნილი მაღალი მოცულობის, არალეიბლინგი სინთეტიკური მონაცემებისთვის.

ასეთ შემთხვევებში შეიძლება არსებობდეს რისკი იმისა, რომ ეს სისტემები "უცნაური" სინთეზური სურათების პროცენტულ ნაწილს არასწორ კლასებად გადაანაწილებენ მხოლოდ იმიტომ, რომ გამოსახულებები ასახავს განსხვავებულ ობიექტებს, რომლებიც რეალურად არ ეკუთვნის ერთმანეთს.

„ცხენზე ამხედრებული ასტრონავტი“ ალბათ გახდა ყველაზე ემბლემური ვიზუალი ახალი თაობის გამოსახულების სინთეზის სისტემებისთვის - მაგრამ ეს „არარეალური“ ურთიერთობები შეიძლება შევიდეს რეალურ აღმოჩენის სისტემებში, თუ არ იქნება ზრუნვა. წყარო: https://twitter.com/openai/status/1511714545529614338?lang=en

„ცხენზე ამხედრებული ასტრონავტი“ ალბათ გახდა ყველაზე ემბლემური ვიზუალი ახალი თაობის გამოსახულების სინთეზის სისტემებისთვის - მაგრამ ეს „არარეალური“ ურთიერთობები შეიძლება შევიდეს რეალურ აღმოჩენის სისტემებში, თუ არ იქნება ზრუნვა. წყარო: https://twitter.com/openai/status/1511714545529614338?lang=en

თუ ამის თავიდან აცილება შეუძლებელია ტრენინგის დაწყებამდე წინასწარი დამუშავების ეტაპზე, ასეთმა ავტომატიზებულმა მილსადენებმა შეიძლება გამოიწვიოს წარმოუდგენელი ან თუნდაც გროტესკული ასოციაციების სწავლება მანქანათმცოდნეობის სისტემებში, მათი ეფექტურობის დაქვეითება და მაღალი დონის ასოციაციების გადაცემის რისკი ქვედა დინების სისტემებსა და ქვეკლასებში. და კატეგორიები.

ალტერნატიულად, განცალკევებულ სინთეზურ გამოსახულებებს შეიძლება ჰქონდეთ „გამაცივებელი ეფექტი“ შემდგომი სისტემების სიზუსტეზე, იმ შემთხვევაში, თუ ახალი ან შეცვლილი არქიტექტურები უნდა გამოჩნდეს, რომლებიც ცდილობდნენ ახსნას. დროებითი სინთეზური გამოსახულება და ძალიან ფართო ბადე.

ნებისმიერ შემთხვევაში, სინთეზური გამოსახულება პოსტ სტაბილური დიფუზიის ეპოქაში შეიძლება აღმოჩნდეს თავის ტკივილი კომპიუტერული ხედვის კვლევის სექტორისთვის, რომლის ძალისხმევით შესაძლებელი გახდა ეს უცნაური ქმნილებები და შესაძლებლობები - განსაკუთრებით იმიტომ, რომ ეს საფრთხეს უქმნის სექტორის იმედს, რომ მონაცემთა შეგროვება და დამუშავება შეიძლება. საბოლოოდ იყოს ბევრად უფრო ავტომატიზირებული, ვიდრე ამჟამად არის და გაცილებით ნაკლებად ძვირი და შრომატევადი.

 

პირველად გამოქვეყნდა 1 წლის 2022 სექტემბერს.