სტუბი ვიზუალური ავტორეგრესიული მოდელირება: გამოსახულების მასშტაბირებადი გენერაცია შემდეგი მასშტაბის პროგნოზის საშუალებით - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

ვიზუალური ავტორეგრესიული მოდელირება: გამოსახულების მასშტაბირებადი გენერაცია შემდეგი მასშტაბის პროგნოზის საშუალებით

mm

გამოქვეყნებულია

 on

ვიზუალური ავტორეგრესიული მოდელირება: გამოსახულების მასშტაბირებადი გენერაცია შემდეგი მასშტაბის პროგნოზის საშუალებით

GPT მოდელების გამოჩენამ, სხვა ავტორეგრესიულ ან AR დიდ ენობრივ მოდელებთან ერთად, ახალი ეპოქა გაშალა მანქანური სწავლისა და ხელოვნური ინტელექტის სფეროში. GPT და ავტორეგრესიული მოდელები ხშირად ავლენენ ზოგად ინტელექტს და მრავალფეროვნებას, რაც განიხილება, როგორც მნიშვნელოვანი ნაბიჯი ზოგადი ხელოვნური ინტელექტისკენ ან AGI-სკენ, მიუხედავად იმისა, რომ აქვთ ისეთი პრობლემები, როგორიცაა ჰალუცინაციები. თუმცა, ამ დიდი მოდელების დამაბნეველი პრობლემა არის თვითკონტროლირებადი სწავლის სტრატეგია, რომელიც საშუალებას აძლევს მოდელს წინასწარ განსაზღვროს შემდეგი ნიშანი თანმიმდევრობით, მარტივი, მაგრამ ეფექტური სტრატეგია. ბოლო სამუშაოებმა აჩვენა ამ დიდი ავტორეგრესიული მოდელების წარმატება, ხაზს უსვამს მათ განზოგადებას და მასშტაბურობას. მასშტაბურობა არის სკალირების არსებული კანონების ტიპიური მაგალითი, რომელიც მკვლევარებს საშუალებას აძლევს იწინასწარმეტყველონ დიდი მოდელის შესრულება მცირე მოდელების შესრულებისგან, რაც გამოიწვევს რესურსების უკეთეს განაწილებას. მეორე მხრივ, განზოგადებადობა ხშირად დასტურდება სწავლის სტრატეგიებით, როგორიცაა ნულოვანი გასროლით, ერთი დარტყმით და რამდენიმე დარტყმით სწავლა, რაც ხაზს უსვამს არაკონტროლირებადი, მაგრამ გაწვრთნილი მოდელების უნარს, მოერგოს მრავალფეროვან და უხილავ ამოცანებს. განზოგადებადობა და მასშტაბურობა ერთად ავლენს ავტორეგრესიული მოდელების პოტენციალს, ისწავლონ არალეგირებული მონაცემების დიდი რაოდენობით. 

იმავეზე დაყრდნობით, ამ სტატიაში ვისაუბრებთ Visual AutoRegressive ან VAR ჩარჩოზე, ახალი თაობის შაბლონზე, რომელიც ხელახლა განსაზღვრავს სურათებზე ავტორეგრესიულ სწავლებას, როგორც უხეში „შემდეგი რეზოლუციის პროგნოზს“ ან „შემდეგი მასშტაბის პროგნოზს“. . მიუხედავად იმისა, რომ მარტივია, მიდგომა ეფექტურია და საშუალებას აძლევს ავტორეგრესიულ ტრანსფორმატორებს უკეთ ისწავლონ ვიზუალური განაწილება და გაუმჯობესებული განზოგადება. გარდა ამისა, ვიზუალური ავტორეგრესიული მოდელები საშუალებას აძლევს GPT-ის სტილის ავტორეგრესიულ მოდელებს გადააჭარბონ დიფუზიურ ტრანსფერებს გამოსახულების გენერირებაში პირველად. ექსპერიმენტები ასევე მიუთითებს იმაზე, რომ VAR ჩარჩო მნიშვნელოვნად აუმჯობესებს ავტორეგრესიულ საბაზისო ხაზებს და აჭარბებს დიფუზიური ტრანსფორმატორის ან DiT ჩარჩოს მრავალ განზომილებაში, მათ შორის მონაცემთა ეფექტურობის, გამოსახულების ხარისხის, მასშტაბურობისა და დასკვნის სიჩქარის ჩათვლით. გარდა ამისა, ვიზუალური ავტორეგრესიული მოდელების სკალირება აჩვენებს ძალაუფლების კანონის სკალირების კანონებს, როგორც დიდი ენობრივი მოდელების შემთხვევაში დაფიქსირდა და ასევე აჩვენებს ნულოვანი კადრის განზოგადების უნარს ქვედა ნაკადში, მათ შორის რედაქტირებაში, ფერწერაში და გარე ფერწერაში. 

ეს სტატია მიზნად ისახავს ვიზუალური ავტორეგრესიული ჩარჩოს სიღრმისეულად გაშუქებას და ჩვენ ვიკვლევთ ფრეიმურის მექანიზმს, მეთოდოლოგიას, არქიტექტურას და მის შედარებას უახლეს ფრეიმიკებთან. ჩვენ ასევე ვისაუბრებთ იმაზე, თუ როგორ აჩვენებს ვიზუალური ავტორეგრესიული ჩარჩო LLM-ების ორ მნიშვნელოვან თვისებას: სკალირების კანონებს და ნულოვანი დარტყმის განზოგადებას. ასე რომ, დავიწყოთ.

ვიზუალური ავტორეგრესიული მოდელირება: გამოსახულების გენერაციის მასშტაბირება

უახლესი მსხვილ ენობრივ მოდელებს შორის საერთო ნიმუშია თვითკონტროლირებადი სწავლის სტრატეგიის განხორციელება, მარტივი, მაგრამ ეფექტური მიდგომა, რომელიც პროგნოზირებს შემდეგ ნიშანს თანმიმდევრობით. მიდგომის წყალობით, დღეს ავტორეგრესიულმა და დიდმა ენობრივმა მოდელებმა აჩვენეს შესანიშნავი მასშტაბურობა და განზოგადება, თვისებები, რომლებიც ავლენს ავტორიტეტული მოდელების პოტენციალს ისწავლონ არალეგირებული მონაცემების დიდი ჯგუფიდან, რაც აჯამებს ზოგადი ხელოვნური ინტელექტის არსს. გარდა ამისა, კომპიუტერული ხედვის სფეროს მკვლევარები პარალელურად მუშაობდნენ დიდი ავტორეგრესიული ან მსოფლიო მოდელების შემუშავებაზე, რათა დაემთხვეს ან გადააჭარბონ მათ შთამბეჭდავ მასშტაბურობასა და განზოგადებას, მოდელები, როგორიცაა DALL-E და VQGAN უკვე აჩვენებენ ავტორეგრესიული მოდელების პოტენციალს ამ სფეროში გამოსახულების გენერაცია. ეს მოდელები ხშირად ახორციელებენ ვიზუალურ ტოკენიზერს, რომელიც წარმოადგენს ან მიახლოებით ასახავს უწყვეტ სურათებს 2D ნიშნების ბადეში, რომლებიც შემდეგ ბრტყელდება 1D თანმიმდევრობაში ავტორეგრესიული სწავლისთვის, რითაც ასახავს თანმიმდევრული ენის მოდელირების პროცესს. 

თუმცა, მკვლევარებმა ჯერ კიდევ არ უნდა გამოიკვლიონ ამ მოდელების სკალირების კანონები, და რაც უფრო სამწუხაროა ის ფაქტი, რომ ამ მოდელების შესრულება ხშირად ჩამორჩება დიფუზიის მოდელებს მნიშვნელოვანი ზღვრით, როგორც ეს ნაჩვენებია შემდეგ სურათზე. შესრულების უფსკრული მიუთითებს იმაზე, რომ დიდ ენობრივ მოდელებთან შედარებით, ავტორეგრესიული მოდელების შესაძლებლობები კომპიუტერული ხედვაში არასაკმარისად არის შესწავლილი. 

ერთის მხრივ, ტრადიციული ავტორეგრესიული მოდელები საჭიროებენ მონაცემთა განსაზღვრულ თანმიმდევრობას, ხოლო მეორეს მხრივ, ვიზუალური ავტორეგრესიული ან VAR მოდელი გადახედავს სურათის შეკვეთას და ეს არის ის, რაც განასხვავებს VAR-ს არსებული AR მეთოდებისგან. როგორც წესი, ადამიანები ქმნიან ან აღიქვამენ გამოსახულებას იერარქიული გზით, აღწერენ გლობალურ სტრუქტურას, რასაც მოჰყვება ადგილობრივი დეტალები, მრავალმასშტაბიანი, უხეში მიდგომა, რომელიც გვთავაზობს გამოსახულების ბუნებრივ წესრიგს. გარდა ამისა, მრავალმასშტაბიანი დიზაინიდან შთაგონებით, VAR ჩარჩო განსაზღვრავს სურათების ავტორეგრესიულ სწავლებას, როგორც შემდეგი მასშტაბის პროგნოზს, განსხვავებით ჩვეულებრივი მიდგომებისგან, რომლებიც განსაზღვრავენ სწავლას, როგორც შემდეგ სიმბოლურ პროგნოზს. VAR ჩარჩოს მიერ განხორციელებული მიდგომა იწყება გამოსახულების კოდირებით მრავალმასშტაბიან ტოკენ რუქებში. შემდეგ ჩარჩო იწყებს ავტორეგრესიულ პროცესს 1×1 ტოკენის რუქიდან და თანდათან აფართოებს გარჩევადობას. ყოველ ნაბიჯზე, ტრანსფორმატორი პროგნოზირებს მომდევნო უფრო მაღალი გარჩევადობის სიმბოლოს რუკას, რომელიც განპირობებულია ყველა წინაზე, მეთოდოლოგია, რომელსაც VAR ჩარჩო მოიხსენიებს, როგორც VAR მოდელირება. 

VAR ჩარჩო ცდილობს გამოიყენოს GPT-2-ის ტრანსფორმატორის არქიტექტურა ვიზუალური ავტორეგრესიული სწავლისთვის და შედეგები აშკარაა ImageNet საორიენტაციო ნიშნულზე, სადაც VAR მოდელი მნიშვნელოვნად აუმჯობესებს თავის AR საბაზისო ხაზს, აღწევს FID 1.80-ს და საწყისი ქულა 356-ს. დასკვნის სიჩქარის 20-ჯერ გაუმჯობესებით. უფრო საინტერესო ის არის, რომ VAR ჩარჩო ახერხებს გადააჭარბოს DiT ან Diffusion Transformer ჩარჩოს შესრულებაზე FID & IS ქულების, მასშტაბურობის, დასკვნის სიჩქარისა და მონაცემთა ეფექტურობის თვალსაზრისით. გარდა ამისა, ვიზუალური ავტორეგრესიული მოდელი ავლენს სკალირების მძლავრ კანონებს, რომლებიც მსგავსია დიდენოვან მოდელებში. 

შეჯამებისთვის, VAR ჩარჩო ცდილობს შემდეგი წვლილი შეიტანოს. 

  1. იგი გვთავაზობს ახალ ვიზუალურ გენერაციულ ჩარჩოს, რომელიც იყენებს მრავალმასშტაბიან ავტორეგრესიულ მიდგომას შემდეგი მასშტაბის პროგნოზით, ტრადიციული შემდეგი ნიშნის პროგნოზის საწინააღმდეგოდ, რის შედეგადაც შეიმუშავებს ავტორეგრესიულ ალგორითმს კომპიუტერული ხედვის ამოცანებისთვის. 
  2. ის ცდილობს დაამტკიცოს სკალირების კანონები ავტორეგრესიული მოდელებისთვის და ნულოვანი განზოგადების პოტენციალი, რომელიც ასახავს LLM-ების მიმზიდველ თვისებებს. 
  3. ის გთავაზობთ გარღვევას ვიზუალური ავტორეგრესიული მოდელების შესრულებაში, რაც საშუალებას აძლევს GPT-ის სტილის ავტორეგრესიულ ჩარჩოებს გადააჭარბოს არსებულს. დიფუზიის მოდელები გამოსახულების სინთეზის ამოცანებში პირველად. 

გარდა ამისა, ასევე სასიცოცხლოდ მნიშვნელოვანია განიხილოს ძალაუფლების კანონის სკალირების არსებული კანონები, რომლებიც მათემატიკურად აღწერს ურთიერთობას მონაცემთა ზომებს, მოდელის პარამეტრებს, შესრულების გაუმჯობესებას და მანქანათმცოდნეობის მოდელების გამოთვლით რესურსებს შორის. პირველი, ეს ძალაუფლების კანონის სკალირების კანონები ხელს უწყობს უფრო დიდი მოდელის ეფექტურობის გამოყენებას მოდელის ზომის, გამოთვლითი ღირებულებისა და მონაცემთა ზომის გაზრდის გზით, დაზოგავს არასაჭირო ხარჯებს და ანაწილებს სასწავლო ბიუჯეტის პრინციპებს. მეორე, სკალირების კანონებმა აჩვენა შესრულების თანმიმდევრული და არაგაჯერებული ზრდა. ნერვული ენის მოდელებში სკალირების კანონების პრინციპებით წინსვლისას, რამდენიმე LLM განასახიერებს პრინციპს, რომ მოდელების მასშტაბის გაზრდა მიდრეკილია გაუმჯობესებული შესრულების შედეგებამდე. მეორეს მხრივ, ნულოვანი დარტყმის განზოგადება ეხება მოდელის უნარს, განსაკუთრებით LLM-ს, რომელიც ასრულებს დავალებებს, რომლებზეც ცალსახად არ იყო ტრენინგი. კომპიუტერული ხედვის დომენის ფარგლებში, ინტერესი ნულოვანი სროლის და კონტექსტური სწავლის უნარების ფორმირების ფონდის მოდელების მიმართ. 

ენის მოდელები ეყრდნობა WordPiece ალგორითმებს ან ბაიტის წყვილის კოდირების მიდგომას ტექსტის ტოკენიზაციისთვის. ვიზუალური გენერირების მოდელები, რომლებიც დაფუძნებულია ენობრივ მოდელებზე, ასევე დიდწილად ეყრდნობა 2D სურათების დაშიფვრას 1D ნიშნის თანმიმდევრობებში. ადრეულმა ნამუშევრებმა, როგორიცაა VQVAE, აჩვენეს გამოსახულების დისკრეტული ნიშნების სახით წარმოდგენის უნარი ზომიერი რეკონსტრუქციის ხარისხით. VQVAE-ის მემკვიდრე, VQGAN ჩარჩო აერთიანებდა აღქმის და საპირისპირო დანაკარგებს გამოსახულების ერთგულების გასაუმჯობესებლად და ასევე გამოიყენებდა მხოლოდ დეკოდერის ტრანსფორმატორს გამოსახულების ტოკენების გენერირებისთვის სტანდარტული რასტერული სკანირების ავტორეგრესიული წესით. მეორეს მხრივ, დიფუზიური მოდელები დიდი ხანია განიხილება ვიზუალური სინთეზის ამოცანების წინამორბედად, მათი მრავალფეროვნებისა და თაობის უმაღლესი ხარისხის გათვალისწინებით. დიფუზიური მოდელების წინსვლა ორიენტირებულია სინჯების აღების ტექნიკის გაუმჯობესებაზე, არქიტექტურულ გაუმჯობესებებსა და უფრო სწრაფ სინჯებზე. ლატენტური დიფუზიის მოდელები იყენებენ დიფუზიას ლატენტურ სივრცეში, რაც აუმჯობესებს ვარჯიშის ეფექტურობას და დასკვნას. დიფუზიური ტრანსფორმატორის მოდელები ცვლის ტრადიციულ U-Net არქიტექტურას ტრანსფორმატორზე დაფუძნებული არქიტექტურით და ის გამოყენებულია ბოლო გამოსახულების ან ვიდეო სინთეზის მოდელებში, როგორიცაა SORA და სტაბილური დიფუზია

ვიზუალური ავტორეგრესიული: მეთოდოლოგია და არქიტექტურა

თავის არსში, VAR ჩარჩოს აქვს ორი დისკრეტული სასწავლო ეტაპი. პირველ ეტაპზე, მრავალმასშტაბიანი კვანტური ავტოენკოდერი ან VQVAE შიფრავს გამოსახულებას ტოკენურ რუქებში და რთული რეკონსტრუქციის დაკარგვა ხორციელდება სასწავლო მიზნებისთვის. ზემოთ მოცემულ ფიგურაში, ჩაშენება არის სიტყვა, რომელიც გამოიყენება დისკრეტული ნიშნების უწყვეტი ჩაშენების ვექტორებად გადაქცევის დასადგენად. მეორე ეტაპზე, ტრანსფორმატორი VAR მოდელში ივარჯიშება ან ჯვარედინი ენტროპიის დანაკარგის მინიმიზაციის გზით, ან ალბათობის მაქსიმიზაციის გზით შემდეგი მასშტაბის პროგნოზირების მიდგომის გამოყენებით. შემდეგ გაწვრთნილი VQVAE აწარმოებს ტოკენ რუქის ჭეშმარიტებას VAR ჩარჩოსთვის. 

ავტორეგრესიული მოდელირება Next-Token პროგნოზის საშუალებით

დისკრეტული ნიშნების მოცემული თანმიმდევრობისთვის, სადაც თითოეული ჟეტონი არის V ზომის ლექსიკის მთელი რიცხვი, შემდეგი ტოკენის ავტორეგრესიული მოდელი აყენებს იმას, რომ მიმდინარე ჟეტონზე დაკვირვების ალბათობა დამოკიდებულია მხოლოდ მის პრეფიქსზე. ცალმხრივი ნიშნის დამოკიდებულების დაშვება საშუალებას აძლევს VAR ჩარჩოს დაშალოს მიმდევრობის შანსები პირობითი ალბათობების ნამრავლად. ავტორეგრესიული მოდელის სწავლება გულისხმობს მოდელის ოპტიმიზაციას მონაცემთა ბაზაში და ეს ოპტიმიზაციის პროცესი ცნობილია როგორც შემდეგი ნიშნული პროგნოზიდა საშუალებას აძლევს მომზადებულ მოდელს შექმნას ახალი მიმდევრობები. გარდა ამისა, გამოსახულებები არის 2D უწყვეტი სიგნალები მემკვიდრეობით, და სურათებზე ავტორეგრესიული მოდელირების მიდგომის გამოყენებას შემდეგი ნიშნის პროგნოზირების ოპტიმიზაციის პროცესის მეშვეობით რამდენიმე წინაპირობა აქვს. პირველ რიგში, გამოსახულება უნდა იყოს ტოკენიზირებული რამდენიმე დისკრეტულ ნიშნად. ჩვეულებრივ, კვანტური ავტოინკოდერი დანერგილია გამოსახულების მახასიათებლების რუქის დისკრეტულ ნიშნებად გადასაყვანად. მეორე, ცალმხრივი მოდელირებისთვის უნდა განისაზღვროს ტოკენების 1D რიგი. 

გამოსახულების ჟეტონები დისკრეტულ ჟეტონებში განლაგებულია 2D ბადეში და ბუნებრივი ენის წინადადებებისგან განსხვავებით, რომლებსაც თანდაყოლილი აქვთ მარცხნიდან მარჯვნივ დალაგება, გამოსახულების ნიშნების თანმიმდევრობა აშკარად უნდა განისაზღვროს ცალმხრივი ავტორეგრესიული სწავლისთვის. წინა ავტორეგრესიულმა მიდგომებმა გააბრტყელა დისკრეტული ნიშნების 2D ბადე 1D თანმიმდევრობით ისეთი მეთოდების გამოყენებით, როგორიცაა მწკრივის ძირითადი რასტრული სკანირება, z-მრუდი ან სპირალური რიგი. მას შემდეგ, რაც დისკრეტული ჟეტონები გაბრტყელდა, AR მოდელებმა ამოიღეს თანმიმდევრობათა ნაკრები მონაცემთა ნაკრებიდან და შემდეგ მოამზადეს ავტორეგრესიული მოდელი, რათა მაქსიმალურად გაზარდოს ალბათობა T-ის პირობითი ალბათობების ნამრავლში შემდეგი ნიშნის პროგნოზის გამოყენებით. 

ვიზუალური-ავტორეგრესული მოდელირება შემდეგი მასშტაბის პროგნოზის საშუალებით

VAR ჩარჩო რეკონცეპტუალიზებს სურათებზე ავტორეგრესიულ მოდელირებას შემდეგი ნიშნის წინასწარმეტყველებიდან მომდევნო მასშტაბის პროგნოზირების მიდგომაზე გადასვლის გზით, პროცესი, რომლის მიხედვითაც ერთი ტოკენის ნაცვლად, ავტორეგრესიული ერთეული წარმოადგენს მთელ ტოკენის რუკას. მოდელი პირველ რიგში ანაწილებს მახასიათებლის რუქას მრავალმასშტაბიან ნიშან რუქებად, თითოეული უფრო მაღალი გარჩევადობით, ვიდრე წინა, და მთავრდება ორიგინალური ფუნქციური რუქების გარჩევადობით. გარდა ამისა, VAR ჩარჩო ავითარებს ახალ მრავალმასშტაბიან კვანტიზაციის ენკოდერს, რათა დაშიფროს გამოსახულება მრავალმასშტაბიანი დისკრეტული ნიშნის რუქებზე, რაც აუცილებელია VAR სწავლისთვის. VAR ჩარჩო იყენებს იგივე არქიტექტურას, როგორც VQGAN, მაგრამ მოდიფიცირებული მრავალმასშტაბიანი კვანტიზაციის ფენით, შემდეგ სურათზე ნაჩვენები ალგორითმებით. 

ვიზუალური ავტორეგრესიული: შედეგები და ექსპერიმენტები

VAR ჩარჩო იყენებს ვანილის VQVAE არქიტექტურას მრავალმასშტაბიანი კვანტიზაციის სქემით K დამატებითი კონვოლუციით და იყენებს საერთო კოდების წიგნს ყველა მასშტაბისთვის და ფარული 32-ის ფარულ შუქზე. ძირითადი აქცენტი კეთდება VAR ალგორითმზე, რის გამოც მოდელის არქიტექტურის დიზაინია. ინახება მარტივი, მაგრამ ეფექტური. ჩარჩო იყენებს სტანდარტული მხოლოდ დეკოდერის ტრანსფორმატორის არქიტექტურას, როგორიც არის GPT-2 მოდელებზე დანერგილი, ერთადერთი მოდიფიკაცია არის ტრადიციული ფენის ნორმალიზაციის ჩანაცვლება ადაპტური ნორმალიზებით ან AdaLN. კლასის პირობითი სინთეზისთვის, VAR ჩარჩო ახორციელებს კლასის ჩაშენებას, როგორც საწყისი ნიშნის, და ასევე ადაპტური ნორმალიზების ფენის მდგომარეობას. 

უახლესი სურათების გენერაციის შედეგები

როდესაც დაწყვილებულია არსებული გენერაციული ჩარჩოების ჩათვლით GANs ან გენერაციული საპირისპირო ქსელები, BERT-ის სტილის ნიღბიანი პროგნოზირების მოდელები, დიფუზიური მოდელები და GPT-ის სტილის ავტორეგრესიული მოდელები, Visual AutoRegressive ჩარჩო აჩვენებს პერსპექტიულ შედეგებს, რომლებიც შეჯამებულია შემდეგ ცხრილში. 

როგორც ჩანს, Visual AutoRegressive ჩარჩოს არა მხოლოდ შეუძლია საუკეთესო FID და IS ქულების მოპოვება, არამედ ის ასევე აჩვენებს გამოსახულების წარმოქმნის შესანიშნავ სიჩქარეს, რომელიც შედარებულია თანამედროვე მოდელებთან. გარდა ამისა, VAR ჩარჩო ასევე ინარჩუნებს დამაკმაყოფილებელ სიზუსტეს და დამახსოვრების ქულებს, რაც ადასტურებს მის სემანტიკურ თანმიმდევრულობას. მაგრამ ნამდვილი სიურპრიზი არის VAR ჩარჩოს მიერ მიწოდებული შესანიშნავი შესრულება ტრადიციული AR შესაძლებლობების ამოცანებზე, რაც მას აქცევს პირველ ავტორეგრესიულ მოდელს, რომელიც აჯობა დიფუზიური ტრანსფორმატორის მოდელს, როგორც ნაჩვენებია შემდეგ ცხრილში. 

ნულოვანი დარტყმის ამოცანის განზოგადების შედეგი

შიდა და გარე მხატვრობის ამოცანებისთვის, VAR ჩარჩო მასწავლებელი აიძულებს დაფუძნებული ჭეშმარიტების ჟეტონებს ნიღბის გარეთ და აძლევს მოდელს მხოლოდ ნიღბის შიგნით არსებული ნიშნების გენერირების საშუალებას, მოდელში კლასის ეტიკეტის შესახებ ინფორმაციის შეყვანის გარეშე. შედეგები ნაჩვენებია შემდეგ სურათზე და როგორც ჩანს, VAR მოდელი აღწევს მისაღებ შედეგებს ქვედა დინების ამოცანებზე პარამეტრების დარეგულირების ან ქსელის არქიტექტურის შეცვლის გარეშე, რაც აჩვენებს VAR ჩარჩოს განზოგადებას. 

საბოლოო ფიქრები

ამ სტატიაში ჩვენ ვისაუბრეთ ახალ ვიზუალურ გენერაციულ ჩარჩოზე, სახელწოდებით Visual AutoRegressive Modeling (VAR), რომელიც 1) თეორიულად განიხილავს ზოგიერთ საკითხს, რომლებიც თან ახლავს სტანდარტული გამოსახულების ავტორეგრესიულ (AR) მოდელებს და 2) აიძულებს ენაზე მოდელზე დაფუძნებულ AR მოდელებს აჯობონ. ძლიერი დიფუზიური მოდელები გამოსახულების ხარისხის, მრავალფეროვნების, მონაცემთა ეფექტურობისა და დასკვნის სიჩქარის თვალსაზრისით. ერთის მხრივ, ტრადიციული ავტორეგრესიული მოდელები საჭიროებენ მონაცემთა განსაზღვრულ თანმიმდევრობას, ხოლო მეორეს მხრივ, ვიზუალური ავტორეგრესიული ან VAR მოდელი გადახედავს სურათის შეკვეთას და ეს არის ის, რაც განასხვავებს VAR-ს არსებული AR მეთოდებისგან. VAR-ის 2 მილიარდ პარამეტრამდე სკალირებისას, VAR ჩარჩოს შემქმნელებმა დააფიქსირეს მკაფიო ძალაუფლების კანონის კავშირი ტესტის შესრულებასა და მოდელის პარამეტრებს შორის ან სასწავლო გამოთვლას შორის, პირსონის კოეფიციენტებით მიახლოებული -0.998-თან, რაც მიუთითებს მყარ ჩარჩოზე მუშაობის პროგნოზირებისთვის. ეს სკალირების კანონები და ნულოვანი ამოცანის განზოგადების შესაძლებლობა, როგორც LLM-ების დამახასიათებელი ნიშნები, ახლა თავდაპირველად დამოწმებული იქნა ჩვენს VAR ტრანსფორმატორის მოდელებში. 

"პროფესიით ინჟინერი, ზეპირად მწერალი". კუნალი არის ტექნიკური მწერალი, რომელსაც აქვს AI და ML ღრმა სიყვარული და გაგება, რომელიც ეძღვნება ამ სფეროებში რთული კონცეფციების გამარტივებას მისი საინტერესო და ინფორმაციული დოკუმენტაციის საშუალებით.