სტუბი სახელმძღვანელო ინსტრუქციებზე დაფუძნებული გამოსახულების რედაქტირება მრავალმოდალური დიდი ენობრივი მოდელების მეშვეობით - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

სახელმძღვანელო ინსტრუქციებზე დაფუძნებული გამოსახულების რედაქტირება მრავალმოდალური დიდი ენობრივი მოდელების საშუალებით

mm

გამოქვეყნებულია

 on

სახელმძღვანელო ინსტრუქციებზე დაფუძნებული გამოსახულების რედაქტირება მულტიმოდალური დიდი ენობრივი მოდელების საშუალებით

ვიზუალური დიზაინის ხელსაწყოები და ხედვის ენის მოდელები ფართოდ გამოიყენება მულტიმედია ინდუსტრიაში. მიუხედავად ბოლო წლების მნიშვნელოვანი წინსვლისა, ამ ინსტრუმენტების მყარი გაგება ჯერ კიდევ აუცილებელია მათი მუშაობისთვის. ხელმისაწვდომობისა და კონტროლის გასაუმჯობესებლად, მულტიმედიური ინდუსტრია სულ უფრო მეტად იყენებს ტექსტის ხელმძღვანელობით ან ინსტრუქციებზე დაფუძნებული სურათების რედაქტირების ტექნიკას. ეს ტექნიკა იყენებს ბუნებრივი ენის ბრძანებებს ტრადიციული რეგიონალური ნიღბების ან დახვეწილი აღწერილობების ნაცვლად, რაც საშუალებას იძლევა უფრო მოქნილი და კონტროლირებადი გამოსახულების მანიპულირება. თუმცა, ინსტრუქციებზე დაფუძნებული მეთოდები ხშირად გვაწვდიან მოკლე მიმართულებებს, რომლებიც შესაძლოა არსებული მოდელებისთვის იყოს რთული სრულად აღბეჭდვა და შესრულება. გარდა ამისა, დიფუზიური მოდელები, რომლებიც ცნობილია რეალისტური სურათების შექმნის უნარით, დიდი მოთხოვნაა გამოსახულების რედაქტირების სექტორში.

უფრო მეტიც, მულტიმოდალური დიდი ენის მოდელები (MLLM-ებმა) აჩვენეს შთამბეჭდავი შესრულება ამოცანებში, რომლებიც მოიცავს ვიზუალური ცნობიერების პასუხების წარმოქმნას და ჯვარედინი მოდალურ გაგებას. MLLM Guided Image Editing (MGIE) არის MLLM-ების მიერ შთაგონებული კვლევა, რომელიც აფასებს მათ შესაძლებლობებს და აანალიზებს, თუ როგორ უჭერენ მხარს რედაქტირებას ტექსტის ან სახელმძღვანელო ინსტრუქციების საშუალებით. ეს მიდგომა გულისხმობს მკაფიო ხელმძღვანელობის მიწოდების სწავლას და ექსპრესიული მითითებების მიღებას. MGIE რედაქტირების მოდელი აღიქვამს ვიზუალურ ინფორმაციას და ახორციელებს რედაქტირებას ბოლომდე-to-end ტრენინგის საშუალებით. ამ სტატიაში ჩვენ ღრმად ჩავუღრმავდებით MGIE-ს, შევაფასებთ მის გავლენას გლობალური გამოსახულების ოპტიმიზაციაზე, Photoshop-ის სტილის მოდიფიკაციებსა და ადგილობრივ რედაქტირებაზე. ჩვენ ასევე განვიხილავთ MGIE-ს მნიშვნელობას ინსტრუქციებზე დაფუძნებული გამოსახულების რედაქტირების ამოცანებში, რომლებიც ეყრდნობა ექსპრესიულ ინსტრუქციებს. დავიწყოთ ჩვენი შესწავლა.

MLLM სახელმძღვანელო გამოსახულების რედაქტირება ან MGIE: შესავალი

მულტიმოდალური დიდი ენობრივი მოდელები და დიფუზიური მოდელები არის ორი ყველაზე ფართოდ გამოყენებული AI და ML ჩარჩოები ამჟამად მათი შესანიშნავი გენერაციული შესაძლებლობების გამო. ერთის მხრივ, თქვენ გაქვთ დიფუზიის მოდელები, რომლებიც ცნობილია უაღრესად რეალისტური და ვიზუალურად მიმზიდველი სურათების წარმოებისთვის, ხოლო მეორეს მხრივ, თქვენ გაქვთ მულტიმოდალური დიდი ენობრივი მოდელები, რომლებიც ცნობილია მათი განსაკუთრებული ოსტატობით მრავალფეროვანი შინაარსის გენერირებაში, ტექსტის, ენის ჩათვლით. მეტყველება და სურათები/ვიდეოები. 

დიფუზიური მოდელები ცვლის ლატენტურ ჯვარედინი მოდულ რუქებს ვიზუალური მანიპულაციის შესასრულებლად, რომელიც ასახავს შეყვანის მიზნის წარწერის ცვლილებას და მათ ასევე შეუძლიათ გამოიყენონ სახელმძღვანელო ნიღაბი გამოსახულების კონკრეტული რეგიონის რედაქტირებისთვის. მაგრამ მთავარი მიზეზი, რის გამოც დიფუზიის მოდელები ფართოდ გამოიყენება მულტიმედიური აპლიკაციებისთვის, არის ის, რომ დახვეწილ აღწერილობებზე ან რეგიონალურ ნიღბებზე დაყრდნობის ნაცვლად, დიფუზიის მოდელები იყენებენ ინსტრუქციებზე დაფუძნებულ რედაქტირების მიდგომებს, რომლებიც საშუალებას აძლევს მომხმარებლებს გამოხატონ, როგორ შეცვალონ სურათი პირდაპირ ტექსტური ინსტრუქციების ან ბრძანებების გამოყენებით. . დიდი ენის მოდელებს შესავალი არ სჭირდებათ, რადგან მათ აჩვენეს მნიშვნელოვანი წინსვლა სხვადასხვა ენობრივი ამოცანების მასშტაბით, მათ შორის ტექსტის შეჯამება, მანქანური თარგმანი, ტექსტის გენერირება და კითხვებზე პასუხის გაცემა. LLM-ები, როგორც წესი, სწავლობენ ტრენინგის დიდ და მრავალფეროვან მონაცემებს, რაც მათ აღჭურავს ვიზუალური შემოქმედებითობითა და ცოდნით, რაც მათ საშუალებას აძლევს შეასრულონ რამდენიმე ხედვის ენის დავალებაც. LLM, MLLM ან მულტიმოდალური დიდი ენობრივი მოდელების საფუძველზე შეიძლება გამოიყენონ სურათები, როგორც ბუნებრივი საშუალებები და უზრუნველყონ შესაბამისი ვიზუალურად გაცნობიერებული პასუხები. 

ამასთან, მიუხედავად იმისა, რომ დიფუზიური მოდელები და MLLM ჩარჩოები ფართოდ გამოიყენება გამოსახულების რედაქტირების ამოცანებისთვის, არსებობს გარკვეული სახელმძღვანელო საკითხები ტექსტზე დაფუძნებულ ინსტრუქციებთან დაკავშირებით, რაც აფერხებს ზოგად შესრულებას, რის შედეგადაც ვითარდება MGIE ან MLLM სახელმძღვანელო გამოსახულების რედაქტირება, AI-ზე მომუშავე. ჩარჩო, რომელიც შედგება დიფუზიური მოდელისგან და MLLM მოდელისგან, როგორც ნაჩვენებია შემდეგ სურათზე. 

MGIE არქიტექტურის ფარგლებში, დიფუზიის მოდელი ბოლომდე გაწვრთნილია გამოსახულების რედაქტირების შესასრულებლად დასახული მიზნის ფარული წარმოსახვით, ხოლო MLLM ჩარჩო სწავლობს ზუსტი ექსპრესიული ინსტრუქციების პროგნოზირებას. ერთად, დიფუზიის მოდელი და MLLM ჩარჩო სარგებლობს თანდაყოლილი ვიზუალური წარმოშობით, რაც საშუალებას აძლევს მას მიმართოს ადამიანის ორაზროვან ბრძანებებს, რაც იწვევს სურათების რეალისტურ რედაქტირებას, როგორც ეს ნაჩვენებია შემდეგ სურათზე. 

MGIE ჩარჩო დიდ შთაგონებას იღებს ორი არსებული მიდგომიდან: ინსტრუქციებზე დაფუძნებული გამოსახულების რედაქტირება და Vision Large Language Models

ინსტრუქციებზე დაფუძნებული სურათის რედაქტირებამ შეიძლება მნიშვნელოვნად გააუმჯობესოს ვიზუალური მანიპულაციის ხელმისაწვდომობა და კონტროლირებადი ადამიანის ბრძანებების დაცვით. არსებობს ორი ძირითადი ჩარჩო, რომელიც გამოიყენება ინსტრუქციებზე დაფუძნებული გამოსახულების რედაქტირებისთვის: GAN ჩარჩოები და დიფუზიური მოდელები. GAN ან Generative Adversarial Networks მათ შეუძლიათ შეცვალონ სურათები, მაგრამ შემოიფარგლებიან კონკრეტული დომენებით ან წარმოქმნიან არარეალურ შედეგებს. მეორეს მხრივ, ფართომასშტაბიანი ტრენინგის მქონე დიფუზიურ მოდელებს შეუძლიათ გააკონტროლონ გლობალური რუქების ჯვარედინი მოდალური ყურადღების რუქები გამოსახულების რედაქტირებისა და ტრანსფორმაციის მისაღწევად. ინსტრუქციებზე დაფუძნებული რედაქტირება მუშაობს პირდაპირი ბრძანებების მიღებით, როგორც შეყვანის სახით, ხშირად არ შემოიფარგლება რეგიონალური ნიღბებითა და დახვეწილი აღწერებით. თუმცა, არსებობს იმის ალბათობა, რომ მოწოდებული ინსტრუქციები ან ორაზროვანია, ან საკმარისად ზუსტი არ არის, რომ დაიცვას ინსტრუქციები ამოცანების რედაქტირებისთვის. 

Vision Large Language Models განთქმულია ტექსტის გენერირებისა და განზოგადების შესაძლებლობებით სხვადასხვა ამოცანებში და მათ ხშირად აქვთ ძლიერი ტექსტური გაგება და მათ შეუძლიათ შემდგომი შექმნან შესრულებადი პროგრამები ან ფსევდო კოდი. დიდი ენობრივი მოდელების ეს შესაძლებლობა MLLM-ებს საშუალებას აძლევს აღიქვან სურათები და უზრუნველყონ ადეკვატური პასუხები ვიზუალური ფუნქციების გასწორების გამოყენებით ინსტრუქციების დარეგულირებით, ბოლო მოდელებმა მიიღეს MLLM-ები ჩატთან ან შეყვანის ტექსტთან დაკავშირებული სურათების შესაქმნელად. თუმცა, ის, რაც განასხვავებს MGIE-ს MLLM-ებისგან ან VLLM-ებისგან, არის ის ფაქტი, რომ მიუხედავად იმისა, რომ ამ უკანასკნელს შეუძლია ნულიდან შეყვანისგან განსხვავებული სურათების შექმნა, MGIE იყენებს MLLM-ების შესაძლებლობებს, რათა გააძლიეროს გამოსახულების რედაქტირების შესაძლებლობები მიღებული ინსტრუქციებით. 

MGIE: არქიტექტურა და მეთოდოლოგია

ტრადიციულად, დიდი ენობრივი მოდელები გამოიყენებოდა ბუნებრივი ენის გენერაციული ამოცანების დასამუშავებლად. მაგრამ მას შემდეგ, რაც MLLM-ები მეინსტრიმში გადავიდნენ, LLM-ებს მიეცათ შესაძლებლობა მიეცეთ გონივრული პასუხები სურათების შეყვანის აღქმით. პირობითად, მულტიმოდალური დიდი ენის მოდელი ინიციალიზებულია წინასწარ გაწვრთნილი LLM-დან და შეიცავს ვიზუალურ ენკოდერს და ადაპტერს ვიზუალური მახასიათებლების ამოსაღებად და ვიზუალური მახასიათებლების ენობრივ მოდალობაში დაპროექტებისთვის. ამის გამო, MLLM ჩარჩოს შეუძლია ვიზუალური შეყვანის აღქმა, თუმცა გამომავალი მაინც შემოიფარგლება ტექსტით. 

შემოთავაზებული MGIE ჩარჩო მიზნად ისახავს ამ საკითხის გადაჭრას და MLLM-ს ხელი შეუწყოს შეყვანილი სურათის გამომავალ გამოსახულებად რედაქტირებას მოცემული ტექსტური ინსტრუქციის საფუძველზე. ამ მიზნის მისაღწევად, MGIE ჩარჩო შეიცავს MLLM-ს და სწავლობს მოკლე და მკაფიო ექსპრესიული ტექსტის ინსტრუქციების მიღებას. გარდა ამისა, MGIE ჩარჩო ამატებს სპეციალურ გამოსახულების ჟეტონებს მის არქიტექტურაში, რათა გადალახოს უფსკრული ხედვასა და ენის მოდალობას შორის და იღებს რედაქტირების ხელმძღვანელს მოდალობის ტრანსფორმაციისთვის. ეს მოდალობები ემსახურება როგორც ლატენტურ ვიზუალურ წარმოსახვას მულტიმოდალური დიდი ენის მოდელიდან და ხელმძღვანელობს დიფუზიის მოდელს რედაქტირების ამოცანების მისაღწევად. MGIE ჩარჩოს შეუძლია შეასრულოს ვიზუალური აღქმის ამოცანები გამოსახულების გონივრული რედაქტირებისთვის. 

მოკლე ექსპრესიული ინსტრუქცია

ტრადიციულად, მრავალმოდალური დიდი ენის მოდელებს შეუძლიათ შესთავაზონ ვიზუალთან დაკავშირებული პასუხები მისი ჯვარედინი მოდალური აღქმით, ინსტრუქციების რეგულირებისა და მახასიათებლების გასწორების გამო. სურათების რედაქტირებისთვის MGIE ჩარჩო იყენებს ტექსტურ მოთხოვნას, როგორც პირველადი ენის შეყვანა სურათთან და იღებს დეტალურ ახსნას რედაქტირების ბრძანებისთვის. თუმცა, ეს ახსნა შეიძლება ხშირად იყოს ძალიან გრძელი ან მოიცავდეს განმეორებით აღწერილობებს, რაც გამოიწვევს არასწორ ინტერპრეტაციას, რაც აიძულებს MGIE გამოიყენოს წინასწარ გაწვრთნილი შემაჯამებელი ლაკონური თხრობების მოსაპოვებლად, რაც საშუალებას მისცემს MLLM-ს შექმნას შეჯამებული შედეგები. ჩარჩო განიხილავს ლაკონურ, მაგრამ აშკარა მითითებებს, როგორც ექსპრესიულ ინსტრუქციას და იყენებს ჯვარედინი ენტროპიის დაკარგვას მულტიმოდალური დიდი ენის მოდელის სწავლებისთვის მასწავლებლის აღსრულების გამოყენებით.

ექსპრესიული ინსტრუქციის გამოყენება იძლევა უფრო კონკრეტულ იდეას ტექსტურ ინსტრუქციასთან შედარებით, რადგან ის ახდენს უფსკრული გამოსახულების გონივრული რედაქტირებისთვის, რაც კიდევ უფრო აძლიერებს ჩარჩოს ეფექტურობას. უფრო მეტიც, MGIE ჩარჩო დასკვნის პერიოდის განმავლობაში იღებს მოკლე ექსპრესიულ ინსტრუქციებს იმის ნაცვლად, რომ აწარმოოს გრძელი თხრობები და დაეყრდნოს გარე შეჯამებას. ამის გამო, MGIE ჩარჩოს შეუძლია დაიჭიროს რედაქტირების მიზნების ვიზუალური წარმოსახვა, მაგრამ მაინც შემოიფარგლება ენის მოდალობით. ამ დაბრკოლების დასაძლევად, MGIE მოდელი ანიჭებს ვიზუალური ნიშნების გარკვეულ რაოდენობას ექსპრესიული ინსტრუქციის შემდეგ სავარჯიშო სიტყვების ჩაშენებით, რაც საშუალებას აძლევს MLLM-ს შექმნას ისინი თავისი LM ან ენის მოდელის ხელმძღვანელის გამოყენებით. 

გამოსახულების რედაქტირება ლატენტური წარმოსახვით

შემდეგ ეტაპზე, MGIE ჩარჩო იღებს რედაქტირების ხელმძღვანელს, რათა გარდაქმნას გამოსახულების ინსტრუქცია რეალურ ვიზუალურ სახელმძღვანელოდ. რედაქტირების ხელმძღვანელი არის მიმდევრობით მიმდევრობის მოდელი, რომელიც ეხმარება თანმიმდევრული ვიზუალური ნიშნების გამოსახვას MLLM არსებითი ლატენტის მიმართ სემანტიკურად, როგორც მისი რედაქტირების სახელმძღვანელო. უფრო კონკრეტულად რომ ვთქვათ, სიტყვის ჩაშენებაზე ტრანსფორმაცია შეიძლება განიმარტოს, როგორც ზოგადი წარმოდგენა ვიზუალურ მოდალობაში და იყენებს ინსტანციური ვიზუალური წარმოსახვის კომპონენტს რედაქტირების მიზნებისთვის. გარდა ამისა, ვიზუალური წარმოსახვით გამოსახულების რედაქტირების წარმართვისთვის, MGIE ფრეიმვორც ათავსებს ლატენტურ დიფუზიის მოდელს თავის არქიტექტურაში, რომელიც მოიცავს ვარიაციულ ავტოენკოდერს და მიმართავს ლატენტურ სივრცეში დენოიზირების დიფუზიას. ფარული დიფუზიის მოდელის უპირველესი მიზანია ლატენტური მიზნის გენერირება ლატენტური შეყვანის შენარჩუნებისგან და რედაქტირების მითითებების დაცვა. დიფუზიის პროცესი ამატებს ხმაურს ლატენტურ მიზანს რეგულარულ დროში და ხმაურის დონე იზრდება ყოველი ნაბიჯით. 

MGIE-ის სწავლა

შემდეგი სურათი აჯამებს MGIE შემოთავაზებული ჩარჩოს სასწავლო პროცესის ალგორითმს. 

როგორც ჩანს, MLLM სწავლობს მოკლე ექსპრესიული ინსტრუქციების გამოტანას ინსტრუქციის დაკარგვის გამოყენებით. გამოსახულების შეყვანის ინსტრუქციებიდან ლატენტური წარმოსახვის გამოყენებით, ჩარჩო გარდაქმნის რედაქტირების ხელმძღვანელის მოდალობას და ხელმძღვანელობს ლატენტური დიფუზიის მოდელს მიღებული სურათის სინთეზისთვის, და იყენებს რედაქტირების დანაკარგს დიფუზიური ვარჯიშისთვის. საბოლოოდ, ჩარჩო აყინავს წონების უმეტესობას, რაც იწვევს პარამეტრებში ეფექტურ ვარჯიშს ბოლომდე. 

MGIE: შედეგები და შეფასება

MGIE ჩარჩო იყენებს IPr2Pr მონაცემთა ბაზას, როგორც პირველადი ტრენინგის მონაცემებს და შეიცავს 1 მილიონზე მეტ CLIP გაფილტრულ მონაცემს GPT-3 მოდელიდან ამოღებული ინსტრუქციებით და გამოსახულების სინთეზირებისთვის Prompt-to-Prompt მოდელს. გარდა ამისა, MGIE Framework განიხილავს InsPix2Pix ჩარჩოს, რომელიც აგებულია CLIP ტექსტის ენკოდერზე, დიფუზიური მოდელით, როგორც მისი საბაზისო ინსტრუქციებზე დაფუძნებული გამოსახულების რედაქტირების ამოცანები. გარდა ამისა, MGIE მოდელი ასევე ითვალისწინებს LLM-ის ხელმძღვანელობით გამოსახულების რედაქტირების მოდელს, რომელიც მიღებულ იქნა ექსპრესიული ინსტრუქციებისთვის მხოლოდ ინსტრუქციის შეყვანიდან, მაგრამ ვიზუალური აღქმის გარეშე. 

Რაოდენობრივი ანალიზი

შემდეგი ფიგურა აჯამებს რედაქტირების შედეგებს ნულოვანი სროლის პარამეტრებში, მოდელები მხოლოდ IPr2Pr მონაცემთა ბაზაზე სწავლობენ. GIER და EVR მონაცემებისთვის, რომლებიც მოიცავს Photoshop სტილის მოდიფიკაციას, ექსპრესიულ ინსტრუქციებს შეუძლიათ გამოავლინონ კონკრეტული მიზნები ორაზროვანი ბრძანებების ნაცვლად, რაც საშუალებას აძლევს რედაქტირების შედეგებს უკეთესად დაემსგავსოს რედაქტირების მიზნებს. 

მიუხედავად იმისა, რომ ორივე LGIE და MGIE გადიან ტრენინგს იმავე მონაცემებზე, როგორც InsPix2Pix მოდელზე, მათ შეუძლიათ დეტალური ახსნა-განმარტების შეთავაზება დიდი ენის მოდელით სწავლის გზით, მაგრამ მაინც LGIE შემოიფარგლება ერთი მოდალით. გარდა ამისა, MGIE ჩარჩოს შეუძლია უზრუნველყოს შესრულების მნიშვნელოვანი ამაღლება, რადგან მას აქვს წვდომა სურათებზე და შეუძლია გამოიყენოს ეს სურათები მკაფიო ინსტრუქციების მისაღებად. 

ინსტრუქციებზე დაფუძნებული გამოსახულების რედაქტირების ამოცანების შესრულების შესაფასებლად კონკრეტული მიზნებისთვის, დეველოპერები აზუსტებენ რამდენიმე მოდელს თითოეულ მონაცემთა ბაზაში, როგორც შეჯამებულია შემდეგ ცხრილში. 

როგორც ჩანს, Photoshop-ის სტილის რედაქტირების ამოცანების ადაპტაციის შემდეგ EVR და GIER, მოდელები აჩვენებენ გაუმჯობესებულ შესრულებას. თუმცა, აღსანიშნავია, რომ მას შემდეგ, რაც დახვეწილი ინსტრუქციები გამომხატველ ინსტრუქციებს უფრო სპეციფიკურს ხდის დომენის მიმართაც, MGIE ჩარჩო მოწმეა შესრულების მასიურ ზრდაზე, რადგან ის ასევე სწავლობს დომენთან დაკავშირებულ მითითებებს, რაც დიფუზიურ მოდელს საშუალებას აძლევს აჩვენოს კონკრეტული რედაქტირებული სცენები. დახვეწილი დიდი ენის მოდელი, რომელიც სარგებელს მოუტანს როგორც ლოკალურ მოდიფიკაციას, ასევე ლოკალურ ოპტიმიზაციას. გარდა ამისა, იმის გამო, რომ ვიზუალური ცნობიერი სახელმძღვანელო მითითებები უფრო მეტად შეესაბამება რედაქტირების დანიშნულ მიზნებს, MGIE ჩარჩო სტაბილურად აწვდის მაღალ შედეგებს LGIE-სთან შედარებით. 

შემდეგი სურათი გვიჩვენებს CLIP-S ქულას შეყვანის ან ძირეული სიმართლის მიზნის გამოსახულებებში და ექსპრესიულ ინსტრუქციაში. უფრო მაღალი CLIP ქულა მიუთითებს ინსტრუქციების შესაბამისობაზე რედაქტირების წყაროსთან და, როგორც ჩანს, MGIE-ს აქვს უფრო მაღალი CLIP ქულა LGIE მოდელთან შედარებით, როგორც შეყვანის, ისე გამომავალი სურათების მიხედვით. 

თვისებრივი შედეგები

შემდეგი სურათი შესანიშნავად აჯამებს MGIE ჩარჩოს თვისობრივ ანალიზს. 

როგორც ვიცით, LGIE ჩარჩო შემოიფარგლება ერთი მოდალით, რის გამოც მას აქვს ერთი ენაზე დაფუძნებული ხედვა და მიდრეკილია გამოსახულების რედაქტირებისთვის არასწორი ან შეუსაბამო ახსნა-განმარტებების მოპოვებისკენ. თუმცა, MGIE ჩარჩო არის მულტიმოდალური და სურათებზე წვდომით, ის ასრულებს რედაქტირების ამოცანებს და უზრუნველყოფს მკაფიო ვიზუალურ წარმოსახვას, რომელიც კარგად შეესაბამება მიზანს. 

საბოლოო ფიქრები

ამ სტატიაში ჩვენ ვისაუბრეთ MGIE ან MLLM სახელმძღვანელო გამოსახულების რედაქტირებაზე, MLLM-ის შთაგონებული კვლევა, რომელიც მიზნად ისახავს მულტიმოდალური დიდი ენობრივი მოდელების შეფასებას და გაანალიზებას, თუ როგორ აადვილებენ ისინი რედაქტირებას ტექსტის ან სახელმძღვანელო ინსტრუქციების გამოყენებით, როდესაც სწავლობენ, როგორ მივაწოდოთ მკაფიო ხელმძღვანელობა ექსპრესიული ინსტრუქციების მოპოვებით. ერთდროულად. MGIE რედაქტირების მოდელი იჭერს ვიზუალურ ინფორმაციას და ახორციელებს რედაქტირებას ან მანიპულირებას ბოლომდე ტრენინგის გამოყენებით. ორაზროვანი და მოკლე სახელმძღვანელოს ნაცვლად, MGIE ჩარჩო აწარმოებს აშკარა ვიზუალურ ინსტრუქციებს, რაც იწვევს გამოსახულების გონივრულ რედაქტირებას. 

"პროფესიით ინჟინერი, ზეპირად მწერალი". კუნალი არის ტექნიკური მწერალი, რომელსაც აქვს AI და ML ღრმა სიყვარული და გაგება, რომელიც ეძღვნება ამ სფეროებში რთული კონცეფციების გამარტივებას მისი საინტერესო და ინფორმაციული დოკუმენტაციის საშუალებით.