სტუბი POKELLMON: ადამიანის თანასწორობის აგენტი პოკემონის ბრძოლებისთვის LLM-ებთან - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

POKELLMON: ადამიანის თანასწორობის აგენტი პოკემონის ბრძოლებისთვის LLM-ებთან

mm

გამოქვეყნებულია

 on

POKELLMON: ადამიანის თანასწორობის აგენტი პოკემონის ბრძოლებისთვის LLM-ებთან

ენის დიდმა მოდელებმა და გენერაციულმა AI-მ აჩვენა უპრეცედენტო წარმატება ბუნებრივი ენის დამუშავების ამოცანების ფართო სპექტრში. NLP სფეროს დაპყრობის შემდეგ, GenAI და LLM მკვლევარებისთვის შემდეგი გამოწვევაა იმის გამოკვლევა, თუ როგორ შეუძლიათ დიდ ენობრივ მოდელებს რეალურ სამყაროში ავტონომიურად მოქმედება, ტექსტიდან მოქმედებამდე გაფართოებული თაობის უფსკრულით, რაც წარმოადგენს მნიშვნელოვან პარადიგმას ხელოვნური ზოგადი ინტელექტის ძიებაში. . ონლაინ თამაშები განიხილება, როგორც შესაფერის ტესტის საფუძველს დიდი ენობრივი მოდელის განსახიერებული აგენტების შესაქმნელად, რომლებიც ურთიერთქმედებენ ვიზუალურ გარემოსთან ისე, როგორც ამას ადამიანი გააკეთებს. 

მაგალითად, პოპულარულ ონლაინ სიმულაციური თამაშში Minecraft, გადაწყვეტილების მიმღები აგენტები შეიძლება გამოიყენონ, რათა დაეხმარონ მოთამაშეებს სამყაროს შესწავლაში, ხელსაწყოების შექმნისა და ამოცანების გადაჭრის უნარების გამომუშავებაში. LLM აგენტების ვიზუალურ გარემოსთან ურთიერთქმედების კიდევ ერთი მაგალითი შეიძლება განიცადოთ სხვა ონლაინ თამაშში, The Sims, სადაც აგენტებმა აჩვენეს შესანიშნავი წარმატება სოციალურ ურთიერთობებში და აჩვენეს ქცევა, რომელიც ჰგავს ადამიანებს. თუმცა, არსებულ თამაშებთან შედარებით, ტაქტიკური საბრძოლო თამაშები შეიძლება იყოს უკეთესი არჩევანი ვირტუალური თამაშების დიდი ენობრივი მოდელების შესაფასებლად. მთავარი მიზეზი, რის გამოც ტაქტიკური თამაშები უკეთეს ეტალონს ქმნის, არის ის, რომ მოგების კოეფიციენტი შეიძლება გაიზომოს პირდაპირ და თანმიმდევრული ოპონენტები, მათ შორის ადამიანები მოთამაშეები და AI, ყოველთვის ხელმისაწვდომია. 

იმავეზე დაყრდნობით, POKELLMON მიზნად ისახავს იყოს მსოფლიოში პირველი განსახიერებული აგენტი, რომელიც აღწევს ადამიანის დონის შესრულებას ტაქტიკურ თამაშებზე, ისევე როგორც პოკემონის ბრძოლებში. თავის არსში, POKELLMON ჩარჩო აერთიანებს სამ მთავარ სტრატეგიას.

  1. კონტექსტური განმტკიცების სწავლება, რომელიც მოიხმარს ტექსტზე დაფუძნებულ უკუკავშირს, რომელიც მიიღება ბრძოლებიდან მყისიერად, რათა დახვეწოს პოლიტიკა განმეორებით. 
  2. ცოდნის გაძლიერებული თაობა, რომელიც იღებს გარე ცოდნას ჰალუცინაციების საწინააღმდეგოდ, რაც საშუალებას აძლევს აგენტს იმოქმედოს სწორად და როცა ეს საჭიროა. 
  3. თანმიმდევრული მოქმედებების გენერაცია, რათა მინიმუმამდე დაიყვანოს პანიკური გადართვის სიტუაცია, როდესაც აგენტი შეხვდება ძლიერ მოთამაშეს და სურს თავიდან აიცილოს მათთან დაპირისპირება. 

ეს სტატია მიზნად ისახავს POKELLMON-ის ჩარჩოს სიღრმისეულად გაშუქებას და ჩვენ განვიხილავთ ფრეიმურის მექანიზმს, მეთოდოლოგიას, არქიტექტურას და მის შედარებას უახლეს ფრეიმიკებთან. ჩვენ ასევე ვისაუბრებთ იმაზე, თუ როგორ ავლენს POKELLMON-ის ჩარჩო ადამიანთა მსგავს საბრძოლო სტრატეგიებს და დროულად გადაწყვეტილების მიღების უნარებს, რაც მიიღწევა თითქმის 50%-ის სოლიდურ მოგების მაჩვენებელს. ასე რომ, დავიწყოთ.

POKELLMON: ადამიანის თანასწორობის აგენტი LLM-ით Pokemon Battles-ისთვის

გასული რამდენიმე წლის განმავლობაში დიდი ენის მოდელების და გენერაციული AI ჩარჩოების შესაძლებლობებისა და ეფექტურობის ზრდა სხვა არაფერი იყო, თუ არა საოცარი, განსაკუთრებით NLP ამოცანების შესახებ. ცოტა ხნის წინ, დეველოპერები და ხელოვნური ინტელექტის მკვლევარები მუშაობდნენ გზებზე, რათა გენერაციული AI და LLM უფრო გამორჩეული გახადონ რეალურ სამყაროში, ფიზიკურ სამყაროში ავტონომიურად მოქმედების შესაძლებლობით. ამ ავტონომიური ეფექტურობის მისაღწევად ფიზიკურ და რეალურ სამყაროში სიტუაციებში, მკვლევარები და დეველოპერები თვლიან თამაშებს, როგორც შესაფერის საცდელ საწოლს LLM-ში განხორციელებული აგენტების შესაქმნელად, ვირტუალურ გარემოსთან ურთიერთქმედების უნარით, ადამიანის ქცევის მსგავსი. 

ადრე, დეველოპერები ცდილობდნენ შეემუშავებინათ LLM-ში განხორციელებული აგენტები ვირტუალურ სიმულაციურ თამაშებზე, როგორიცაა Minecraft და Sims, თუმცა ითვლება, რომ ტაქტიკური თამაშები, როგორიცაა Pokemon, შეიძლება იყოს უკეთესი არჩევანი ამ აგენტების შესაქმნელად. პოკემონის ბრძოლები დეველოპერებს საშუალებას აძლევს შეაფასონ მწვრთნელის ბრძოლის უნარი პოკემონის ცნობილ თამაშებში და გთავაზობთ რამდენიმე უპირატესობას სხვა ტაქტიკურ თამაშებთან შედარებით. ვინაიდან მოქმედებისა და მდგომარეობის სივრცეები დისკრეტულია, ის შეიძლება გადაითარგმნოს ტექსტად ყოველგვარი დანაკარგის გარეშე. შემდეგი ფიგურა ასახავს ტიპიური პოკემონის ბრძოლას, სადაც მოთამაშეს სთხოვენ შექმნას მოქმედება, რომელიც უნდა შეასრულოს თითოეულ მორიგეზე, თითოეული მხრიდან პოკემონის ამჟამინდელი მდგომარეობის გათვალისწინებით. მომხმარებლებს შეუძლიათ აირჩიონ ხუთი განსხვავებული პოკემონიდან და სულ ოთხი სვლაა სამოქმედო სივრცეში. გარდა ამისა, თამაში ხელს უწყობს სტრესის შემსუბუქებას დასკვნის დროზე და დასკვნის ხარჯებზე LLM-ებისთვის, რადგან მონაცვლეობით დაფუძნებული ფორმატი გამორიცხავს ინტენსიური თამაშის მოთხოვნას. შედეგად, შესრულება დამოკიდებულია პირველ რიგში მსჯელობის უნარზე დიდი ენის მოდელი. დაბოლოს, მიუხედავად იმისა, რომ Pokemon-ის საბრძოლო თამაშები მარტივი ჩანს, სინამდვილეში ყველაფერი ცოტა უფრო რთული და უაღრესად სტრატეგიულია. გამოცდილი მოთამაშე შემთხვევით არ ირჩევს პოკემონს ბრძოლისთვის, მაგრამ ითვალისწინებს სხვადასხვა ფაქტორებს, მათ შორის ტიპს, სტატისტიკას, შესაძლებლობებს, სახეობებს, ნივთებს, პოკემონების მოძრაობას, როგორც ბრძოლის ველზე, ასევე მის გარეთ. გარდა ამისა, შემთხვევით ბრძოლაში, პოკემონები შემთხვევით შეირჩევა ათასზე მეტი სიმბოლოსგან შემდგარი ფონდიდან, თითოეულს აქვს განსხვავებული პერსონაჟების ნაკრები მსჯელობის უნარითა და პოკემონის ცოდნით. 

POKELLMON: მეთოდოლოგია და არქიტექტურა

POKELLMON ჩარჩოს საერთო ჩარჩო და არქიტექტურა ილუსტრირებულია შემდეგ სურათზე. 

ყოველი შემობრუნების დროს, POKELLMON ჩარჩო იყენებს წინა ქმედებებს და მის შესაბამის ტექსტზე დაფუძნებულ გამოხმაურებას, რათა დახვეწოს პოლიტიკა განმეორებით და გაზარდოს მიმდინარე მდგომარეობის ინფორმაცია გარე ცოდნით, როგორიცაა უნარი/მოძრაობის ეფექტები ან უპირატესობა/სისუსტე ურთიერთობა. შეყვანის სახით მოცემული ინფორმაციისთვის, POKELLMON ჩარჩო დამოუკიდებლად წარმოქმნის მრავალ მოქმედებას და შემდეგ ირჩევს ყველაზე თანმიმდევრულ ქმედებებს, როგორც საბოლოო გამოსავალს. 

In-context Reinforcement Learning

ადამიანები მოთამაშეები და სპორტსმენები ხშირად იღებენ გადაწყვეტილებებს არა მხოლოდ არსებული მდგომარეობის საფუძველზე, არამედ ისინი ასევე ასახავს უკუკავშირს წინა მოქმედებებიდან, ისევე როგორც სხვა მოთამაშეების გამოცდილებაზე. უსაფრთხოდ შეიძლება ითქვას, რომ დადებითი გამოხმაურება არის ის, რაც მოთამაშეს ეხმარება ისწავლოს შეცდომებზე და თავს იკავებს ერთი და იგივე შეცდომისგან. სათანადო გამოხმაურების გარეშე, POKELLMON-ის აგენტებმა შეიძლება შეასრულონ იგივე შეცდომის მოქმედება, როგორც ეს ნაჩვენებია შემდეგ ფიგურაში. 

როგორც ჩანს, თამაშშიდა აგენტი იყენებს წყალზე დაფუძნებულ მოძრაობას პოკემონის პერსონაჟის წინააღმდეგ, რომელსაც აქვს „მშრალი კანის“ უნარი, რაც საშუალებას აძლევს მას გააუქმოს ზიანი წყალზე დაფუძნებული შეტევებისგან. თამაში ცდილობს გააფრთხილოს მომხმარებელი ეკრანზე გზავნილის „იმუნური“ მოციმციმით, რამაც შეიძლება აიძულოს მოთამაშეს გადახედოს საკუთარ ქმედებებს და შეცვალოს ისინი, თუნდაც „მშრალი კანის“ ცოდნის გარეშე. თუმცა, ის არ შედის აგენტის მდგომარეობის აღწერილობაში, რის შედეგადაც აგენტი ისევ იგივე შეცდომას უშვებს. 

იმის უზრუნველსაყოფად, რომ POKELLMON აგენტი ისწავლის თავის წინა შეცდომებზე, ფრეიმორი ახორციელებს კონტექსტში განმტკიცების სწავლის მიდგომას. განმტკიცების სწავლა პოპულარული მიდგომაა მანქანათმცოდნეობაში და ის ეხმარება დეველოპერებს დახვეწის პოლიტიკაში, რადგან ის მოითხოვს ციფრულ ჯილდოებს ქმედებების შესაფასებლად. მას შემდეგ, რაც დიდი ენის მოდელები აქვს ენის ინტერპრეტაციისა და გაგების უნარი, ტექსტზე დაფუძნებული აღწერილობები გაჩნდა, როგორც ჯილდოს ახალი ფორმა LLM-ებისთვის. წინა მოქმედებებიდან ტექსტზე დაფუძნებული გამოხმაურების ჩათვლით, POKELLMON აგენტს შეუძლია განმეორებით და მყისიერად დახვეწოს თავისი პოლიტიკა, კერძოდ, კონტექსტში განმტკიცების სწავლება. POKELLMON ჩარჩო ავითარებს უკუკავშირის ოთხ ტიპს,

  1. თავდასხმის შედეგად გამოწვეული ფაქტობრივი ზიანი მოძრაობს HP-ის სხვაობის საფუძველზე ორ ზედიზედ მობრუნებაზე. 
  2. თავდასხმის მოძრაობების ეფექტურობა. გამოხმაურება მიუთითებს თავდასხმის ეფექტურობაზე უეფექტობის ან იმუნური, არაეფექტური ან სუპერეფექტური უნარის/მოძრაობის ეფექტების ან ტიპის უპირატესობის გამო. 
  3. ნაბიჯის შესრულების პრიორიტეტული რიგი. ვინაიდან მოწინააღმდეგე პოკემონის პერსონაჟის ზუსტი სტატისტიკა მიუწვდომელია, პრიორიტეტული შეკვეთის გამოხმაურება იძლევა სიჩქარის უხეშ შეფასებას. 
  4. მოწინააღმდეგეზე შესრულებული სვლების რეალური ეფექტი. თავდასხმის მოძრაობამ და სტატუსმა შეიძლება გამოიწვიოს ისეთი შედეგები, როგორიცაა HP-ის აღდგენა, სტატისტიკის გაძლიერება ან გაფუჭება, ისეთი პირობების მიყენება, როგორიცაა გაყინვა, დამწვრობა ან შხამი. 

გარდა ამისა, კონტექსტური განმტკიცების სწავლის მიდგომის გამოყენება იწვევს შესრულების მნიშვნელოვან ზრდას, როგორც ეს ნაჩვენებია შემდეგ ფიგურაში. 

GPT-4-ის თავდაპირველ შესრულებასთან დაკავშირებით, მოგების კოეფიციენტი იზრდება თითქმის 10%-ით და თითქმის 13%-იანი მატება ბრძოლაში. გარდა ამისა, როგორც ნაჩვენებია შემდეგ ფიგურაში, აგენტი იწყებს ანალიზს და ცვლის თავის მოქმედებას, თუ წინა სვლებში შესრულებული სვლები ვერ შეესაბამებოდა მოლოდინებს. 

ცოდნის გაძლიერებული თაობა ან KAG

მიუხედავად იმისა, რომ კონტექსტში განმტკიცების სწავლების განხორციელება გარკვეულწილად ეხმარება ჰალუცინაციების დროს, მან მაინც შეიძლება გამოიწვიოს ფატალური შედეგები, სანამ აგენტი მიიღებს უკუკავშირს. მაგალითად, თუ აგენტი გადაწყვეტს ბრძოლას ცეცხლის ტიპის პოკემონის წინააღმდეგ ბალახის ტიპის პოკემონით, სავარაუდოდ, პირველი მოიგებს ალბათ ერთ ტურში. ჰალუცინაციების შემდგომი შესამცირებლად და აგენტის გადაწყვეტილების მიღების უნარის გასაუმჯობესებლად, POKELLMON ჩარჩო ახორციელებს ცოდნის გაძლიერებულ თაობას ან KAG მიდგომას, ტექნიკას, რომელიც იყენებს გარე ცოდნას. თაობის გაზრდა

ახლა, როდესაც მოდელი წარმოქმნის ზემოთ განხილულ 4 ტიპის უკუკავშირს, ის ანოტაციას უწევს პოკემონის მოძრაობებს და ინფორმაციას, რომელიც აგენტს საშუალებას აძლევს დამოუკიდებლად გამოიტანოს ტიპის უპირატესობის ურთიერთობა. მსჯელობაში შემავალი ჰალუცინაციების შემდგომი შემცირების მცდელობისას, POKELLMON-ის ჩარჩო აშკარად მიუთითებს მოწინააღმდეგე პოკემონის ტიპის უპირატესობასა და სისუსტეზე და აგენტის პოკემონის ადეკვატური აღწერით. გარდა ამისა, რთულია დაიმახსოვროთ მოძრაობები და შესაძლებლობები პოკემონების განსხვავებული ეფექტებით, განსაკუთრებით იმის გამო, რომ ისინი ბევრია. შემდეგი ცხრილი აჩვენებს ცოდნის გაძლიერებული გენერირების შედეგებს. აღსანიშნავია, რომ ცოდნის გაძლიერებული თაობის მიდგომის დანერგვით, POKELLMON ჩარჩოს შეუძლია გაზარდოს მოგების მაჩვენებელი დაახლოებით 20%-ით არსებული 36%-დან 55%-მდე. 

გარდა ამისა, დეველოპერებმა შენიშნეს, რომ როდესაც აგენტს მიეცა Pokemons-ის გარე ცოდნა, მან დაიწყო სპეციალური სვლების გამოყენება საჭირო დროს, როგორც ეს ნაჩვენებია შემდეგ სურათზე. 

თანმიმდევრული მოქმედების გენერაცია

არსებული მოდელები გვიჩვენებს, რომ მოთხოვნისა და მსჯელობის მიდგომების დანერგვამ შეიძლება გააძლიეროს LLM-ის უნარი რთული ამოცანების გადაჭრაში. ერთჯერადი მოქმედების გენერირების ნაცვლად, POKELLMON ჩარჩო აფასებს არსებულ მოთხოვნის სტრატეგიებს, მათ შორის CoT ან აზროვნების ჯაჭვს, ToT ან აზროვნების ხეს და თვითშეთანხმებულობას. აზროვნების ჯაჭვისთვის აგენტი თავდაპირველად წარმოქმნის აზრს, რომელიც აანალიზებს მიმდინარე ბრძოლის სცენარს და გამოაქვს აზრზე განპირობებული მოქმედება. თვითმმართველობის თანმიმდევრულობისთვის აგენტი აგენერირებს სამჯერ მეტ მოქმედებებს და ირჩევს გამოსავალს, რომელმაც მიიღო ხმების მაქსიმალური რაოდენობა. დაბოლოს, აზროვნების ხის მიდგომისთვის, ჩარჩო წარმოქმნის სამ მოქმედებას, ისევე როგორც თვითმმართველობის თანმიმდევრულობის მიდგომაში, მაგრამ ირჩევს იმას, რაც მას საუკეთესოდ თვლის ყველა მათგანის შეფასების შემდეგ. შემდეგი ცხრილი აჯამებს მოთხოვნის მიდგომების შესრულებას. 

თითოეული მობრუნებისთვის არის მხოლოდ ერთი მოქმედება, რაც გულისხმობს, რომ მაშინაც კი, თუ აგენტი გადაწყვეტს გადართვას და მოწინააღმდეგე გადაწყვეტს შეტევას, გადართვის პოკემონი მიიღებს ზიანს. ჩვეულებრივ აგენტი გადაწყვეტს გადართვას, რადგან მას სურს შეცვალოს უპირატესობით გამორთული პოკემონი, და ამგვარად, პოკემონის ჩართვამ შეიძლება ზიანი მიაყენოს, რადგან ის იყო ტიპის რეზისტენტული მოწინააღმდეგე პოკემონის მოძრაობების მიმართ. თუმცა, როგორც ზემოთ აღინიშნა, CoT მსჯელობის მქონე აგენტისთვის, მაშინაც კი, თუ ძლიერი მოწინააღმდეგე პოკემონი აიძულებს სხვადასხვა როტაციას, ის არათანმიმდევრულად მოქმედებს მისიასთან, რადგან შეიძლება არ სურდეს პოკემონზე გადასვლა, არამედ რამდენიმე პოკემონზე და უკან, რასაც ჩვენ ვუწოდებთ. პანიკის შეცვლა. პანიკის შეცვლა გამორიცხავს ნაბიჯების გადადგმის შანსებს და, შესაბამისად, დამარცხებას. 

POKELLMON: შედეგები და ექსპერიმენტები

სანამ შედეგებს განვიხილავთ, ჩვენთვის აუცილებელია ბრძოლის გარემოს გაგება. ბრუნის დასაწყისში, გარემო იღებს მოქმედების მოთხოვნის შეტყობინებას სერვერიდან და უპასუხებს ამ შეტყობინებას ბოლოს, რომელიც ასევე შეიცავს ბოლო შემობრუნების შედეგს. 

  1. ჯერ აანალიზებს შეტყობინებას და განაახლებს ლოკალური მდგომარეობის ცვლადებს, 2. შემდეგ თარგმნის მდგომარეობის ცვლადებს ტექსტად. ტექსტის აღწერა ძირითადად ოთხი ნაწილისგან შედგება: 1. ინფორმაცია საკუთარი გუნდის შესახებ, რომელიც შეიცავს პოკემონის ატრიბუტებს ველში და მინდორში გარეთ (გამოუყენებელი).
  2. მოწინააღმდეგე გუნდის ინფორმაცია, რომელიც შეიცავს მოწინააღმდეგე პოკემონის ატრიბუტებს მოედანზე და მინდორში გარეთ (ზოგიერთი ინფორმაცია უცნობია).
  3. საბრძოლო ველის ინფორმაცია, რომელიც მოიცავს ამინდს, შესვლის საშიშროებებს და რელიეფს.
  4. ისტორიული ბრუნვის ჟურნალის ინფორმაცია, რომელიც შეიცავს ორივე პოკემონის წინა მოქმედებებს და ინახება ჟურნალის რიგში. LLM-ები იღებენ თარგმნილ მდგომარეობას, როგორც შემავალ და გამომავალ ქმედებებს შემდეგი ნაბიჯისთვის. მოქმედება შემდეგ იგზავნება სერვერზე და შესრულებულია ადამიანის მიერ შესრულებულ მოქმედებასთან ერთად.

ბრძოლა ადამიანის მოთამაშეების წინააღმდეგ

შემდეგი ცხრილი ასახავს POKELLMON აგენტის მოქმედებას ადამიანების მოთამაშეების წინააღმდეგ. 

როგორც ჩანს, POKELLMON აგენტი იძლევა შესადარებელ ეფექტურობას კიბეების მოთამაშეებთან, რომლებსაც აქვთ უფრო მაღალი მოგების მაჩვენებელი მოწვეულ მოთამაშესთან შედარებით და ასევე აქვთ დიდი საბრძოლო გამოცდილება. 

ბრძოლის უნარის ანალიზი

POKELLMON Framework იშვიათად უშვებს შეცდომას ეფექტური ნაბიჯის არჩევისას და გადადის სხვა შესაფერის Pokemon-ზე ცოდნის გაძლიერებული თაობის სტრატეგიის გამო. 

როგორც ზემოთ მოყვანილ მაგალითშია ნაჩვენები, აგენტი იყენებს მხოლოდ ერთ პოკემონს მთელი მოწინააღმდეგის გუნდის დასამარცხებლად, რადგან მას შეუძლია აირჩიოს თავდასხმის სხვადასხვა მოძრაობები, რომლებიც ყველაზე ეფექტურია მოწინააღმდეგისთვის ამ სიტუაციაში. გარდა ამისა, POKELLMON ჩარჩო ასევე აჩვენებს ადამიანის მსგავს ცვეთის სტრატეგიას. ზოგიერთ პოკემონს აქვს "ტოქსიკური" მოძრაობა, რომელსაც შეუძლია დამატებითი ზიანი მიაყენოს თითოეულ მოხვევას, ხოლო "აღდგენის" ნაბიჯი საშუალებას აძლევს მას აღადგინოს თავისი HP. იმავე უპირატესობით, აგენტი ჯერ მოწამლავს მოწინააღმდეგე პოკემონს და იყენებს Recover სვლას, რათა თავი აარიდოს გაბრუებას. 

საბოლოო ფიქრები

ამ სტატიაში ჩვენ ვისაუბრეთ POKELLMON-ზე, მიდგომაზე, რომელიც საშუალებას აძლევს დიდ ენობრივ მოდელებს ითამაშონ პოკემონის ბრძოლები ადამიანების წინააღმდეგ ავტონომიურად. POKELLMON, მიზნად ისახავს იყოს მსოფლიოში პირველი განსახიერებული აგენტი, რომელიც აღწევს ადამიანის დონის შესრულებას ტაქტიკურ თამაშებზე, ისევე როგორც პოკემონის ბრძოლებში. POKELLMON-ის ჩარჩო შემოაქვს სამ ძირითად სტრატეგიას: კონტექსტში განმტკიცების სწავლა, რომელიც იყენებს ტექსტზე დაფუძნებულ უკუკავშირს, როგორც „ჯილდოს“, რათა განმეორებით დახვეწოს მოქმედების გენერირების პოლიტიკა ტრენინგის გარეშე. დროული და სათანადოდ და თანმიმდევრული მოქმედების გენერაცია, რომელიც ხელს უშლის პანიკის გადართვის პრობლემას ძლიერ მოწინააღმდეგეებთან შეხვედრისას. 

"პროფესიით ინჟინერი, ზეპირად მწერალი". კუნალი არის ტექნიკური მწერალი, რომელსაც აქვს AI და ML ღრმა სიყვარული და გაგება, რომელიც ეძღვნება ამ სფეროებში რთული კონცეფციების გამარტივებას მისი საინტერესო და ინფორმაციული დოკუმენტაციის საშუალებით.