სტუბი პარაფრაზი თაობა ღრმა განმტკიცების სწავლის გამოყენებით - აზროვნების ლიდერები - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

პარაფრაზი თაობა ღრმა განმტკიცების სწავლის გამოყენებით - აზროვნების ლიდერები

mm
განახლებულია on

როდესაც წერთ ან ვსაუბრობთ, ჩვენ ყველას გვაინტერესებდა, არის თუ არა იდეის სხვებისთვის კომუნიკაციის უკეთესი გზა. რა სიტყვები გამოვიყენო? როგორ უნდა ჩამოვაყალიბო აზრი? როგორ რეაგირებენ ისინი? ზე ფრაზა, დიდ დროს ვატარებთ ენაზე ფიქრში – რა მუშაობს და რა არა.

წარმოიდგინეთ, რომ თქვენ წერთ სათაურის ხაზს ელ.ფოსტის კამპანიისთვის, რომელიც წავა თქვენს სიაში 10 მილიონ ადამიანზე და ხელს შეუწყობს 20%-იანი ფასდაკლებით ახალ ახალ ლეპტოპს.

რომელ ხაზს აირჩევდით:

  • ახლა შეგიძლიათ მიიღოთ დამატებითი 20% ფასდაკლება თქვენს შემდეგ შეკვეთაზე
  • მოემზადეთ - დამატებითი 20% ფასდაკლება

მიუხედავად იმისა, რომ ისინი გადმოსცემენ ერთსა და იმავე ინფორმაციას, ერთმა მიაღწია თითქმის 15% -ით უფრო მაღალ ღია განაკვეთს, ვიდრე მეორე (და დადებს, რომ ვერ დაამარცხებთ ჩვენს მოდელს, რომელს წინასწარ განსაზღვრავთ?). მაშინ როცა ენა ხშირად შეიძლება შემოწმდეს / B ტესტირება or მრავალ შეიარაღებული ბანდიტები, პარაფრაზების ავტომატურად გენერირება რჩება მართლაც რთულ კვლევის პრობლემად.

ორი წინადადება განიხილება ერთმანეთის პარაფრაზებად, თუ ისინი იზიარებენ ერთსა და იმავე მნიშვნელობას და შეიძლება გამოყენებულ იქნას ურთიერთშენაცვლებით. კიდევ ერთი მნიშვნელოვანი რამ, რაც ხშირად მიჩნეულია, არის თუ არა ავტომატური წინადადება თავისუფლად.

კონტროლის ქვეშ მყოფი სწავლისგან განსხვავებით, განმამტკიცებელი სწავლის აგენტები სწავლობენ გარემოსთან ურთიერთობისა და შედეგად მიღებული ჯილდოების დაკვირვებით. ამ გარკვეულწილად ნიუანსირებულ განსხვავებას აქვს დიდი გავლენა იმაზე, თუ როგორ მუშაობს ალგორითმები და როგორ არის მომზადებული მოდელები. ღრმა გაძლიერების სწავლა იყენებს ნერვულ ქსელებს, როგორც ფუნქციის აპროქსიმატორს, რათა აგენტმა ისწავლოს როგორ აჯობოს ადამიანებს რთულ გარემოში, როგორიცაა Goატარი და StarCraft II.

მიუხედავად ამ წარმატებისა, განმამტკიცებელი სწავლა ფართოდ არ იქნა გამოყენებული რეალურ სამყაროში არსებულ პრობლემებზე, მათ შორის ბუნებრივი ენის დამუშავების (NLP).

როგორც ნაწილი ჩემი სამაგისტრო ნაშრომი მონაცემთა მეცნიერებაში, ჩვენ ვაჩვენებთ, თუ როგორ შეიძლება Deep RL-ის გამოყენება, რათა აღემატებოდეს ზედამხედველობის ქვეშ მყოფი სწავლის მეთოდებს შეყვანის ტექსტის პარაფრაზების ავტომატურად გენერირებისას. საუკეთესო პერიფრაზის წარმოქმნის პრობლემა შეიძლება ჩაითვალოს როგორც სიტყვების სერიის პოვნა, რომელიც მაქსიმალურად ზრდის წინადადებებს შორის სემანტიკურ მსგავსებას, ხოლო გამომავალში თავისუფლად ინარჩუნებს. RL აგენტები კარგად შეეფერება მოქმედებების საუკეთესო ნაკრების საპოვნელად საკონტროლო გარემოში მაქსიმალური მოსალოდნელი ჯილდოს მისაღწევად.

მანქანური სწავლების უმეტესი პრობლემებისგან განსხვავებით, ყველაზე დიდი პრობლემა ბუნებრივი ენების გენერაციის (NLG) აპლიკაციების უმეტესობაში არ მდგომარეობს მოდელირებაში, არამედ შეფასებაში. მიუხედავად იმისა, რომ ადამიანის შეფასება ამჟამად განიხილება ოქროს სტანდარტად NLG-ის შეფასებაში, მას აქვს მნიშვნელოვანი უარყოფითი მხარეები, მათ შორის ძვირი, შრომატევადი, რთული დარეგულირება და არ არის რეპროდუცირებადი ექსპერიმენტებსა და მონაცემთა ნაკრებებში. (ჰანი, 2016). შედეგად, მკვლევარები დიდი ხანია ეძებენ ავტომატურ მეტრებს, რომლებიც არის მარტივი, განზოგადებული და რომელიც ასახავს ადამიანის განსჯას. (პაპინინი და სხვ., 2002).

ავტომატური შეფასების ყველაზე გავრცელებული მეთოდები მანქანით წარმოქმნილი სურათების წარწერების შეფასებისას შეჯამებულია ქვემოთ მათი დადებითი და უარყოფითი მხარეებით:

პარაფრაზი გენერაცია განმტკიცების სასწავლო მილსადენის გამოყენებით

ჩვენ შევიმუშავეთ სისტემა სახელად ParaPhrasee, რომელიც ქმნის მაღალი ხარისხის პარაფრაზებს. სისტემა შედგება მრავალი საფეხურისგან, რათა გამოიყენოს გაძლიერებული სწავლება გამოთვლით ეფექტური გზით. მაღალი დონის მილსადენის მოკლე მიმოხილვა ნაჩვენებია ქვემოთ, უფრო დეტალურად შეიცავს თეზისი.

მონაცემთა ბაზა

არსებობს რამდენიმე პარაფრაზი მონაცემთა ნაკრები, რომლებიც გამოიყენება კვლევაში, მათ შორის: Microsoft Paraphrase კორპუსი, ACL-ის სემანტიკური ტექსტის მსგავსების კონკურსი, Quora დუბლიკატი კითხვებიდა Twitter გაზიარებული ბმულები. ჩვენ შევარჩიეთ MS-COCO იმის გათვალისწინებით, რომ მისი ზომა, სისუფთავე და გამოყენება, როგორც საორიენტაციო ორი მნიშვნელოვანი პარაფრაზი თაობის ნაშრომისთვის. MS-COCO შეიცავს საერთო სცენების 120 ათას სურათს 5 სურათის წარწერით თითო სურათზე, რომელიც მოწოდებულია 5 განსხვავებული ადამიანის ანოტაციის მიერ.

მიუხედავად იმისა, რომ ის ძირითადად შექმნილია კომპიუტერული ხედვის კვლევისთვის, წარწერებს აქვთ მაღალი სემანტიკური მსგავსება და საინტერესო პარაფრაზებია. იმის გათვალისწინებით, რომ გამოსახულების წარწერები მოწოდებულია სხვადასხვა ადამიანების მიერ, მათ აქვთ სცენაზე მოწოდებული დეტალების მცირე ვარიაციები, ამიტომ გენერირებული წინადადებები დეტალების ჰალუცინაციას ახდენენ.

მეთვალყურეობის ქვეშ მყოფი მოდელი

მიუხედავად იმისა, რომ გაძლიერების სწავლა მნიშვნელოვნად გაუმჯობესდა ნიმუშის ეფექტურობის, ტრენინგის დროისა და საერთო საუკეთესო პრაქტიკის თვალსაზრისით, RL მოდელების სწავლება ნულიდან ჯერ კიდევ შედარებით ნელი და არასტაბილურია. (არულკუმარანი და სხვ., 2017). ამიტომ, ნულიდან ვარჯიშის ნაცვლად, ჩვენ ჯერ ვავარჯიშებთ ზედამხედველობის ქვეშ მყოფ მოდელს და შემდეგ ვასწორებთ მას RL-ის გამოყენებით.

ჩვენ ვიყენებთ ა ენკოდერ-დეკოდერი მოდელის ჩარჩო და შეაფასეთ რამდენიმე საბაზისო ზედამხედველობითი მოდელის შესრულება. მოდელის დაზუსტებისას RL-ის გამოყენებით, ჩვენ ვასწორებთ მხოლოდ დეკოდერის ქსელს და ვთვლით ენკოდერის ქსელს, როგორც სტატიკური. როგორც ასეთი, ჩვენ განვიხილავთ ორ ძირითად ჩარჩოს:

  • ზედამხედველობის ქვეშ მყოფი მოდელის სწავლება ნულიდან სტანდარტული/ვანილის ენკოდერის დეკოდერის გამოყენებით GRU-ებით
  • წინასწარ მომზადებული წინადადებების ჩაშენების მოდელების გამოყენება კოდირებისთვის, მათ შორის: სიტყვების გაერთიანებული ჩაშენებები (GloVe), InferSent და BERT

ზედამხედველობის ქვეშ მყოფი მოდელები, როგორც წესი, ერთნაირად მოქმედებენ მოდელებში BERT-ით და ვანილის ენკოდერ-დეკოდერით, რაც საუკეთესო შესრულებას აღწევს.

მიუხედავად იმისა, რომ შესრულება გონივრულია, არსებობს შეცდომის სამი საერთო წყარო: ჭკუა, წინადადების ფრაგმენტების წარმოქმნა და ჰალუცინაციები. ეს არის ძირითადი პრობლემები, რომელთა გადაჭრასაც RL-ის გამოყენება მიზნად ისახავს.

განმტკიცების სწავლის მოდელი

RL ალგორითმების დანერგვა ძალიან რთულია, განსაკუთრებით მაშინ, როდესაც არ იცი, შესაძლებელია თუ არა პრობლემის გადაჭრა. შეიძლება იყოს პრობლემები თქვენი გარემოს, თქვენი აგენტების, ჰიპერპარამეტრების, ჯილდოს ფუნქციის ან ყოველივე ზემოთქმულის ერთობლიობის განხორციელებაში! ეს პრობლემები გამწვავდება ღრმა RL-ის გაკეთებისას, რადგან სიამოვნებას განიჭებთ დამატებითი სირთულე ნერვული ქსელების გამართვა.

როგორც ყველა გამართვისას, ეს გადამწყვეტია დაიწყე მარტივი. ჩვენ განვახორციელეთ ორი კარგად გასაგები სათამაშო RL გარემოს ვარიაციები (CartPole და FrozenLake) RL ალგორითმების შესამოწმებლად და მეთვალყურეობის ქვეშ მყოფი მოდელიდან ცოდნის გადაცემის განმეორებადი სტრატეგიის მოსაძებნად.

ჩვენ აღმოვაჩინეთ, რომ გამოყენებით მსახიობი-კრიტიკოსის ალგორითმი აჯობა REINFORCE-ს ამ გარემოში. მსახიობ-კრიტიკოს მოდელზე ცოდნის გადაცემის თვალსაზრისით, ჩვენ აღმოვაჩინეთ, რომ მსახიობის წონების ინიციალიზაცია გაწვრთნილი ზედამხედველობის მოდელით და კრიტიკოსის წინასწარ მომზადება მიაღწია საუკეთესო შესრულებას. ჩვენ აღმოვაჩინეთ, რომ რთული იყო ახალ გარემოში დისტილაციის დახვეწილი პოლიტიკის მიდგომების განზოგადება, რადგან ისინი შემოგვთავაზებენ ბევრ ახალ ჰიპერპარამეტრს, რომლებიც საჭიროებენ დარეგულირებას მუშაობისთვის.

ამ შეხედულებებით მხარდაჭერით, ჩვენ შემდეგ მივმართავთ მიდგომის შემუშავებას პარაფრაზის წარმოქმნის ამოცანისთვის. ჩვენ ჯერ უნდა შევქმნათ გარემო.

გარემო გვაძლევს საშუალებას ადვილად შევამოწმოთ სხვადასხვა შეფასების მეტრიკის გამოყენების გავლენა, როგორც ჯილდოს ფუნქციები.

შემდეგ ჩვენ განვსაზღვრავთ აგენტს, მისი მრავალი უპირატესობის გათვალისწინებით, ჩვენ ვიყენებთ მსახიობ-კრიტიკოსის არქიტექტურას. მსახიობი გამოიყენება შემდეგი სიტყვის ასარჩევად თანმიმდევრობით და აქვს მისი წონა ინიციალიზებული ზედამხედველობის მოდელის გამოყენებით. კრიტიკოსი იძლევა მოსალოდნელი ჯილდოს შეფასებას, რომელსაც სახელმწიფო სავარაუდოდ მიიღებს, რათა დაეხმაროს მსახიობს სწავლაში.

სწორი ჯილდოს ფუნქციის შემუშავება

RL სისტემის დიზაინის ყველაზე მნიშვნელოვანი კომპონენტია ჯილდოს ფუნქცია, რადგან სწორედ ამის ოპტიმიზაციას ცდილობს RL აგენტი. თუ ჯილდოს ფუნქცია არასწორია, მაშინ შედეგები დაზარალდება მაშინაც კი, თუ სისტემის ყველა სხვა ნაწილი მუშაობს!

ამის კლასიკური მაგალითია CoastRunners სადაც OpenAI-ის მკვლევარებმა დააწესეს ჯილდოს ფუნქცია, როგორც მთლიანი ქულის მაქსიმიზაცია, ვიდრე რბოლის მოგება. ამის შედეგია აგენტმა აღმოაჩინა მარყუჟი, სადაც მას შეეძლო უმაღლესი ქულა მიეღო ტურბოებზე დარტყმით, რბოლის დასრულების გარეშე.

იმის გათვალისწინებით, რომ პარაფრაზების ხარისხის შეფასება თავისთავად გადაუჭრელი პრობლემაა, ჯილდოს ფუნქციის შექმნა, რომელიც ავტომატურად ასახავს ამ მიზანს, კიდევ უფრო რთულია. ენის ასპექტების უმეტესობა არ იშლება ლამაზად ხაზოვან მეტრებად და დამოკიდებულია დავალებაზე (ნოვიკოვა და სხვ., 2017).

RL აგენტი ხშირად აღმოაჩენს საინტერესო სტრატეგიას, რათა მაქსიმალურად გაზარდოს ჯილდოები, რომელიც იყენებს შეფასების მეტრიკის სისუსტეებს, ვიდრე მაღალი ხარისხის ტექსტის გენერირებას. ეს იწვევს ცუდ შესრულებას მეტრიკაზე, რომელსაც აგენტი პირდაპირ არ ახდენს ოპტიმიზაციას.

ჩვენ განვიხილავთ სამ მთავარ მიდგომას:

  1. სიტყვების გადახურვის მეტრიკა

საერთო NLP შეფასების მეტრიკა ითვალისწინებს სიტყვების გადაფარვის პროპორციას გენერირებულ პარაფრაზასა და შეფასების წინადადებას შორის. რაც უფრო დიდია გადახურვა, მით მეტია ჯილდო. სიტყვის დონის მიდგომებთან დაკავშირებული გამოწვევა ის არის, რომ აგენტი შეიცავს ძალიან ბევრ დამაკავშირებელ სიტყვას, როგორიცაა "a არის ჩართული" და არ არსებობს სრულყოფილების საზომი. ეს იწვევს ძალიან დაბალი ხარისხის პარაფრაზებს.

  1. წინადადების დონის მსგავსება და გამართულობის მეტრიკა

გენერირებული პარაფრაზის ძირითადი თვისებები არის ის, რომ ის უნდა იყოს თავისუფლად და სემანტიკურად მსგავსი შეყვანის წინადადებასთან. ამიტომ, ჩვენ ვცდილობთ მკაფიოდ დავაფიქსიროთ ეს ინდივიდუალურად და შემდეგ გავაერთიანოთ მეტრიკა. სემანტიკური მსგავსებისთვის, ჩვენ ვიყენებთ კოსინუსურ მსგავსებას წინადადებების ჩაშენებებს შორის წინასწარ მომზადებული მოდელებიდან, BERT-ის ჩათვლით. თავისუფლად მეტყველებისთვის, ჩვენ ვიყენებთ ქულას GPT-2-ის წინადადების გაუგებრობაზე დაყრდნობით. რაც უფრო დიდია კოსინუსების მსგავსება და გამართული ქულები მით მეტია ჯილდო.

ჩვენ გამოვცადეთ წინადადებების ჩაშენების მოდელებისა და სრულყოფილების მოდელების მრავალი განსხვავებული კომბინაცია და მიუხედავად იმისა, რომ შესრულება იყო გონივრული, მთავარი პრობლემა, რომლის წინაშეც აგენტი იყო, არ იყო საკმარისად დაბალანსებული სემანტიკური მსგავსება სრულყოფილებასთან. კონფიგურაციების უმეტესობისთვის, აგენტმა პრიორიტეტად მიიჩნია სრულყოფილება, რის შედეგადაც ამოიშალა დეტალები და ერთეულების უმეტესობა მოთავსებულია რაღაცის „შუაში“ ან გადაადგილდება „მაგიდაზე“ ან „გზის მხარეს“.

მრავალმიზნობრივი განმტკიცების სწავლება ღია საკვლევი კითხვაა და ამ შემთხვევაში ძალიან რთულია.

  1. კონკურენტული მოდელის გამოყენება ჯილდოს ფუნქციად

იმის გათვალისწინებით, რომ ადამიანები განიხილება შეფასების ოქროს სტანდარტად, ჩვენ ვამზადებთ ცალკეულ მოდელს, რომელსაც ეწოდება დისკრიმინატორი, რათა ვიწინასწარმეტყველოთ, არის თუ არა ორი წინადადება ერთმანეთის პერიფრაზებით (მსგავსია, როგორც ადამიანი შეაფასებს). RL მოდელის მიზანია დაარწმუნოს ეს მოდელი, რომ გენერირებული წინადადება არის შეყვანის პარაფრაზა. დისკრიმინატორი აყალიბებს ქულებს იმის შესახებ, თუ რამდენად სავარაუდოა, რომ ეს ორი წინადადება იყოს ერთმანეთის პერიფრაზი, რომელიც გამოიყენება როგორც ჯილდო აგენტის მომზადებისთვის.

ყოველი 5,000 გამოცნობა დისკრიმინატორს ეუბნება, რომელი პარაფრაზი მოვიდა მონაცემთა ნაკრებიდან და რომელი შეიქმნა, რათა მან გააუმჯობესოს მომავალი გამოცნობები. პროცესი გრძელდება რამდენიმე რაუნდის განმავლობაში, როდესაც აგენტი ცდილობს მოატყუოს დისკრიმინატორი, ხოლო დისკრიმინატორი ცდილობს განასხვავოს გენერირებული პარაფრაზები და შეფასების პერიფრაზები მონაცემთა ნაკრებიდან.

ტრენინგის რამდენიმე რაუნდის შემდეგ, აგენტი წარმოქმნის პარაფრაზებს, რომლებიც აჯობებენ ზედამხედველობის მოდელებს და სხვა ჯილდოს ფუნქციებს.

დასკვნა და შეზღუდვები

საპირისპირო მიდგომები (მათ შორის თვითთამაში თამაშებისთვის) უზრუნველყოფს უკიდურესად პერსპექტიულ მიდგომას RL ალგორითმების ვარჯიშისთვის, რათა აღემატებოდეს ადამიანის დონის შესრულებას გარკვეულ ამოცანებზე, აშკარა ჯილდოს ფუნქციის განსაზღვრის გარეშე.

მიუხედავად იმისა, რომ RL-მ ამ შემთხვევაში შეძლო ზედამხედველობის ქვეშ მყოფი სწავლის შესრულება, დამატებითი ზედნადების რაოდენობა კოდის, გამოთვლისა და სირთულის თვალსაზრისით არ ღირს ეფექტურობის გაზრდა აპლიკაციების უმეტესობისთვის. RL საუკეთესოდ არის მიჩნეული იმ სიტუაციებში, როდესაც ზედამხედველობითი სწავლება არ შეიძლება ადვილად იქნას გამოყენებული და დაჯილდოების ფუნქციის განსაზღვრა მარტივია (როგორიცაა Atari თამაშები). მიდგომები და ალგორითმები ბევრად უფრო მომწიფებულია ზედამხედველობით სწავლაში და შეცდომის სიგნალი გაცილებით ძლიერია, რაც იწვევს ბევრად უფრო სწრაფ და სტაბილურ ტრენინგს.

კიდევ ერთი მოსაზრებაა, როგორც სხვა ნერვულ მიდგომებთან დაკავშირებით, რომ აგენტი შეიძლება ძალიან მკვეთრად ჩავარდეს იმ შემთხვევებში, როდესაც შეყვანა განსხვავდება ადრე ნანახი შეყვანისგან, რაც მოითხოვს საღი აზროვნების შემოწმების დამატებით ფენას საწარმოო აპლიკაციებისთვის.

ბოლო რამდენიმე წლის განმავლობაში RL მიდგომებისა და გამოთვლითი ინფრასტრუქტურის მიღწევებისადმი ინტერესის აფეთქება გახსნის უზარმაზარ შესაძლებლობებს RL-ის გამოყენებისთვის ინდუსტრიაში, განსაკუთრებით NLP-ში.

ენდრიუ გიბს-ბრავო არის მონაცემთა მეცნიერი ფრაზა ფოკუსირებულია Phrasee-ის მსოფლიოში წამყვანი AI-Powered Copywriting-ის ტექნოლოგიის გაუმჯობესებაზე. ის ასევე არის ლონდონის Reinforcement Learning Community Meetup-ის თანაორგანიზატორი და დაინტერესებულია ყველაფერი RL, NLP და მანქანათმცოდნეობით.