სტუბი OpenAI ქმნის ახალ AI პროგრამას ჟანრებზე დაყრდნობით მუსიკის შესაქმნელად - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

OpenAI ქმნის ახალ AI პროგრამას ჟანრებზე დაყრდნობით მუსიკის შესაქმნელად

mm
განახლებულია on

დამოუკიდებელმა კვლევითმა ორგანიზაციამ OpenAI ახლახან გამოუშვა გენერაციული AI-ის ახალი ფორმა, სახელწოდებით ჯუკბოქსი, ასე დასახელდა მუსიკის გენერირების უნარის გამო. Jukebox AI-ს შეუძლია ხმების გენერირება ისეთი ატრიბუტების საფუძველზე, როგორიცაა ინსტრუმენტები და ტექსტებიც კი, ხოლო OpenAI-ის მკვლევარმა ჯგუფმა შექმნა AI შეკუმშული აუდიო კლიპებისა და ლექსების სხვადასხვა ფრაგმენტებზე სწავლებით.

როგორც TechCrunch იტყობინებაOpenAI-ის მკვლევარებმა მოამზადეს მოდელი ნედლი აუდიო კლიპების გამოყენებით, რაც მოდელს აუდიოს წარმოების შესაძლებლობას აძლევდა. ეს განსხვავდება სხვა მუსიკის თაობის აპლიკაციების შესაქმნელად გამოყენებული მიდგომებისგან, რომლებიც ხშირად ეყრდნობიან „სიმბოლურ მუსიკას“ (როგორიცაა MIDI მუსიკა), რომელიც არის ინფორმაცია ნოტებისა და ბგერების შესახებ, მაგრამ არა ფაქტობრივი აუდიო. მკვლევართა ჯგუფმა გამოიყენა კონვოლუციური ნერვული ქსელები მოდელის გასაწვრთნელად, აუდიოს შეკუმშვისა და მისი დაშიფვრის ფორმატში, რომლის ინტერპრეტაციაც ნეირონულ ქსელს შეეძლო. ამის შემდეგ, ტრანსფორმატორი გამოიყენეს შეკუმშული აუდიოს გენერირებისთვის, რომელიც იქნა აღდგენილი, რათა გადაეყვანათ მონაცემები აუდიო ფორმატში.

ჯუკბოქსის შექმნისას, OpenAI-მ უნდა შექმნას აუდიოს რთულ, მკვრივ ბუნებასთან გამკლავების მეთოდი. მკვლევარებმა განიხილეს აუდიოს უწყვეტი ბუნება უფრო დისკრეტულ, მოსანელებელ ნაწილებად დაყოფით, სიმღერების ბიტებად დაყოფით, რომელთა სიგრძე წამის 1/128-ია. მიზანი იყო შეგვექმნა ხელოვნური ინტელექტის მოდელი, რომელსაც შეეძლო სიმღერების დაყოფა საკმარისად დიდ ნაწილებად, რომ პრობლემა არ გამხდარიყო გადაუჭრელი, მაგრამ მცირე და ზუსტი, რომ მოდელებს შეეძლოთ სიმღერის ნიმუშის სწავლა და მისი რეკონსტრუქცია.

OpenAI-ის მიერ გამოყენებული ტექნიკა იზიარებს გარკვეულ მსგავსებებს კომპანიის მიერ წარმოებული უფრო ძველი მუსიკალური თაობის AI-სთან, ე.წ. MuseNet. MuseNet გაწვრთნილი იყო MIDI ფაილებზე და შეეძლო მუსიკის გენერირება სხვადასხვა სტილში, თუმცა ის ფოკუსირებული იყო სიმღერის საერთო მელოდიაზე და ვერ ამზადებდა ტექსტს. ამის საპირისპიროდ, ჯუკბოქსს შეუძლია დაწეროს საკუთარი ლექსები მუსიკის თანხლებით. ტექსტები "დაწერილია" OpenAI-ის მკვლევარების მიერ, რაც ხელმძღვანელობს მოდელს გარკვეული სტილის ტექსტების შექმნისკენ. ჯუკბოქსის სისტემა სწავლობდა LyricWiki-დან ამოღებულ ტექსტებზე, ტრენინგის მონაცემებით, რომელიც შედგებოდა ტექსტისა და მეტამონაცემებისგან 1.2 მილიონი სიმღერისგან.

რაც შეეხება მოდელის ტექსტს, მკვლევარებმა პირველად სცადეს მარტივი ევრისტიკის გამოყენება, რომელიც ავრცელებდა ტექსტს სიმღერის ხანგრძლივობის უხეშად, ტექსტის გაანალიზებით, რომელიც შეესაბამება სიმღერის კონკრეტულ ნაწილს/სეგმენტს. ეს მარტივი მიდგომა ზოგადად კარგად მუშაობდა, თუმცა მკვლევარებმა დაადგინეს, რომ როდესაც ტექსტი განსაკუთრებით სწრაფი იყო, ის იშლებოდა. ამ პრობლემის გადასაჭრელად, ვოკალი ამოიღეს სიმღერიდან და გასწორდა ლირიკულ ტექსტთან, რათა მიეღო სიტყვის დონის გასწორება ტექსტისთვის. ამის შემდეგ, ტექსტისთვის გამოყენებული იყო კოდირების ფენა ყურადღების ფენასთან ერთად, რომელიც მუსიკის მონაკვეთებს ტექსტებზე ასახავდა გასაღები-მნიშვნელობის წყვილების გამოყენებით. შედეგი იყო ის, რომ ლექსებსა და ვოკალებს საკმაოდ ზუსტი შეხამება ჰქონდათ.

ავტორები ქაღალდი ასევე გაითვალისწინეთ, რომ არსებობს რამდენიმე შეზღუდვა, რაც ჯუკბოქსს აქვს და რომ მომავალი სამუშაო მიზნად ისახავს ხელოვნური ინტელექტის უნარის გაუმჯობესებას. როგორც ავტორები წერენ წელს დღიურში შეტყობინება:

„მიუხედავად იმისა, რომ ჯუკბოქსი წარმოადგენს წინგადადგმულ ნაბიჯს მუსიკალურ ხარისხში, თანმიმდევრულობაში, აუდიო ნიმუშის სიგრძეში და შემსრულებლის, ჟანრისა და ტექსტის შედგენის უნარს, ამ თაობებსა და ადამიანის მიერ შექმნილ მუსიკას შორის მნიშვნელოვანი უფსკრულია. მაგალითად, მიუხედავად იმისა, რომ გენერირებული სიმღერები აჩვენებს ადგილობრივ მუსიკალურ თანმიმდევრულობას, მიჰყვება ტრადიციულ აკორდების შაბლონებს და შეიძლება შთამბეჭდავი სოლოების შესრულებაც კი, ჩვენ არ გვესმის უფრო დიდი მუსიკალური სტრუქტურები, როგორიცაა გუნდები, რომლებიც მეორდება.

ამჟამად, მოდელს შეუძლია შექმნას სიმღერა, რომელიც ცნობადია კონკრეტული ჟანრის ან თუნდაც კონკრეტული შემსრულებლის სტილში. მაგალითად, მას შეუძლია შექმნას სიმღერები ელვის პრესლის, კეტი პერის ან Rage Against the Machine-ის სტილში. მიუხედავად იმისა, რომ სიმღერები ცნობადია ჟანრში ან მომღერლის სტილის მიხედვით, ისინი ასევე საკმაოდ უხეშია, ხშირად ჟღერს როგორც პაროდია ან სიმღერის ცუდი ქავერ ვერსია. მიუხედავად ამისა, ტექნიკური მიღწევა შთამბეჭდავია. მკვლევარებმა, რომლებიც პასუხისმგებელნი არიან ხელოვნური ინტელექტის წარმოქმნის სისტემის შექმნაზე, აირჩიეს მუშაობა პროგრამაზე, რომელსაც შეუძლია მუსიკის გენერირება, განსაკუთრებით იმიტომ, რომ ამოცანა რთული იყო და მკვლევარები გეგმავენ გააგრძელონ თავიანთი ტექნიკის დახვეწა. შეგიძლიათ მოუსმინოთ რამდენიმე სიმღერას აქ დაწკაპუნებით.

ბლოგერი და პროგრამისტი სპეციალობით მანქანა სწავლა მდე ღრმა სწავლება თემები. დანიელი იმედოვნებს, რომ დაეხმარება სხვებს გამოიყენონ ხელოვნური ინტელექტის ძალა სოციალური სიკეთისთვის.