Штучний Інтелект
Дослідники відкривають високоефективні підмережі в нейронних мережах глибокого навчання

Нейронні мережі глибокого навчання часто є масивними і вимагають величезної обчислювальної потужності, але нове відкриття демонструє, як її можна скоротити, щоб виконувати завдання ефективніше. Джонатан Франкл і його команда з Массачусетського технологічного інституту розробили «гіпотезу про лотерейні квитки», яка показує, що в більших нейронних мережах існують менші підмережі. Ці підмережі можуть виконувати поставлене завдання більш ефективно з меншою необхідною обчислювальною потужністю, причому однією з найбільших проблем є пошук цих підмереж або виграш лотерейних квитків, як їх називає команда.
Команда виявила ці підмережі в BERT, найкращій техніці машинного навчання для обробки природної мови (NLP). НЛП, який є підгалуззю штучного інтелекту (ШІ), відповідає за розшифровку та аналіз людської мови та використовується для таких програм, як генерація прогнозованого тексту та чат-боти.
Однак BERT великий і вимагає суперобчислювальної потужності, яка недоступна більшості користувачів. З новим відкриттям цих підмереж це може відкрити цей доступ, дозволяючи більшій кількості користувачів використовувати цю технологію для розробки інструментів NLP.
«Ми досягли точки, коли нам доведеться зробити ці моделі компактнішими та ефективнішими», — говорить Франкл.
За його словами, ця розробка може «зменшити бар'єри входу» для НЛП.
BERT – «Непристойно дорого»
BERT є основоположним для таких речей, як пошукова система Google, і привернув багато уваги після того, як Google випустив його в 2018 році. Це метод для створення нейронних мереж, і його навчають багаторазовими спробами заповнити порожні уривки в написанні. Однією з найбільш вражаючих особливостей BERT є його масивний набір даних початкового навчання.
Потім користувачі можуть налаштувати його для конкретних завдань, таких як чат-боти для обслуговування клієнтів, але знову ж таки, для цього потрібна величезна кількість обчислювальних потужностей, з можливістю параметрів сягати 1 мільярда.
«Стандартна модель BERT сьогодні – садовий сорт – має 340 мільйонів параметрів», – каже Франкл. «Це просто непристойно дорого. Це далеко за межі ваших чи мене обчислювальних можливостей».
За словами провідного автора Tianlong Chen з Університету Техасу в Остіні, такі моделі, як BERT, «страждають від величезного розміру мережі», але завдяки новому дослідженню «гіпотеза лотерейного квитка, здається, є рішенням».
Ефективні підмережі
Чен і команда шукали меншу модель, розташовану в BERT, і вони порівнювали продуктивність виявлених підмереж з оригінальною моделлю BERT. Це було перевірено на різних завданнях НЛП, включаючи відповіді на запитання та заповнення порожніх слів у реченні.
Команда виявила успішні підмережі, які були на вражаючих 40-90 відсотків тоншими за оригінальну модель BERT, причому фактичний відсоток залежав від завдання. Крім того, вони могли ідентифікувати їх перед тонким налаштуванням для конкретного завдання, що призвело до ще більшого зниження витрат на обчислення. Ще однією перевагою було те, що деякі з підмереж, вибраних для конкретного завдання, можна було потім перепрофілювати для іншого.
«Я був шокований, що це навіть спрацювало», — каже Франкл. «Це не те, що я сприйняв як належне. Я очікував набагато сумнішого результату, ніж ми отримали».
За словами Арі Моркоса, вченого Facebook AI Research, це відкриття є «переконливим», і «ці моделі набувають все більшого поширення. Тому важливо зрозуміти, чи справедлива гіпотеза про лотерейний квиток».
Моркос також каже, що якби ці підмережі могли працювати, використовуючи суттєво меншу обчислювальну потужність, то це було б «дуже впливовим, враховуючи, що експлуатація цих надзвичайно великих моделей зараз дуже дорога».
«Я не знаю, наскільки більше ми можемо зробити, використовуючи ці обчислення в стилі суперкомп’ютера», – додає Франкл. «Нам доведеться зменшити бар’єр для входу».
«Ми сподіваємось, що це знизить вартість, що це зробить його більш доступним для всіх… для маленьких хлопців, які просто мають ноутбук», – підсумовує він.
Дослідження планується презентувати на Конференція з нейронних систем обробки інформації.