Искусственный интеллект
Исследователи обнаруживают высокоэффективные подсети в нейронных сетях глубокого обучения

Нейронные сети глубокого обучения часто бывают массивными и требуют огромных вычислительных мощностей, но новое открытие демонстрирует, как можно сократить их для более эффективного выполнения задач. Джонатан Франкл и его команда из Массачусетского технологического института выдвинули «гипотезу о лотерейных билетах», которая показывает, что внутри более крупных нейронных сетей существуют более компактные подсети. Эти подсети могут выполнять поставленную задачу более эффективно с меньшей требуемой вычислительной мощностью, при этом одной из самых больших проблем является поиск этих подсетей или выигрыш лотерейных билетов, как их называет команда.
Команда обнаружила эти подсети в BERT, передовой технологии машинного обучения для обработки естественного языка (NLP). НЛП, являющееся подразделом искусственного интеллекта (ИИ), отвечает за расшифровку и анализ человеческого языка и используется в таких приложениях, как интеллектуальная генерация текста и чат-боты.
Однако BERT большой и требует суперкомпьютерной мощности, недоступной большинству пользователей. С новым открытием этих подсетей он может открыть этот доступ, позволяя большему количеству пользователей использовать технологию для разработки инструментов НЛП.
«Мы подошли к моменту, когда нам нужно будет сделать эти модели более экономичными и эффективными», — говорит Франкл.
По его словам, эта разработка может «уменьшить входные барьеры» для НЛП.
БЕРТ – «Неприлично дорого»
BERT имеет основополагающее значение для таких вещей, как поисковая система Google, и с тех пор, как Google выпустил его в 2018 году, ему уделяется большое внимание. Это метод создания нейронных сетей, который обучается путем многократных попыток заполнить пустой отрывок в письменных текстах. Одной из самых впечатляющих особенностей BERT является массивный начальный набор обучающих данных.
Затем пользователи могут настроить его для конкретных задач, таких как чат-боты для обслуживания клиентов, но, опять же, для этого требуется огромная вычислительная мощность с возможностью параметров, достигающих 1 миллиарда.
«Сегодня стандартная модель BERT — садовая разновидность — имеет 340 миллионов параметров, — говорит Франкл. «Это просто неприлично дорого. Это далеко за пределами ваших или моих вычислительных возможностей».
По словам ведущего автора Тяньлуна Чена из Техасского университета в Остине, такие модели, как BERT, «страдают от огромного размера сети», но благодаря новому исследованию «гипотеза лотерейного билета кажется решением».
Эффективные подсети
Чен и его команда искали меньшую модель, расположенную в BERT, и сравнивали производительность обнаруженных подсетей с исходной моделью BERT. Это было проверено на множестве различных задач НЛП, включая ответы на вопросы и заполнение пустых слов в предложении.
Команда обнаружила успешные подсети, которые были на впечатляющие 40–90 процентов тоньше, чем исходная модель BERT, причем фактический процент зависел от задачи. Кроме того, они могут идентифицировать их перед тонкой настройкой для конкретной задачи, что приводит к еще большему снижению вычислительных затрат. Еще одним преимуществом было то, что некоторые из подсетей, выбранных для конкретной задачи, можно было затем перепрофилировать для другой.
«Я был немного шокирован тем, что это даже сработало», — говорит Франкл. «Это не то, что я считал само собой разумеющимся. Я ожидал гораздо более грязного результата, чем мы получили».
По словам Ари Моркоса, ученого из Facebook AI Research, это открытие «убедительно», и «эти модели становятся все более распространенными. Поэтому важно понять, верна ли гипотеза о лотерейных билетах».
Моркос также говорит, что если бы эти подсети могли работать с использованием значительно меньшей вычислительной мощности, то это было бы «очень эффективно, учитывая, что эти чрезвычайно большие модели в настоящее время очень дороги в эксплуатации».
«Я не знаю, насколько больше мы можем продвинуться, используя эти вычисления в стиле суперкомпьютера», — добавляет Франкл. «Мы собираемся снизить барьер для входа».
«Мы надеемся, что это снизит стоимость, сделает его более доступным для всех… для маленьких парней, у которых есть только ноутбук», — заключает он.
Исследование планируется представить на Конференция по нейронным системам обработки информации.