заглушки Обучение на устройстве на протяжении всей жизни становится ближе благодаря новой методике обучения - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Обучение на устройстве на протяжении всей жизни становится ближе благодаря новой методике обучения

обновленный on
Лаборатория искусственного интеллекта Watson MIT/MIT-IBM

Группа исследователей из Массачусетского технологического института и Лаборатории искусственного интеллекта Watson AI Lab при MIT-IBM разработала новую методику, которая позволяет проводить обучение на устройстве, используя менее четверти мегабайта памяти. Новая разработка является впечатляющим достижением, поскольку другим решениям для обучения обычно требуется более 500 мегабайт памяти, что превышает 256-килобайтную емкость большинства микроконтроллеров. 

Обучая модель машинного обучения на интеллектуальном пограничном устройстве, она может адаптироваться к новым данным и делать более точные прогнозы. При этом процесс обучения обычно требует много памяти, поэтому он часто выполняется на компьютерах в центре обработки данных до того, как модель будет развернута на устройстве. Этот процесс гораздо более дорогостоящий и вызывает проблемы с конфиденциальностью по сравнению с новой техникой, разработанной командой.

Исследователи разработали алгоритмы и структуру таким образом, чтобы сократить объем вычислений, необходимых для обучения модели, что сделало процесс более быстрым и эффективным с точки зрения использования памяти. Этот метод может помочь обучить модель машинного обучения на микроконтроллере всего за несколько минут. 

Новый метод также помогает с конфиденциальностью, поскольку он сохраняет данные на устройстве, что важно, когда речь идет о конфиденциальных данных. В то же время фреймворк повышает точность модели по сравнению с другими подходами. 

Сонг Хан — адъюнкт-профессор кафедры электротехники и компьютерных наук (EECS), член лаборатории искусственного интеллекта Watson MIT-IBM и старший автор исследовательской работы. 

«Наше исследование позволяет устройствам IoT не только делать логические выводы, но и постоянно обновлять модели ИИ с учетом вновь собранных данных, открывая путь для непрерывного обучения на устройстве», — сказал Хан. «Низкое использование ресурсов делает глубокое обучение более доступным и может иметь более широкий охват, особенно для периферийных устройств с низким энергопотреблением». 

Ассоциация бумаги среди них были соведущие авторы и аспиранты EECS Цзи Линь и Лигенг Чжу, а также постдоки Массачусетского технологического института Вей-Мин Чен и Вей-Чен Ван. В нее также входил Чуанг Ган, главный научный сотрудник лаборатории искусственного интеллекта Watson MIT-IBM. 

Повышение эффективности учебного процесса

Чтобы сделать процесс обучения более эффективным и менее требовательным к памяти, команда использовала два алгоритмических решения. Первый известен как разреженное обновление, в котором используется алгоритм, определяющий наиболее важные веса для обновления во время каждого раунда обучения. Алгоритм замораживает веса по одному, пока точность не упадет до определенного порога, после чего он останавливается. Остальные веса затем обновляются, и активации, соответствующие замороженным весам, не нужно сохранять в памяти. 

«Обновление всей модели обходится очень дорого, потому что требуется много активаций, поэтому люди, как правило, обновляют только последний слой, но, как вы понимаете, это снижает точность», — сказал Хан. «Для нашего метода мы выборочно обновляем эти важные веса и обеспечиваем полное сохранение точности». 

Второе решение, разработанное командой, включает квантовое обучение и упрощение весов. Алгоритм сначала округляет веса до восьми бит с помощью процесса квантования, который также сокращает объем памяти для обучения и вывода, при этом вывод представляет собой процесс применения модели к набору данных и создания прогноза. Затем алгоритм опирается на метод, называемый масштабированием с учетом квантования (QAS), который действует как множитель для регулировки соотношения между весом и градиентом. Это помогает избежать падения точности, которое может возникнуть в результате квантованного обучения. 

Исследователи разработали систему под названием «маленький обучающий движок», которая запускает инновационные алгоритмы на простом микроконтроллере без операционной системы. Чтобы выполнить больше работы на этапе компиляции перед развертыванием модели на периферийном устройстве, система меняет порядок шагов в процессе обучения. 

«Мы откладываем многие вычисления, такие как автодифференциация и оптимизация графов, на время компиляции. Мы также активно сокращаем избыточные операторы для поддержки разреженных обновлений. Во время выполнения у нас гораздо меньше нагрузки на устройство», — говорит Хан. 

Высокоэффективная техника

В то время как традиционные методы, предназначенные для легкого обучения, обычно требуют от 300 до 600 мегабайт памяти, для оптимизации команде требовалось всего 157 килобайт для обучения модели машинного обучения на микроконтроллере. 

Платформа была протестирована путем обучения модели компьютерного зрения распознаванию людей на изображениях, и она научилась выполнять эту задачу всего за 10 минут. Этот метод также позволил обучить модель более чем в 20 раз быстрее, чем другие методы. 

Теперь исследователи попытаются применить эти методы к языковым моделям и различным типам данных. Они также хотят использовать полученные знания для уменьшения больших моделей без потери точности, что также может помочь уменьшить углеродный след обучения крупномасштабных моделей машинного обучения.

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.