заглушки Fibre от Uber — новая платформа для обучения модели распределенного ИИ - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Fibre от Uber — новая платформа для обучения распределенной модели искусственного интеллекта

mm
обновленный on

По материалам VentureBeat, исследователи искусственного интеллекта в Uber недавно опубликовали бумага для Arxiv описание новой платформы, предназначенной для помощи в создании распределенных моделей ИИ. Платформа называется волокно, и его можно использовать как для выполнения задач обучения с подкреплением, так и для обучения на основе популяции. Fiber предназначен для того, чтобы сделать крупномасштабные параллельные вычисления более доступными для неспециалистов, позволяя им использовать преимущества распределенных алгоритмов и моделей искусственного интеллекта.

Недавно на GitHub был открыт исходный код Fiber, он совместим с Python 3.6 или выше, а Kubernetes работает в системе Linux и работает в облачной среде. По словам группы исследователей, платформа способна легко масштабироваться до сотен или тысяч отдельных машин.

Команда исследователей из Uber объясняет, что многие из самых последних и важных достижений в области искусственного интеллекта были обусловлены более крупными моделями и большим количеством алгоритмов, которые обучаются с использованием методов распределенного обучения. Однако создание популяционных моделей и моделей подкрепления остается сложной задачей для распределенных схем обучения, поскольку они часто имеют проблемы с эффективностью и гибкостью. Fiber делает распределенную систему более надежной и гибкой, сочетая программное обеспечение для управления кластером с динамическим масштабированием и позволяя пользователям беспрепятственно перемещать свои задания с одной машины на большое количество машин.

Fiber состоит из трех разных компонентов: API, серверной части и уровня кластера. Уровень API позволяет пользователям создавать такие вещи, как очереди, менеджеры и процессы. Серверный уровень Fiber позволяет пользователю создавать и завершать задания, которыми управляют разные кластеры, а уровень кластера управляет самими отдельными кластерами вместе с их ресурсами, что значительно увеличивает количество элементов, за которыми должен следить Fiber.

Fiber позволяет ставить задания в очередь и запускать их удаленно на одном локальном компьютере или на нескольких разных компьютерах, используя концепцию процессов, поддерживаемых заданиями. Fiber также использует контейнеры, чтобы обеспечить автономность таких вещей, как входные данные и зависимые пакеты. Платформа Fiber даже включает встроенную обработку ошибок, поэтому в случае сбоя рабочего процесса его можно быстро восстановить. FIber может делать все это, взаимодействуя с менеджерами кластера, позволяя приложениям Fiber работать так, как если бы они были обычными приложениями, работающими на данном компьютерном кластере.

Экспериментальные результаты показали, что среднее время отклика Fiber составляло несколько миллисекунд, а масштабирование было лучше, чем у базовых методов искусственного интеллекта при использовании 2,048 ядер процессора на одного исполнителя. Время, необходимое для выполнения работ, постепенно уменьшалось по мере увеличения установленного числа рабочих. IPyParallel завершил 50 итераций обучения примерно за 1400 секунд, в то время как Fiber смог выполнить те же 50 итераций обучения примерно за 50 секунд с 512 доступными рабочими.

Соавторы бумаги Fiber объяснять то, что Fiber может достичь нескольких целей, таких как алгоритмы динамического масштабирования и использование больших объемов вычислительной мощности:

«[Наша работа показывает], что Fiber достигает многих целей, включая эффективное использование большого количества разнородного вычислительного оборудования, алгоритмы динамического масштабирования для повышения эффективности использования ресурсов, снижение инженерной нагрузки, необходимой для обеспечения работы [обучения с подкреплением] и алгоритмов на основе населения. компьютерных кластеров и быстрой адаптации к различным вычислительным средам для повышения эффективности исследований. Мы ожидаем, что это будет способствовать дальнейшему прогрессу в решении сложных проблем [обучения с подкреплением] с помощью алгоритмов [обучения с подкреплением] и методов на основе популяции, упрощая разработку этих методов и их обучение в масштабах, необходимых для того, чтобы они действительно увидели их сияние».