заглушки Исследование Google выявило узкое место в гипермасштабных подходах к ИИ - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Исследование Google выявило узкое место в гипермасштабных подходах к ИИ

mm
обновленный on

В новом документе Google Research указывается, что нынешняя тенденция к хранению очень больших наборов данных может быть контрпродуктивной для разработки эффективных систем искусственного интеллекта. Фактически, исследования показывают, что лучшие продукты машинного обучения могут появиться в результате обучения на Меньше точные (т.е. технически «худшие») наборы данных.

Если принципы, полученные исследователями, верны, это означает, что «гипермасштабные» наборы данных, такие как недавно выпущенный LAION-400M (который содержит 400 миллионов пар текст/изображение) и данные, лежащие в основе механизма нейронного языка GPT-3 (содержащие 175 миллиардов параметров), потенциально подвержены своего рода «тепловому пределу» в традиционных и популярных архитектурах машинного обучения. и методологии, при которых огромный объем данных «насыщает» последующие приложения и не позволяет им обобщать их полезным образом.

Исследователи также предлагают альтернативные методы переосмысления архитектуры гипермасштабируемых наборов данных, чтобы устранить дисбаланс.

В документе говорится:

«Погружаясь глубже, чтобы понять причины, порождающие эти явления, мы показываем, что поведение насыщения, которое мы наблюдаем, тесно связано с тем, как представления развиваются через слои моделей. Мы демонстрируем еще более экстремальный сценарий, когда производительность восходящего и нисходящего потоков расходится друг с другом. То есть, чтобы иметь лучшую производительность в нисходящем направлении, нам нужно снизить точность восходящего потока».

Ассоциация Исследование называется Изучение пределов крупномасштабного предварительного обучения, и исходит от четырех авторов из Google Research.

Исследование «насыщенности»

Авторы бросают вызов преобладающим предположениям об отношениях между машинным обучением и данными в эпоху гипермасштабируемых данных: масштабирование моделей и размера данных заметно повышает производительность (убеждение, которое укрепилось в ажиотаже вокруг GPT-3 с момента его запуска); и что эта улучшенная производительность «передается» на последующие задачи линейным (т.е. желательным) образом, так что алгоритмы на устройстве, которые в конечном итоге выпускаются на рынок, основанные на неуправляемых в противном случае огромных наборах данных и необработанных обученных моделях, полностью выигрывают от понимание полноразмерных восходящих архитектур.

«Эти взгляды», исследователи отмечают «Предположим, что расходы на вычисления и исследования, направленные на повышение производительности одного массивного корпуса, окупятся, потому что это позволит нам почти бесплатно решать множество последующих задач».

Но в документе утверждается, что нехватка вычислительных ресурсов и последующие «экономные» методы оценки моделей способствуют ложному восприятию динамики взаимосвязи между объемом данных и полезными системами ИИ. Авторы определяют эту привычку как «большой недостаток», поскольку исследовательское сообщество обычно предполагает, что локальные (положительные) результаты будут преобразованы в полезные последующие реализации:

«[Из-за] вычислительных ограничений производительность для различных вариантов значений гиперпараметров не сообщается. Графики масштабирования кажутся более благоприятными, если гиперпараметр, выбранный для каждого масштаба, фиксирован или определяется простой функцией масштабирования».

Исследователи также заявляют, что многие исследования масштабирования измеряются не по абсолютным шкалам, а как постепенные улучшения по сравнению с современным уровнем техники (SotA), отмечая, что «априори нет причин для масштабирования за пределами изучаемый диапазон».

Предварительная подготовка

В документе рассматривается практика «предварительного обучения» — меры, предназначенной для экономии вычислительных ресурсов и сокращения зачастую ужасающих временных рамок, необходимых для обучения модели на крупномасштабных данных с нуля. Снимки перед обучением обрабатывают «азбуки» того, как данные в одной области будут обобщаться во время обучения, и обычно используются в различных секторах и специальностях машинного обучения, от обработки естественного языка (NLP) до дипфейков.

Предыдущие академические исследования найденный что предварительное обучение может заметно повысить надежность и точность модели, но в новой статье предполагается, что сложность функций, даже в относительно коротко обученных шаблонах предварительного обучения, может быть более полезной, если ее перенаправить на более поздние процессы в конвейере. .

Однако этого не произойдет, если исследователи продолжат полагаться на предварительно обученные модели, использующие передовой современный опыт применения скорости обучения, что, как заключает исследование, может заметно повлиять на конечную точность конечных приложений работы. В связи с этим авторы отмечают, что «нельзя надеяться найти одну предварительно обученную контрольную точку, которая хорошо справляется со всеми возможными последующими задачами».

Исследование

Чтобы установить эффект насыщения, авторы провели 4800 экспериментов на Vision Transformers, ResNets и MLP-Mixers, каждый с различным количеством параметров, от 10 миллионов до 10 миллиардов, и все они были обучены на самых больших объемах данных, доступных в соответствующих секторах. включая ImageNet21K и собственный ДЖФТ-300М.

Результаты, как утверждает газета, показывают, что разнообразие данных следует рассматривать как дополнительную ось при попытке масштабирования данных, параметров модели и времени вычислений. В нынешнем виде сильная концентрация обучающих ресурсов (и внимания исследователей) на восходящем участке конвейера ИИ эффективно взрывает последующие приложения с лавиной параметров до точки «насыщения», снижая способность развернутых алгоритмов ориентироваться. через функции и выполнять логические выводы или преобразования эффектов.

В статье делается вывод:

«В результате обширного исследования мы установили, что по мере того, как мы улучшаем производительность вышестоящей задачи либо за счет увеличения масштаба, либо за счет выбора гиперпараметров и архитектуры, производительность последующих задач демонстрирует поведение насыщения. Кроме того, мы предоставляем убедительные эмпирические доказательства того, что, вопреки распространенному мнению, масштабирование не приводит к единому решению, подходящему для всех».