Искусственный интеллект
Исследование Google выявило узкое место в гипермасштабных подходах к ИИ
В новом документе Google Research указывается, что нынешняя тенденция к хранению очень больших наборов данных может быть контрпродуктивной для разработки эффективных систем искусственного интеллекта. Фактически, исследования показывают, что лучшие продукты машинного обучения могут появиться в результате обучения на Меньше точные (т.е. технически «хуже») наборы данных.
Если принципы, полученные исследователями, верны, это означает, что «гипермасштабные» наборы данных, такие как недавно выпущенный LAION-400M (содержащий 400 миллионов пар текст/изображение) и данные, лежащие в основе нейронного языкового движка GPT-3 (содержащие 175 миллиардов параметров), потенциально подвержены своего рода «тепловому пределу» в традиционных и популярных архитектурах и методологиях машинного обучения, когда огромный объем данных «насыщает» нижестоящие приложения и не позволяет им обобщать их полезным образом.
Исследователи также предлагают альтернативные методы переосмысления архитектуры гипермасштабируемых наборов данных, чтобы устранить дисбаланс.
В документе говорится:
«Углубляясь в понимание причин, порождающих эти явления, мы показываем, что наблюдаемое нами поведение насыщения тесно связано с тем, как представления эволюционируют по уровням моделей. Мы демонстрируем ещё более экстремальный сценарий, в котором производительность восходящего и нисходящего потоков данных не соответствует друг другу. То есть, чтобы добиться лучшей производительности нисходящего потока данных, нам нужно снизить точность восходящего потока данных».
Команда проведенное исследование называется Изучение пределов крупномасштабного предварительного обучения, и исходит от четырех авторов из Google Research.
Исследование «Насыщенности»
Авторы подвергают сомнению преобладающие предположения о взаимосвязях машинного обучения и данных в эпоху гипермасштабных данных: масштабирование моделей и размера данных заметно повышает производительность (убеждение, которое укрепилось в шумихе вокруг GPT-3 с момента ее запуска); и что это повышение производительности «передается» на нижестоящие задачи линейным (т.е. желаемым) образом, так что алгоритмы устройств, которые в конечном итоге выводятся на рынок и выводятся на основе иначе неуправляемых огромных наборов данных и необработанных обученных моделей, в полной мере извлекают выгоду из понимания полноразмерных вышестоящих архитектур.
«Эти взгляды», исследователи отмечают «предполагают, что затраты вычислительных и исследовательских усилий на повышение производительности одного огромного корпуса окупятся, поскольку это позволит нам решать множество последующих задач практически бесплатно».
Однако в статье утверждается, что нехватка вычислительных ресурсов и, как следствие, «экономичные» методы оценки моделей формируют ложное представление о динамике взаимосвязи между объёмом данных и эффективностью систем искусственного интеллекта. Авторы называют эту привычку «серьёзным недостатком», поскольку исследовательское сообщество обычно исходит из того, что локальные (положительные) результаты будут трансформированы в полезные последующие реализации:
«[Ввиду] ограничений вычислительных возможностей производительность при различных вариантах значений гиперпараметров не сообщается. Масштабные графики выглядят более удачными, если выбранный для каждой шкалы гиперпараметр фиксирован или определяется простой функцией масштабирования».
Исследователи также заявляют, что многие исследования масштабирования оцениваются не по абсолютным шкалам, а как постепенные улучшения по сравнению с современным уровнем техники (SotA), отмечая, что «нет никаких априорных причин для того, чтобы масштабирование сохранялось за пределами изучаемого диапазона».
Предварительная подготовка
В статье рассматривается практика «предобучения» — меры, призванной экономить вычислительные ресурсы и сократить зачастую ужасающе долгие сроки обучения модели на больших объёмах данных с нуля. Предобучающие снимки (pre-training snapshots) отражают основные принципы обобщения данных в рамках одной области в процессе обучения и широко используются в различных областях и областях машинного обучения, от обработки естественного языка (NLP) до создания дипфейков.
Предыдущие академические исследования найденный что предварительное обучение может заметно повысить надежность и точность модели, но в новой статье предполагается, что сложность функций, даже в относительно коротко обученных шаблонах предварительного обучения, может быть более полезной, если ее перенаправить на более поздние процессы в конвейере. .
Однако этого невозможно достичь, если исследователи продолжат полагаться на предварительно обученные модели, использующие лучшие современные практики применения скорости обучения, что, как заключает исследование, может существенно повлиять на конечную точность результатов. В связи с этим авторы отмечают, что «невозможно надеяться найти одну предварительно обученную контрольную точку, которая будет хорошо работать со всеми возможными задачами на последующих этапах».
Исследование
Чтобы установить эффект насыщения, авторы провели 4800 экспериментов на Vision Transformers, ResNets и MLP-Mixers, каждый с различным количеством параметров, от 10 миллионов до 10 миллиардов, и все они были обучены на самых больших объемах данных, доступных в соответствующих секторах. включая ImageNet21K и собственный Google ДЖФТ-300М.
Результаты, как утверждает газета, показывают, что разнообразие данных следует рассматривать как дополнительную ось при попытке масштабирования данных, параметров модели и времени вычислений. В настоящее время высокая концентрация ресурсов обучения (и внимания исследователей) на верхнем участке конвейера ИИ фактически обрушивает на нижестоящие приложения лавину параметров, достигая точки «насыщения», что снижает способность развернутых алгоритмов ориентироваться в признаках и выполнять вывод или преобразования эффектов.
В статье делается вывод:
«Благодаря обширному исследованию мы установили, что по мере повышения производительности задачи верхнего уровня за счёт масштабирования или выбора гиперпараметров и архитектуры производительность задач нижнего уровня демонстрирует насыщение. Кроме того, мы предоставили убедительные эмпирические доказательства того, что, вопреки распространённому мнению, масштабирование не приводит к универсальному решению».












