Зв'язатися з нами

Дослідження Google виявило вузьке місце в гіпермасштабних підходах до ШІ

Штучний Інтелект

Дослідження Google виявило вузьке місце в гіпермасштабних підходах до ШІ

mm

Нова стаття Google Research вказує на те, що поточна тенденція до курування дуже великих наборів даних може бути контрпродуктивною для розробки ефективних систем штучного інтелекту. Насправді, дослідження показує, що кращі продукти машинного навчання можуть з’явитися після навчання менше точні (тобто технічно «гірші») набори даних.

Якщо принципи, отримані дослідниками, дійсні, це означає, що «гіпермасштабні» набори даних, такі як нещодавно випущений LAION-400M (який містить 400 мільйонів пар текст/зображення) і дані, що стоять за механізмом нейронної мови GPT-3 (містить 175 мільярдів параметрів), потенційно підпадають під своєрідне «термічне обмеження» в традиційних і популярних архітектурах машинного навчання. і методології, за допомогою яких величезний обсяг даних «насичує» подальші програми та перешкоджає їх узагальненню в корисний спосіб.

Дослідники також пропонують альтернативні методи перегляду архітектури гіпермасштабованого набору даних, щоб усунути дисбаланс.

У папері зазначено:

«Дивлячись глибше, щоб зрозуміти причини, які викликають ці явища, ми показуємо, що поведінка насиченості, яку ми спостерігаємо, тісно пов’язана з тим, як уявлення розвиваються через шари моделей. Ми демонструємо ще більш екстремальний сценарій, коли продуктивність на вході та низхідній течії суперечить одна одній. Тобто, щоб отримати кращу продуктивність на нижній течії, нам потрібно знизити точність вихідної течії».

Команда вчитися має титул Вивчення меж великомасштабної попередньої підготовки, і походить від чотирьох авторів із Google Research.

Дослідження "насиченості"

Автори кидають виклик домінуючим припущенням щодо зв’язків між машинним навчанням і даними в епоху гіпермасштабованих даних: що моделі масштабування та розмір даних помітно покращують продуктивність (переконання, яке закріпилося в галасі навколо GPT-3 з моменту його запуску); і що ця покращена продуктивність «проходить» до подальших завдань лінійним (тобто бажаним) способом, так що алгоритми на пристрої, які врешті-решт виводяться на ринок, отримані з інакше неконтрольованих величезних наборів даних і неперероблених навчених моделей, отримують повну вигоду від уявлення про повнорозмірні висхідні архітектури.

"Ці погляди," зазначають дослідники «припускають, що витрати обчислювальних і дослідницьких зусиль на покращення продуктивності одного масивного корпусу окупляться, оскільки це дозволить нам вирішувати багато подальших завдань майже безкоштовно».

Але в документі стверджується, що брак обчислювальних ресурсів і наступні «економічні» методи оцінки моделі сприяють створенню помилкового враження про динаміку зв’язку між обсягом даних і корисними системами ШІ. Автори визначають цю звичку як «великий недолік», оскільки дослідницьке співтовариство зазвичай припускає, що локальні (позитивні) результати перетворяться на корисні подальші реалізації:

«[Через] обмеження обчислень продуктивність для різних значень гіперпараметрів не повідомляється. Графіки масштабування здаються більш сприятливими, якщо гіперпараметр, обраний для кожної шкали, є фіксованим або визначається простою функцією масштабування.'

Крім того, дослідники стверджують, що багато досліджень масштабування вимірюються не за абсолютними шкалами, а як поступове вдосконалення порівняно з найсучаснішим (SotA), зауважуючи, що «немає жодних причин, апріорі, для того, щоб масштабування виконувалося поза межами досліджуваний діапазон».

Попередня підготовка

У документі розглядається практика «попереднього навчання», захід, призначений для економії обчислювальних ресурсів і скорочення часто жахливих часових масштабів, необхідних для навчання моделі на великомасштабних даних з нуля. Миттєві знімки перед навчанням обробляють «азбуку» того, як дані в одному домені будуть узагальнюватися під час навчання, і зазвичай використовуються в різних секторах і спеціальностях машинного навчання, від обробки природної мови (NLP) до deepfakes.

Попередні наукові дослідження мають знайдений що попереднє навчання може помітно підвищити надійність і точність моделі, але нова стаття припускає, що складність функцій, навіть у шаблонах попереднього навчання з відносно коротким навчанням, може принести більше користі, якщо перейти до пізніших процесів у конвеєрі. .

Однак цього не може статися, якщо дослідники продовжуватимуть залежати від попередньо навчених моделей, які використовують сучасну найкращу практику застосування швидкості навчання, що, за підсумками дослідження, може помітно вплинути на остаточну точність остаточного застосування роботи. У цьому відношенні автори зазначають, що «не можна сподіватися знайти одну попередньо підготовлену контрольну точку, яка добре справляється з усіма можливими завданнями, що стоять нижче за течією».

Навчання

Щоб встановити ефект насичення, автори провели 4800 експериментів на Vision Transformers, ResNets і MLP-Mixers, кожен з різною кількістю параметрів, від 10 мільйонів до 10 мільярдів, усі тренувалися на найбільших наборах даних, доступних у відповідних секторах, в тому числі ImageNet21K і власний Google JFT-300M.

Про це свідчать результати, стверджує газета різноманітність даних слід розглядати як додаткову вісь при спробі «збільшити» дані, параметри моделі та час обчислень. У нинішній ситуації значна концентрація навчальних ресурсів (і уваги дослідників) у верхній частині конвеєра штучного інтелекту ефективно підриває наступні програми лавиною параметрів до точки «насичення», знижуючи здатність розгорнутих алгоритмів до навігації. через функції та виконувати висновок або перетворення ефектів.

Документ робить висновок:

«Завдяки широкому дослідженню ми встановили, що, оскільки ми покращуємо продуктивність завдань, що передують, або шляхом збільшення масштабу, або шляхом вибору гіперпараметрів і архітектури, продуктивність завдань, що виконуються нижче, демонструє насичену поведінку. Крім того, ми надаємо переконливі емпіричні докази того, що, всупереч загальноприйнятим наративам, масштабування не призводить до єдиної моделі, яка підходить для всіх».

 

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai