Свяжитесь с нами:

data2vec: веха в самоконтролируемом обучении

Искусственный интеллект

data2vec: веха в самоконтролируемом обучении

mm

Модели машинного обучения в значительной степени полагаются на размеченные данные для обучения, и, традиционно говоря, модели обучения на размеченных данных дают точные результаты. Однако основным недостатком использования помеченных данных являются высокие затраты на аннотации, которые растут с увеличением размера обучающих данных. Высокие затраты на аннотации являются большим препятствием для разработчиков, особенно при работе над большим проектом со значительным объемом обучающих данных.

Чтобы решить проблему с аннотациями, разработчики придумали концепцию SSL или самоконтролируемое обучение. Самоконтролируемое обучение — это процесс машинного обучения, в котором модель обучается узнавать часть ввода из другой части ввода. Модель обучения с самоконтролем направлена ​​на использование взаимосвязи между данными вместо использования контролируемых сигналов помеченных данных. 

В дополнение к самоконтролируемому обучению существует несколько других методов и моделей для обучения моделей машинного обучения без использования размеченных данных. Однако у большинства этих методов есть две основные проблемы.

  1. Они часто специализируются на одной модальности, такой как изображение или текст. 
  2. Они требуют больших вычислительных мощностей. 

Эти ограничения являются серьезной проблемой, почему средний человеческий разум может учиться на одном типе данных гораздо эффективнее по сравнению с моделью ИИ, которая опирается на отдельные модели и обучающие данные, чтобы различать изображение, текст и речь. 

Чтобы решить проблему единственной модальности, Meta AI выпустила data2vec, первый в своем роде высокопроизводительный алгоритм с самоконтролем для изучения информации о шаблонах из трех различных модальностей: изображения, текста и речи. С реализацией алгоритма data2vec понимание текста может быть применено к проблеме сегментации изображения или также может быть развернуто в задаче распознавания речи. 

В этой статье мы подробно поговорим о модели data2vec. Мы обсудим обзор метода, связанную работу, архитектуру и результаты модели более подробно, чтобы у вас было четкое представление об алгоритме data2vec. 

Data2vec Введение: основная идея

Хотя фундаментальная концепция обучения с самостоятельным наблюдением применяется во всех модальностях, фактические цели и алгоритмы отличаются друг от друга, поскольку они были разработаны с учетом одной модальности. Разработка модели для одной модальности является причиной того, что один и тот же алгоритм обучения с самоконтролем не может эффективно работать с разными типами обучающих данных. 

Чтобы преодолеть проблему, связанную с одномодальными моделями и алгоритмами, Meta AI выпустила data2vec, алгоритм, который использует одну и ту же методологию обучения для компьютерного зрения, НЛП или речь.  

Основная идея алгоритма data2vec заключается в использовании маскированного представления входных данных для предсказать скрытые представления полных входных данных в установке самоперегонки с помощью стандартная архитектура трансформатора. Таким образом, вместо объектов, специфичных для модальности, таких как изображения, текст или голос, которые являются локальными по своей природе, алгоритм data2vec прогнозирует скрытые представления с информацией из полных обучающих или входных данных. 

Зачем индустрии искусственного интеллекта нужен алгоритм Data2Vec?

Модели самоконтролируемого обучения создают представления данных обучения с использованием аннотированных человеком меток, и это одна из основных причин развития НЛП или обработки естественного языка, а также технологии компьютерного зрения. Эти представления самоконтролируемого обучения являются причиной того, что такие задачи, как распознавание речи и машинное обучение, используют в своих моделях обучение без учителя. 

До сих пор эти алгоритмы обучения с самоконтролем фокусировались на отдельных модальностях, которые приводили к предвзятости обучения, и на конкретных конструкциях моделей. Индивидуальная модальность алгоритмов обучения с самоконтролем создает проблемы в различных приложениях ИИ, включая компьютерное зрение и НЛП. 

Например, в обработке речи есть словарь речевых единиц, который может определять самоконтролируемую задачу обучения в НЛП. Точно так же в компьютерное зрение, разработчики могут либо регрессировать ввод, либо изучать отдельные визуальные маркеры, либо изучать представления, инвариантные к расширению данных. Хотя эти предубеждения в обучении удобны, трудно подтвердить, будут ли эти предубеждения распространяться на другие модальности. 

Алгоритм data2vec является важной вехой в индустрии самоконтролируемого обучения, поскольку он направлен на улучшение нескольких модальностей, а не только одной. Кроме того, алгоритм data2vec не зависит от восстановления входных данных или сравнительного обучения. 

Таким образом, причина, по которой мир нуждается в data2vec, заключается в том, что алгоритм data2vec обладает потенциалом ускорения прогресса в области ИИ и способствует разработке моделей ИИ, которые могут беспрепятственно изучать различные аспекты своего окружения. Ученые надеются, что алгоритм data2vec позволит им разработать более адаптируемые модели ИИ и машинного обучения, способные выполнять сложные задачи, выходящие за рамки возможностей современных моделей ИИ.

Что такое алгоритм Data2Vec?

Data2vec — это унифицированная структура, целью которой является внедрение самоконтролируемого машинного обучения для различных модальностей данных, включая изображения, речь и текст. 

Алгоритм data2vec направлен на разработку моделей ML, которые могут намного лучше изучать общие закономерности в среде, сохраняя цель обучения одинаковой для разных модальностей. Модель data2vec унифицирует алгоритм обучения, но по-прежнему изучает представления для каждой модальности по отдельности. 

Meta AI надеется, что введение алгоритма data2vec сделает мультимодальное обучение эффективным и намного более простым. 

Как работает алгоритм Data2Vec?

Алгоритм data2vec сочетает изучение скрытых целевых представлений с маскированным предсказанием, хотя он использует несколько сетевых слоев в качестве целей для обобщения скрытых представлений. Модель специально тренирует готовую Трансформаторная сеть который затем используется либо в учитель или ученик Режим. 

В режиме учителя модель сначала строит представления входные данные, которые служат целями в учебной задаче. В студенческом режиме модель кодирует замаскированную версию входных данных, которая затем используется для прогнозирования полных представлений данных. 

На приведенном выше рисунке показано, как модель data2vec использует один и тот же процесс обучения для разных модальностей. На первом этапе модель создает представления входных данных (режим учителя). Затем модель регрессирует эти представления на основе замаскированной версии входных данных. 

Кроме того, поскольку алгоритм data2vec использует скрытые представления входных данных, его можно рассматривать как упрощенную версию моделей, специфичных для модальности, таких как создание подходящих целей путем нормализации ввода or изучение фиксированного набора визуальных маркеров. Но решающим отличием алгоритма data2vec от других алгоритмов является то, что алгоритм data2vec использует внутреннее внимание, чтобы сделать свое целевое представление контекстуализированный и непрерывный. С другой стороны, другие модели обучения с самоконтролем используют фиксированный набор целей, основанных на локальном контексте. 

Data2vec: модельный метод

Модель data2vec обучается путем прогнозирования модельных представлений входных данных с учетом частичного представления входных данных. Как вы можете видеть на данном рисунке, морда собаки замаскирована, определенный участок голосовой записи замаскирован, а слово «с” маскируется в тексте. 

Модель сначала кодирует замаскированную версию обучающей выборки (студенческий режим), а затем кодирует немаскированную версию входных данных для построения тренировочных целей с той же моделью, но только когда она параметризована как экспоненциальное среднее весов модели (режим учителя). Кроме того, целевые представления кодируют информацию, присутствующую в обучающей выборке, а в режиме ученика задача обучения используется для прогнозирования этих представлений при частичном представлении входных данных. 

Модельная архитектура

Модель data2vec использует стандартный Трансформаторная архитектура с модально-специфическим кодированием входных данных. Для задач, связанных с компьютерным зрением, модель использует стратегию ViT для кодирования изображения в виде последовательности фрагментов, где каждое изображение занимает более 16 × 16 пикселей и подается как линейное преобразование. 

Кроме того, данные для распознавания речи модель кодирует с помощью многослойной одномерной сверточной нейронной сети, которая отображает сигналы частотой 1 кГц в представления с частотой 16 Гц. Чтобы обработать текстовые данные, модель предварительно обрабатывает данные для извлечения единиц подслов, а затем встраивает данные в пространство распределения посредством векторов внедрения. 

Маскировка

Как только модель внедряет входные данные в виде последовательности токенов, модель маскирует части этих единиц, заменяя их внедряющим токеном, а затем передает последовательность в Трансформатор сеть. Для компьютерного зрения модель использует стратегию блочной маркировки. Скрытые речевые представления используются для маскирования фрагментов речевых данных, а для задач, связанных с языком, маркеры маскируются. 

Тренировочные цели

Модель data2vec предназначена для прогнозирования представлений модели немаскированной обучающей выборки на основе кодирования замаскированной выборки, которая изначально была передана модели. Модель предсказывает представления только для замаскированных временных шагов. 

Модель предсказывает контекстуализированные представления который не только кодирует конкретный временной шаг, но также кодирует другую информацию из образца, потому что он использует внутреннее внимание в сети Transformer. Контекстуализированные представления и использование сети Transformer — вот что отличает модель data2vec от уже существующих. BERT, wav2vec, BEiT, SimMIM, MAE и MaskFeat модели, которые предсказывают цели без контекстной информации. 

Вот как модель data2vec параметризует режим учителя, чтобы предсказать сетевые представления, которые затем служат целями. 

Параметризация учителя

Модель data2vec параметризовала кодирование немаскированной обучающей выборки с использованием EMA или экспоненциальная скользящая средняя параметров модели (θ), где веса модели в целевой режим(△) таковы

                                           ∆ ← τ∆ + (1 − τ ) θ

 

Кроме того, модель планирует для τ, который линейно увеличивает параметр от  от τ0 до τe (целевое значение) в течение первых обновлений τn. После этих обновлений модель сохраняет значение постоянным, пока обучение не закончится. Использование стратегии EMA гораздо чаще обновляет информацию учителя в начале, когда обучение начинается, когда модель является случайной. По мере того, как обучение продолжается и хорошие параметры были изучены, учитель обновляется реже. 

Результаты показывают, что модель более эффективна и точна, когда она совместно использует параметры кодировщика признаков и кодировщика положения между режимами ученика и учителя. 

Цели

Построение тренировочных мишеней зависит от выходных данных верхней K блоки сети учителя для временных шагов, которые маскируются в режиме ученика. Выход блока l на любом временном шаге t обозначается какlt. Затем модель применяет нормализацию к каждому блоку, чтобы получитьlt до того, как он усреднит верхние K блоков 

  

 

для получения тренировочной цели yt для временного шага t для сети с L блоков всего. 

Она создаёт тренировочные цели, по которым модель регрессирует в режиме ученика. В начальных экспериментах модель data2vec хорошо показала себя, предсказывая каждый блок отдельно с помощью выделенной проекции, и при этом была гораздо более эффективной. 

Кроме того, нормализация целей также позволяет модели data2vec сворачиваться в постоянные представления для временных шагов и не позволяет слоям с высокой нормализацией доминировать над функциями в целевом наборе данных. Для распознавания речи модель использует нормализацию экземпляра по текущему входному образцу без каких-либо изученных параметров. В основном это связано с тем, что, поскольку шаг входных данных мал, соседние представления сильно коррелированы. 

Кроме того, исследователи обнаружили, что при работе с компьютерным зрением и НЛП безпараметрическая нормализация достаточно хорошо справляется со своей задачей. Проблема также может быть решена с помощью Дисперсия-инвариантность-ковариация регуляризация, но указанная выше стратегия работает достаточно хорошо и не требует дополнительных параметров. 

Цель

Для контекстуализированных тренировочных целей yt, в модели используется Гладкая потеря L1 регрессировать цели, как указано ниже

Здесь β управляет переходом от квадратичных потерь к потерям L1, и это сильно зависит от размера разрыва между предсказанием модели ft(x) на временном шаге t. Преимущество этой потери в том, что она сравнительно менее чувствителен к выбросам, с необходимостью настройки параметра β

Экспериментальная установка

Модель data2vec экспериментируется с двумя размерами модели: data2vec Большой и база data2vec. Для численной стабильности обновления EMA выполняются в fp32, а модели содержат L = 12 или L = 24 блока трансформатора со скрытыми размерами (H) = 768 или H = 1024. Давайте подробно рассмотрим экспериментальную установку для различных модальностей. , и цели. 

Компьютерное зрение

Модель data2vec встраивает изображения размером 224×224 пикселя в виде фрагментов размером 16×16 пикселей. Каждый из этих патчей преобразуется линейно, и последовательность со 196 представлениями подается на стандартный преобразователь. 

Модель следует БЭИТ маскировать блоки соседними патчами, при этом каждый блок имеет минимум 16 патчей со случайным соотношением сторон. Однако вместо того, чтобы маскировать 40 % заплаты, как изначально в модели BEiT, модель data2vec маскирует 60 % заплаты для большей точности. 

Кроме того, модель случайным образом изменяет размер обрезки изображения, горизонтальные перевороты и дрожание цвета. Наконец, модель data2vec использует одно и то же модифицированное изображение как в режиме учителя, так и в режиме ученика. 

Модели ViT-B предварительно обучены для 800 эпох, а модель data2vec использует размер пакета 8,192 для модели ViT-L и 2,048 для модели ViT-B. Модель data2vec также использует косинус и график Адама с одним циклом, чтобы повысить скорость обучения для 80 эпох до 0.001 для ViT-L и для 40 эпох до 0.001 для ViT-B. 

Как для ViT-B, так и для ViT-L модель data2vec использует β = 2, K = 6 и τ = 0.9998 как константу без графика. Далее в модели используется стохастический коэффициент глубины 0.2. 

Кроме того, для ViT-L модель обучается в течение 1,600 эпох, где первые 800 эпох имеют скорость обучения 0.9998, а затем модель сбрасывает график скорости обучения и продолжает последние 800 эпох со скоростью обучения 0.9999. 

Для классификации изображений модель использует средний пул выходных данных последнего блока Transformer и передает его нормализованному классификатору softmax. Затем модель точно настраивает ViT-L на 50 эпох и ViT-B на 100 эпох с помощью косинуса и Адама для повышения скорости обучения. 

Обработка речи

Для обработки речи модель data2vec использует Фэрсек, комплект моделирования последовательности, используемый для обучения моделей клиентов для суммирования, перевода и генерации текста. Модель принимает сигнал 16 кГц в качестве входных данных, который обрабатывается с помощью кодировщика признаков и содержит временные свертки с 512 каналами, шириной ядра (10,3,3,3,3,2,2) и шагами (5,2,2,2,2,2,2). ,XNUMX). 

Вышеприведенное приводит к тому, что выходная частота кодера составляет 50 Гц, а шаг между выборками составляет 20 мс. Рецептивное поле состоит из 400 входных выборок или 25 мс аудио. Необработанный сигнал, подаваемый на энкодер, нормализуется до единичной дисперсии, а среднее значение равно нулю.

Стратегия маскирования, используемая data2vec для базовой модели, напоминает структуру Баевского для самоконтролируемого обучения распознаванию речи. Образцы моделей p = 0.065 для всех временных шагов в качестве начальных индексов, и переходит к отметке следующих десяти временных шагов. Для типичной обучающей последовательности процесс позволяет замаскировать почти 49% всех временных шагов. 

Во время обучения модель data2vec линейно отжигает τ, используя τo = 0.999, тe = 0.9999 и τn = 30,000 2. В модели data5vec используется оптимизатор Adam с максимальной скоростью обучения 10×XNUMX.-4 для Базовой модели. Кроме того, в базовой модели используется трехэтапный планировщик, который линейно повышает скорость обучения для первых 3% обновлений, поддерживает ее для следующих 90%, а затем линейно снижает ее для оставшихся 7%. 

Обработка естественного языка

Модель data2vec использует кодирование пар байтов 50 15 типов для токенизации ввода, а затем модель изучает вложение для каждого типа. После того, как данные закодированы, модель применяет стратегию маскирования BERT к 80 % равномерно выбранных токенов, в которых 10 % заменяются токенами выученной маски, 10 % заменяются токенами случайного словаря, а остальные XNUMX % не изменяются. 

Во время предобучения модель использует τo = 0.999, тe = 0.9999 и τn = 100,000 10, K = 4 и β = 5. В модели используется оптимизатор Adam с трехэтапным графиком скорости обучения, который линейно повышает скорость обучения для первых 80% обновлений, поддерживает ее для следующих 15% и затем продолжает уменьшать его линейно для оставшихся 2%, при этом пиковая скорость обучения составляет 10 × XNUMX-4

Кроме того, модель тренируется на 16 Графические процессоры с размером партии 256 последовательностей, и каждая последовательность содержит около 512 токенов. Для нисходящего потока модель предварительно обучается с четырьмя различными скоростями обучения: 1 × 10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4, и тот, который работает лучше всего, выбирается для дальнейших задач НЛП. 

Результаты

Давайте посмотрим, как работает модель data2vec, когда она реализует описанные выше стратегии для различных модальностей. 

Компьютерное зрение

Для оценки результатов для компьютерного зрения модель data2vec предварительно обучается на изображениях, полученных из Имиджнет-1К набор данных. Полученная модель настраивается с использованием размеченных данных того же теста. В соответствии со стандартной практикой модель затем оценивается с точки зрения точность топ-1 по данным проверки. 

Затем результаты различаются на основе одной модели с самоконтролем и обучения отдельного визуального токенизатора на дополнительных данных или других моделях обучения с самоконтролем. 

В таблице ниже сравнивается производительность модели data2vec для компьютерного зрения и других существующих моделей: ViT-L и ViT-B. 

Результаты приведенной выше таблицы можно резюмировать следующим образом. 

  • Модель data2vec превосходит предыдущую работу как с моделями ViT-L, так и с моделями ViT-B в настройках одной модели. 
  • Настройка маскированного прогнозирования, используемая в алгоритме data2vec для прогнозирования контекстуализированных скрытых представлений, работает лучше по сравнению с методами, которые прогнозируют локальные цели, такие как технические характеристики изображения, входные пиксели или визуальные маркеры. 
  • Модель data2vec также превосходит методы самоанализа, которые регрессируют последний слой студенческой сети, при этом в качестве входных данных используются две разные расширенные версии изображения. 

Обработка аудио и речи

Для обработки речи и аудио модель data2vec обучается примерно на 960 часах аудиоданных, полученных из Либрисспич (LS-960) набор данных. Набор данных содержит чистый речевой звук из аудиокниг на английском языке и считается стандартным эталоном в отрасли обработки речи и звука. 

Чтобы проанализировать производительность модели при различных настройках ресурсов, исследователи точно настроили модель data2vec для использования разного объема размеченных данных (от нескольких минут до нескольких часов) для автоматического распознавания речи. Для анализа производительности модели data2vec сравнивается с ХьюБЕРТ & wav2vec 2.0, два самых популярных алгоритма обучения речевому и звуковому представлению, основанные на дискретных единицах речи. 

В приведенной выше таблице производительность data2vec сравнивается по скорости передачи слов для распознавания речи с другими существующими моделями. LM представляет языковую модель, используемую для декодирования. Результаты можно обобщить следующим образом. 

  • Модель data2vec показывает улучшения для большинства настроек размеченных данных с наибольшим приростом размеченных данных за 10 минут для базовых моделей. 
  • Когда дело доходит до больших моделей, модель работает значительно лучше на небольших размеченных наборах данных, а производительность сопоставима с богатыми ресурсами наборами данных с более чем 100 и 960 часами размеченных данных. Это связано с тем, что для большинства моделей производительность обычно достигает насыщения на богатом ресурсами помеченном наборе данных. 
  • Проанализировав производительность, можно сделать вывод, что, когда в модели используются многоцелевые контекстуализированные цели, изучение отдельных единиц не обязательно. 
  • Изучение контекстуализированных целей во время обучения помогает значительно улучшить общую производительность. 

Кроме того, для проверки подхода data2vec к распознаванию речи модель также обучается на АудиоНабор эталон. Хотя предварительная настройка для AudioSet аналогична Librispeech, модель обучается для K = 12 и для более чем 200 94.5 обновлений, где размер каждого пакета составляет XNUMX минуты. 

Затем модель применяет Глубокая норма рамки и нормализация слоя к целям, чтобы помочь в стабилизации обучения. Кроме того, модель также точно настроена на сбалансированных подмножествах с размером пакета 21.3 минуты для 13 XNUMX обновлений. В модели также используется Линейный пул Softmax и перепутать с оценкой вероятности 0.7. Затем модель добавляет одиночная линейная проекция на 527 уникальных классов звука и устанавливает скорость обучения проекции к 2э-4. 

Кроме того, предварительно обученные параметры имеют скорость обучения 3e-5, а модель использует методы маскирования для точной настройки набора данных. В таблице ниже приведены результаты, и видно, что модель data2vec способна превзойти сопоставимую настройку с теми же данными точной настройки и предварительного обучения. 

Обработка естественного языка

Чтобы проанализировать производительность data2vec по тексту, модель использует ту же настройку обучения, что и БЕРТ и предварительное обучение модели на наборе данных английской Википедии с более чем 1 миллионом обновлений и размером пакета 256 последовательностей. Модель оценивается на GLUE или оценка общего понимания языка эталонный тест, который включает в себя задачи интерференции естественного языка (MNLI или многожанровый вывод на естественном языке), сходство предложений (Тест QQP или Quora Question Pairs, MRPC или Microsoft Research Paragraph Corpus и STS-B или тест семантического текстового сходства), анализ настроений(SST-2 или Stanford Sentiment Treebank), а грамматически (КОЛА). 

Кроме того, для точной настройки модели data2vec по каждой задаче предоставляются помеченные данные, а средняя точность указывается в наборах для разработки с 5 прогонами точной настройки. В следующей таблице приведены данные о производительности модели data2vec для задач обработки естественного языка и ее сравнение с другими моделями. 

  • Приведенные выше данные показывают, что модель data2vec превосходит базовую модель RoBERTa, поскольку стратегия в модели data2vec не использует случайные цели. 
  • Модель data2vec — первая успешная предварительно обученная модель НЛП, которая не использует дискретные единицы, такие как символы, слова или подслова, в качестве целей обучения. Вместо этого инфраструктура data2vec предсказывает скрытое контекстуальное представление всей немаскированной текстовой последовательности. 
  • Это помогает в создании учебной задачи, в которой модель должна предсказывать цели с определенными свойствами из текущей последовательности, а не предсказывать представления, которые являются общими для каждой текстовой единицы с особой осторожностью. 
  • Кроме того, набор целей обучения не является фиксированным, и модель может свободно определять новые цели и открыта для настроек словаря. 

Data2Vec: исследование абляции

Абляция — это термин, используемый для определения удаления компонента в системах искусственного интеллекта и машинного обучения. Исследование абляции используется для исследования или анализа производительности модели AI или ML путем удаления определенных ключевых компонентов из модели, что позволяет исследователям понять вклад этого компонента в общую систему. 

Усредненные цели слоя

Основное различие между data2vec и другими моделями обучения с самоконтролем заключается в том, что модель data2vec использует цели, основанные на усреднении нескольких слоев из сети учителей. Идея исходит из того факта, что верхние слои модели wav2vec 2.0 хуже работают для последующих задач по сравнению со средними слоями модели. 

В следующем эксперименте производительность всех трех модальностей измеряется путем усреднения K = 1, 2, …, 12 слоев, где K = 1 предсказывает только верхний слой. Однако, чтобы сократить время обработки, data2vec обучает базовую модель всего с 12 слоями. Для распознавания речи модель предварительно обучается на более чем двухстах тысячах обновлений Librispeech, а затем настраивается на 10-часовом разделении Libri-light. Для обработки естественного языка модель сообщает о среднем балле GLUE для проверочного набора и предварительно обучает модель в течение 300 эпох для компьютерного зрения, а затем сообщает о максимальной точности, полученной в наборе данных ImageNet. 

На приведенном выше рисунке показано, что цели, основанные на нескольких слоях, обычно улучшаются, когда для всех модальностей используется только верхний слой K=1. Использование всех доступных слоев является хорошей практикой, поскольку нейронные сети строят функции на основе различных типов функций и многочисленных слоев, которые затем извлекаются как слои функций. 

Использование функций из нескольких слоев помогает повысить точность и обогащает процесс обучения с самоконтролем. 

Тип целевого объекта

Блоки преобразователя в модели data2vec имеют несколько слоев, каждый из которых может служить целью. Чтобы проанализировать, как разные уровни влияют на производительность, модель предварительно обучается на речевых моделях Librispeech, которые используют разные слои в качестве целевых функций. 

На приведенном ниже рисунке ясно показано, что выходные данные сети с прямой связью или FFN работают идеально, тогда как выходные данные блоков внутреннего внимания не приводят к пригодной для использования модели. 

Целевая контекстуализация

Представления учителей в модели data2vec используют самостоятельную работу над всем вводом для создания контекстуализированных целей. Это то, что отличает data2vec от других моделей обучения с самоконтролем, которые создают задачу обучения, реконструируя или прогнозируя локальные части входных данных. Очевидно, он ставит вопрос: Требуются ли для корректной работы модели data2vec контекстуализированные цели? 

Чтобы ответить на этот вопрос, исследователи создают целевые представления, которые не имеют доступа ко всему набору входных данных, а только к заранее определенной его части. Затем модель ограничивает механизм самоконтроля учителя, который позволяет ему получить доступ только к части входных данных окружающей среды. После обучения модели она настраивается для доступа к полному размеру контекста. 

На приведенном ниже рисунке показано, что большие размеры контекста часто приводят к лучшей производительности, а когда вся входная выборка видна, это обеспечивает наилучшую точность. Это еще раз доказывает, что более богатые целевые представления могут обеспечить лучшую производительность. 

Экстракторы и маскирование специфических признаков модальности

Основная цель data2vec — разработать простой механизм обучения, который может работать с различными модальностями. Это связано с тем, что, несмотря на то, что современные модели и фреймворки имеют единый режим обучения, они по-прежнему используют маскирование для конкретных модальностей и экстракторы признаков. 

Имеет смысл, что фреймворки в основном работают с одной модальностью, учитывая, что природа входных данных сильно отличается друг от друга. Например, в моделях распознавания речи используется вход высокого разрешения (например, сигнал с частотой 10 кГц), который обычно содержит тысячи образцов. Затем форма волны обрабатывается платформой с использованием многослойной сверточной нейронной сети для получения последовательностей признаков с частотой 50 Гц. 

Структурированные и контекстуализированные цели

Основное различие между data2vec и другими моделями маскированного прогнозирования заключается в том, что в модели data2vec особенности целей обучения контекстуализируются. Эти функции построены с использованием самоконтроля всего маскированного ввода в режиме учителя. 

Некоторые другие фреймворки, такие как BYOL (Bootstrap Your Own Latent) или DINO, также используют скрытые представления, такие как data2vec, но их основное внимание уделяется изучению представлений, инвариантных к преобразованиям. 

Заключение

Недавние работы в индустрии искусственного интеллекта и машинного обучения показали, что унифицированные архитектуры моделей могут быть эффективным подходом к решению нескольких модальностей. Модель data2vec использует самостоятельный подход к обучению для работы с тремя модальностями: речью, изображениями и языком. 

Ключевой концепцией модели data2vec является использование частичного входного представления для регрессии контекстуализированной информации или входных данных. Подход, используемый платформами data2vec, эффективен, поскольку модель работает лучше, чем предыдущие модели обучения с самоконтролем в наборе данных ImageNet-1K как для отдельных моделей ViT-B, так и для ViT-L. 

Data2vec действительно является важной вехой в индустрии обучения с самостоятельным наблюдением, поскольку он демонстрирует, что единый метод обучения для изучения нескольких модальностей действительно может упростить обучение моделей в разных модальностях. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.