заглушки Создание языковой модели в стиле GPT для одного вопроса - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Создание языковой модели в стиле GPT для одного вопроса

mm
обновленный on

Исследователи из Китая разработали экономичный метод создания систем обработки естественного языка в стиле GPT-3, избегая при этом все более непомерно высоких затрат времени и денег, связанных с обучением больших объемов данных — растущая тенденция, которая в противном случае грозит в конечном итоге отодвинуть этот сектор ИИ на второй план. игрокам FAANG и инвесторам высокого уровня.

Предлагаемая структура называется Управляемое задачами языковое моделирование (ТЛМ). Вместо того, чтобы обучать огромную и сложную модель на обширном корпусе из миллиардов слов и тысяч меток и классов, TLM вместо этого обучает гораздо меньшую модель, которая на самом деле включает запрос непосредственно внутри модели.

Слева — типичный гипермасштабный подход к языковым моделям большого объема; справа, тонкий метод TLM для изучения большого языкового корпуса по каждой теме или по каждому вопросу. Источник: https://arxiv.org/pdf/2111.04130.pdf

Слева — типичный гипермасштабный подход к языковым моделям большого объема; справа, тонкий метод TLM для изучения большого языкового корпуса по каждой теме или по каждому вопросу. Источник: https://arxiv.org/pdf/2111.04130.pdf

По сути, уникальный алгоритм или модель НЛП создается для того, чтобы ответить на один вопрос, вместо того, чтобы создавать громоздкую и громоздкую общую языковую модель, которая может отвечать на более широкий спектр вопросов.

При тестировании TLM исследователи обнаружили, что новый подход дает результаты, которые аналогичны или лучше, чем предварительно обученные языковые модели, такие как РОБЕРТа-Большойи гипермасштабируемые системы НЛП, такие как GPT-3 от OpenAI, TRILLION Parameter Switch Transformer от Google. МодельКорейский Гиперклевер, Лаборатория AI21 Юрский 1и Microsoft Мегатрон-Тьюринг NLG 530B.

В испытаниях TLM на восьми наборах классификационных данных в четырех областях авторы дополнительно обнаружили, что система снижает количество обучающих FLOP (операций с плавающей запятой в секунду) требуется на два порядка. Исследователи надеются, что TLM может «демократизировать» сектор, который становится все более элитарным, а модели НЛП настолько велики, что их невозможно реально установить локально, и вместо этого они находятся, в случае с GPT-3, за дорогим и API с ограниченным доступом OpenAI и, теперь Microsoft Azure.

Авторы заявляют, что сокращение времени обучения на два порядка снижает стоимость обучения более 1,000 графических процессоров в течение одного дня до 8 графических процессоров за 48 часов.

Новый отчету называется НЛП с нуля без крупномасштабного предварительного обучения: простая и эффективная структура, и исходит от трех исследователей из Университета Цинхуа в Пекине и исследователя из китайской компании по разработке ИИ Recurrent AI, Inc.

Недоступные ответы

Ассоциация стоят Обучение эффективным, универсальным языковым моделям все чаще характеризуется как потенциальный «тепловой предел» того, до какой степени продуктивное и точное НЛП действительно может распространяться в культуре.

Статистика роста фасетов в архитектурах моделей НЛП из отчета A2020 Labs за 121 год. Источник: https://arxiv.org/pdf/2004.08900.pdf

Статистика роста фасетов в архитектурах моделей НЛП из отчета A2020 Labs за 121 год. Источник: https://arxiv.org/pdf/2004.08900.pdf

В 2019 году исследователь рассчитанный что обучение стоит 61,440 XNUMX долларов США. XLNet модель (в то время сообщалось, что он превзошел BERT в задачах NLP) более 2.5 дней на 512 ядрах на 64 устройствах, в то время как GPT-3 По оценкам, обучение обошлось в 12 миллионов долларов, что в 200 раз превышает затраты на обучение его предшественника, GPT-2 (хотя недавние переоценки утверждают, что теперь его можно обучить за всего 4,600,000 доллара на самых дешевых облачных графических процессорах).

Подмножества данных на основе запросов

Вместо этого новая предлагаемая архитектура направлена ​​на получение точных классификаций, меток и обобщений с использованием запроса в качестве своего рода фильтра для определения подмножества информации из большой языковой базы данных, которая будет обучаться вместе с запросом для предоставления ответов. на ограниченную тему.

Авторы заявляют:

«TLM мотивируется двумя ключевыми идеями. Во-первых, люди справляются с заданием, используя лишь небольшую часть знаний о мире (например, учащимся нужно просмотреть всего несколько глав из всех книг в мире, чтобы зубрить перед экзаменом). 

«Мы предполагаем, что в большом корпусе есть много избыточности для конкретной задачи. Во-вторых, обучение на контролируемых помеченных данных гораздо более эффективно для последующей производительности, чем оптимизация цели языкового моделирования на неразмеченных данных. Основываясь на этих мотивах, TLM использует данные задачи в качестве запросов для извлечения крошечного подмножества общего корпуса. Затем следует совместная оптимизация цели контролируемой задачи и цели языкового моделирования с использованием как извлеченных данных, так и данных задачи».

Помимо доступности высокоэффективного обучения моделям НЛП, авторы видят ряд преимуществ в использовании моделей НЛП, ориентированных на задачи. Во-первых, исследователи могут наслаждаться большей гибкостью благодаря настраиваемым стратегиям длины последовательности, токенизации, настройке гиперпараметров и представлению данных.

Исследователи также предвидят разработку гибридных будущих систем, которые компенсируют ограниченное предварительное обучение PLM (которое иначе не ожидается в текущей реализации) с большей универсальностью и обобщением по сравнению со временем обучения. Они считают эту систему шагом вперед в продвижении методов обобщения с нулевым выстрелом в предметной области.

Тестирование и результаты

TLM был протестирован на задачах классификации в восьми задачах в четырех областях — биомедицинские науки, новости, обзоры и информатика. Задачи были разделены на высокоресурсные и низкоресурсные категории. Высокоресурсные задачи включали более 5,000 данных о задачах, таких как АГНовости и RCT, среди прочего; включены малоресурсные задачи ХимПрот и ACL-ARC, А также Гиперпартизан набор данных обнаружения новостей.

Исследователи разработали два тренировочных набора под названием Corpus-BERT и Corpus-RoBERTa, последний в десять раз больше первого. Эксперименты сравнивали общие предварительно обученные языковые модели. БЕРТ (из Google) и РОБЕРТА (от Facebook) к новой архитектуре.

В документе отмечается, что, хотя TLM является общим методом и должен быть более ограниченным по объему и применимости, чем более широкие и объемные современные модели, он способен выполнять методы тонкой настройки, близкие к адаптивным к предметной области.

Результаты сравнения производительности TLM с наборами на основе BERT и RoBERTa. В результатах указан средний балл F1 по трем различным шкалам обучения, а также указано количество параметров, общее количество вычислений для обучения (FLOP) и размер тренировочного корпуса.

Результаты сравнения производительности TLM с наборами на основе BERT и RoBERTa. В результатах указан средний балл F1 по трем различным шкалам обучения, а также указано количество параметров, общее количество вычислений для обучения (FLOP) и размер тренировочного корпуса.

Авторы приходят к выводу, что TLM способен достигать результатов, сравнимых или даже лучше, чем PLM, со значительным сокращением необходимых FLOP и требуя только 1/16 обучающего корпуса. В средних и больших масштабах TLM, по-видимому, может улучшить производительность в среднем на 0.59 и 0.24 балла, при этом уменьшая размер обучающих данных на два порядка.

«Эти результаты подтверждают, что TLM обладает высокой точностью и гораздо более эффективен, чем PLM. Кроме того, TLM получает больше преимуществ в эффективности в большем масштабе. Это указывает на то, что крупномасштабные PLM могли быть обучены хранить более общие знания, которые бесполезны для конкретной задачи».