кочан Обучение на подобрени текстови вграждания с големи езикови модели - Unite.AI
Свържете се с нас

Бърз инженеринг

Обучение на подобрени текстови вграждания с големи езикови модели

mm

Публикуван

 on

Текстовите вграждания са векторни представяния на думи, изречения, абзаци или документи, които улавят тяхното семантично значение. Те служат като основен градивен елемент в много приложения за обработка на естествен език (NLP) днес, включително извличане на информация, отговаряне на въпроси, семантично търсене и др.

векторно вграждане

векторно вграждане

Последните постижения в големите езикови модели (LLM) като GPT-3 показаха впечатляващи възможности за кратковременно обучение и генериране на естествен език. Можем ли да използваме LLM, за да подобрим и състоянието на текстови вграждания? В техния документ "Подобряване на текстови вграждания с големи езикови модели“, изследователи от Microsoft предлагат нов метод, който постига превъзходни резултати чрез генериране на синтетични данни за обучение с LLM и фина настройка върху тях.

Предизвикателства със съществуващите методи

Традиционните техники за вграждане на текст като претеглени средни стойности на вектори на думи или TF-IDF не успяват да уловят адекватно богатата контекстуална информация в текста. По-новите методи, базирани на предварително обучени езикови модели като BERT, получават много по-добри вграждания, съобразени с контекста.

Те обаче изискват сложни многоетапни конвейери за обучение:

  • Обучете предварително милиарди слабо обозначени или изкуствени текстови двойки
  • Фина настройка на ограничени ръчно подбрани набори от данни

Това изисква огромни изчислителни ресурси и човешки усилия за събиране на данни. Данните за обучение също са ограничени по отношение на разнообразието и езиковото покритие. Например бенчмаркът BEIR включва набори от данни само за 15 задачи за извличане на английски език.

Съществуващите методи използват предимно по-малки архитектури в стил BERT като основен модел. Те не са в състояние да се възползват от по-напреднали LLM и свързани с тях техники.

Методология: Генериране на синтетични данни с LLM

За да преодолеят тези ограничения, изследователите предлагат нов подход за едноетапно обучение, който използва LLM като GPT-3 и GPT-4 за генериране на различни синтетични данни за обучение.

Основните стъпки са:

  1. Таксономия на задачите: Дефинирайте таксономия, която категоризира задачите за вграждане на текст в:
    • Асиметрични задачи (запитване и документ, които не перифразират, напр. търсене)
    • Симетрични задачи (заявка и документ са парафрази, напр. семантично сходство)
  2. Бърз дизайн: Създайте подканващи шаблони, съобразени с всеки тип задача, които насочват LLM да генерира подходящи примери за обучение.
  3. Генериране на синтетични данни: Подканете LLM с проектираните подкани за генериране на стотици хиляди двойки (заявка, документ), покриващи голямо разнообразие от семантични задачи на 93 езика.
  4. Обучение на модели: Настройте фино мощен LLM с отворен код като Mistral върху синтетичните данни, като използвате контрастни загуби.

Тази методология позволява създаване на достатъчно данни за обучение за разнообразни задачи на множество езици без никакви човешки усилия за етикетиране. Като използваме знанията, които вече са вградени в LLM чрез предварително обучение на корпуси в уеб мащаб, можем да синтезираме висококачествени данни, прецизно пригодени за вграждане на текст.

Изследователите демонстрират това със стратегия за подсказване в 2 стъпки:

  • Подканете GPT-4 да предложи потенциални задачи за извличане

Подкана за генериране на задачи за извличане на високо ниво

    Подкана за генериране на задачи за извличане на високо ниво
  • Подканете го отново, за да генерира (заявка, документ) проби въз основа на предложените задачи

n генерира (запитване, положително, силно отрицателно) триплети

    n генерира (запитване, положително, силно отрицателно) триплети

Някои ключови аспекти на бързия дизайн:

  • Естественият език подсказва за интуитивни човешки инструкции
  • Заместители за насърчаване на разнообразието (напр. дължина на заявката, яснота, дължина на документа)
  • Комбиниране на данни от множество шаблони за един и същи тип задача
  • Претегляне на езиците въз основа на наличността на ресурси

Общо те успяха да генерират 500 180 примера за вграждане на текст при изчислителна цена от 43 милиона токена. Доминиращият език е английският (XNUMX%), следван от полски, японски, италиански и други.

За обучение на модели те избраха фина настройка на параметъра 7B с отворен код мистрал модел вместо по-малки архитектури в стил BERT. Тъй като Mistral вече беше предварително обучен за масивни текстови корпуси, не беше необходимо допълнително контрастно предварително обучение. Добавянето му осигури незначителни подобрения.

Цялата фина настройка отне по-малко от 1 стъпки, използвайки комбинация от синтетични и маркирани от хора данни. Това демонстрира примерната ефективност на предложения подход.

Резултати

Изследователите оцениха своя модел на MTEB бенчмарка, който обхваща разнообразни задачи за класификация, групиране, семантично сходство, обобщаване и извличане на информация.

Техният модел надминаха предишното състояние на техниката с 2.4 точки в среден резултат, установявайки нови рекорди за почти всяка категория:

МоделПредишен SOTAПредложен модел
Класификация76.078.5
Clustering46.150.3
Класификация по двойки87.188.3
Прекласиране60.060.2
възстановяване54.356.9
STS83.184.6
Обобщение31.631.4
Средно аритметично64.266.6

Забележително е, че дори без да използва етикетирани данни и обучение единствено върху синтетични данни, той постигна конкурентна точност – само 3.5 точки зад напълно контролирания модел. Това демонстрира жизнеспособността на генерирането на текстови вграждания само с помощта на LLM, без човешки анотационни усилия.

Изследователите също така оцениха многоезичния бенчмарк MIRACL, обхващащ 18 езика. Техният модел надмина предишното най-добро представяне на езиците с висок ресурс, но беше по-слаб на тези с нисък ресурс. Те предполагат, че това може да бъде смекчено чрез по-обстойно предварително обучение на LLM на езици с ниски ресурси.

В обобщение, текстовите вграждания, обучени върху генерирани от LLM синтетични данни, установяват нови най-съвременни резултати, като същевременно използват по-просто и по-ефективно обучение в сравнение с предишните многоетапни подходи. С по-нататъшни изследвания в областта на бързото инженерство и качеството на синтетичните данни, тази методология може значително да усъвършенства многоезичните текстови вграждания.

Анализ

Тази работа предлага няколко ценни извода:

  • LLM като GPT-3 и GPT-4 имат впечатляваща способност да генерират висококачествени синтетични данни за обучение за различни NLP задачи, когато бъдат подканени по подходящ начин. Това може да намали зависимостта от данни, маркирани от хора.
  • За вграждане на текст контрастивното предварително обучение осигурява незначителни печалби в сравнение с модели само за фина настройка като Mistral, които вече имат предварително обучение в трилиони мащаби. Това е важна представа за ефективността на обучението.
  • Методите за генериране с разширено извличане позволяват на LLM динамично да имат достъп до външни знания. Следователно подобряването на вграждането на текст е ценно за подобряване на тези LLM.
  • Има значително място за подобрение в езиците с ниски ресурси. Многоезичните LLM, предварително обучени на по-представителни данни, биха могли да помогнат за запълването на тази празнина.
  • Концептуално езиковото моделиране и вграждането на текст са двете страни на една и съща монета – разбирането на езиковата семантика. Със синтетични подкани за данни, LLMs могат да бъдат органично фино настроени в вградени устройства без сложни тръбопроводи.

Някои обещаващи насоки за бъдеща работа включват:

  • Използване на LLM с отворен код като GPT-NeoX за генериране на синтетични данни
  • Изследване на лекото последващо обучение за адаптиране на вграждащите устройства към по-дълги контексти
  • Разработване на бързи инженерни техники за контрол на качеството и покриването на задачите
  • Методи за подобряване на латентността на извода и разходите за съхранение за индустриална употреба

Отвъд надминаването на бенчмарковете, използването на големи езикови модели за подобряване на вграждането на текст отваря интригуващи възможности за бъдещето. Тъй като LLM продължават да напредват в своето майсторство над естествения език, тяхната способност за генериране на синтетични данни с висока прецизност вероятно също ще се подобри.

Въпреки това остават критични изследователски насоки за превръщането на този потенциал в реално въздействие.

Персонализиране и контрол

Основно предимство на синтетичните данни е възможността за програмно генериране на примери, съобразени със специфични нужди. Както демонстрира документът, бързото инженерство позволява създаване на обучителни данни за стотици хиляди задачи за вграждане.

И все пак настоящите практики за бързо проектиране остават повече изкуство, отколкото наука. Разработването на систематични, възпроизводими методи за прецизен контрол на свойствата на генерираните данни би разширило приложимостта на тази техника.

Например, техниките за модулиране на фактори като сложността, двусмислието и новостта на примерите могат да помогнат за справяне с проблемите на устойчивостта при задачи надолу по веригата. Динамичното бързо генериране, за да съответства на развиващите се дистрибуции в реалния свят, е друго открито предизвикателство.

Обучение в мащаб

Въпреки че предварително обучените LLM вече кодират значителни лингвистични познания, техните умения за генериране на данни вероятно ще се подобрят допълнително с допълнителен мащаб. Модели като GPT-4, обучени на трилиони токени интернет текст, показват силно обучение с няколко изстрела, но не са оптимизирани специално за синтезиране на данни за обучение.

Архитектурите и целите, пригодени за стартиране на самоконтролирано генериране на данни в уеб мащаб, биха могли значително да подобрят качеството и ефективността на тази методология. Ефективното интегриране на извлечените знания за допълване на научените знания е друга обещаваща посока.

Многозадачност и многоезичност

Както се отбелязва в документа, подобряването на производителността на езиците с ниски ресурси остава проблем. Вместо предварително обучение на един масивен LLM, алтернатива е обучението на група от по-малки експертни модели, които са специализирани в определени модалности на данни или езикови домейни.

Такъв комплексен подход може да помогне за подобряване на покритието върху редки задачи и езици чрез споделяне на научени представяния между експерти. Непрекъснатото учене за разширяване на уменията за език и задачи с течение на времето също е вълнуваща перспектива.

В заключение, този документ въвежда новаторска концепция за синтезиране на данни за обучение от LLM за създаване на ефективни текстови вграждания. Техните резултати демонстрират ефективността на тази методология, превъзхождайки предишните показатели. С напредването на LLM и техниките за синтетични данни, използването на техните знания за обучение на вграждащи може да се превърне в многообещаваща посока.

Прекарах последните пет години, потапяйки се в завладяващия свят на машинното обучение и дълбокото обучение. Моята страст и опит ме накараха да допринеса за над 50 различни проекта за софтуерно инженерство, със специален фокус върху AI/ML. Продължаващото ми любопитство също ме насочи към обработката на естествен език, област, която нямам търпение да проуча по-нататък.