Изкуствен интелект

Високият въглероден отпечатък на немските модели за автоматичен превод

Обновено on Декември 9, 2022

Ново изследване на въглеродния отпечатък, създаден от моделите за превод на машинно обучение, показва, че немският може да е най-въглеродно-интензивният популярен език за обучение, въпреки че не е напълно ясно защо. Новият доклад има за цел да отвори допълнителни пътища за изследване на по-ефективни от въглеродните емисии методи за обучение с ИИ в контекста на нарастващата осведоменост за степента, в която системите за машинно обучение консумират електроенергия.

Предпечатът хартия е озаглавен Ограничете въглеродните си емисии: Сравнителен анализ на въглеродните емисии при машинен превод, и идва от изследователи от индийския технологичен институт Манипал.

Авторите са тествали времената за обучение и са изчислили стойностите на въглеродните емисии за различни възможни модели за междуезичен превод и са открили „забележимо несъответствие“ между времето, необходимо за превод на трите езикови двойки с най-голямо въглеродно съдържание и трите модела с най-голяма въглеродна ефективност .

Средни въглеродни емисии, отделени за 10 епохи на обучение. Отляво резултатите, използващи ConvSeq (вижте по-долу), отдясно Transformers. Източник: https://arxiv.org/pdf/2109.12584.pdf

Документът установява, че най-екологичните езикови двойки за обучение са английски>френски, френски>английски и, парадоксално, немски към английски, докато немският е във всички двойки с най-голяма консумация: френски>немски, английски>немски и немски> Френски.

Сложна лихва

Констатациите предполагат, че лексикалното разнообразие „е пряко пропорционално на времето за обучение за постигане на адекватно ниво на представяне“ и отбелязват, че немският език има най-висок резултат за лексикално разнообразие сред трите тествани езика, оценен от Съотношение тип-токен (TTR) – измерване на размера на речника въз основа на дължината на текста.

Повишените изисквания за обработка на немски в модели за превод не са отразени в изходните данни, използвани за експеримента. Всъщност лексемите на немски език, генерирани от изходните данни, имат по-малко (299445) извлечени токени от английски (320108) и много по-малко от френски (335917).

Предизвикателството, от гледна точка на обработката на естествен език (NLP), е да се разложи сложни немски думи на съставни думи. НЛП системите често трябва да постигат това за немски език без някаква предварително „разделена“ заобикаляща граматика или контекстуални улики, които могат да бъдат намерени в езици с по-ниски TTR резултати, като английския. The процес е наречен съединение разделяне or разлагане.

Немският език има едни от най-дългите отделни думи в света, въпреки че през 2013 г загубиха официално признание от неговия бивш рекордьор от 65 знака, който е достатъчно дълъг, за да изисква собствен ред в тази статия:

Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz

Думата се отнася до закон, който делегира мониторинг на етикета на говеждо месо, но престана да съществува поради промяна в европейските разпоредби през същата година, отстъпвайки мястото на други популярни последователи, като например „вдовица на капитан на параходна компания по Дунав“ (49 знака):

Donaudampfschifffahrtsgesellschaftskapitaenswitwe

Като цяло, синтактичната структура на немски изисква отклонение от предположенията за реда на думите, които са в основата на НЛП практиките в много западни езици, като популярната (базирана в Берлин) рамка за НЛП spaCY възприема собствения си роден език в 2016.

Проективните съпоставки в английска и немска фраза демонстрират сложните взаимовръзки между лексикалните елементи в немския език. Източник: https://explosion.ai/blog/german-model

Данни и тестване

За изходни данни изследователите са използвали Мулти30k набор от данни, съдържащ 30,000 XNUMX проби на френски, немски и английски език.

Първият от двата модела, използвани от изследователите, беше 2017 Convolutional Sequence to Sequence на Facebook AI (ConvSeq), невронна мрежа, която съдържа конволюционни слоеве, но в която липсват повтарящи се единици и вместо това използва филтри за извличане на функции от текст. Това позволява всички операции да се извършват по ефективен от изчислителна гледна точка паралелен начин.

Вторият подход използва влиянието на Google Трансформатори архитектура, също от 2017 г. Transformers използва линейни слоеве, механизми за внимание и рутинни процедури за нормализиране. Разбира се, оригиналният пуснат модел дойде под критика за въглеродна неефективност, с твърдения за последващи подобрения оспорваното.

Експериментите бяха проведени в Google Colab, равномерно на a Тесла К80 GPU. Езиците бяха сравнени с помощта на a BLUE (Bilingual Evaluation Understudy) метрика за оценка и CodeCarbon Емисии на машинно обучение Калкулатор. Данните бяха обучени за 10 епохи.

Данни

Изследователите открили, че удължената продължителност на обучението за свързани с немски езикови двойки е наклонила везната към по-висока консумация на въглерод. Въпреки че някои други езикови двойки, като английски>френски и френски>английски, имат дори по-високо потребление на въглерод, те се обучават по-бързо и решават по-лесно, като тези изблици на потребление се характеризират от изследователите като „сравнително незначителни“ по отношение на потреблението от езикови двойки, които включват немски.

Анализ на езиковите двойки е енкодер/декодер въглеродни емисии.

Изследователите заключават:

„Нашите констатации дават ясна индикация, че някои езикови двойки са по-интензивни на въглерод за обучение от други, тенденция, която пренася и различни архитектури.“

Те продължават:

„Въпреки това остават въпроси без отговор относно това защо има толкова големи разлики в моделите на обучение за определена езикова двойка спрямо друга и дали различните архитектури могат да бъдат по-подходящи за тези въглеродно-интензивни езикови двойки и защо това би било така, ако е вярно .'

Документът подчертава, че причините за несъответствието на потреблението на въглерод в моделите на обучение не са напълно ясни. Те очакват да развият тази линия на обучение с езици, които не са базирани на латински.

1.20:2 GMT+XNUMX – Коригирана текстова грешка.