кочан Ограничаване на нарастващите нужди от мощност на машинното обучение - Unite.AI
Свържете се с нас

Изкуствен интелект

Ограничаване на нарастващите нужди от мощност на машинното обучение

mm
Обновено on

В светлината на нарастващата загриженост относно енергийните изисквания на големите модели за машинно обучение, скорошно проучване от лабораторията на MIT Lincoln и Североизточния университет проучи спестяванията, които могат да бъдат направени от GPU за ограничаване на мощността, използвани в обучението и изводите на модели, както и няколко други техники и методи за намаляване на потреблението на AI енергия.

Новата работа също изисква нови документи за изкуствен интелект, които да завършват с „Енергиен отчет“ (подобно на скорошна тенденция за твърдения за „етично значение“ в документи от изследователския сектор за машинно обучение).

Основното предложение от работата е, че ограничаването на мощността (ограничаване на наличната мощност за графичния процесор, който обучава модела) предлага ценни ползи за спестяване на енергия, особено за маскирано езиково моделиране (MLM) и рамки като BERT и неговите производни.

Мрежи за моделиране на три езика, работещи на процент от настройките по подразбиране от 250 W (черна линия), по отношение на потреблението на енергия. Ограничаването на консумацията на енергия не ограничава ефективността или точността на обучението на база 1-1 и предлага спестявания на енергия, които са забележими в мащаб. Източник: https://arxiv.org/pdf/2205.09646.pdf

Мрежи за моделиране на три езика, работещи на процент от настройките по подразбиране от 250 W (черна линия), по отношение на потреблението на енергия. Ограничаването на консумацията на енергия не ограничава ефективността или точността на обучението на база 1-1 и предлага спестявания на енергия, които са забележими в мащаб. Източник: https://arxiv.org/pdf/2205.09646.pdf

За по-мащабни модели, които привлякоха вниманието през последните години поради хипермащабни набори от данни и нови модели с милиарди или трилиони параметри, подобни спестявания могат да бъдат получени като компромис между времето за обучение и потреблението на енергия.

Обучение на по-страшни НЛП модели в мащаб при ограничения на мощността. Средното относително време под капачка от 150 W е показано в синьо, а средната относителна консумация на енергия за 150 W в оранжево.

Обучение на по-страшни НЛП модели в мащаб при ограничения на мощността. Средното относително време под капачка от 150 W е показано в синьо, а средната относителна консумация на енергия за 150 W в оранжево.

За тези по-мащабни внедрявания изследователите откриха, че ограничение от 150 W за използване на мощността е постигнало средно 13.7% по-ниско потребление на енергия в сравнение със стандартния максимум от 250 W, както и сравнително малко увеличение от 6.8% на времето за обучение.

Освен това изследователите отбелязват, че въпреки заглавия че разходите за обучение на модели са събрани през последните няколко години, енергийните разходи за действителното използване на обучените модели са далече по-висок*.

„За езиково моделиране с BERT печалбите на енергия чрез ограничаване на мощността са забележимо по-големи при извършване на извод, отколкото при обучение. Ако това е последователно за други AI приложения, това може да има значителни последици по отношение на потреблението на енергия за широкомащабни или облачни изчислителни платформи, обслужващи приложения за изводи за научни изследвания и индустрия.

Освен това, и може би най-спорно, документът предлага основното обучение на модели за машинно обучение да бъде преместено в по-студените месеци от годината и през нощта, за да се спестят разходи за охлаждане.

По-горе, статистика на PUE за всеки ден от 2020 г. в центъра за данни на авторите, със забележим и устойчив пик/плато през летните месеци. По-долу средната почасова вариация на PUE за едно и също местоположение в рамките на една седмица, като потреблението на енергия нараства към средата на деня, тъй като както вътрешният хардуер за охлаждане на GPU, така и охлаждането на околния център за данни се борят да поддържат работеща температура.

По-горе, статистика на PUE за всеки ден от 2020 г. в центъра за данни на авторите, със забележим и устойчив пик/плато през летните месеци. По-долу средната почасова вариация на PUE за едно и също местоположение в рамките на една седмица, като потреблението на енергия нараства към средата на деня, тъй като както вътрешният хардуер за охлаждане на GPU, така и охлаждането на околния център за данни се борят да поддържат работеща температура.

Авторите заявяват:

„Очевидно тежките НЛП натоварвания обикновено са много по-малко ефективни през лятото от тези, изпълнявани през зимата. Предвид големите сезонни колебания, ако има такива, има изчислително скъпи експерименти, които могат да бъдат насрочени за по-хладните месеци, това време може значително да намали въглеродния отпечатък.

Документът също така признава възникващите възможности за спестяване на енергия, които са възможни чрез съкращаване и оптимизиране на архитектурата на модела и работните процеси – въпреки че авторите оставят по-нататъшното развитие на този път на други инициативи.

И накрая, авторите предлагат новите научни статии от сектора на машинното обучение да бъдат насърчавани или може би ограничени да завършват с изявление, деклариращо потреблението на енергия от работата, извършена в изследването, и потенциалните енергийни последици от приемането на инициативи, предложени в работата .

Документът, водещ чрез пример, обяснява енергийните последици от собствените си изследвания.

Документът, водещ чрез пример, обяснява енергийните последици от собствените си изследвания.

- хартия е озаглавен Голяма сила, голяма отговорност: Препоръки за намаляване на енергията за обучение на езикови модели, и идва от шестима изследователи от MIT Lincoln и Northeastern.

Очертаващото се заграбване на енергия от машинното обучение

Както и изчислителните изисквания за моделите за машинно обучение увеличава в тандем с полезността на резултатите, настоящата култура на машинно обучение приравнява разхода на енергия с подобрена производителност – въпреки някои забележителни активисти, като Андрю Нг, което предполага, че обработката на данни може да бъде a по-важен фактор.

В един ключово сътрудничество с MITот 2020 г. беше изчислено, че десетократно подобрение на производителността на модела води до 10,000 XNUMX-кратно увеличение на изчислителните изисквания, заедно със съответното количество енергия.

Следователно изследванията на по-малко енергоемко ефективно ML обучение се увеличиха през последните няколко години. Новият документ, твърдят авторите, е първият, който разглежда дълбоко ефекта от ограниченията на мощността върху обучението и изводите за машинно обучение, с акцент върху NLP рамките (като серията GPT).

Тъй като качеството на изводите е първостепенна грижа, авторите заявяват своите констатации в самото начало:

„[Този] метод не засяга прогнозите на обучени модели или следователно тяхната точност на изпълнение на задачите. Тоест, ако две мрежи с еднаква структура, първоначални стойности и групирани данни са обучени за същия брой партиди при различни ограничения на мощността, техните произтичащи параметри ще бъдат идентични и само енергията, необходима за производството им, може да се различава.'

Намаляване на силата за НЛП

За да оценят въздействието на ограниченията на мощността върху обучението и изводите, авторите са използвали NVIDIA-SMI (Интерфейс за управление на системата) помощна програма от командния ред, заедно с MLM библиотекаy от HuggingFace.

Авторите са обучили модели за обработка на естествен език БЕРТ, DistilBERT намлява Голяма птица през MLM и наблюдаваше тяхната консумация на енергия при обучение и внедряване.

Моделите бяха обучени срещу DeepAI WikiText-103 набор от данни за 4 епохи в партиди от осем, на 16 GPU V100, с четири различни ограничения на мощността: 100 W, 150 W, 200 W и 250 W (по подразбиране или базова линия за NVIDIA V100 GPU). Моделите включват параметри, обучени чрез надраскване, и произволни начални стойности, за да осигурят сравними оценки на обучението.

Както се вижда на първото изображение по-горе, резултатите показват добро спестяване на енергия при нелинейни, благоприятни увеличения на времето за обучение. Авторите заявяват:

„Нашите експерименти показват, че прилагането на ограничения на мощността може значително да намали потреблението на енергия за сметка на времето за обучение.“

Отслабване „Голямо НЛП“

След това авторите приложиха същия метод към по-взискателен сценарий: обучение на BERT с MLM върху разпределени конфигурации в множество графични процесори – по-типичен случай на употреба за добре финансирани и добре рекламирани FAANG NLP модели.

Основната разлика в този експеримент беше, че един модел може да използва някъде между 2-400 графични процесора на екземпляр за обучение. Приложени са същите ограничения за потребление на енергия и е използвана същата задача (WikiText-103). Вижте второто изображение по-горе за графики на резултатите.

В статията се посочва:

„Осреднявайки всеки избор на конфигурация, ограничението от 150 W за използване на мощност доведе до средно 13.7% намаление на потреблението на енергия и 6.8% увеличение на времето за обучение в сравнение с максимума по подразбиране. [Настройката] 100 W има значително по-дълго време за обучение (31.4% по-дълго средно). Ограничение от 200 W съответства на почти същото време за обучение като ограничение от 250 W, но по-скромно спестяване на енергия от ограничение от 150 W.'

Авторите предполагат, че тези резултати поддържат ограничаване на мощността при 150 W за GPU архитектури и приложенията, които работят върху тях. Те също така отбелязват, че получените икономии на енергия се пренасят между хардуерни платформи и проведоха тестовете отново, за да сравнят резултатите за NVIDIA K80, T4 и A100 GPU.

Икономии, получени при три различни графични процесора NVIDIA.

Икономии, получени при три различни графични процесора NVIDIA.

Извод, а не обучение, изяжда сила

Документът цитира няколко предишни проучвания, демонстриращи, че въпреки заглавията, изводът (използването на завършен модел, като например НЛП модел), а не обучението, черпи най-голямо количество енергия, което предполага, че тъй като популярните модели са превърнати в стока и навлизат в масово, потреблението на енергия може да се превърне в по-голям проблем, отколкото е в момента на този по-зараждащ се етап от развитието на НЛП.

По този начин изследователите измерват въздействието на извода върху потреблението на енергия, като установяват, че налагането на ограничения на мощността има забележим ефект върху латентността на извода:

„В сравнение с 250 W, настройка от 100 W изисква двойно време за извод (114% увеличение) и консумира 11.0% по-малко енергия, 150W изисква 22.7% повече време и спестява 24.2% енергия, а 200W изисква 8.2% повече време с 12.0% по-малко енергия.'

Зимно обучение

Документът предполага, че обучението (ако не е извод, по очевидни причини) може да бъде планирано в моменти, когато центърът за данни е в пикова ефективност на потреблението на енергия (PUE) – ефективно, това е през зимата и през нощта.

„Могат да бъдат постигнати значителни икономии на енергия, ако работните натоварвания могат да бъдат планирани в моменти, когато се очаква по-нисък PUE. Например преместването на краткотрайна работа от дневна към нощна може да осигури приблизително 10% намаление, а преместването на по-дълга, скъпа работа (напр. езиков модел, завършването на който отнема седмици) от лятото към зимата може да доведе до 33% намаление.

„Въпреки че е трудно да се предскажат спестяванията, които един отделен изследовател може да постигне, информацията, представена тук, подчертава важността на факторите на околната среда, които влияят върху общата енергия, консумирана от техните работни натоварвания.“

Дръжте го облачно

И накрая, документът отбелязва, че е малко вероятно местните ресурси за обработка да са приложили същите мерки за ефективност като големите центрове за данни и играчи на облачни изчисления на високо ниво и че ползите за околната среда могат да бъдат спечелени чрез прехвърляне на работни натоварвания към места, които са инвестирали сериозно в добро PUE.

„Въпреки че има удобство в това да имаш частни изчислителни ресурси, които са достъпни, това удобство си има цена. Най-общо казано, енергоспестяването и въздействието се постигат по-лесно в по-големи мащаби. Центровете за данни и доставчиците на облачни изчисления правят значителни инвестиции в ефективността на своите съоръжения.

 

* Подходящи връзки, дадени от хартията.