никулец Спречување на растечките потреби за моќ на машинското учење - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Спречување на растечките потреби за моќ на машинското учење

mm
Ажурирани on

Во светлината на растечката загриженост за потребите за енергија на големите модели за машинско учење, една неодамнешна студија од лабораторијата Линколн МИТ и североисточниот универзитет ги истражи заштедите што можат да се направат со графичките процесори со ограничување на моќноста што се користат во обуката и заклучоците на моделите, како и неколку други техники и методи за намалување на потрошувачката на енергија со вештачка интелигенција.

Новата работа, исто така, бара нови трудови за вештачка интелигенција да завршат со „Изјава за енергија“ (слично на неодамнешен тренд за изјавите за „етичка импликација“ во трудови од секторот за истражување на машинско учење).

Главниот предлог од работата е дека ограничувањето на моќноста (ограничување на достапната моќност на графичкиот процесор кој го тренира моделот) нуди вредни придобивки за заштеда на енергија, особено за моделирање со маскиран јазик (MLM) и рамки како што се BERT и неговите деривати.

Три јазични мрежи за моделирање кои работат на процент од стандардните поставки од 250W (црна линија), во однос на искористеноста на енергијата. Ограничувањето на потрошувачката на енергија не ја ограничува ефикасноста или прецизноста на тренингот на основа 1-1 и нуди заштеди на енергија кои се забележливи во обем. Извор: https://arxiv.org/pdf/2205.09646.pdf

Три јазични мрежи за моделирање кои работат на процент од стандардните поставки од 250W (црна линија), во однос на искористеноста на енергијата. Ограничувањето на потрошувачката на енергија не ја ограничува ефикасноста или точноста на тренингот на основа 1-1 и нуди заштеди на енергија кои се забележливи во обем. Извор: https://arxiv.org/pdf/2205.09646.pdf

За моделите од поголеми размери, кои привлекоа внимание во последниве години поради збирките на податоци со хиперскалила и новите модели со милијарди или трилиони параметри, може да се добијат слични заштеди како компромис помеѓу времето за обука и користењето енергија.

Обучување на пострашни модели на НЛП во обем под ограничувања на моќта. Просечното релативно време под капа од 150 W е прикажано со сино, а просечната релативна потрошувачка на енергија за 150 W со портокалова боја.

Обучување на пострашни модели на НЛП во обем под ограничувања на моќта. Просечното релативно време под капа од 150 W е прикажано со сино, а просечната релативна потрошувачка на енергија за 150 W со портокалова боја.

За овие распоредувања од повисоки размери, истражувачите открија дека 150W ограничена искористеност на енергија добила просечно 13.7% намалување на потрошувачката на енергија во споредба со стандардниот максимум од 250W, како и релативно мало зголемување од 6.8% во времето за обука.

Дополнително, истражувачите забележуваат дека, и покрај наслови дека трошоците за обука на модели се собраа во последните неколку години, енергетските трошоци за реално користење на обучените модели се далеку повисок*.

„За јазично моделирање со BERT, енергетските добивки преку ограничување на моќноста се значително поголеми при изведување на заклучоци отколку за обука. Ако ова е конзистентно за други апликации за вештачка интелигенција, ова може да има значителни последици во однос на потрошувачката на енергија за големи или облак компјутерски платформи кои служат за апликации за заклучување за истражување и индустрија.'

Понатаму, и можеби најконтроверзно, трудот сугерира големата обука на моделите за машинско учење да се префрли во постудените месеци од годината и во ноќните часови, за да се заштеди на трошоците за ладење.

Погоре, статистика на PUE за секој ден од 2020 година во центарот за податоци на авторите, со забележителен и одржлив скок/плато во летните месеци. Подолу, просечната часовна варијација на PUE за иста локација во текот на една недела, со зголемување на потрошувачката на енергија кон средината на денот, бидејќи и внатрешниот хардвер за ладење на графичкиот процесор и ладењето на центарот за податоци на околината се борат да одржат работна температура.

Погоре, статистика на PUE за секој ден од 2020 година во центарот за податоци на авторите, со забележителен и одржлив скок/плато во летните месеци. Подолу, просечната часовна варијација на PUE за иста локација во текот на една недела, со зголемување на потрошувачката на енергија кон средината на денот, бидејќи и внатрешниот хардвер за ладење на графичкиот процесор и ладењето на центарот за податоци на околината се борат да одржат работна температура.

Авторите наведуваат:

„Очигледно, тешките оптоварувања на НЛП обично се многу помалку ефикасни во лето отколку оние што се извршуваат во зима. Со оглед на големите сезонски варијации, доколку има, има пресметковно скапи експерименти кои може да се темпираат до поладни месеци, овој тајминг може значително да го намали јаглеродниот отпечаток.

Трудот, исто така, ги признава новите можности за заштеда на енергија кои се можни преку кастрење и оптимизација на моделската архитектура и работните текови - иако авторите го оставаат понатамошниот развој на оваа авенија на други иницијативи.

Конечно, авторите предлагаат новите научни трудови од секторот за машинско учење да се охрабрат, или можеби да се ограничат, да се затворат со изјава во која се наведува употребата на енергија на работата спроведена во истражувањето и потенцијалните енергетски импликации од усвојувањето иницијативи предложени во работата. .

Трудот, кој води со пример, ги објаснува енергетските импликации на сопственото истражување.

Трудот, кој води со пример, ги објаснува енергетските импликации на сопственото истражување.

на хартија е насловен Голема моќ, голема одговорност: Препораки за намалување на енергијата за модели на јазици за обука, и доаѓа од шест истражувачи низ MIT Линколн и североисточен.

Добивањето енергија на машинското учење

Како што има и пресметковните барања за моделите за машинско учење зголемена во тандем со корисноста на резултатите, сегашната култура на ML ги поистоветува потрошувачката на енергија со подобрени перформанси - и покрај некои значајни учесници во кампањата, како што е Андреј Нг, што сугерира дека курирањето на податоците може да биде а поважен фактор.

Во еден клучна соработка на MITОд 2020 година, се проценува дека десеткратното подобрување на перформансите на моделот повлекува 10,000 пати зголемување на пресметковните барања, заедно со соодветната количина на енергија.

Следствено, истражувањето за помалку моќно-интензивно ефективно ML тренинг се зголеми во последните неколку години. Новиот труд, тврдат авторите, е првиот што длабоко го разгледа ефектот на ограничувањата на моќноста врз обуката и заклучоците за машинско учење, со акцент на NLP рамки (како што е серијата GPT).

Бидејќи квалитетот на заклучувањето е главна грижа, авторите ги наведуваат нивните наоди на почетокот:

„[Овој] метод не влијае на предвидувањата на обучените модели или следствено на нивната точност на изведбата на задачите. Односно, ако две мрежи со иста структура, почетни вредности и групирани податоци се обучени за ист број на серии под различни капа на моќност, нивните параметри ќе бидат идентични и само енергијата потребна за нивно производство може да се разликува.'

Намалување на струјата за НЛП

За да го проценат влијанието на моќните капа на обуката и заклучоците, авторите го користеа nvidia-smi (Системски менаџмент интерфејс) алатка за командна линија, заедно со ан MLM библиотекаy од HuggingFace.

Авторите обучија модели за обработка на природен јазик БЕРТ, ДистилБЕРТ Голема птица преку MLM, и ја следеше нивната потрошувачка на енергија при обука и распоредување.

Моделите беа обучени против оние на DeepAI Викитекст-103 база на податоци за 4 епохи во серии од осум, на 16 V100 графички процесори, со четири различни капа на моќност: 100W, 150W, 200W и 250W (стандардно, или основна линија, за NVIDIA V100 GPU). Моделите имаа параметри обучени со гребење и случајни почетни вредности, за да се обезбедат споредливи проценки на обуката.

Како што се гледа на првата слика погоре, резултатите покажуваат добри заштеди на енергија при нелинеарни, поволни зголемувања на времето за обука. Авторите наведуваат:

„Нашите експерименти покажуваат дека имплементирањето на капачињата за напојување може значително да ја намали потрошувачката на енергија по цена на времето за обука.

„Голем НЛП“ за слабеење

Следно, авторите го примениле истиот метод на понапорно сценарио: обука на BERT со MLM за дистрибуирани конфигурации низ повеќе графички процесори - потипичен случај на употреба за добро финансирани и добро објавени модели на FAANG NLP.

Главната разлика во овој експеримент беше дека моделот може да користи помеѓу 2-400 графички процесори по пример за обука. Беа применети истите ограничувања за искористување на енергијата и користена е истата задача (WikiText-103). Погледнете ја втората слика погоре за графикони на резултатите.

Во трудот се вели:

„Во просек за секој избор на конфигурација, ограниченоста од 150 W за искористување на енергија доведе до просечно 13.7% намалување на потрошувачката на енергија и 6.8% зголемување на времето за обука во споредба со стандардниот максимум. [Поставката] 100 W има значително подолго време на обука (31.4% подолго во просек). Ограничувањето од 200 W кореспондира со речиси истото време за обука како ограничувањето од 250 W, но поскромна заштеда на енергија од ограничувањето од 150 W.'

Авторите сугерираат дека овие резултати поддржуваат ограничување на моќноста на 150 W за архитектурите на графичкиот процесор и апликациите што работат на нив. Тие исто така забележуваат дека добиените заштеди на енергија се преведуваат на хардверските платформи и повторно ги извршија тестовите за да ги споредат резултатите за NVIDIA K80, T4 и A100 графичките процесори.

Заштеди се добиваат на три различни графички процесори на NVIDIA.

Заштеди се добиваат на три различни графички процесори на NVIDIA.

Заклучок, не тренира, ја јаде моќта

Весникот цитира неколку претходни студии кои демонстрираат дека, и покрај насловите, тоа е заклучок (употреба на готов модел, како што е моделот НЛП), а не обука што привлекува најголема количина на моќ, што сугерира дека како што популарните модели се комодифицираат и влегуваат во мејнстрим, користењето на енергија може да стане поголем проблем отколку што е моментално во оваа позародишна фаза од развојот на НЛП.

Така, истражувачите го мереле влијанието на заклучоците врз искористувањето на енергијата, откривајќи дека наметнувањето на ограничувањата на моќноста има забележителен ефект врз латентноста на заклучоците:

„Во споредба со 250W, поставувањето од 100W бара двојно повеќе време за заклучување (зголемување од 114%) и троши 11.0% помалку енергија, 150W бара 22.7% повеќе време и заштедува 24.2% енергија, а 200W бара 8.2% повеќе време со 12.0% помалку енергија.'

Зимски тренинг

Трудот сугерира дека обуката (ако не и заклучоци, од очигледни причини) може да се закаже во моменти кога центарот за податоци е на врвот на Ефективноста на користење на енергија (PUE) - ефективно, тоа е во зима и во текот на ноќта.

„Може да се постигне значителна заштеда на енергија ако оптоварувањето може да се закаже во моменти кога се очекува помал PUE. На пример, преместувањето на краткотрајната работа од дење во ноќно може да обезбеди намалување за приближно 10%, а преместувањето на подолга, скапа работа (на пр. јазичен модел за да се заврши со недели) од лето во зима може да доведе до намалување од 33%.

„Иако е тешко да се предвидат заштедите што може да ги постигне еден поединечен истражувач, информациите презентирани овде ја нагласуваат важноста на факторите на животната средина кои влијаат на вкупната енергија потрошена од нивниот обем на работа“.

Чувајте го облачно

Конечно, трудот забележува дека домашните ресурси за обработка веројатно нема да ги имплементираат истите мерки за ефикасност како главните центри за податоци и играчите за пресметување во облак на високо ниво, и дека придобивките од животната средина може да се добијат со пренесување на обемот на работа на локации кои инвестирале многу во добра PUE.

„Иако постои погодност во поседувањето приватни компјутерски ресурси кои се достапни, оваа погодност има цена. Општо земено, заштедата на енергија и влијанието полесно се добиваат во поголеми размери. Центрите за податоци и давателите на облак компјутери прават значителни инвестиции во ефикасноста на нивните капацитети.'

 

* Релевантни врски дадени од трудот.