Інтерв’ю
Ендрю Фелдман, співзасновник та CEO компанії Cerebras Systems – Серія інтерв’ю

Ендрю Фелдман є співзасновником і CEO компанії Cerebras Systems. Він є підприємцем, який присвячений розширенню меж у сфері обчислень. До того, як заснувати Cerebras, він був співзасновником і CEO компанії SeaMicro, яка була піонером у сфері енергоефективних, високошвидкісних мікросерверів. SeaMicro була придбана компанією AMD у 2012 році за $357 млн. До того, як працювати у SeaMicro, Ендрю обіймав посаду віце-президента з управління продуктами, маркетингу та бізнес-розвитку у компанії Force10 Networks, яку пізніше придбала компанія Dell Computing за $800 млн. До роботи у Force10 Networks Ендрю був віце-президентом з маркетингу та корпоративного розвитку у компанії RiverStone Networks з моменту її заснування до виходу на біржу у 2001 році. Ендрю має ступінь бакалавра та магістра ділового адміністрування у Стенфордському університеті.
Cerebras Systems будує новий клас комп’ютерних систем, розроблених з нуля для єдиної мети – прискорення штучного інтелекту та зміни майбутнього роботи зі штучним інтелектом.
Чи можете ви поділитися історією створення компанії Cerebras Systems?
Мої співзасновники та я раніше працювали разом у іншій компанії, яку мій технічний директор Гері та я заснували у 2007 році, – компанії SeaMicro (яку придбала AMD у 2012 році за $334 млн). Мої співзасновники – деякі з провідних комп’ютерних архітекторів та інженерів у галузі – Гері Лотербах, Шон Лай, Джей Пі Фрікер та Майкл Джеймс. Коли ми знову зібралися у 2015 році, ми написали дві речі на дошці – що ми хочемо працювати разом, і що ми хочемо створити щось, що змінить галузь і буде у Комп’ютерному музеї історії, який є еквівалентом до Зали слави обчислень. Нас визнали у музеї історії обчислень минулого року, коли вони додали наш процесор WSE-2 до своєї колекції, зазначивши, що він змінив ландшафт штучного інтелекту.
Cerebras Systems – це команда піонерів-комп’ютерних архітекторів, комп’ютерних вчених, дослідників глибокого навчання та інженерів усіх видів, які люблять виконувати безстрашну інженерію. Наша мета, коли ми зібралися разом, полягала у створенні нового класу комп’ютера для прискорення глибокого навчання, яке стало одним із найважливіших завдань нашого часу.
Ми зрозуміли, що глибоке навчання має унікальні, величезні та зростаючі обчислювальні вимоги. І воно не добре підходить для традиційних машин, таких як графічні процесори (GPU), які були фундаментально розроблені для інших завдань. В результаті штучний інтелект сьогодні обмежений не застосунками чи ідеями, а наявністю обчислень. Перевірка однієї нової гіпотези – навчання нової моделі – може зайняти дні, тижні або навіть місяці та коштувати сотень тисяч доларів у часі обчислень. Це великий перепон на шляху інновацій.
Отже, походження Cerebras полягало у створенні нового типу комп’ютера, оптимізованого виключно для глибокого навчання, починаючи з чистого аркуша паперу. Для задоволення величезних обчислювальних вимог глибокого навчання ми розробили та виготовили найбільший чіп, який коли-небудь будувався – Wafer-Scale Engine (WSE). Створюючи перший у світі чіп рівня пластини, ми подолали перешкоди у сфері проектування, виготовлення та упаковки – всі вони вважалися неможливими для всієї 70-річної історії комп’ютерів. Кожен елемент WSE розроблений для забезпечення дослідження глибокого навчання з безпрецедентними швидкостями та масштабами, забезпечуючи найшвидший суперкомп’ютер штучного інтелекту в галузі, Cerebras CS-2.
З кожним компонентом, оптимізованим для роботи зі штучним інтелектом, CS-2 забезпечує більшу обчислювальну продуктивність при меншій кількості місць та меншій потужності, ніж будь-яка інша система. Це відбувається при радикальному зменшенні складності програмування, часу обчислень та часу до рішення. В залежності від завдання, від штучного інтелекту до високопродуктивних обчислень, CS-2 забезпечує сотні або тисячі разів більшу продуктивність, ніж традиційні альтернативи. CS-2 забезпечує обчислювальні ресурси для глибокого навчання, еквівалентні сотням GPU, забезпечуючи при цьому легкість програмування, управління та розгортання одного пристрою.
За останні кілька місяців Cerebras Systems часто з’являється у новинах, що ви можете розповісти про новий суперкомп’ютер Andromeda?
Ми оголосили про Andromeda у листопаді минулого року, і це один із найбільших і найпотужніших суперкомп’ютерів штучного інтелекту, який коли-небудь будувався. Надавши понад 1 ексафлоп обчислень штучного інтелекту та 120 петафлопів густих обчислень, Andromeda має 13,5 млн ядер по 16 системах CS-2 і є єдиним суперкомп’ютером штучного інтелекту, який коли-небудь демонстрував майже ідеальне лінійне масштабування на великих завданнях мови. Він також дуже простий у використанні.
Для нагадування, найбільший суперкомп’ютер на Землі – Frontier – має 8,7 млн ядер. За сукупною кількістю ядер Andromeda у 1,5 рази більша. Він виконує іншу роботу, очевидно, але це дає уявлення про масштаб: майже 100 терабіт внутрішньої смуги пропускання, майже 20 000 ядер AMD Epyc живлять його, і – на відміну від гігантських суперкомп’ютерів, які потребують років для запуску – ми запустили Andromeda за три дні і одразу після цього він забезпечував майже ідеальне лінійне масштабування штучного інтелекту.
Національна лабораторія енергетики та суперкомп’ютерний центр Піттсбурга були нашими першими клієнтами, які використали Andromeda, і вони застосували її до завдання, яке ламало їхній кластер з 2000 GPU під назвою Polaris. Завданням було виконання великих моделей генерації GPT-3XL, розміщуючи весь геном Covid у вікні послідовності, щоб можна було проаналізувати кожен ген у контексті всього геному Covid. Andromeda виконала унікальне генетичне завдання з довжинами послідовностей (MSL) 10 тис. по 1, 2, 4, 8 і 16 вузлах з майже ідеальним лінійним масштабуванням. Лінійне масштабування є одним із найбільш бажаних характеристик великого кластера. Andromeda забезпечила 15,87-кратне підвищення продуктивності по 16 системам CS-2 порівняно з однією системою CS-2 та зменшенням часу навчання до відповідності.
Чи можете ви розповісти про партнерство з Jasper, яке було оголошено наприкінці листопада, і що це означає для обидвох компаній?
Jasper – це дуже цікава компанія. Вони є лідерами у сфері генерації штучного інтелекту для маркетингу, і їхні продукти використовуються понад 100 тис. клієнтів по всьому світу для написання рекламних текстів, оголошень, книг тощо. Це очевидно дуже цікава та швидко зростаюча галузь зараз. Місяць тому ми оголосили про партнерство з ними для прискорення впровадження та поліпшення точності генерації штучного інтелекту у сфері підприємств та споживчих застосунків. Jasper використовує наш суперкомп’ютер Andromeda для навчання своїх моделей, які вимагають величезних обчислень, за частину часу. Це розширить сферу застосування моделей генерації штучного інтелекту до мас.
З допомогою потужності суперкомп’ютера Cerebras Andromeda Jasper може суттєво просунути роботу зі штучним інтелектом, включаючи навчання мереж GPT для підгонки виходів штучного інтелекту до всіх рівнів складності та деталізації кінцевих користувачів. Це покращить контекстну точність моделей генерації та дозволить Jasper персоналізувати контент по різних класах клієнтів швидко та легко.
Наше партнерство дозволяє Jasper винаходити майбутнє генерації штучного інтелекту, роблячи речі, які є непрактичними або просто неможливими з традиційною інфраструктурою, і прискорювати потенціал генерації штучного інтелекту, привносяючи його вигоди нашій швидко зростаючій клієнтській базі по всьому світу.
У недавньому прес-релізі Національна лабораторія енергетики та суперкомп’ютерний центр Піттсбурга оголосили про першу у світі комп’ютерну симуляцію рідинної динаміки на процесорі Cerebras Wafer-Scale Engine. Чи можете ви описати, що саме є процесором Wafer-Scale Engine і як він працює?
Наш процесор Wafer-Scale Engine (WSE) – це революційний процесор штучного інтелекту для нашої комп’ютерної системи глибокого навчання, CS-2. На відміну від традиційних універсальних процесорів, WSE був розроблений з нуля для прискорення глибокого навчання: він має 850 тис. ядер, оптимізованих для операцій зі спарсними тензорами, величезну внутрішню пам’ять з високою пропускною здатністю та з’єднання, які на кілька порядків швидші, ніж традиційний кластер міг би забезпечити. Все це дає вам обчислювальні ресурси для глибокого навчання, еквівалентні кластеру традиційних машин, але все це у одному пристрої, простому у програмуванні, як один вузол – радикально зменшуючи складність програмування, час обчислень та час до рішення.
Наш другий процесор WSE-2, який живить нашу систему CS-2, може вирішувати завдання дуже швидко. Достатньо швидко, щоб дозволити моделі реального часу, високої точності інженерних систем. Це рідкісний приклад успішного “сильного масштабування”, яке полягає у використанні паралелізму для зменшення часу вирішення задачі з фіксованим розміром.
І це саме те, для чого Національна лабораторія енергетики та суперкомп’ютерний центр Піттсбурга використовують його. Ми оголосили про дуже цікаві результати комп’ютерної симуляції рідинної динаміки, яка складається з близько 200 млн клітин, за майже реального часу. Цей відеоролик показує високоякісну симуляцію конвекції Рейлі-Бенарда, яка відбувається, коли шар рідини нагрівається знизу та охолоджується зверху. Ці термічно індуковані потоки рідини відбуваються всюди навколо нас – від вітряних днів до снігових бурь, від руху магми в ядрі Землі до руху плазми у Сонці. Як говорить оповідач, це не тільки візуальна краса симуляції, яка важлива: це швидкість, з якою ми можемо її розрахувати. Вперше, використовуючи наш процесор Wafer-Scale Engine, Національна лабораторія енергетики може маніпулювати сіткою майже 200 млн клітин у майже реальному часі.
Який тип даних симулюється?
Завданням, яке було протестовано, була термічно індукована рідинна динаміка, також відома як природна конвекція, яка є застосуванням комп’ютерної рідинної динаміки (CFD). Потоки рідини відбуваються природно всюди навколо нас – від вітряних днів до снігових бурь, до руху тектонічних плит. Ця симуляція, яка складається з близько 200 млн клітин, фокусується на явищі, відомому як “конвекція Рейлі-Бенарда”, яке відбувається, коли рідину нагрівають знизу та охолоджують зверху. У природі це явище може привести до сильних погодних подій, таких як зсуви, мікробури та derecho. Воно також відповідає за рух магми в ядрі Землі та рух плазми у Сонці.
У листопаді 2022 року Національна лабораторія енергетики представила новий API для моделювання поля, який працює на системі CS-2, який був у 470 разів швидшим, ніж те, що було можливо на суперкомп’ютері Joule. Це означає, що він міг забезпечувати швидкості, які перевищують те, що можуть досягти кластери будь-якої кількості процесорів чи графічних процесорів. Використовуючи простий API на Python, який дозволяє обробку рівня пластини для більшої частини комп’ютерної науки, WFA забезпечує вигоди з продуктивності та зручності, яких не можна було досягти на традиційних комп’ютерах та суперкомп’ютерах – насправді, він перевершив OpenFOAM на суперкомп’ютері Joule 2.0 Національної лабораторії енергетики більш ніж у два порядки за часом до рішення.
Через простоту API WFA результати були досягнуті всього за кілька тижнів і продовжують тісну співпрацю між Національною лабораторією енергетики, суперкомп’ютерним центром Піттсбурга та компанією Cerebras Systems.
Перетворивши швидкість CFD (яка завжди була повільною, офлайн-задачею) на нашому процесорі WSE, ми можемо відкрити цілий ряд нових завдань у реальному часі для цього та багатьох інших основних застосунків високопродуктивних обчислень. Наша мета полягає у тому, щоб забезпечуючи більшу обчислювальну потужність, наші клієнти можуть проводити більше експериментів та винаходити краще науку. Директор лабораторії Національної лабораторії енергетики Браян Андерсон сказав нам, що це суттєво прискорить та покращить процес проектування для деяких великих проектів, над якими Національна лабораторія енергетики працює щодо мінімізації зміни клімату та забезпечення безпечної енергетичної майбутнього – проектів, таких як вуглецеве сховищування та виробництво синього водню.
Cerebras Systems постійно перевершує конкурентів у випуску суперкомп’ютерів, які є деякими з викликів при створенні суперкомп’ютерів найвищого рівня?
Іронічно, одним із найважчих викликів великого штучного інтелекту не є сам штучний інтелект. Це розподілені обчислення.
Для навчання сучасних моделей нейронних мереж дослідники часто використовують сотні чи тисячі графічних процесорів. І це не легко. Масштабування навчання великих мовних моделей по кластеру графічних процесорів вимагає розподілу завдання по багатьох малих пристроїв, боротьби з обмеженнями розміру пам’яті пристрою та пропускної здатності пам’яті, а також уважного управління комунікаційними та синхронізаційними витратами.
Ми підходимо до цього зовсім інакше, розробляючи наші суперкомп’ютери через розробку кластера рівня пластини Cerebras та режиму виконання Cerebras Weight Streaming. За допомогою цих технологій Cerebras пропонує новий спосіб масштабування на основі трьох ключових моментів:
Заміна процесорів CPU та GPU на прискорювачі рівня пластини, такі як система CS-2. Це зменшує кількість обчислювальних одиниць, необхідних для досягнення прийнятної обчислювальної швидкості.
Для задоволення виклику розміру моделі ми використовуємо системну архітектуру, яка розділяє обчислення від зберігання моделі. Сервіс обчислень, заснований на кластері систем CS-2 (який забезпечує достатню обчислювальну пропускну здатність), тісно пов’язаний з сервісом пам’яті (з великою ємністю пам’яті), який забезпечує частини моделі обчислювальному кластеру по мірі потреби. Як зазвичай, сервіс даних забезпечує партії тренувальних даних обчислювальному сервісу по мірі потреби.
Інноваційна модель для планування та координації тренувальних робіт по кластеру CS-2, яка використовує паралелізм даних, тренування шар за шаром з рідкими вагами, введеними по мірі потреби, та збереження активацій у обчислювальному сервісі.
Було багато страхів щодо кінця закону Мура впродовж майже десяти років, скільки ще років можна вичавити з цього, і які інновації потрібні для цього?
Я думаю, що питання, з яким ми всі боремося, полягає в тому, чи закон Мура – як написаний Муром – мертвий. Це вже не два роки, щоб отримати більше транзисторів. Тепер це чотири-п’ять років. І ці транзистори не надходять за тією ж ціною – вони надходять за значно вищою ціною. Отже, питання полягає в тому, чи ми все ще отримуємо ті самі вигоди від переходу з семи до п’яти до трьох нанометрів? Вигоди менші, і вони коштують більше, і тому рішення стають складнішими, ніж просто чіп.
Джек Донгарра, провідний комп’ютерний архітектор, недавно прочитав лекцію, у якій сказав: “Ми стали значно краще робити ФЛОПС та ввод-вивід”. Це правда. Наша здатність переміщати дані з чіпа значно поступається нашій здатності збільшувати продуктивність на чіпі. У Cerebras нас радувало, коли він сказав це, оскільки це підтверджує наш рішення зробити більший чіп і перемістити менше речей з чіпа. Це також надає деякі вказівки щодо майбутніх способів зробити системи з чіпами, які працюють краще. Є робота, яку потрібно зробити, не тільки витискання більше ФЛОПС, але й техніки для їх переміщення та переміщення даних з чіпа до чіпа – навіть з великого чіпа на великий чіп.
Чи є щось ще, що ви хотіли б поділитися про Cerebras Systems?
Для кращого чи гіршого людей часто відносять Cerebras до категорії “тієї компанії, яка робить великі чіпи”. Ми змогли забезпечити привабливі рішення для дуже великих нейронних мереж, тим самим ліквідуючи необхідність у болісних розподілених обчисленнях. Я вважаю, що це надзвичайно цікаво та лежить в основі того, чому наші клієнти нас люблять. Цікава галузь для 2023 року буде полягати у тому, як виконувати великі обчислення з вищою точністю, використовуючи менше ФЛОПС.
Наша робота над рідкими даними забезпечує надзвичайно цікавий підхід. Ми не робимо роботи, яка не рухає нас до фінішної лінії. Множення на нуль – це погана ідея. Ми скоро випустимо дуже цікаву статтю про рідкість, і я думаю, що буде більше зусиль щодо пошуку того, як досягти цих ефективних точок та як зробити це за меншу потужність. І не тільки за меншу потужність та навчання; як мінімізувати вартість та потужність, використану під час висновку? Я думаю, що рідкість допомагає з обох сторін.
Дякуємо за ці глибокі відповіді, читачам, які бажають дізнатися більше, слід відвідати Cerebras Systems.












