Интервью
Эндрю Фельдман, сооснователь и CEO компании Cerebras Systems – Серия интервью

Эндрю является сооснователем и CEO компании Cerebras Systems. Он является предпринимателем, посвятившим себя расширению границ в области вычислительной техники. До Cerebras он соосновал и был CEO компании SeaMicro, пионера в области энергоэффективных, высокопроизводительных микросерверов. SeaMicro была приобретена компанией AMD в 2012 году за $357M. До SeaMicro Эндрю был вице-президентом по управлению продукцией, маркетингу и бизнес-развитию в компании Force10 Networks, которая позже была продана компании Dell Computing за $800M. До Force10 Networks Эндрю был вице-президентом по маркетингу и корпоративному развитию в компании RiverStone Networks с момента ее основания до выхода на биржу в 2001 году. Эндрю имеет степень бакалавра и магистра делового администрирования в Стэнфордском университете.
Cerebras Systems разрабатывает новый класс компьютерных систем, спроектированных с нуля для единственной цели – ускорения ИИ и изменения будущего работы с ИИ.
Не могли бы вы рассказать историю создания Cerebras Systems?
Мои сооснователи и я все работали вместе в предыдущей компании, которую мой технический директор Гэри и я основали в 2007 году, под названием SeaMicro (которая была продана AMD в 2012 году за $334 миллиона). Мои сооснователи – это некоторые из ведущих компьютерных архитекторов и инженеров в отрасли – Гэри Лотербах, Шон Ли, Джей Пи Фрикер и Майкл Джеймс. Когда мы собрались вместе в 2015 году, мы написали две вещи на доске – что мы хотим работать вместе, и что мы хотим построить что-то, что изменит отрасль и будет в Музее компьютерной истории, который является эквивалентом Зала славы вычислительной техники. Нас честило, когда Музей компьютерной истории признал наши достижения и добавил процессор WSE-2 в свою коллекцию в прошлом году, сославшись на то, как он изменил ландшафт искусственного интеллекта.
Cerebras Systems – это команда пионеров-компьютерных архитекторов, компьютерных ученых, исследователей глубокого обучения и инженеров всех видов, которые любят делать бесстрашную инженерию. Наша миссия, когда мы собрались вместе, заключалась в том, чтобы построить новый класс компьютеров для ускорения глубокого обучения, которое стало одним из наиболее важных рабочих нагрузок нашего времени.
Мы поняли, что глубокое обучение имеет уникальные, массивные и растущие вычислительные требования. И оно не хорошо согласуется с устаревшими машинами, такими как графические процессоры (GPU), которые были фундаментально спроектированы для другой работы. В результате ИИ сегодня ограничен не приложениями или идеями, а доступностью вычислительных ресурсов. Тестирование одной новой гипотезы – обучение новой модели – может занять дни, недели или даже месяцы и стоить сотен тысяч долларов в вычислительном времени. Это серьезное препятствие на пути к инновациям.
Итак, генезис Cerebras заключался в том, чтобы построить новый тип компьютера, оптимизированного исключительно для глубокого обучения, начиная с чистого листа бумаги. Чтобы удовлетворить огромные вычислительные требования глубокого обучения, мы спроектировали и изготовили самый большой чип, когда-либо построенный – Wafer-Scale Engine (WSE). Создавая первый в мире чип масштаба пластины, мы преодолели проблемы в области проектирования, производства и упаковки – все из которых считались невозможными на протяжении всей 70-летней истории компьютеров. Каждый элемент WSE предназначен для обеспечения исследований глубокого обучения на беспрецедентных скоростях и масштабах, питая самый быстрый суперкомпьютер ИИ в отрасли, Cerebras CS-2.
С каждым компонентом, оптимизированным для работы ИИ, CS-2 обеспечивает большую производительность вычислений при меньшем пространстве и меньшей мощности, чем любая другая система. Это происходит при радикальном снижении сложности программирования, времени вычислений и времени решения. В зависимости от рабочей нагрузки, от ИИ до высокопроизводительных вычислений, CS-2 обеспечивает производительность, в hundreds или thousands раз превышающую производительность устаревших альтернатив. CS-2 обеспечивает вычислительные ресурсы глубокого обучения, эквивалентные сотням GPU, при этом обеспечивая легкость программирования, управления и развертывания одного устройства.
За последние несколько месяцев Cerebras, кажется, находится во всех новостях, что можно рассказать о новом суперкомпьютере ИИ Andromeda?
Мы объявили об Andromeda в ноябре прошлого года, и это один из самых крупных и мощных суперкомпьютеров ИИ, когда-либо построенных. Обеспечивая более 1 ЭксаФЛОП вычислений ИИ и 120 Петафлопс плотных вычислений, Andromeda имеет 13,5 миллиона ядер по 16 системам CS-2 и является единственным суперкомпьютером ИИ, который когда-либо демонстрировал почти идеальное линейное масштабирование на больших языковых моделях. Это также очень просто в использовании.
Напомним, что самый большой суперкомпьютер на Земле – Frontier – имеет 8,7 миллиона ядер. По количеству ядер Andromeda больше чем в полтора раза больше. Это дает представление о масштабе: почти 100 терабит внутренней полосы пропускания, почти 20 000 ядер AMD Epyc обеспечивают его питание, и – в отличие от гигантских суперкомпьютеров, которые требуют лет для запуска – мы запустили Andromeda за три дня, и сразу после этого он обеспечивал почти идеальное линейное масштабирование ИИ.
Национальная лаборатория энергетических технологий была нашим первым клиентом, который использовал Andromeda, и они применили ее к проблеме, которая ломала их кластер из 2000 GPU под названием Polaris. Проблема заключалась в запуске очень крупных, генеративных моделей GPT-3XL, одновременно помещая всю геномную последовательность Covid в окно последовательности, чтобы можно было проанализировать каждый ген в контексте всей геномной последовательности Covid. Andromeda выполнила уникальную генетическую рабочую нагрузку с длинными последовательностями (MSL 10K) на 1, 2, 4, 8 и 16 узлах, с почти идеальным линейным масштабированием. Линейное масштабирование является одним из наиболее востребованных характеристик большого кластера. Andromeda обеспечила пропускную способность 15,87X на 16 системах CS-2 по сравнению с одной системой CS-2 и сокращением времени обучения до совпадения.
Не могли бы вы рассказать о партнерстве с Jasper, которое было объявлено в конце ноября, и что это значит для обеих компаний?
Jasper – это очень интересная компания. Они являются лидерами в области генеративного ИИ-контента для маркетинга, и их продукты используются более чем 100 000 клиентов по всему миру для написания копий для маркетинга, рекламы, книг и многое другое. Это, очевидно, очень интересная и быстро растущая область прямо сейчас. В прошлом году мы объявили о партнерстве с ними для ускорения принятия и улучшения точности генеративного ИИ в корпоративных и потребительских приложениях. Jasper использует наш суперкомпьютер Andromeda для обучения своих чрезвычайно вычислительно интенсивных моделей за долю времени. Это расширит доступ к моделям генеративного ИИ для масс.
С помощью мощности суперкомпьютера Cerebras Andromeda Jasper может значительно продвинуть работу ИИ, включая обучение сетей GPT для соответствия выходам ИИ всем уровням сложности и детализации конечного пользователя. Это улучшает контекстную точность генеративных моделей и позволит Jasper персонализировать контент на нескольких классах клиентов быстро и легко.
Наше партнерство позволяет Jasper изобретать будущее генеративного ИИ, делая вещи, которые являются непрактичными или просто невозможными с традиционной инфраструктурой, и ускорять потенциал генеративного ИИ, принося его выгоды нашему быстро растущему клиентскому базису по всему миру.
В недавнем пресс-релизе Национальная лаборатория энергетических технологий и Центр суперкомпьютерных вычислений Питтсбурга объявили о первой компьютерной симуляции гидродинамики на чипе масштаба пластины Cerebras. Не могли бы вы описать, что конкретно представляет собой чип масштаба пластины и как он работает?
Наш чип масштаба пластины (WSE) – это революционный процессор ИИ для нашей компьютерной системы глубокого обучения, CS-2. В отличие от устаревших, общего назначения процессоров, WSE был построен с нуля для ускорения глубокого обучения: он имеет 850 000 ядер, оптимизированных для ИИ, для операций с разреженными тензорами, огромную высокопроизводительную память на кристалле и соединения, которые на несколько порядков быстрее, чем традиционный кластер мог бы достичь. Всего это дает вам вычислительные ресурсы глубокого обучения, эквивалентные кластеру устаревших машин, все в одном устройстве, легко программируемом как один узел – радикально снижая сложность программирования, время вычислений и время решения.
Наш второй поколение WSE-2, которое питает нашу систему CS-2, может решать проблемы чрезвычайно быстро. Достаточно быстро, чтобы позволить реальное, высококачественное моделирование спроектированных систем. Это редкий пример успешного “сильного масштабирования”, которое представляет собой использование параллелизма для снижения времени решения с фиксированной размером проблемы.
Именно это Национальная лаборатория энергетических технологий и Центр суперкомпьютерных вычислений Питтсбурга используют. Мы только что объявили о некоторых действительно интересных результатах компьютерной симуляции гидродинамики (CFD), состоящей из примерно 200 миллионов ячеек, на почти реальных скоростях. Это видео показывает высококачественную симуляцию конвекции Рейли-Бенара, которая возникает, когда слой жидкости нагревается снизу и охлаждается сверху. Эти термически обусловленные потоки жидкости встречаются повсюду – от ветреных дней до снежных бурь на озерах, до движения магмы в ядре Земли и плазменного движения в Солнце. Как говорит рассказчик, это не только визуальная красота симуляции, которая важна: это скорость, с которой мы можем вычислить ее. Впервые, используя наш чип масштаба пластины, Национальная лаборатория энергетических технологий может манипулировать сеткой из почти 200 миллионов ячеек в режиме реального времени.
Какой тип данных симулируется?
Тестируемая рабочая нагрузка была термически обусловленными потоками жидкости, также известными как естественная конвекция, которая представляет собой применение компьютерной гидродинамики (CFD). Потоки жидкости возникают естественным образом повсюду – от ветреных дней до снежных бурь на озерах, до движения тектонических плит. Эта симуляция, состоящая из примерно 200 миллионов ячеек, фокусируется на явлении, известном как “конвекция Рейли-Бенара”, которое возникает, когда жидкость нагревается снизу и охлаждается сверху. В природе это явление может привести к сильным погодным явлениям, таким как внизбуры, микробуры и derecho. Это также ответственность за движение магмы в ядре Земли и плазменное движение в Солнце.
В ноябре 2022 года Национальная лаборатория энергетических технологий представила новый API для моделирования уравнений поля, работающий на системе CS-2, который был до 470 раз быстрее, чем было возможно на суперкомпьютере Национальной лаборатории энергетических технологий Joule. Это означает, что он может обеспечить скорости, превышающие возможности любых кластеров CPU или GPU. Используя простой API Python, который позволяет обрабатывать данные на уровне пластины для большинства вычислительной науки, WFA обеспечивает прирост производительности и удобства использования, который не может быть достигнут на традиционных компьютерах и суперкомпьютерах – на самом деле он превосходит OpenFOAM на суперкомпьютере Национальной лаборатории энергетических технологий Joule 2.0 более чем на два порядка в времени решения.
Поскольку API WFA прост, результаты были достигнуты всего за несколько недель и продолжают тесное сотрудничество между Национальной лабораторией энергетических технологий, Центром суперкомпьютерных вычислений Питтсбурга и Cerebras Systems.
Расширяя скорость CFD (которая всегда была медленной, офлайн-задачей) на нашем WSE, мы можем открыть целый ряд новых, реальных случаев использования для этого, и многих других основных приложений высокопроизводительных вычислений. Наша цель заключается в том, чтобы, обеспечивая большую вычислительную мощность, наши клиенты смогут проводить больше экспериментов и изобретать лучшую науку. Директор лаборатории Национальной лаборатории энергетических технологий Брайан Андерсон сказал нам, что это значительно ускорит и улучшит процесс проектирования для некоторых очень крупных проектов, над которыми работает Национальная лаборатория энергетических технологий, связанных с смягчением изменения климата и обеспечением безопасного энергетического будущего – проектов, таких как улавливание углерода и производство синего водорода.
Cerebras последовательно превосходит конкурентов, когда речь идет о выпуске суперкомпьютеров, какие проблемы возникают при создании суперкомпьютеров самого высокого уровня?
Иронично, но одна из самых сложных проблем большого ИИ – это не сам ИИ. Это распределенные вычисления.
Для обучения современных сетей ИИ исследователи часто используют сотни или тысячи графических процессоров (GPU). И это не легко. Масштабирование обучения крупных языковых моделей на кластере GPU требует распределения рабочей нагрузки по множеству небольших устройств, борьбы с ограничениями размера памяти устройства и пропускной способности памяти, а также тщательного управления накладными расходами на связь и синхронизацию.
Мы выбрали совершенно другой подход к проектированию наших суперкомпьютеров посредством разработки кластера масштаба пластины Cerebras и режима выполнения потоковой передачи весов Cerebras. С помощью этих технологий Cerebras решает новым способом масштабирования на основе трех ключевых моментов:
Замена процессоров CPU и GPU на ускорители масштаба пластины, такие как система Cerebras CS-2. Это изменение снижает количество необходимых вычислительных единиц для достижения приемлемой скорости вычислений.
Чтобы решить проблему размера модели, мы используем систему архитектуры, которая разъединяет вычисления и хранение модели. Сервис вычислений, основанный на кластере систем CS-2 (предоставляющий достаточную пропускную способность вычислений), тесно связан с сервисом памяти (с большой емкостью памяти), который предоставляет подмножества модели кластеру вычислений по требованию. Как обычно, сервис данных обеспечивает партии обучающих данных сервису вычислений по мере необходимости.
Инновационная модель для планирования и координации обучения на кластере CS-2, которая использует параллелизм данных, обучение слоя за слоем с потоковой передачей разреженных весов и сохранением активаций в сервисе вычислений.
Были опасения по поводу окончания закона Мура почти десятилетие, сколько еще лет может отрасль выжать и какие инновации необходимы для этого?
Я думаю, что вопрос, с которым мы все боремся, заключается в том, является ли закон Мура – как написал Мур – мертвым. Это не занимает два года, чтобы получить больше транзисторов. Теперь это занимает четыре или пять лет. И эти транзисторы не приходят по одной и той же цене – они приходят по гораздо более высокой цене. Итак, вопрос становится, получаем ли мы все еще те же выгоды от перехода от семи до пяти до трех нанометров? Выгоды меньше, и они стоят больше, и поэтому решения становятся более сложными, чем просто чип.
Джек Донгарра, ведущий компьютерный архитектор, недавно прочитал лекцию и сказал: “Мы стали намного лучше в создании ФЛОПС и в создании ввода/вывода”. Это действительно так. Наша способность перемещать данные вне чипа отстает от нашей способности увеличивать производительность на чипе на большую величину. В Cerebras мы были счастливы, когда он сказал это, потому что это подтверждает наш выбор сделать более крупный чип и переместить меньше вещей вне чипа. Это также дает некоторое руководство для будущих способов сделать системы с чипами работать лучше. Есть работа, которую необходимо выполнить, не только для выжимания большего количества ФЛОПС, но и для разработки методов перемещения их и перемещения данных с чипа на чип – даже с очень большого чипа на очень большой чип.
Есть ли что-то еще, что вы хотели бы поделиться о Cerebras Systems?
Для лучшего или хуже, люди часто помещают Cerebras в эту категорию “парней с очень большими чипами”. Мы смогли предоставить убедительные решения для очень, очень крупных нейронных сетей, тем самым исключив необходимость в болезненных распределенных вычислениях. Я считаю, что это чрезвычайно интересно и является сердцем того, почему наши клиенты любят нас. Интересная область для 2023 года будет заключаться в том, как выполнять большую вычислительную работу на более высоком уровне точности, используя меньше ФЛОПС.
Наша работа по разреженности обеспечивает чрезвычайно интересный подход. Мы не делаем работу, которая не продвигает нас к цели, и умножение на ноль – это плохая идея. Мы скоро выпустим очень интересную статью о разреженности, и я думаю, что будет больше усилий, направленных на то, чтобы добраться до этих эффективных точек, и как мы можем сделать это для меньшей мощности. И не только для меньшей мощности и обучения; как мы можем минимизировать стоимость и мощность, используемую в выводе? Я считаю, что разреженность помогает на обоих фронтах.
Спасибо за эти подробные ответы, читатели, которые хотят узнать больше, должны посетить Cerebras Systems.












