заглушки Эндрю Фельдман, соучредитель и генеральный директор Cerebras Systems — серия интервью — Unite.AI
Свяжитесь с нами:

Интервью

Эндрю Фельдман, соучредитель и генеральный директор Cerebras Systems — серия интервью

mm

опубликованный

 on

Эндрю является соучредителем и генеральным директором Церебральные Системы. Он предприниматель, посвятивший себя расширению границ в вычислительном пространстве. До Cerebras он был соучредителем и генеральным директором SeaMicro, пионера энергоэффективных микросерверов с высокой пропускной способностью. SeaMicro была приобретена AMD в 2012 году за 357 миллионов долларов. До SeaMicro Эндрю был вице-президентом по управлению продуктами, маркетингу и BD в Force10 Networks, которая позже была продана Dell Computing за 800 миллионов долларов. До прихода в Force10 Networks Эндрю был вице-президентом по маркетингу и корпоративному развитию в RiverStone Networks с момента создания компании до IPO в 2001 году. Эндрю имеет степень бакалавра и магистра делового администрирования Стэнфордского университета.

Cerebras Systems создает новый класс компьютерных систем, разработанных на основе первых принципов для единственной цели ускорения ИИ и изменения будущего работы ИИ.

Не могли бы вы рассказать историю создания Cerebras Systems?

Мои соучредители и я вместе работали над предыдущим стартапом SeaMicro, который мы с моим техническим директором Гэри запустили в 2007 году (который был продан AMD в 2012 году за 334 миллиона долларов). Мои соучредители — одни из ведущих компьютерных архитекторов и инженеров в отрасли — Гэри Лаутербах, Шон Ли, Дж. П. Фрикер и Майкл Джеймс. Когда мы снова собрали группу в 2015 году, мы написали на доске две вещи: что мы хотим работать вместе, и что мы хотим создать что-то, что изменит индустрию и будет в Музее компьютерной истории, что эквивалентно Зал вычислительной славы. Для нас было большой честью, когда Музей компьютерной истории признал наши достижения и в прошлом году добавил в свою коллекцию процессор WSE-2, отметив, как он изменил ландшафт искусственного интеллекта.

Cerebras Systems — это команда новаторских компьютерных архитекторов, ученых-компьютерщиков, исследователей глубокого обучения и инженеров всех специальностей, которым нравится заниматься бесстрашным проектированием. Нашей миссией, когда мы собрались вместе, было создание нового класса компьютеров для ускорения глубокого обучения, которое стало одной из самых важных рабочих нагрузок нашего времени.

Мы поняли, что глубокое обучение требует уникальных, огромных и растущих вычислительных ресурсов. И это не очень хорошо сочетается с устаревшими машинами, такими как графические процессоры (GPU), которые изначально были разработаны для другой работы. В результате ИИ сегодня ограничен не приложениями или идеями, а доступностью вычислений. Проверка одной новой гипотезы — обучение новой модели — может занять дни, недели или даже месяцы и стоить сотни тысяч долларов за вычислительное время. Это серьезное препятствие на пути к инновациям.

Таким образом, генезис Cerebras заключался в создании нового типа компьютера, оптимизированного исключительно для глубокого обучения, начиная с чистого листа бумаги. Чтобы удовлетворить огромные вычислительные потребности глубокого обучения, мы разработали и изготовили самый большой из когда-либо созданных чипов — Wafer-Scale Engine (WSE). Создавая первый в мире процессор размером с пластину, мы преодолели трудности проектирования, изготовления и упаковки — все это считалось невозможным за всю 70-летнюю историю компьютеров. Каждый элемент WSE предназначен для проведения исследований в области глубокого обучения с беспрецедентной скоростью и масштабом, обеспечивая работу самого быстрого в отрасли суперкомпьютера с искусственным интеллектом Cerebras CS-2.

Благодаря тому, что каждый компонент оптимизирован для работы с искусственным интеллектом, CS-2 обеспечивает более высокую вычислительную производительность при меньшем пространстве и меньшем энергопотреблении, чем любая другая система. Это достигается при радикальном снижении сложности программирования, времени вычислений настенных часов и времени на решение. В зависимости от рабочей нагрузки, от ИИ до высокопроизводительных вычислений, CS-2 обеспечивает в сотни или тысячи раз более высокую производительность, чем устаревшие альтернативы. CS-2 предоставляет вычислительные ресурсы для глубокого обучения, эквивалентные сотням графических процессоров, обеспечивая при этом простоту программирования, управления и развертывания на одном устройстве.

За последние несколько месяцев Cerebras, похоже, Новости, что вы можете рассказать о новом суперкомпьютере Andromeda AI?

Мы анонсировали Andromeda в ноябре прошлого года, и это один из самых больших и мощных суперкомпьютеров с искусственным интеллектом, когда-либо созданных. Обеспечивая более 1 экзафлопс вычислений ИИ и 120 петафлопс плотных вычислений, Andromeda имеет 13.5 миллионов ядер в 16 системах CS-2 и является единственным суперкомпьютером ИИ, который когда-либо демонстрировал почти идеальное линейное масштабирование для больших рабочих нагрузок языковых моделей. Он также очень прост в использовании.

Напомним, самый большой суперкомпьютер на Земле — Frontier — имеет 8.7 млн ​​ядер. По необработанному количеству ядер Андромеда более чем в полтора раза больше. Очевидно, что он выполняет другую работу, но это дает представление о масштабах: почти 100 терабит внутренней пропускной способности, почти 20,000 XNUMX ядер AMD Epyc питают его, и — в отличие от гигантских суперкомпьютеров, которым требуются годы, чтобы встать — мы подняли Андромеду за три дня. и сразу после этого он обеспечивал почти идеальное линейное масштабирование ИИ.

Argonne National Labs была нашим первым клиентом, использовавшим Andromeda, и они применили ее для решения проблемы, связанной с поломкой их кластера из 2,000 графических процессоров под названием Polaris. Проблема заключалась в запуске очень больших генеративных моделей GPT-3XL при размещении всего генома Covid в окне секвенирования, чтобы можно было анализировать каждый ген в контексте всего генома Covid. Andromeda выполнила уникальную генетическую нагрузку с длинными последовательностями (MSL 10 1) на 2, 4, 8, 16 и 15.87 узлах с почти идеальным линейным масштабированием. Линейное масштабирование — одна из наиболее востребованных характеристик большого кластера. Andromeda обеспечила 16-кратную пропускную способность в 2 системах CS-2 по сравнению с одной CS-XNUMX и сокращение времени обучения для соответствия.

Не могли бы вы рассказать нам о партнерство с Джаспером который был представлен в конце ноября и что это значит для обеих компаний?

Джаспер действительно интересная компания. Они являются лидером в области генеративного ИИ-контента для маркетинга, и их продукты используют более 100,000 XNUMX клиентов по всему миру для написания текстов для маркетинга, рекламы, книг и многого другого. Очевидно, что сейчас это очень интересное и быстрорастущее пространство. В прошлом году мы объявили о партнерстве с ними, чтобы ускорить внедрение и повысить точность генеративного ИИ в корпоративных и потребительских приложениях. Джаспер использует наш суперкомпьютер Andromeda для обучения своих моделей, требующих больших вычислительных ресурсов, за короткое время. Это расширит охват генеративных моделей ИИ для масс.

Благодаря мощности суперкомпьютера Cerebras Andromeda Jasper может значительно улучшить работу ИИ, в том числе обучить сети GPT таким образом, чтобы результаты ИИ соответствовали всем уровням сложности и детализации для конечного пользователя. Это повышает контекстуальную точность генеративных моделей и позволит Jasper быстро и легко персонализировать контент для нескольких классов клиентов.

Наше партнерство позволяет Jasper изобретать будущее генеративного ИИ, делая вещи, которые непрактичны или просто невозможны с традиционной инфраструктурой, и расширять потенциал генеративного ИИ, принося его преимущества нашей быстро растущей клиентской базе по всему миру.

В одном из последних пресс-релизе, Национальная лаборатория энергетических технологий и Питтсбургский суперкомпьютерный центр Pioneer объявили о первом в истории вычислительном гидродинамическом моделировании на двигателе Cerebras. Не могли бы вы описать, что конкретно представляет собой вафельный двигатель и как он работает?

Наши Вафельный двигатель (WSE) — это революционный процессор искусственного интеллекта для нашей компьютерной системы глубокого обучения CS-2. В отличие от устаревших процессоров общего назначения, WSE был создан с нуля для ускорения глубокого обучения: он имеет 850,000 XNUMX оптимизированных для ИИ ядер для разреженных тензорных операций, массивную встроенную память с высокой пропускной способностью и межсоединения на несколько порядков быстрее, чем традиционные кластер мог бы достичь. В целом, он дает вам вычислительные ресурсы для глубокого обучения, эквивалентные кластеру устаревших машин, все в одном устройстве, которые легко программировать как единый узел, радикально снижая сложность программирования, время вычислений настенных часов и время до решения.

Наше второе поколение WSE-2, на котором работает наша система CS-2, может очень быстро решать проблемы. Достаточно быстро, чтобы в режиме реального времени можно было создавать высокоточные модели интересующих инженерных систем. Это редкий пример успешного «сильного масштабирования», то есть использования параллелизма для сокращения времени решения задачи фиксированного размера.

Именно для этого его используют Национальная лаборатория энергетических технологий и Питтсбургский суперкомпьютерный центр. Мы только что объявили некоторые действительно захватывающие результаты моделирования вычислительной гидродинамики (CFD), состоящего из примерно 200 миллионов ячеек, с частотой, близкой к реальному времени.  Это видео показывает моделирование с высоким разрешением конвекции Рэлея-Бенара, которая возникает, когда слой жидкости нагревается снизу и охлаждается сверху. Эти термически управляемые потоки жидкости окружают нас повсюду — от ветреных дней до метелей с эффектом озера, до течений магмы в земном ядре и движения плазмы на солнце. Как говорит рассказчик, важна не только визуальная красота симуляции: важна скорость, с которой мы можем ее вычислить. Впервые, используя наш Wafer-Scale Engine, NETL может манипулировать сеткой из почти 200 миллионов ячеек почти в режиме реального времени.

Какой тип данных моделируется?

Тестируемой рабочей нагрузкой были тепловые потоки жидкости, также известные как естественная конвекция, которые являются приложением вычислительной гидродинамики (CFD). Потоки жидкости естественным образом возникают вокруг нас — от ветреных дней до снежных бурь с эффектом озера и движения тектонических плит. Это моделирование, состоящее примерно из 200 миллионов ячеек, фокусируется на явлении, известном как конвекция «Рэлея-Бенара», которое возникает, когда жидкость нагревается снизу и охлаждается сверху. В природе это явление может привести к суровым погодным явлениям, таким как ливневые порывы, микропорывы и дерехос. Он также отвечает за движение магмы в ядре Земли и движение плазмы на Солнце.

Еще в ноябре 2022 года NETL представила новый API моделирования полевых уравнений на базе системы CS-2, который был в 470 раз быстрее, чем это было возможно на суперкомпьютере NETL Joule. Это означает, что он может обеспечить скорость, превышающую скорость, которую могут достичь кластеры любого количества ЦП или графических процессоров. Используя простой API-интерфейс Python, который обеспечивает обработку в масштабе пластины для большей части вычислительной науки, WFA обеспечивает прирост производительности и удобства использования, который не может быть достигнут на обычных компьютерах и суперкомпьютерах — фактически, он превзошел OpenFOAM на суперкомпьютере NETL Joule 2.0 более чем на два порядка. величины во времени до решения.

Из-за простоты WFA API результаты были достигнуты всего за несколько недель и продолжают тесное сотрудничество между NETL, PSC и Cerebras Systems.

Преобразовав скорость CFD (которая всегда была медленной автономной задачей) на нашем WSE, мы можем открыть целый ряд новых вариантов использования в реальном времени для этого и многих других основных приложений HPC. Наша цель состоит в том, чтобы, увеличивая вычислительную мощность, наши клиенты могли проводить больше экспериментов и изобретать более совершенные научные разработки. Директор лаборатории NETL Брайан Андерсон сказал нам, что это значительно ускорит и улучшит процесс проектирования для некоторых действительно крупных проектов, над которыми работает NETL, в области смягчения последствий изменения климата и обеспечения безопасного энергетического будущего — таких проектов, как улавливание углерода и производство голубого водорода.

Cerebras постоянно превосходит конкурентов, когда речь заходит о выпуске суперкомпьютеров. Какие проблемы стоят за созданием современных суперкомпьютеров?

По иронии судьбы, одна из самых сложных задач большого ИИ — это не сам ИИ. Это распределенные вычисления.

Для обучения современных нейронных сетей исследователи часто используют от сотен до тысяч графических процессоров (GPU). И это непросто. Масштабирование обучения большой языковой модели в кластере графических процессоров требует распределения рабочей нагрузки на множество небольших устройств, работы с размерами памяти устройств и ограничениями пропускной способности памяти, а также тщательного управления накладными расходами на связь и синхронизацию.

Мы применили совершенно иной подход к проектированию наших суперкомпьютеров, разработав Кластер Cerebras вафельного масштаба, и Потоковая передача веса Cerebras режим исполнения. Благодаря этим технологиям Cerebras предлагает новый способ масштабирования, основанный на трех ключевых моментах:

Замена обработки ЦП и ГП ускорителями в масштабе пластины, такими как система Cerebras CS-2. Это изменение уменьшает количество вычислительных блоков, необходимых для достижения приемлемой скорости вычислений.

Чтобы решить проблему размера модели, мы используем системную архитектуру, которая дезагрегирует вычисления из хранилища модели. Служба вычислений, основанная на кластере систем CS-2 (обеспечивающих достаточную пропускную способность для вычислений), тесно связана со службой памяти (с большим объемом памяти), которая предоставляет подмножества модели для вычислительного кластера по запросу. Как обычно, служба данных предоставляет вычислительной службе пакеты обучающих данных по мере необходимости.

Инновационная модель для планирования и координации работы по обучению в кластере CS-2, использующая параллелизм данных, послойное обучение с потоком разреженных весов по запросу и сохранение активаций в вычислительном сервисе.

Опасения по поводу конца закона Мура существуют уже почти десятилетие, сколько еще лет индустрия сможет продержаться и какие инновации для этого потребуются?

Я думаю, что вопрос, с которым мы все сталкиваемся, заключается в том, умер ли закон Мура, как его написал Мур. Чтобы получить больше транзисторов, не требуется два года. Сейчас на это уходит четыре или пять лет. И эти транзисторы не продаются по той же цене — они продаются по гораздо более высоким ценам. Таким образом, возникает вопрос, получаем ли мы все те же преимущества перехода от семи к пяти и к трем нанометрам? Преимуществ меньше, а стоят они дороже, поэтому решения становятся сложнее, чем просто чип.

Джек Донгарра, ведущий компьютерный архитектор, недавно выступил с докладом и сказал: «Мы стали намного лучше создавать FLOP и ввод-вывод». Это действительно так. Наша способность перемещать данные за пределы чипа значительно отстает от нашей способности увеличить производительность чипа. Мы в Cerebras были счастливы, когда он сказал это, потому что это подтверждает наше решение сделать более крупный чип и меньше перемещать его за пределы чипа. В нем также содержатся некоторые рекомендации относительно способов повышения производительности систем с чипами в будущем. Предстоит проделать работу, не только в том, чтобы выжать больше FLOP, но и в методах их перемещения и перемещения данных от чипа к чипу — даже от очень большого чипа к очень большому чипу.

Есть ли что-то еще, что вы хотели бы рассказать о Cerebras Systems?

Хорошо это или плохо, но люди часто относят Cerebras к категории «по-настоящему крупных игроков». Мы смогли предоставить привлекательные решения для очень и очень больших нейронных сетей, тем самым избавив от необходимости выполнять болезненные распределенные вычисления. Я считаю, что это чрезвычайно интересно и лежит в основе того, почему наши клиенты любят нас. Интересной областью на 2023 год будет то, как выполнять большие вычисления с более высоким уровнем точности, используя меньшее количество FLOP.

Наша работа над разреженностью предлагает чрезвычайно интересный подход. Мы не делаем работу, которая не приближает нас к линии ворот, а умножать на ноль — плохая идея. Скоро мы выпустим действительно интересную статью о разреженности, и я думаю, что будет больше усилий, чтобы посмотреть, как мы получаем эти эффективные точки и как мы делаем это с меньшей мощностью. И не только из-за меньшей силы и тренировок; как минимизировать затраты и мощность, используемые при выводе? Я думаю, что разреженность помогает на обоих фронтах.

Спасибо за эти подробные ответы, читатели, которые хотят узнать больше, должны посетить Церебральные Системы.

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.