Лидеры мысли

Будущее генеративного искусственного интеллекта — это край

опубликованный 19 октября 2023

Рави Аннавайджхала

Появление ChatGPT и Генеративный ИИ в целом является переломным моментом в истории технологий и сравнивается с рассветом Интернета и смартфонов. Генеративный ИИ продемонстрировал безграничный потенциал в своей способности вести интеллектуальные беседы, сдавать экзамены, генерировать сложные программы/код и создавать привлекательные изображения и видео. Хотя графические процессоры запускают большинство моделей искусственного интеллекта поколения в облаке – как для обучения, так и для вывода – это не является долгосрочным масштабируемым решением, особенно для вывода, из-за факторов, которые включают стоимость, мощность, задержку, конфиденциальность и безопасность. В этой статье рассматривается каждый из этих факторов вместе с мотивирующими примерами для перемещения вычислительных нагрузок поколения ИИ на периферию.

Большинство приложений работают на высокопроизводительных процессорах — либо на устройствах (например, смартфонах, настольных компьютерах, ноутбуках), либо в центрах обработки данных. Поскольку доля приложений, использующих ИИ, увеличивается, процессоров, состоящих только из ЦП, становится недостаточно. Кроме того, быстрое расширение рабочих нагрузок генеративного искусственного интеллекта приводит к экспоненциальному спросу на серверы с поддержкой искусственного интеллекта и дорогими энергоемкими графическими процессорами, что, в свою очередь, приводит к увеличению затрат на инфраструктуру. Эти серверы с поддержкой искусственного интеллекта могут стоить в 7 раз дороже обычного сервера, а на графические процессоры приходится 80% этой добавленной стоимости.

Кроме того, облачный сервер потребляет от 500 до 2000 Вт, тогда как сервер с поддержкой искусственного интеллекта потребляет от 2000 до 8000 Вт – в 4 раза больше! Для поддержки этих серверов центрам обработки данных необходимы дополнительные модули охлаждения и модернизация инфраструктуры, что может оказаться даже выше, чем инвестиции в вычислительные ресурсы. Дата-центры уже потребляют 300 ТВтч в год, почти 1% от общего мирового энергопотребления. Если тенденции внедрения ИИ сохранятся, то к 5 году центры обработки данных смогут использовать до 2030% мировой электроэнергии. Кроме того, в центры обработки данных с генеративным ИИ будут осуществляться беспрецедентные инвестиции. Предполагается, что центры обработки данных будут потреблять до 500 миллиардов долларов на капитальные затраты к 2027 году, в основном обусловленный требованиями инфраструктуры искусственного интеллекта.

Потребление электроэнергии дата-центрами, составляющее уже 300 ТВт-ч, значительно вырастет с внедрением генеративного искусственного интеллекта.

Стоимость вычислений ИИ, а также потребление энергии будут препятствовать массовому внедрению генеративного ИИ. Проблемы масштабирования можно решить, переместив вычисления ИИ на периферию и используя решения для обработки, оптимизированные для рабочих нагрузок ИИ. При таком подходе заказчик получает и другие преимущества, включая задержку, конфиденциальность, надежность, а также расширенные возможности.

Вычисление следует за данными до периферии

С тех пор, как десять лет назад ИИ появился в академическом мире, обучение и вывод моделей ИИ происходило в облаке/центре обработки данных. Поскольку большая часть данных генерируется и потребляется на периферии (особенно видео), имело смысл перенести вывод данных на периферию, тем самым улучшив совокупную стоимость владения (TCO) для предприятий за счет снижения затрат на сеть и вычисления. В то время как затраты на логические выводы ИИ в облаке являются периодическими, затраты на логические выводы на периферии — это единовременные затраты на оборудование. По сути, дополнение системы процессором Edge AI снижает общие эксплуатационные расходы. Подобно миграции традиционных рабочих нагрузок ИИ на периферию (например, устройства, устройства), рабочие нагрузки генеративного ИИ последуют этому примеру. Это принесет значительную экономию предприятиям и потребителям.

Переход на периферийные устройства в сочетании с эффективным ИИ-ускорителем для выполнения функций вывода обеспечивает и другие преимущества. Прежде всего, это задержка. Например, в игровых приложениях неигровыми персонажами (NPC) можно управлять и дополнять их с помощью генеративного ИИ. Используя модели LLM, работающие на периферийных ИИ-ускорителях игровой консоли или ПК, геймеры могут ставить этим персонажам конкретные цели, чтобы они могли полноценно участвовать в сюжете. Низкая задержка, обеспечиваемая локальным ИИ-выводом, позволит речи и движениям NPC реагировать на команды и действия игроков в режиме реального времени. Это обеспечит захватывающий игровой процесс экономичным и энергоэффективным способом.

В таких приложениях, как здравоохранение, конфиденциальность и надежность чрезвычайно важны (например, оценка состояния пациента, рекомендации по лекарствам). Данные и связанные с ними модели искусственного интеллекта поколения должны находиться локально, чтобы защитить данные пациентов (конфиденциальность), и любые сбои в сети, которые блокируют доступ к моделям искусственного интеллекта в облаке, могут иметь катастрофические последствия. Устройство Edge AI, использующее модель Gen AI, специально созданную для каждого корпоративного клиента — в данном случае поставщика медицинских услуг — может беспрепятственно решать проблемы конфиденциальности и надежности, обеспечивая при этом меньшие задержки и затраты.

Устройства с генеративным искусственным интеллектом на периферии обеспечат низкую задержку в играх, сохранят данные пациентов и повысят надежность в сфере здравоохранения.

Многие модели искусственного интеллекта поколения, работающие в облаке, могут иметь около триллиона параметров — эти модели могут эффективно решать запросы общего назначения. Однако приложения, специфичные для предприятия, требуют, чтобы модели давали результаты, соответствующие конкретному варианту использования. Возьмем, к примеру, помощника на базе Gen AI, созданного для приема заказов в ресторане быстрого питания. Чтобы эта система обеспечивала беспрепятственное взаимодействие с клиентами, базовая модель Gen AI должна быть обучена работе с пунктами меню ресторана, а также знать аллергены и ингредиенты. . Размер модели можно оптимизировать с помощью расширенной модели большого языка (LLM) для обучения относительно небольшого LLM с 10–30 миллиардами параметров, а затем использовать дополнительную точную настройку с учетом конкретных данных клиента. Такая модель может давать результаты с повышенной точностью и возможностями. А учитывая меньший размер модели, ее можно эффективно развернуть на ускорителе искусственного интеллекта на Edge.

Поколение ИИ победит на краю

Всегда будет необходимость в Gen AI, работающем в облаке, особенно для приложений общего назначения, таких как ChatGPT и Claude. Но когда дело доходит до корпоративных приложений, таких как генеративное заполнение Adobe Photoshop или второй пилот Github, генеративный искусственный интеллект в Edge — это не только будущее, но и настоящее. Специально созданные ускорители искусственного интеллекта являются ключом к тому, чтобы сделать это возможным.

Похожие темы:край краевые вычисления генеративный ИИ мыслители

Рави Аннавайджхала

Будучи ветераном Кремниевой долины и генеральным директором Кинара ИнкРави Аннаваджхала имеет более чем 20-летний опыт работы в области развития бизнеса, маркетинга и инжиниринга, создания передовых технологических продуктов и
выводя их на рынок. В своей нынешней должности главного исполнительного директора Deep Vision Рави выполняет функции
совету директоров и привлекла 50 миллионов долларов, переводя процессор Ara-1 компании с пре-кремниевого состояния на
полномасштабное производство и наращивание объемов процессора 2-го поколения Ара-2. До присоединения
Deep Vision, Рави занимал руководящие должности в Intel и SanDisk, где играл ключевые роли.
в стимулировании роста доходов, развитии стратегического партнерства и разработке дорожных карт продуктов, которые
лидировал в отрасли благодаря передовым функциям и возможностям.