Искусственный интеллект

Возрождение нейронных обработочных единиц: улучшение генеративного ИИ на устройствах для скорости и устойчивости

Published June 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Эволюция генеративного ИИ не только меняет нашу взаимодействие и опыт с вычислительными устройствами, но также переопределяет основы вычислений. Одним из ключевых факторов этой трансформации является необходимость работать с генеративным ИИ на устройствах с ограниченными вычислительными ресурсами. В этой статье обсуждаются проблемы, которые это представляет, и как нейронные обработочные единицы (НПУ) появляются для решения этих проблем. Кроме того, в статье представлены некоторые из последних процессоров НПУ, которые ведут путь в этой области.

Проблемы инфраструктуры генеративного ИИ на устройствах

Генеративный ИИ, мощная основа для синтеза изображений, генерации текста и композиции музыки, требует значительных вычислительных ресурсов. Традиционно эти требования удовлетворялись за счет использования обширных возможностей облачных платформ. Хотя этот подход эффективен, он имеет свои собственные проблемы для генеративного ИИ на устройствах, включая зависимость от постоянного интернет-соединения и централизованной инфраструктуры. Эта зависимость вводит задержку, уязвимости безопасности и повышенное энергопотребление.

Основой облачной инфраструктуры ИИ в основном является центральные процессоры (ЦП) и графические процессоры (ГП) для обработки вычислительных требований генеративного ИИ. Однако, когда они применяются к генеративному ИИ на устройствах, эти процессоры сталкиваются с значительными препятствиями. ЦП предназначены для общих задач и не имеют специализированной архитектуры, необходимой для эффективной и низкопотребляющей обработки задач генеративного ИИ. Их ограниченные возможности параллельной обработки приводят к снижению пропускной способности, увеличению задержки и более высокому энергопотреблению, что делает их менее подходящими для ИИ на устройствах. С другой стороны, хотя ГП могут преуспеть в параллельной обработке, они в основном предназначены для задач графической обработки. Для эффективного выполнения задач генеративного ИИ ГП требуют специализированных интегральных схем, которые потребляют много энергии и генерируют значительное тепло. Кроме того, их большой физический размер создает препятствия для их использования в компактных устройствах.

Появление нейронных обработочных единиц (НПУ)

В ответ на вышеуказанные проблемы нейронные обработочные единицы (НПУ) появляются как трансформационная технология для реализации генеративного ИИ на устройствах. Архитектура НПУ в основном вдохновлена структурой и функцией человеческого мозга, особенно тем, как нейроны и синапсы сотрудничают для обработки информации. В НПУ искусственные нейроны действуют как основные единицы, отражая биологические нейроны, получая входные данные, обрабатывая их и производя выходные данные. Эти нейроны взаимосвязаны через искусственные синапсы, которые передают сигналы между нейронами с различной силой, которая регулируется во время процесса обучения. Это имитирует процесс изменения синаптических весов в мозге. НПУ организованы в слоях; входные слои, которые получают сырые данные, скрытые слои, которые выполняют промежуточную обработку, и выходные слои, которые генерируют результаты. Эта многослойная структура отражает многоступенчатую и параллельную способность мозга обрабатывать информацию. Поскольку генеративный ИИ также построен с использованием подобной структуры искусственных нейронных сетей, НПУ хорошо подходят для управления задачами генеративного ИИ. Это структурное соответствие снижает потребность в специализированных интегральных схемах, что приводит к более компактным, энергосберегающим, быстрым и устойчивым решениям.

Решение разнообразных вычислительных потребностей генеративного ИИ

Генеративный ИИ охватывает широкий спектр задач, включая синтез изображений, генерацию текста и композицию музыки, каждая из которых имеет свои уникальные вычислительные требования. Например, синтез изображений сильно зависит от матричных операций, в то время как генерация текста предполагает последовательную обработку. Чтобы эффективно удовлетворить эти разнообразные вычислительные потребности, нейронные обработочные единицы (НПУ) часто интегрируются в систему на кристалле (SoC) вместе с ЦП и ГП.

Каждый из этих процессоров предлагает разные вычислительные сильные стороны. ЦП особенно подходят для последовательного управления и оперативности, ГП преуспевают в параллельной обработке потоков данных, а НПУ тонко настроены для основных операций ИИ, связанных со скалярной, векторной и тензорной математикой. Используя гетерогенную вычислительную архитектуру, задачи можно назначать процессорам на основе их сильных сторон и требований конкретной задачи.

НПУ, оптимизированные для задач ИИ, могут эффективно снять задачи генеративного ИИ с основного ЦП. Это снятие не только гарантирует быструю и энергосберегающую работу, но также ускоряет задачи вывода ИИ, позволяя моделям генеративного ИИ работать более гладко на устройстве. Когда НПУ обрабатывают задачи, связанные с ИИ, ЦП и ГП могут выделить ресурсы для других функций, тем самым улучшая общую производительность приложения и сохраняя тепловую эффективность.

Реальные примеры НПУ

Развитие НПУ набирает обороты. Вот некоторые реальные примеры НПУ:

Hexagon НПУ от Qualcomm специально разработан для ускорения задач вывода ИИ на устройствах с низкой мощностью и ограниченными ресурсами. Он предназначен для обработки задач генеративного ИИ, таких как генерация текста, синтез изображений и обработка аудио. Hexagon НПУ интегрирован в платформы Snapdragon от Qualcomm, обеспечивая эффективное выполнение моделей нейронных сетей на устройствах с продуктами ИИ от Qualcomm.
Neural Engine от Apple является ключевым компонентом чипов серии A и M, обеспечивающим различные функции ИИ, такие как Face ID, Siri и расширенная реальность (AR). Neural Engine ускоряет задачи, такие как распознавание лиц для безопасного Face ID, обработка естественного языка (NLP) для Siri и улучшенный отслеживание объектов и понимание сцены для приложений AR. Он значительно улучшает производительность задач, связанных с ИИ, на устройствах Apple, обеспечивая бесперебойный и эффективный пользовательский опыт.
НПУ от Samsung – это специализированный процессор, предназначенный для вычислений ИИ, способный обрабатывать тысячи вычислений одновременно. Интегрированный в последние процессоры Exynos от Samsung, которые обеспечивают многие телефоны Samsung, эта технология НПУ позволяет выполнять генеративный ИИ с низким энергопотреблением и высокой скоростью. Технология НПУ от Samsung также интегрирована в флагманские телевизоры, обеспечивая инновации в области звука, основанного на ИИ, и улучшая пользовательский опыт.
Архитектура Da Vinci от Huawei служит ядром их процессора Ascend ИИ, предназначенного для улучшения вычислительной мощности ИИ. Архитектура использует высокопроизводительный 3D кубический вычислительный двигатель, что делает его мощным для задач ИИ.

Основная мысль

Генеративный ИИ меняет нашу взаимодействие с устройствами и переопределяет вычисления. Проблема запуска генеративного ИИ на устройствах с ограниченными вычислительными ресурсами значительна, и традиционные ЦП и ГП часто не справляются. Нейронные обработочные единицы (НПУ) предлагают перспективное решение с их специализированной архитектурой, предназначенной для удовлетворения требований генеративного ИИ. Интегрируя НПУ в технологию System-on-Chip (SoC) вместе с ЦП и ГП, мы можем использовать сильные стороны каждого процессора, что приводит к более быстрой, эффективной и устойчивой производительности ИИ на устройствах. По мере того, как НПУ продолжают развиваться, они способствуют улучшению возможностей ИИ на устройствах, делая приложения более отзывчивыми и энергосберегающими.