Connect with us

Почему вывод AI, а не обучение, является следующим великим инженерным вызовом

Искусственный интеллект

Почему вывод AI, а не обучение, является следующим великим инженерным вызовом

mm

На протяжении последнего десятилетия основное внимание в области искусственного интеллекта было сосредоточено на обучении. Прорывы в основном были достигнуты благодаря массивным кластерам вычислений, моделям с триллионами параметров и миллиардам долларов, потраченных на обучение систем “думать”. Мы рассматривали разработку ИИ в основном как строительный проект: строительство небоскрёба интеллекта. Но теперь, когда этот небоскрёб построен, реальной задачей является определение того, как обеспечить возможность миллионам людей жить и работать внутри него одновременно. Это смещает фокус исследователей и инженеров ИИ с обучения (акта создания интеллекта) на вывод (акт использования его). Хотя обучение является массивными, одноразовыми капитальными расходами (CapEx), вывод является постоянными операционными расходами (OpEx), которые продолжаются бесконечно. Когда предприятия развертывают агентов, обслуживающих миллионы пользователей круглосуточно, они обнаруживают суровую реальность: вывод не является просто “обратным обучением”. Это фундаментально другая, и, возможно, более сложная, инженерная задача.

Почему затраты на вывод имеют значение больше, чем когда-либо

Чтобы понять инженерную задачу, необходимо сначала понять лежащую в основе экономическую императив. На этапе обучения неэффективность терпима. Если запуск обучения занимает четыре недели вместо трех, это раздражение. В выводе, однако, неэффективность может быть катастрофической для бизнеса. Например, обучение модели передового уровня может стоить 100 миллионов долларов. Но развертывание этой модели для ответа на 10 миллионов запросов в день может превысить эту стоимость в течение нескольких месяцев, если ее не оптимизировать. Это почему мы наблюдаем сдвиг рынка, при котором инвестиции в вывод предполагается, что они превысят инвестиции в обучение.

Для инженеров это смещает цели. Мы больше не оптимизируем для пропускной способности (как быстро можно обработать этот массивный набор данных?). Мы оптимизируем для задержки (как быстро можно вернуть один токен?) и параллельности (сколько пользователей можно обслужить на одном GPU?). “Брутфорсный” подход, который доминировал на этапе обучения, просто добавляя больше вычислений, не работает здесь. Вы не можете бросить больше H100 на проблему задержки, если узким местом является пропускная способность памяти.

Стена памяти: реальное узкое место

Малознакомая правда о выводе Большой Языковой Модели (LLM) заключается в том, что она редко ограничивается вычислениями; она ограничена памятью. На этапе обучения мы обрабатываем данные в массивных партиях, сохраняя вычислительные единицы GPU полностью загруженными. В выводе, особенно для реальных приложений, таких как чат-боты или агенты, запросы приходят последовательно. Каждый сгенерированный токен требует от модели загрузить свои миллиарды параметров из памяти с высокой пропускной способностью (HBM) в вычислительные ядра. Это “Стена памяти“. Это как иметь двигатель Ferrari (ядро GPU) застрявшим в пробке (ограниченную пропускную способность памяти).

Эта задача заставляет инженерные команды пересмотреть архитектуру системы до уровня кремния. Это почему мы наблюдаем рост Линейных Процессорных Единиц (LPUs), таких как те, что от Groq, и специализированных Нейронных Процессорных Единиц (NPUs). Эти чипы предназначены для обхода узкого места HBM, используя массивные объемы SRAM на чипе, рассматривая доступ к памяти как непрерывный поток данных, а не простую операцию извлечения. Для программиста это означает конец эры “по умолчанию CUDA”. Мы должны теперь писать код, который осознает аппаратуру, понимая точно, как данные перемещаются по проводам.

Новая граница эффективности ИИ

Поскольку мы не можем всегда изменить аппаратуру, предстоящая граница инженерии лежит в программной оптимизации. Это то место, где происходят некоторые из наиболее инновационных прорывов. Мы наблюдаем возрождение техник, которые переопределяют, как компьютеры реализуют и выполняют нейронные сети.

  • Непрерывная партионная обработка: Традиционная партионная обработка ждет, пока “автобус” заполнится, прежде чем отправиться, что вводит задержки. Непрерывная партионная обработка (пioneered by frameworks like vLLM) действует как система метро, позволяя новым запросам присоединиться или покинуть поезд GPU на каждой итерации. Она максимизирует пропускную способность без жертвования задержкой, решая сложную задачу планирования, которая требует глубокого опыта работы с операционной системой.
  • Спекулятивное декодирование: Эта техника использует небольшую, быструю и недорогую модель для создания черновика ответа, в то время как более крупная, медленная и более способная модель проверяет его параллельно. Она основана на факте, что проверка текста намного менее вычислительно дорогая, чем его генерация.
  • Управление кэшем KV: В длинных разговорах “история” (кэш Key-Value) быстро растет, потребляя大量ы GPU-памяти. Инженеры теперь реализуют “PagedAttention“, технику, вдохновленную виртуальной памятью в операционных системах. Эта техника разбивает память на фрагменты и управляет ею не連续но.

Агентная сложность

Если стандартный вывод сложен, Агентный ИИ делает его экспоненциально более сложным. Стандартный чат-бот является безсостоянием: Пользователь задает вопрос, ИИ отвечает, процесс заканчивается. ИИ-агент, однако, имеет цикл. Он планирует, выполняет инструменты, наблюдает результаты и итеративно улучшает. С точки зрения инженерии это кошмар. Этот архитектурный сдвиг вводит несколько фундаментальных задач:

  1. Управление состоянием: Движок вывода должен поддерживать “состояние” процесса мышления агента на протяжении нескольких шагов, часто охватывающих минуты.
  2. Бесконечные циклы: В отличие от предсказуемой прямой передачи, агент может застрять в цикле рассуждений. Инженерия надежных “вatchdogs” и “сирен” для вероятностного кода является совершенно новой областью.
  3. Переменный вычислитель: Один запрос пользователя может вызвать один вызов вывода, в то время как другой может вызвать пятьдесят. Управление нагрузкой и автомасштабирование инфраструктуры, когда каждый запрос несет такую экстремальную вариацию, требует совершенно новой логики оркестровки.

Мы по сути переходим от “обслуживания моделей” к “оркестровке когнитивных архитектур”.

Привнесение ИИ в повседневные устройства

Наконец, ограничения энергии и задержки сети в конечном итоге заставят вывод перейти на периферию. Мы не можем ожидать, что каждый умный светильник, автономный транспорт или фабричный робот будет маршрутизировать свои запросы через центр обработки данных. Инженерная задача здесь заключается в сжатии. Как можно уместить модель, которая научилась на всём интернете, на чипе, меньшем, чем ноготь, работающем от батареи?

Техники, такие как квантование (уменьшение точности с 16-битной до 4-битной или даже 1-битной) и дистилляция моделей (обучение небольшой модели-ученика имитировать большую модель-учителя), становятся стандартной практикой. Но реальной задачей является развертывание этих моделей на фрагментированную экосистему миллиардов устройств, таких как Android, iOS, встроенный Linux, пользовательские датчики, каждое со своими аппаратными ограничениями. Это “кошмар фрагментации” разработки для мобильных устройств, умноженный на сложность нейронных сетей.

Основная мысль

Мы вступаем в “День 2” эры Генеративного ИИ. День 1 был о том, чтобы продемонстрировать, что ИИ может писать стихи. День 2 – об инженерии, делая эту способность более надежной, доступной и повсеместной. Инженеры, которые определят следующее десятилетие, не обязательно являются теми, кто изобретает новые архитектуры моделей. Они являются системными инженерами, хакерами ядра и архитекторами инфраструктуры, которые могут выяснить, как обслужить миллиард токенов в секунду, не расплавляя сеть электропитания или обанкротив компанию. Вывод ИИ больше не является просто деталью запуска. Это продукт. А его оптимизация является следующим великим инженерным вызовом.

Доктор Техсин Зия является доцентом в университете COMSATS в Исламабаде, имеющим степень PhD в области ИИ в Венском техническом университете, Австрия. Специализируясь в области искусственного интеллекта, машинного обучения, науки о данных и компьютерного зрения, он внес значительный вклад с публикациями в авторитетных научных журналах. Доктор Техсин также возглавлял различные промышленные проекты в качестве основного исследователя и служил консультантом по ИИ.