Искусственный интеллект

Дистиллированные гиганты: почему нам нужно переосмыслить разработку малого ИИ

mm

В последние годы гонка за разработку все более крупных моделей ИИ захватила техиндустрию. Эти модели, с их миллиардами параметров, обещают прорывные достижения в различных областях, от обработки естественного языка до распознавания изображений. Однако эта неустанная погоня за размером имеет значительные недостатки в виде высоких затрат и значительного воздействия на окружающую среду. Хотя малый ИИ предлагает перспективную альтернативу, обеспечивая эффективность и более низкое энергопотребление, текущий подход к его созданию все еще требует значительных ресурсов. Когда мы стремимся к малому и более устойчивому ИИ, исследование новых стратегий, которые эффективно решают эти ограничения, имеет решающее значение.

Малый ИИ: устойчивое решение высоких затрат и энергопотребления

Разработка и поддержка крупных моделей ИИ – это дорогостоящее предприятие. Оценки предполагают, что обучение GPT-3 стоит более 4 миллионов долларов, а более совершенные модели потенциально достигают высоких единиц миллионов. Эти затраты, включая необходимое оборудование, хранилище, вычислительную мощность и человеческие ресурсы, являются запретными для многих организаций, особенно небольших предприятий и исследовательских учреждений. Этот финансовый барьер создает неравную игровую площадку, ограничивая доступ к передовым технологиям ИИ и препятствуя инновациям.

Более того, энергопотребление, связанное с обучением крупных моделей ИИ, является ошеломляющим. Например, обучение крупной языковой модели, такой как GPT-3, оценивается в потреблении почти 1 300 мегаватт-часов (МВт·ч) электроэнергии – что эквивалентно годовому потреблению электроэнергии 130 американских домов. Несмотря на эту значительную стоимость обучения, каждая запрос в ChatGPT несет стоимость вывода 2,9 ватт-часа. Международное энергетическое агентство оценивает, что коллективное энергопотребление ИИ, центров данных и криптовалют составило почти 2 процента глобального энергопотребления. Это потребление, как ожидается, удвоится к 2026 году, приближаясь к общему потреблению электроэнергии Японии. Высокое энергопотребление не только увеличивает эксплуатационные затраты, но также способствует углеродному следу, ухудшая экологический кризис. Чтобы поставить это в перспективу, исследователи оценивают, что обучение одной крупной модели ИИ может выбросить более 626 000 фунтов углекислого газа, что эквивалентно выбросам пяти автомобилей за их срок службы.

Среди этих проблем малый ИИ предлагает практическое решение. Он предназначен для того, чтобы быть более эффективным и масштабируемым, требуя значительно меньше данных и вычислительной мощности. Это снижает общие затраты и делает передовые технологии ИИ более доступными для небольших организаций и исследовательских команд. Кроме того, модели малого ИИ имеют более низкие энергопотребления, что помогает снизить эксплуатационные затраты и снижает их воздействие на окружающую среду. Используя оптимизированные алгоритмы и методы, такие как передача обучения, малый ИИ может достичь высоких результатов с меньшими ресурсами. Этот подход не только делает ИИ более доступным, но также поддерживает устойчивость, минимизируя как энергопотребление, так и выбросы углекислого газа.

Как строятся модели малого ИИ сегодня

Признавая преимущества малого ИИ, крупные технологические компании, такие как Google, OpenAI и Meta, все больше фокусируются на разработке компактных моделей. Этот сдвиг привел к эволюции моделей, таких как Gemini Flash, GPT-4o Mini и Llama 7B. Эти более мелкие модели в основном разрабатываются с помощью метода, называемого дистилляцией знаний.

В своей основе дистилляция предполагает передачу знаний крупной, сложной модели в более мелкую, более эффективную версию. В этом процессе “учительская” модель – крупная модель ИИ – обучается на обширных наборах данных, чтобы изучить сложные закономерности и нюансы. Эта модель затем генерирует прогнозы или “мягкие метки”, которые воплощают ее глубокое понимание.

“Ученическая” модель, которая является моделью малого ИИ, обучается для воспроизведения этих мягких меток. Повторяя поведение учителя, модель ученика захватывает большую часть его знаний и производительности, работая с значительно меньшим количеством параметров.

Почему нам нужно выйти за пределы дистилляции крупного ИИ

Хотя дистилляция крупных моделей ИИ в более мелкие, более управляемые версии стала популярным подходом к построению малого ИИ, есть несколько убедительных причин, почему этот подход может не быть решением для всех проблем в разработке крупного ИИ.

  • Продолжающаяся зависимость от крупных моделей: Хотя дистилляция создает более мелкие, более эффективные модели ИИ и улучшает вычислительную и энергетическую эффективность на этапе вывода, она все еще сильно зависит от обучения крупных моделей ИИ изначально. Это означает, что построение моделей малого ИИ все еще требует значительных вычислительных ресурсов и энергии, что приводит к высоким затратам и воздействию на окружающую среду, даже до дистилляции. Необходимость повторного обучения крупных моделей для дистилляции смещает бремя ресурсов, а не устраняет его. Хотя дистилляция направлена на снижение размера и стоимости моделей ИИ, она не устраняет значительных первоначальных затрат, связанных с обучением крупных “учительских” моделей. Эти первоначальные затраты могут быть особенно сложными для небольших организаций и исследовательских групп. Кроме того, воздействие на окружающую среду от обучения этих крупных моделей может нейтрализовать некоторые преимущества использования более мелких, более эффективных моделей, поскольку углеродный след от начальной фазы обучения остается значительным.
  • Ограниченный объем инноваций: Полагаясь на дистилляцию, можно ограничить инновации, сосредоточившись на воспроизведении существующих крупных моделей, а не на изучении новых подходов. Это может замедлить разработку новых архитектур ИИ или методов, которые могли бы обеспечить лучшие решения для конкретных проблем. Зависимость от крупного ИИ ограничивает разработку малого ИИ в руках нескольких ресурсо-обеспеченных компаний. В результате преимущества малого ИИ не распределяются равномерно, что может препятствовать более широкому технологическому прогрессу и ограничить возможности для инноваций.
  • Проблемы обобщения и адаптации: Модели малого ИИ, созданные с помощью дистилляции, часто испытывают трудности с новыми, не виденными данными. Это происходит потому, что процесс дистилляции может не полностью захватить способность более крупной модели обобщать. В результате, хотя эти более мелкие модели могут хорошо работать на знакомых задачах, они часто испытывают трудности при столкновении с новыми ситуациями. Кроме того, адаптация дистиллированных моделей к новым модальностям или наборам данных часто включает в себя повторное обучение или тонкую настройку более крупной модели сначала. Этот итеративный процесс может быть сложным и ресурсо-интенсивным, что делает его сложным для быстрой адаптации моделей малого ИИ к быстро меняющимся технологическим потребностям или новым приложениям.

Основная мысль

Хотя дистилляция крупных моделей ИИ в более мелкие может показаться практическим решением, она продолжает полагаться на высокие затраты на обучение крупных моделей. Чтобы действительно продвинуться в малом ИИ, нам нужно изучить более инновационные и устойчивые практики. Это означает создание моделей, предназначенных для конкретных приложений, улучшение методов обучения, чтобы сделать их более экономичными и энергетически эффективными, и фокус на экологической устойчивости. Преследуя эти стратегии, мы можем продвинуться в разработке ИИ таким образом, чтобы это было одновременно ответственно и полезно для промышленности и планеты.

Доктор Техсин Зия является доцентом в университете COMSATS в Исламабаде, имеющим степень PhD в области ИИ в Венском техническом университете, Австрия. Специализируясь в области искусственного интеллекта, машинного обучения, науки о данных и компьютерного зрения, он внес значительный вклад с публикациями в авторитетных научных журналах. Доктор Техсин также возглавлял различные промышленные проекты в качестве основного исследователя и служил консультантом по ИИ.