Лідери думок
DeepSeek: Ефективнізація, а не парадигматичний зсув в інноваціях штучного інтелекту
Нещодавнє збудження навколо DeepSeek, просунутої великомасштабної мови моделі (LLM), зрозуміло, враховуючи значно покращену ефективність, яку вона привносить у сферу. Однак деякі реакції на її випуск здаються неправильним тлумаченням масштабу її впливу. DeepSeek представляє стрибок вперед у очікуваному напрямку розвитку LLM, але вона не сигналізує про революційний зсув у бік штучного загального інтелекту (AGI), ні не позначає раптової трансформації центру тяжіння інновацій штучного інтелекту.
Натомість досягнення DeepSeek є природним прогресом уздовж добре прокладеного шляху – одного з експоненційного зростання технологій штучного інтелекту. Це не деструктивний парадигматичний зсув, а потужне нагадування про прискорення темпу технологічних змін.
Ефективнізація DeepSeek: Стрибок уздовж очікуваного напрямку
Серце збудження навколо DeepSeek лежить у її вражаючих підвищеннях ефективності. Її інновації в основному стосуються того, щоб зробити LLM швидшими та дешевшими, що має суттєві наслідки для економіки та доступності моделей штучного інтелекту. Однак, незважаючи на ажіотаж, ці досягнення не є фундаментально новими, а радше удосконаленнями існуючих підходів.
У 1990-х роках висококласне комп’ютерне рендеринг вимагало суперкомп’ютерів. Сьогодні смартфони здатні виконувати ту ж саму задачу. Аналогічно, розпізнавання облич – раніше нішева, високооплачувана технологія – тепер стала універсальною, готовою до використання функцією в смартфонах. DeepSeek вписується в цю схему технологій: оптимізацію існуючих можливостей, яка забезпечує ефективність, але не новий, революційний підхід.
Для тих, хто знайомий з принципами технологічного зростання, цей швидкий прогрес не є несподіваним. Теорія технологічної сингулярності, яка передбачає прискорення прогресу в ключових областях, таких як штучний інтелект, передбачає, що прориви стануть частішими, оскільки ми наближуємося до точки сингулярності. DeepSeek – це лише один момент цього тривалого тренду, і її роль полягає в тому, щоб зробити існуючі технології штучного інтелекту більш доступними та ефективними, а не представляти раптовий стрибок у нові можливості.
Інновації DeepSeek: Архітектурні доробки, а не стрибок до AGI
Головний внесок DeepSeek полягає в оптимізації ефективності великомасштабних мовних моделей, особливо завдяки її Mixture of Experts (MoE) архітектурі. MoE – це добре встановлена техніка ансамблевого навчання, яка використовувалася в дослідженнях штучного інтелекту протягом років. Що DeepSeek зробила особливо добре, так це вдосконалила цю техніку, включивши інші заходи ефективності для мінімізації обчислювальних витрат і зробити LLM більш доступними.
- Параметрична ефективність: MoE-дизайн DeepSeek активує лише 37 мільярдів з 671 мільярда параметрів одночасно, зменшуючи обчислювальні вимоги до 1/18 традиційних LLM.
- Залізо для навчання з підкріпленням: Модель R1 DeepSeek використовує навчання з підкріпленням для покращення ланцюгового мислення, важливого аспекту мовних моделей.
- Багатотокове навчання: Можливість DeepSeek-V3 прогнозувати кілька текстів одночасно збільшує ефективність навчання.
Ці поліпшення роблять моделі DeepSeek драматично дешевшими для навчання та виконання порівняно з конкурентами, такими як OpenAI або Anthropic. Хоча це суттєвий крок вперед для доступності LLM, це залишається інженерним удосконаленням, а не концептуальним проривом у бік AGI.
Вплив відкритого штучного інтелекту
Одним з найбільш помітних рішень DeepSeek було зробити свої моделі відкритими – це явний відхід від пропріетарних, закритих підходів компаній, таких як OpenAI, Anthropic чи Google. Цей відкритий підхід, який підтримується дослідниками штучного інтелекту, такими як Ян Лекун з Meta, сприяє більш децентралізованій екосистемі штучного інтелекту, де інновації можуть процвітати завдяки колективному розвитку.
Економічна логіка рішення DeepSeek про відкритий код також очевидна. Відкритий штучний інтелект – це не лише філософська позиція, а й бізнес-стратегія. Роблячи свою технологію доступною широкому колу дослідників та розробників, DeepSeek позиціонує себе для отримання вигоди від послуг, корпоративної інтеграції та масштабованого хостингу, а не лише від продажу пропріетарних моделей. Цей підхід надає глобальному співтовариству штучного інтелекту доступ до конкурентних інструментів та зменшує залежність від великих західних технологічних гігантів у цій сфері.
Ростуча роль Китаю в гонці штучного інтелекту
Для багатьох факт того, що прорив DeepSeek відбувся в Китаї, може бути сюрпризом. Однак це розвиток не повинен розглядатися з шоком або як частина геополітичної конкуренції. Пройшовши роки спостереження за ландшафтом штучного інтелекту Китаю, стало очевидним, що країна зробила суттєві інвестиції в дослідження штучного інтелекту, що призвело до зростання талантів та експертизи.
Натомість цей розвиток повинен розглядатися як ознака все більш глобальної природи досліджень штучного інтелекту. Відкрита співпраця, а не націоналістична конкуренція, – це найперспективніший шлях до відповідального та етичного розвитку AGI. Децентралізовані, глобально розподілені зусилля набагато ймовірніше створять AGI, який принесе користь усій людству, а не лише інтересам однієї нації чи корпорації.
Ширші наслідки DeepSeek: Погляд за межі LLM
Хоча багато збудження навколо DeepSeek обертається навколо її ефективності у сфері LLM, важливо зробити крок назад і розглянути ширші наслідки цього розвитку.
Незважаючи на їх вражаючі можливості, моделі на основі трансформерів, такі як LLM, ще далекі від досягнення AGI. їм бракує таких необхідних якостей, як ґрунтовна композиційна абстракція та самонаправлене мислення, які необхідні для загального інтелекту. Хоча LLM можуть автоматизувати широкий спектр економічних завдань та інтегруватися у різні галузі, вони не представляють собою ядро розвитку AGI.
Якщо AGI має з’явитися протягом наступного десятиліття, малоймовірно, що це буде засновано чисто на архітектурі трансформерів. Альтернативні моделі, такі як OpenCog Hyperon або нейроморфне обчислення, можуть бути більш фундаментальними для досягнення справжнього загального інтелекту.
Комодітизація LLM призведе до зміни інвестицій у штучний інтелект
Ефективнізація DeepSeek прискорює тренд до комодітизації LLM. Коли витрати на ці моделі продовжують знижуватися, інвестори можуть почати шукати наступний великий прорив у штучному інтелекті за межами традиційних архітектур LLM. Ми можемо побачити зміщення фінансування у бік архітектур AGI, які виходять за рамки трансформерів, а також інвестицій в альтернативне апаратне забезпечення штучного інтелекту, таке як нейроморфні чіпи або асоціативні обробні одиниці.
Децентралізація формуватиме майбутнє штучного інтелекту
Оскільки поліпшення ефективності DeepSeek роблять його легшим для розгортання моделей штучного інтелекту, вони також сприяють більш широкому тренду децентралізації архітектури штучного інтелекту. З акцентом на приватності, інтероперабельності та контролі користувача, децентралізований штучний інтелект зменшить нашу залежність від великих централізованих технологічних компаній. Цей тренд критичний для забезпечення того, щоб штучний інтелект служив потребам глобального населення, а не контролювався лише кількома потужними гравцями.
Місце DeepSeek у камбрійському вибуху штучного інтелекту
У висновку, хоча DeepSeek є суттєвим етапом у ефективності LLM, це не революційний зсув у ландшафті штучного інтелекту. Натомуість це прискорює прогрес уздовж добре встановленого напрямку. Ширший вплив DeepSeek відчувається в кількох областях:
- Тиск на лідерів: DeepSeek викликає компанії, такі як OpenAI та Anthropic, переглянути свої бізнес-моделі та знайти нові способи конкуренції.
- Доступність штучного інтелекту: Роблячи високоякісні моделі більш доступними, DeepSeek демократизує доступ до передових технологій.
- Глобальна конкуренція: Ростуча роль Китаю у розвитку штучного інтелекту сигналізує про глобальну природу інновацій, яка не обмежується Заходом.
- Експоненційний прогрес: DeepSeek – це явний приклад того, як швидкий прогрес у штучному інтелекті стає нормою.
Найважливіше, що DeepSeek служить нагадуванням про те, що хоча штучний інтелект розвивається швидко, справжній AGI, ймовірно, виникне завдяки новим, фундаментальним підходам, а не оптимізації сучасних моделей. Коли ми спішимо до Сингулярності, важливо забезпечити, щоб розвиток штучного інтелекту залишався децентралізованим, відкритим та колаборативним.
DeepSeek не є AGI, але це суттєвий крок вперед у тривалому шляху до трансформаційного штучного інтелекту.












