Лідери думок

Компанії з штучним інтелектом не мають рову – якщо вони не перестануть вибирати сторону

mm

Незручна правда про продукти штучного інтелекту: ваш конкурентний优势 має термін придатності, вимірюваний тижнями, а не роками.

Хоча фундаментальні лабораторії штучного інтелекту вкладають мільярди в моделі, які потребують років для розробки, компанії, що працюють на рівні застосунків, виявляють, що рови не існують у традиційному сенсі. Ваш вбивчий функціонал? Відтворений до п’ятниці. Ваш технічний перевага? Зникне до наступного кварталу. Розмаїття гравців, доступність фундаментальних моделей та швидкість інновацій створили ринок, де бути першим, найкращим або різним вже не гарантує виживання.

Але є контрінтуїтивний шлях виходу: перестайте намагатися перемогти технологіями та почніть будувати здатність виживати в них. Реальний рів не в штучному інтелекті, який ви використовуєте – а в вашій здатності використовувати будь-який штучний інтелект.

Фундаментальна відмінність

Є фундаментальний рівень – великі моделі, такі як ChatGPT, Grok та Gemini. Десятки моделей, навчених по-різному, кожна з яких має свої переваги. Але це фундаментальна, дослідницька робота: інженери, які працюють роками, потребуючи величезних ресурсних вкладень. Кожна з цих моделей має свою окрему перевагу – інакше витрати на ресурси не можуть бути виправдані. Саме тому спроби переманити інженерів з OpenAI так широко публікуються: вони володіють унікальною експертизою, яку не можна швидко виростити за будь-яку ціну.

Але на рівні застосунків все зовсім інакше. Тут потрібні значно менше ресурсів, хоча трохи більше креативності для налаштування великої мовиової моделі та вирішення бізнес-проблеми. У кожного свій гра, свій підхід, свій продукт. Розмаїття гравців вбиває будь-яку можливість мати окрему перевагу на будь-якому ринку – текстовому, аудіо чи зображення. Бізнес-рішення на основі штучного інтелекту з’являються щодня, компанії з’являються регулярно, і часто вони нерозрізнімі один від одного.

Можливі відмінності в галузі голосових технологій ілюструють цю еволюцію: спочатку всі намагалися зробити голоси максимально людськими, потім швидкість стала питанням, і всі почали вирішувати одну й ту ж задачу швидко. Тепер ми в епоху емоційних тегів. У спеціалізації зі штучного розпізнавання мови основний показник – кількість помилок на слово – суттєво покращився з появою великих мовних моделей, здатних розуміти контекстну придатність слів.

У короткому, відсутність рову пояснюється відсутністю глибини в будь-якому аспекті існування продукту на рівні застосунків: це мілко як у штучному інтелекті, так і в бізнес-застосуванні. Як і перевага фундаментального продукту пояснюється глибиною його розробки.

Але чи потрібно застосування-рівневим проектам мати рів? Якщо ви працюєте на відносно великому ринку, і у вас менше 30 конкурентів – ви можете залишити все як є. Очевидно, конкурентами можуть бути великі компанії, такі як OpenAI та Anthropic – але тут вам потрібно покладатися на суб’єктивне відчуття розміру ринку та динаміки, чи є достатньо їжі для всіх, чи ні. Але якщо ринок відносно малий, а конкуренти з’являються, як гриби – то вам потрібно чітко позиціонувати свою конкурентну перевагу. Це не має значення, чи швидко конкуренти її приймають.

Дистрибуція як справжній рів

Я підозрюю, що до певної міри це справедливе твердження, і справжній рів лежить у сфері дистрибуції, а не у технології самій. Що більше важить – це як швидко ви розширюєте свою присутність серед клієнтів та чи забезпечує цінність продукту хорошу тривалість життя. Інакше ви можете створити якийсь B2C-застосунок для користувачів, щоб вони грали з ним, і вони навіть можуть поширити його вірусно, але потім просто зупиняться використовувати його, коли з’явиться наступний новий застосунок.

Два типи переваг – І чому тільки одна виживає

Є два типи конкурентних переваг. Перший дозволяє вам перемогти тут і зараз з чіткою перевагою – завдяки унікальній технології або вбивчому функціоналу, якого у конкурентів просто немає. Другий дозволяє вам уникнути поразки в довгостроковій перспективі, оскільки ви будуєте стійкість.

З продуктами штучного інтелекту реальна практика вже показує, що перший тип переваги зникає дуже швидко: конкуренти закривають розрив з страшною швидкістю.

Саме тому має сенс зосередитися на другому типі: максимальна тривалість продукту. Це досягається шляхом створення продукту, який може працювати з будь-яким постачальником великої мовної моделі та миттєво перемикатися між ними – у момент, коли поточна модель, на якій побудований ваш бізнес, починає явно відставати від наступної кращої.

Від цього вимір незалежності від підкладних шарів великої мовної моделі стає сильнішою перевагою, ніж маркетингові або технічні зусилля окремо. Бути постачальником-агностиком не просто приємна річ – це єдина оборонна позиція, коли земля під вашими ногами змінюється щомісяця.

Прихована складність багатомодельної стратегії

Хоча агностичність постачальників пропонує довгостроковий захист, реалізація відкриває суттєві виклики. Як пояснює Олексій Айларов, “це не легко, оскільки всі моделі мають свої особливості/проблеми”.

Основна проблема: великі мовні моделі не є взаємозамінними. Вихідні дані змінюються з однаковим входом – навіть у межах однієї великої мовної моделі, але ще більше, коли перемикання між постачальниками. Кожна модель реагує на запити та інструкції по-різному: деякі слідують інструкціям краще, інші гірше; продуктивність може бути мовно-специфічною або цілево-специфічною.

Конкретний приклад: розгляньте сервіси генерації зображень/відео, такі як Sora чи Veo. Дайте їм ідентичні входні дані, і ви отримаєте зовсім різні результати. Ця відмінність застосовується до всіх застосунків великої мовної моделі.

Виклик налаштування: щоб підтримувати багатомодельну сумісність, вам потрібно:

  • Створити окремі запити/інструкції для кожної великої мовної моделі, які дають бажаний результат
  • Знати, як кожна велика мовна модель відрізняється, та налаштовувати входні дані відповідно
  • Займатися роботою, яка часто творча, а не рутинна
  • Признавати, що цей процес “відносно важко автоматизувати в більшості випадків”

Це вимагає суттєвих зусиль з налаштування для кожної моделі. Витрати на початку суттєві: вам потрібно розробити запити для всіх великих мовних моделей, перш ніж ви зможете вільно перемикатися між ними. Крім того, ця підготовка покриває лише існуючі моделі – коли з’являються нові великі мовні моделі, процес налаштування починається знову.

Перевага виникає з того, що ви вклали в інфраструктуру тестування, експертизу з налаштування великої мовної моделі та оперативну дисципліну, щоб фактично підтримувати сумісність між кількома великими мовними моделями – і повторювати цей процес, коли ландшафт змінюється. Ця здатність стає формою технічної глибини, яку конкуренти не можуть легко відтворити, навіть якщо вони розуміють стратегію.

Парадокс: ваш рів у тому, що у вас його немає

Ось чому агностичність постачальників така потужна: це єдина конкурентна перевага, яка посилюється, коли ринок стає ще більш хаотичним.

Коли ваш конкурент будує весь свій продукт на основі GPT-4, а краща модель з’являється, він стикається з екзистенційною переробкою. Коли ви побудували інфраструктуру для перемикання між моделями, ви стикаєтеся з вівторком. Компанії, які виживуть, не будуть тими, які обрали правильну модель – вони будуть тими, які ніколи не мусили обирати.

Так, побудова для кількох великих мовних моделей є дорогою на початку. Так, це вимагає творчої інженерної роботи, яку важко автоматизувати. Так, вам потрібно підтримувати паралельні стратегії запиту для кожного постачальника. Але саме це створює бар’єр для входу. Перевага не в технології самій – а в оперативній пам’яті управління технологічними змінами.

Більшість компаній штучного інтелекту оптимізують для перемоги сьогодні. Агностичні компанії оптимізують для того, щоб ще бути завтра. На ринку, де вчорашній прорив є сьогоднішнім базовим рівнем, ця відмінність є всім.

Олексій Айларов став співзасновником Voximplant після десятирічної роботи з будівництва інструментів зв'язку з нуля. Його ранні роботи включали розробку IP PBX та управління власною компанією з розробки програмного забезпечення для телекомунікацій ще до того, як хмарна телефонія стала популярною. Згодом з'явилася Zingaya, яка принесла можливість клікувати та дзвонити прямо з браузера. Потім пішов Voximplant, який розвинувся у серверну платформу, на яку розробники покладаються для роботи з голосом та відео в режимі реального часу. Олексій пише про практичну сторону Voice AI, особливо про те, де великі мовні моделі зіштовхуються з реаліями глобальної телефонії.