Connect with us

Особистість вашого ІІ так само важлива, як і його IQ — і визначатиме успіх чи провал підприємства

Лідери думок

Особистість вашого ІІ так само важлива, як і його IQ — і визначатиме успіх чи провал підприємства

mm
A woman and a man standing on a high-rise balcony looking at a glowing data visualization that blends sharp blue geometric lines with soft amber waves, symbolizing the balance between AI benchmarks and personality.

Більшість компаній досі вибирають моделі ІІ на основі бенчмарків. На практиці ж це рідко визначає, чи ці системи справді працюють.

До цього часу більшість розмов про великі мовні моделі в корпоративних середовищах були домінованими бенчмарками. Команди схиляються до вимірної продуктивності, наприклад, якої моделі є найбільш інтелектуальною, сильною у кодуванні, найбільш точною в підсумовуванні або математичних розрахунках.

Але коли команди починають виходити за межі експериментальної фази та переходять до фактичної реалізації у великих масштабах, інші важливі фактори, які зараз майже не розглядаються більшістю керівників, швидко доведуть, що вони є такими ж важливими для успіху бізнесу.

Придатність ІІ до роботи

Сировина інтелект і аналітичні можливості, безумовно, важливі, але найбільш недооцінена змінна у корпоративному розгортанні ІІ — це особистість. Особистість, у контексті великих мовних моделей, відноситься до постійної тональності, поведінки та голосу, який модель передає під час взаємодії. Це те, що робить ІІ відчутним як цілісний і надійний.

При реалізації ІІ компанії повинні застосовувати такий же підхід, як і при прийомі людини на роботу: оцінювати не тільки те, як добре модель може виконувати завдання, але й її ставлення до роботи, як вона спілкується, і як вона вписується у загальний робочий процес.

Спроможність моделі підтримувати послідовність, відповідати відповідально та обробляти нюанси в різних контекстах може мати значний вплив на бізнес-результати. Технічно геніальний ІІ, який відповідає повільно, змінює тон або погано обробляє нюансировані взаємодії, може бути неправильно застосованим у бізнесі, що розчаровує користувачів, знижує залученість та знижує ефективність ІІ та успіх компанії.

Це особливо важливо в галузях, таких як підтримка клієнтів, політична діяльність або внутрішня комунікація, оскільки тонкі зміни тональності чи фразування між відповідями можуть викликати плутанину, підірвати довіру та знижувати загальну залученість. Як і люди, немає єдиної моделі, яка перевершує конкурентів у кожній категорії. Деякі моделі краще виконують аналітичні завдання, такі як кодування чи математика, тоді як інші виконують набагато краще завдання конверсаційного письма та підсумовування зустрічей.

Але для команд, які будують системи на основі цих систем, існує проблема, що ці характеристики не фіксовані.

Рухома ціль

Ландшафт ІІ розвивається швидше, ніж більшість організацій можуть за ним跟ати. Нові версії виходять часто, а характеристики продуктивності можуть змінюватися з однієї оновлення до наступної. Серія моделей Gemini від Google — недавній приклад.

Gemini 2.0 Pro була випущена у лютому 2025 року та була відразу оголошена флагманською моделлю для розробників та підприємств, які використовують її для кодування та складних запитів у всьому світі.

Вона мала найбільше вікно контексту, яке коли-небудь пропонувала Google — два мільйони токенів, що дало їй можливість повністю аналізувати та розуміти великі об’єми інформації одночасно, а також одночасно використовувати інструменти, такі як Google Search, та навіть писати код.

Для команд, які будують системи, які потребують обробки великих обсягів даних швидко та точно, це виглядало як очевидний вибір. Але вже через кілька тижнів Google випустила Gemini 2.5 Pro, яка відразу перевершала попередню версію завдяки покращенням у кодуванні, математиці та науці.

За одну ніч модель, яка тільки-но була найкращим варіантом на ринку, вже була замінена менше ніж за два місяці після запуску. Але перші користувачі відразу помітили, що зміни не були тільки інкрементальними чи аналітичними — особистість Gemini змінилася за одну ніч. Багато розробників пішли так далеко, що сказали, що ІІ поводилося так, ніби його “лоботомізували” після оновлення.

Вони скаржилися, що ІІ здавалося, що воно “становиться дурнішим” — постійно генерувало повільніші відповіді, менш цілісні виходи та демонструвало несумісності у обробці запитів, з якими воно раніше не мало проблем, а завдання, які раніше здавалися плавними, раптом стали жорсткими.

І це місце, де стратегія компанії щодо розгортання ІІ починає фундаментально змінюватися.

Поза бенчмарками

На папері Gemini 2.5 Pro мала бути явним переможцем завдяки величезним покращенням у можливостях та безпеці.

Але на практиці ці зміни повністю змінили те, наскільки надійною була модель, як вона поводилася, відповідала на запити та, в результаті, відправила команди, які тільки-но витратили великі кошти та провели безліч годин на будівництві цих систем, назад до початку, якщо нові можливості моделі не відповідали їхньому існуючому робочому процесу.

Дажи малі зрушення у поведінці можуть порушити системи, побудовані на основі послідовності та передбачуваності. Це створює реальний оперативний ризик, якщо бізнес тісно пов’язаний з однією моделлю, оскільки будь-яке оновлення може введення негайної нестабільності у команди, які залежать від цих систем.

Щоб протидіяти цьому, багато прогресивних компаній почали реалізовувати багатомодельну стратегію, де вони направляють різні завдання до моделей, які найкраще підходять для них, а не покладаються на одну модель для виконання всього.

Цей підхід не тільки покращує продуктивність, адаптовану до кожного завдання, але й знижує ризик, пов’язаний з реалізацією ІІ, оскільки якщо одна модель погіршиться після оновлення, це не призведе до краху всієї системи, що залежить від неї, оскільки є запасні варіанти.

Просто кажучи, особистість ІІ та його надійність так само важливі, як і його сировинний інтелект, коли мова йде про застосування моделі в робочому середовищі для виконання різних завдань. Ця зміна у мисленні представляє фундаментальну зміну у тому, як компанії вже не просто купують “розумніший інструмент”, а будують та керують цілою цифровою інфраструктурою.

Щоб компанії не тільки виживали, а й процвітали у сучасному бізнес-ландшафті, команди повинні встановити потоки, які можуть підмінити різні моделі залежно від завдання, та постійно моніторити, як оновлення впливають як на продуктивність, так і на якість взаємодії.

У кінцевому підсумку самі моделі продовжуватимуть розвиватися темпом, який важко наслідувати. Але компанії, які планують зміни, будують резервність та ставляться до ІІ як до інструменту та колеги, будуть тими, хто перетворить ці швидкі зміни на конкурентну перевагу.

Ендрю Міссі є співзасновником Convos, раніше PubSent, двосторонньої платформи текстування на основі штучного інтелекту, яка допомагає політичним стратегам, кампаніям, некомерційним організаціям та групам захисту інтересів проводити персоналізовані, засновані на фактах розмови з виборцями в національному масштабі, де він керує продуктом та інженерією. До Convos Ендрю працював інженером-програмістом у кількох компаніях, включаючи стартап штучного інтелекту у Сіетлі з фінансуванням风险ових інвестицій, який обслуговує національні бренди харчової промисловості та роздрібної торгівлі, такі як Starbucks, Crumbl і Mod Pizza. Крім того, Ендрю вільно володіє Javascript, Python і Typescript.