Лідери думок

Архітектура огляду має значення більше, ніж модель у корпоративному штучному інтелекті

mm

Наступна фаза зрілості штучного інтелекту в корпоративному середовищі залежить менше від кращих моделей і більше від побудови довірчої архітектури навколо них.

Кожна розмова про управління штучним інтелектом, яку я мав протягом останніх двох років, повертається до тих самих проблем: показники галюцинації, бенчмарки точності та тестування на відповідність. Це реальні питання, звичайно, але розмова була закріплена за неправильним кінцем проблеми.

Хоча моделі суттєво покращилися, кількість неверифікованих виходів штучного інтелекту, які доходять до старших керівників, зросла разом з ними. Цей недогляд вказує на проблему архітектури огляду, і про це індустрія майже не говорить.

Історія, центрована на моделі, вийшла вперед реальності

Домінантна рамка в корпоративному штучному інтелекті все ще розглядає якість моделі як основну змінну: якщо модель достатньо точна, вихід довірчий. Ця логіка була зрозумілою два роки тому, коли ранні LLM були більш несумісними та схильними до галюцинації, але ситуація змінилася.

Сучасні моделі генерують поліровані, добре структуровані, цитатно-багаті відповіді на величезний діапазон завдань, відформатовані в мові, готовій для зацікавлених сторін. Організації тепер використовують штучний інтелект у обсязі, який значно перевищує те, з чим могли справитися їхні процеси огляду. Дослідження про прийняття корпоративного штучного інтелекту задокументувало цю невідповідність у розробці програмного забезпечення, де розробники, допоможені штучним інтелектом, виконують на 21% більше завдань, тоді як час огляду запитів на прийняття збільшується на 91%. Виробництво зростає, тому можливості вже не є瓶нем. Огляд є справжнім перешкодою.

Що показують дані в роботі з інсайтами

Індустрія інсайтів є вигідним місцем для вивчення цієї проблеми, оскільки дослідники-професіонали є навченими скептиками. Вони знають різницю між кореляцією, причинно-наслідковими зв’язками, висновками та висновками. Питання про якість даних є частиною роботи.

За даними Knit AI Trust Index, 92% опитаних професійних інсайтів зазначили, що виходи, згенеровані штучним інтелектом, доходять до старших керівників без повного огляду.
Висновки Індексу довіри ідентифікують три основні точки тиску:

  • Обсяг вийшов вперед верифікаційної здатності. Команди генерують більше виходів, ніж вони мають смуги для ретельного їхнього розгляду.
  • Довіра зросла швидше, ніж поведінка верифікації змінилася. Дослідники відчувають загальне позитивне ставлення до якості штучного інтелекту, визнаючи, що їхні практики огляду не збіглися.
  • Інструменти для огляду роботи штучного інтелекту відстають від інструментів для його генерації. Організації вклали значні кошти в можливості генерації та порівняно мало в інфраструктуру для огляду та відстеження того, що виробляє штучний інтелект.

Поліровані виходи запрошують менше уваги

Більш складний режим відмови не полягає в тому випадку, коли штучний інтелект видає явно неправильну відповідь і хтось її виявляє. Більш складна проблема полягає в упередженості автоматизації, тенденції до зменшення уваги до виходів, які виглядають авторитетними та добре сформованими. У систематичному огляді 2025 року, опублікованому в AI & Society, було досліджено це питання за 35 рецензованих досліджень і виявлено, що поліровані, висококонфіденційні виходи штучного інтелекту послідовно зменшують глибину людського огляду — навіть серед досвідчених фахівців. Коли щось виглядає правильно, ми виділяємо менше уваги на перевірку того, чи це так.

Цей недогляд створює проблему поширення. Вихід досліджень, який аналітик тільки легенько переглянув, стає даних у презентації на рівні віце-президента, яка стає основою для обговорення на рівні ради директорів. До того часу, як помилка подорожує так далеко, її походження стає невидимим, а виправлення її стає дорогим. Глобальні бізнес-втрати від неточностей, згенерованих штучним інтелектом, перевищили 67 мільярдів доларів у 2024 році. Вартість верифікації на одного працівника може сягати 14 200 доларів на рік лише для перевірки того, чи є зміст, згенерований штучним інтелектом, точним. Знову ж таки, це не проблеми якості моделі; це проблеми архітектури огляду.

Як виглядають зрілі робочі потоки штучного інтелекту

Організації, які добре керують цією проблемою, не використовують кращі моделі, ніж інші. Натомість вони побудували більш повну інфраструктуру огляду навколо моделей, які вони використовують. Чотири принципи визначають їхній підхід:

  1. Відкрита походження

Кожний вихід штучного інтелекту містить прозорий запис про те, звідки походять його входи. Цей запис надає оглядачам цінну інформацію про те, що їм потрібно оцінити виходи ефективно. Ви не можете оцінити твердження, яке є невідстежуваним.

  1. Тierge огляду за ставками

Не всі виходи штучного інтелекту несуть однаковий ризик. Зрілі робочі потоки застосовують інтенсивність огляду пропорційно до наслідків неправильного виходу. Вихід високого ризику отримує більше уваги та структурованих кроків верифікації. Рутинні виходи рухаються швидше.

  1. Тертя в правильних місцях

Організації, які найбільше борються з довірою до штучного інтелекту, односторонньо видалили тертя, розглядаючи швидкість як універсальну мету. Успішні організації були вибірковими: зберігаючи свідоме тертя на точках передачі, де виходи штучного інтелекту стають рішеннями організації. Їхні процеси вимагають підпису перед тим, як висновок, згенерований штучним інтелектом, потрапляє до презентації ради директорів, або структурованого кроку виклику перед тим, як висновки входять до стратегічних обговорень.

  1. Петлі зворотного зв’язку до рівня моделі

Найкращі робочі потоки розглядають огляд як процес генерації даних, а не як перевірку. Коли оглядач позначає помилку або перевищує рекомендацію штучного інтелекту, цей сигнал захоплюється та повертається до того, як штучний інтелект буде розгорнутий у майбутній роботі. Звіт OpenAI про стан корпоративного штучного інтелекту виявив, що організації з найвищими показниками відзначаються не складністю своїх моделей, а суворістю процесів їхнього розгортання. Організації без цієї петлі зворотного зв’язку починають з нуля кожен раз.

Наступна фаза буде виграна на рівні огляду

Фактична конкурентна перевага в індустрії інсайтів полягає в тому, хто може постійно довіряти тому, що вони виробляють. Ця довіра походить від того, що вони знають, звідки походять виходи, хто їх переглянув та що трапилося, коли щось було неправильним. Недавня історія відповіла на питання моделі; організаційна інфраструктура для відповідальného розгортання моделей у масштабі є тим місцем, де індустрія все ще доганяє.

Той факт, що 92% фахівців з інсайтів бачили неверифіковані виходи штучного інтелекту, які доходять до старших керівників, не є технологічною невдачею. Це організаційна недогляд, який виникає в усіх галузях, де швидкість була оптимізована, а огляд був розглядався як витрат. Компанія з найрозумнішою моделлю не виграє наступну фазу корпоративного штучного інтелекту, а компанія з найбільш довірчою архітектурою огляду навколо неї.

Аніш Дхаван є співзасновником і генеральним директором Knit, агентства з дослідження, що використовує штучний інтелект. Він провів останні 5 років на перетині корпоративного штучного інтелекту та методології дослідження. Knit працює з організаціями, такими як Google, Amazon, T-Mobile та ESPN, щоб надавати рішення, готові до прийняття рішень, зі швидкістю штучного інтелекту.