Лідери думок

Чому якість даних визначає, чи успішно працює корпоративний ІІ, чи ні

mm

Від моменту виходу ChatGPT від OpenAI у кінці 2022 року кожна компанія прагнула прискорити розвиток ІІ. Великі виробники апаратного забезпечення, такі як Nvidia, продають більше графічних процесорів, ніж будь-коли раніше, тоді як великі розробники моделей, такі як OpenAI та Anthropic, продовжують створювати все більші та більші моделі.

Все ж таки, навіть з найбільш просунутими моделями та найбільшими бюджетами, багато проєктів ІІ все одно не дають очікуваних результатів. Ми бачили це в різних галузях, від охорони здоров’я до транспорту та фінансів та інших. Причина не така вже й складна: ІІ є настільки хорошим, наскільки хорошими є дані, на яких він тренується, та дані, які він отримує в режимі реального часу. Коли ці дані погано позначені, застарілі або неповні, жодна модель не може давати стабільних або надійних результатів.

І це велика проблема, з якою зараз стикаються багато компаній. Вони вкладають великі кошти в інструменти ІІ, тоді як їхні системи даних залишаються розрізненими та ненадійними. Результатом є ілюзія прогресу. Хоча моделі дають вражаючі відповіді, висновки часто базуються на слабких підставах. Реальна перешкода на шляху до успіху ІІ не полягає в продуктивності моделі. Це якість даних.

Що таке хороші дані насправді

Високоякісні дані не означають лише точність. Це означає інформацію, яка є актуальною, повною та актуальною для задачі, яка перед нами. Припустимо, клієнт намагається скасувати замовлення на сайті електронної комерції. Система повинна перевірити деталі замовлення, статус доставки та запис про оплату. Якщо будь-які з цих даних знаходяться в різних системах, які не спілкуються одна з одною, помічник ІІ не зможе дати корисну відповідь.

Хороші дані миттєво з’єднують ці точки. Це дозволяє ІІ бачити повну картину, а не її фрагменти. Погані дані, з іншого боку, змушують модель здогадуватися. І коли ІІ починає здогадуватися, він робить помилки, які коштують грошей і шкодять довірі. Нещодавні приклади показують, наскільки небезпечними можуть бути такі припущення.

Чат-бот для бізнесу Нью-Йорка дав незаконні поради, оскільки він використовував застарілі або неповні юридичні дані. Чат-бот служби підтримки клієнтів Air Canada зробив помилкові заяви про повернення коштів, оскільки йому бракувало контексту з політики компанії. Навіть великі системи підбору персоналу неправильно фільтрували кандидатів через упереджену або неправильно позначену інформацію, як це видно в першому судовому процесі, пов’язаному з ІІ. Ці невдачі не тільки технічні. Вони також стосуються репутації та фінансів і походять від систем ІІ, які були треновані на ненадійних даних.

Дослідження галузі підтверджують масштаб цієї проблеми. За даними Gartner, 80 відсотків проєктів ІІ не дають очікуваних результатів через погану якість даних та управління ними. Аналогічно, опитування MIT Sloan Management Review виявило, що проблеми з даними, а не алгоритмами, є основною причиною невдач проєктів ІІ в корпоративному секторі.

Культура має значення не менше, ніж код

Поліпшення якості даних не можна досягти за допомогою одного інструменту або команди. Це вимагає культурних змін. Тому бізнес-лідери повинні ставитися до даних як до живої системи, яка потребує піклування та відповідальності. Це не тільки про те, щоб заявити, що хочуть “поліпшити дані” – цього недостатньо. Кожна частина організації повинна розуміти, як рухається інформація, хто нею володіє та що відбувається, коли вона змінюється.

Ми бачили, як це відбувається в реальних системах. Багато застосунків ІІ залежать від нічних оновлень даних. Якщо ваша база даних оновлюється раз на добу, знання вашої моделі завжди будуть відставати від реальності. У динамічних середовищах така затримка може означати застарілі висновки та погані рішення. Компаніям потрібно переосмислити весь потік даних, від того, як інформації збирається, до того, як вона передається моделі.

Якщо це зробити добре, можна заощадити багато часу та коштів. Коли дані спроектовані з ясністю та цілями, системи ІІ можуть навчатися та діяти на основі найбільш актуальної та актуальної інформації. Якщо цього не зробити, команди витрачають більше часу на очищення даних, ніж на їх використання.

Експерти з управління даними часто підкреслюють, що ключем до сильної якості даних є зворотній зв’язок між людьми, процесами та платформами. Без цього зв’язку інформація стає застарілою, а моделі втрачають зв’язок з реальністю – проблема, яку іноді називають “дрейфом даних”.

Баланс між швидкістю та цілісністю

Часто існує напруженість між швидкістю та точністю. Багато організацій хочуть миттєвих результатів від своїх інвестицій в ІІ, але поспішність може привести до більших проблем пізніше. Метою повинно бути досягнення гнучкості даних з цілісністю. Інакше кажучи, будівництво систем, які можуть рухатися швидко без втрати точності.

Для цього кожна компанія повинна визначити чіткі шляхи для потоку даних від джерела до моделі в режимі реального часу. Також допоможе визначити, яку інформацію можна включити, а яку потрібно виключити. Чутливі або приватні дані ніколи не повинні досягати моделі, навіть якщо користувач технічно має до них доступ. Захист цього кордону будує довіру та утримує системи ІІ від витоку або неправильного використання інформації.

Якщо ІІ стане більш автономним, людський нагляд все одно буде критично важливим. Модель не повинна мати повний контроль над бізнес-діями. Вона не повинна приймати жодних рішень. Натомість вона повинна робити запит. Що ще важливіше, люди повинні завжди переглядати та затверджувати її дії, щоб забезпечити їхню відповідність корпоративній політиці та регулюванням.

Будівництво якості з самого початку

Утримання якості даних у масштабі не лише питання видалення помилок. Це починається з архітектури. Вам потрібно визначити, де живуть ваші найнадійніші дані, а потім спроектувати систему, яка збирає їх в одному довіреному місці. Відтоді ви можете відстежувати, які дані використовує модель, та звідки вони походять.

Цей підхід запобігає плутанині та утримує систему прозорою. Це також допомагає командам швидше виправляти помилки, коли щось пішло не так. Коли ви знаєте точно, які дані сформували відповідь моделі, ви можете перевірити та виправити проблеми, перш ніж вони поширяться.

Майбутнє корпоративного ІІ належить компаніям, які вкладають якість у свою інфраструктуру за замовчуванням. Ми очікуємо побачити більше готових до використання систем ІІ, які обробляють як висновки, так і інтеграцію даних в одному пакеті. Ці “пристрої ІІ” могли б зробити його легшим для організацій розгортання розумних систем без втрати контролю над своїми даними.

Аналітики передбачають, що організації, які можуть об’єднати та управляти своїми даними ефективно, побачать швидшу адоптацію та вищу віддачу від інвестицій в проєкти ІІ. Нещодавній звіт про готовність даних пояснює, що ця здатність відокремлює компанії, які інноваційно розвиваються безперервно, від тих, які зупиняються після перших пілотних проєктів. Різниця часто полягає в тому, чи побудовані їхні системи ІІ на основі послідовної, добре структурованої інформації.

Основна думка

Якість даних може не видаватися такою цікавою, як прориви в розробці моделей, але це тиха сила, яка визначає, чи успішно працює ІІ, чи ні. Без чистих, актуальних та послідовних даних навіть найрозумніші системи споткнуться. З ними навіть скромні проєкти ІІ можуть створювати тривалу цінність.

Кожен лідер, який інвестує в ІІ, повинен поставити просте питання: Чи довіряємо ми даним, які керують нашими рішеннями? З того, що ми бачили, компанії, які можуть впевнено відповісти “так”, вже лідирують у перегонах ІІ.

Орен Ейні є засновником і генеральним директором RavenDB, багатопарадигмальної бази даних NoSQL, якій довіряють розробники та підприємства усьому світі. Окрім того, що він є рухомою силою за зростанням і розширенням бази даних RavenDB, Орен є активним блогером і регулярно виступає на промислових заходах усьому світі.