Connect with us

Чому Якість Даних Визначає, Чи Вдається або Нема Підприємству штучний інтелект

Лідери думок

Чому Якість Даних Визначає, Чи Вдається або Нема Підприємству штучний інтелект

mm

Від часу дебюту OpenAI з ChatGPT у кінці 2022 року кожна компанія поспішала прискорити розвиток штучного інтелекту. Великі виробники апаратного забезпечення, такі як Nvidia, продають більше графічних процесорів, ніж будь-коли, тоді як великі розробники моделей, такі як OpenAI та Anthropic, продовжують створювати все більші та більші моделі.

Однак, навіть з найбільш просунутими моделями та найбільшим бюджетом, багато проєктів штучного інтелекту все одно не дають очікуваних результатів. Ми бачили це в різних галузях, від охорони здоров’я до транспорту та фінансів. Причина не така вже й складна: штучний інтелект є тільки таким же хорошим, як дані, на яких він тренується, та дані, які він отримує в режимі реального часу. Коли ці дані погано позначені, застарілі або неповні, жодна модель не може давати стабільні чи надійні результати.

І це велика проблема, з якою сьогодні стикаються багато компаній. Вони вкладають великі кошти в інструменти штучного інтелекту, тоді як їхні системи даних залишаються розрізненими та ненадійними. Результатом є ілюзія прогресу. Хоча моделі дають вражаючі відповіді, висновки часто базуються на слабких підставах. Реальна бар’єр на шляху до успіху штучного інтелекту не полягає в продуктивності моделі. Це якість даних.

Що таке добрі дані

Високоякісні дані не лише точні. Це означає інформацію, яка є актуальною, повною та актуальною для вирішення конкретної задачі. Припустимо, клієнт намагається скасувати замовлення на сайті електронної комерції. Система повинна перевірити деталі замовлення, статус доставки та запис про оплату. Якщо будь-які з цих даних знаходяться в різних системах, які не спілкуються одна з одною, асистент штучного інтелекту не зможе дати корисну відповідь.

Добрі дані миттєво з’єднують ці точки. Це дозволяє штучному інтелекту бачити повну картину, а не її фрагменти. Погані дані, з іншого боку, змушують модель здогадуватися. І коли штучний інтелект починає здогадуватися, він робить помилки, які коштують грошей і псують довіру. Недавні приклади показують, наскільки небезпечними можуть бути такі припущення.

Чат-бот штучного інтелекту міста Нью-Йорка дав незаконні поради, оскільки він використовував застарілі або неповні юридичні дані. Чат-бот служби підтримки клієнтів Air Canada зробив хибні заяви про повернення коштів, оскільки йому бракувало контексту з компанії політики. Навіть великі системи підбору персоналу неправильно фільтрували кандидатів через упереджену або неправильно позначену інформацію, як це видно в першому урегулюванні штучного інтелекту EEOC. Ці провали не лише технічні. Вони репутаційні та фінансові, і вони походять від систем штучного інтелекту, які були треновані на ненадійних даних.

Дослідження галузей підтверджують масштаб цієї проблеми. Gartner повідомляє, що 80 відсотків проєктів штучного інтелекту не можуть бути масштабовані через погану якість даних та управління. Аналогічно, опитування MIT Sloan Management Review виявило, що проблеми з даними, а не алгоритмами, є основною причиною провалу проєктів штучного інтелекту в підприємстврах.

Культура має значення не менше, ніж код

Поліпшення якості даних не можна виправити за допомогою одного інструменту або команди. Це вимагає культурної зміни. Тому керівники підприємств повинні ставитися до даних як до живої системи, яка потребує піклування та відповідальності. Це не лише про те, щоб заявити, що хочуть “поліпшити дані” – це недостатньо. Кожна частина організації повинна розуміти, як рухаються дані, хто ними володіє, і що відбувається, коли вони змінюються.

Ми бачили, як це відбувається в реальних системах. Багато застосунків штучного інтелекту залежать від нічних оновлень даних. Якщо ваша база даних оновлюється раз на добу, знання вашої моделі завжди будуть відставати від реальності. У швидкозмінних середовищах така затримка може означати застарілі висновки та погані рішення. Компаніям потрібно переосмислити весь потік даних, від того, як інформація збирається, до того, як вона доставляється до моделі.

Якщо зробити це добре, це може заощадити величезну кількість часу та коштів. Коли дані обробляються з ясністю та метою, системи штучного інтелекту можуть навчатися та діяти на основі найбільш актуальної та відповідної інформації. Коли вони не обробляються, команди витрачають більше часу на очистку даних, ніж на їх використання.

Експерти в галузі управління даними часто підкреслюють, що ключем до сильної якості даних є зворотній зв’язок між людьми, процесами та платформами. Без цього зв’язку інформація стає застарілою, а моделі втрачають зв’язок з реальними умовами – проблема, яку іноді називають “дріфтом даних”.

Балансування швидкості та цілісності

Часто існує напруженість між рухом швидше та збереженням точності. Багато організацій хочуть миттєвих результатів від своїх інвестицій у штучний інтелект, але поспішність може привести до більших проблем пізніше. Метою повинно бути досягнення цілісності даних з агільністю. Інакше кажучи, будівництво систем, які можуть рухатися швидко без втрати точності.

Для цього кожна компанія повинна визначити чіткі шляхи для потоку даних від джерела до моделі в режимі реального часу. Це також допомагає визначити, який тип інформації допускається, а який повинен залишатися поза межами. Чутливі або приватні дані ніколи не повинні досягати моделі, навіть якщо користувач технічно має доступ до них. Захист цього кордону будує довіру та утримує системи штучного інтелекту від витоку або неправильного використання інформації.

Якщо штучний інтелект стає більш автономним, нагляд людини залишається критично важливим. Модель не повинна мати повний контроль над діями підприємства. Вона точно не повинна приймати рішення. Замість цього вона повинна робити запит. Що більш важно, люди повинні завжди переглядати та затверджувати її дії, щоб забезпечити їх відповідність політиці компанії та нормативним вимогам.

Будівництво якості з самого початку

Збереження якості даних у масштабі не лише питання виправлення помилок. Це починається з архітектури. Вам потрібно визначити, де живуть ваші найнадійніші дані, а потім спроектувати систему, яка збирає їх у одному надійному місці. Звідти ви можете відстежувати, які дані використовує модель, і звідки вони походять.

Цей підхід запобігає плутані та утримує систему прозорою. Це також допомагає командам швидше виправляти помилки, коли щось пішло не так. Коли ви знаєте точно, які дані були використані моделлю для отримання відповіді, ви можете перевірити та виправити проблеми, перш ніж вони поширяться.

Майбутнє підприємства штучного інтелекту належить компаніям, які вкладають якість у свою інфраструктуру за замовчуванням. Ми очікуємо побачити більше систем штучного інтелекту, які обробляють як обґрунтування, так і інтеграцію даних в одному пакеті. Ці “пристрої штучного інтелекту” можуть зробити його легшим для організацій розгортання розумних систем без втрати контролю над даними.

Аналітики передбачають, що організації, які можуть об’єднати та управляти своїми даними ефективно, побачать швидшу адаптацію та вищу віддачу від інвестицій у проєкти штучного інтелекту. Недавній звіт про готовність даних пояснює, що ця здатність розрізняє компанії, які інновують безперервно, від тих, які зупиняються після перших пілотних проєктів. Різниця часто полягає в тому, чи побудовані їхні системи штучного інтелекту на основі послідовної, добре структурованої інформації.

Основний висновок

Якість даних може не видатися цікавою порівняно з проривами у розробці моделей, але це тиха сила, яка визначає, чи успішний штучний інтелект, чи ні. Без чистих, актуальних та послідовних даних навіть найрозумніші системи споткнуться. З ними навіть скромні проєкти штучного інтелекту можуть створити тривалу цінність.

Кожен лідер, який інвестує у штучний інтелект, повинен задати просте питання: Чи довіряємо ми даним, які керують нашими рішеннями? З того, що ми бачили, компанії, які можуть впевнено відповісти “так”, вже лідирують у гонці штучного інтелекту.

Орен Ейні є засновником та генеральним директором RavenDB, багатопарадигмальної бази даних NoSQL-документів, якій довіряють розробники та підприємства по всьому світу. Окрім того, що він є рухомою силою за зростанням та розширенням бази даних RavenDB, Орен є активним блогером і регулярно виступає на промислових заходах по всьому світу.