Лідери думок

Важливість якості даних у реалізації штучного інтелекту

Published September 7, 2022

Updated April 28, 2026

Amy Groden-Morrison

Технології штучного інтелекту та машинного навчання можуть суттєво вигідними для галузей усіх розмірів. За даними звіту McKinsey, підприємства, які використовують технології штучного інтелекту, подвоять свій грошовий потік до 2030 року. Навпаки, компанії, які не розгортають штучний інтелект, будуть свідками 20% зниження грошового потоку. Однак такі вигоди виходять за рамки фінансів. Штучний інтелект може допомогти компаніям боротися з нестачею робочої сили. Штучний інтелект також суттєво покращує досвід клієнтів і результати бізнесу, роблячи підприємства більш надійними.

Відтак, якщо штучний інтелект має так багато переваг, чому не всі його приймають? У 2019 році опитування PwC виявило, що 76% підприємств планують використовувати штучний інтелект для покращення бізнес-цінності. Однак лише 15% мають доступ до високоякісних даних для досягнення своїх бізнес-цілей. Інше дослідження від Refinitiv свідчить, що 66% респондентів сказали, що низька якість даних перешкоджає їхній здатності розгортати та приймати штучний інтелект ефективно.

Опитування виявило, що три основні виклики роботи з машинним навчанням і технологіями штучного інтелекту обертаються навколо – “точної інформації про покриття, історію та населення даних”, “ідентифікації неповних або пошкоджених записів” і “очищення та нормалізації даних”. Це демонструє, що низька якість даних є основною перешкодою для підприємств у отриманні високоякісної аналітики, підтримуваної штучним інтелектом.

Чому дані так важливі?

Є багато причин, чому якість даних важлива у реалізації штучного інтелекту. Ось деякі з найважливіших:

1. Сміття у вході і сміття на виході

Дуже просто зрозуміти, що вихід залежить сильно від входу. У цьому випадку, якщо набори даних повні помилок або викривлені, результат також буде невірним. Більшість проблем, пов’язаних з даними, не обов’язково стосуються кількості даних, а якості даних, які ви вводите в модель штучного інтелекту. Якщо у вас низькоякісні дані, ваші моделі штучного інтелекту не працюватимуть належним чином, як би хороші вони не були.

2. Не всі системи штучного інтелекту рівні

Коли ми думаємо про набори даних, ми зазвичай думаємо у термінах кількісних даних. Але є також якісні дані у вигляді відео, особистих інтерв’ю, думок, зображень тощо. У системах штучного інтелекту кількісні набори даних структуровані, а якісні набори даних неструктуровані. Не всі моделі штучного інтелекту можуть обробляти обидва типи наборів даних. Тому вибір правильного типу даних для відповідної моделі є важливим для отримання очікуваного результату.

3. Якість проти кількості

Вважається, що системи штучного інтелекту повинні споживати багато даних, щоб навчатися з них. У дискусії про якість проти кількості остання зазвичай віддається перевагу компаніями. Однак, якщо набори даних високої якості, але коротші за природою, це дасть вам певну гарантію, що результат є актуальним і надійним.

4. Характеристики доброго набору даних

Характеристики доброго набору даних можуть бути суб’єктивними і в основному залежать від застосування, яке штучний інтелект служить. Однак є деякі загальні ознаки, на які слід звернути увагу при аналізі наборів даних.

Повнота: Набір даних повинен бути повним, без порожніх клітинок або пробілів у наборах даних. Кожна клітинка повинна мати певний шматок даних у ній.
Всеосяжність: Набори даних повинні бути якомога всеосяжнішими. Наприклад, якщо ви шукаєте вектор загрози кібербезпеці, то вам потрібно мати всі профільні підписи та всю необхідну інформацію.
Одностайність: Набори даних повинні відповідати певним змінним, яким вони призначені. Наприклад, якщо ви моделюєте пакетні коробки, ваші вибрані змінні (пластик, папір, картон тощо) повинні мати відповідні цінові дані, щоб потрапити у ці певні категорії.
Точність: Точність є ключем до доброго набору даних. Вся інформація, яку ви вводите в модель штучного інтелекту, повинна бути довіреною та цілком точною. Якщо великі частини ваших наборів даних неправильні, ваш результат також буде неточним.
Унікальність: Ця точка схожа на одностайність. Кожна точка даних повинна бути унікальною для змінної, якій вона служить. Наприклад, ви не хочете, щоб ціна пластикової обгортки потрапила під будь-яку іншу категорію пакування.

Забезпечення якості даних

Є багато способів забезпечити, щоб якість даних була високою, наприклад, забезпечення того, що джерело даних є довіреним. Ось деякі з найкращих технік, щоб гарантувати, що ви отримуєте найкращу якість даних для ваших моделей штучного інтелекту:

1. Профайлінг даних

Профайлінг даних є важливим для розуміння даних перед їхнім використанням. Профайлінг даних пропонує уявлення про розподіл значень, максимальні, мінімальні, середні значення та аутлієри. Крім того, він допомагає у форматуванні несумісностей у даних. Профайлінг даних допомагає зрозуміти, чи є набір даних придатним для використання чи ні.

2. Оцінка якості даних

Використовуючи центральну бібліотеку попередньо створених правил якості даних, ви можете валідувати будь-який набір даних з центральної бібліотеки. Якщо у вас є каталог даних з вбудованими інструментами даних, ви можете просто повторно використовувати ці правила для валідації імен клієнтів, електронної пошти та кодів продуктів. Крім того, ви також можете збагатити та стандартизувати деякі дані.

3. Моніторинг і оцінка якості даних

Вчені мають якість даних попередньо розраховану для більшості наборів даних, які вони хочуть використовувати. Вони можуть звузити його, щоб побачити, яку конкретну проблему має атрибут, і потім вирішити, чи використовувати цей атрибут чи ні.

4. Підготовка даних

Дослідники та вчені зазвичай повинні трохи змінити дані, щоб підготувати їх для моделювання штучного інтелекту. Цим дослідникам потрібні легкі у використанні інструменти для розбору атрибутів, транспонування стовпців та розрахунку значень з даних.

Світ штучного інтелекту постійно змінюється. Хоча кожна компанія використовує дані по-різному, якість даних залишається важливою для будь-якого проекту реалізації штучного інтелекту. Якщо у вас є надійні, доброякісні дані, ви усуваєте потребу у величезних наборах даних і збільшуєте свої шанси на успіх. Як і всі інші організації, якщо ваша організація переходить до реалізації штучного інтелекту, перевірте, чи маєте ви доброякісні дані. Забезпечте, щоб ваші джерела були довіреними, і виконайте належну перевірку, щоб переконатися, що вони відповідають вашим вимогам до даних.

Unite.AI