Connect with us

Почему качество данных решает, будет ли предприятие ИИ успешным или нет

Лидеры мнений

Почему качество данных решает, будет ли предприятие ИИ успешным или нет

mm

С момента выхода OpenAI с ChatGPT в конце 2022 года каждая компания спешит ускорить работу с ИИ. Большие производители оборудования, такие как Nvidia, продают больше графических процессоров, чем когда-либо, в то время как крупные разработчики моделей, такие как OpenAI и Anthropic, продолжают создавать все более крупные модели.

Однако даже с самыми передовыми моделями и самыми большими бюджетами многие проекты ИИ все равно не оправдывают ожиданий. Мы видели, как это происходит в различных отраслях, от здравоохранения до транспорта и финансов. Причина не слишком сложна: ИИ такой же хорош, как и данные, на которых он обучен, и данные, которые он получает в режиме реального времени. Когда эти данные плохо помечены, устарели или неполны, ни одна модель не может обеспечить последовательные или достоверные результаты.

И это большая проблема, с которой сталкиваются многие компании сегодня. Они вкладывают большие средства в инструменты ИИ, в то время как их системы данных остаются разрозненными и ненадежными. Результатом является иллюзия прогресса. Хотя модели производят впечатляющие ответы, выводы часто основаны на слабых основаниях. Реальным барьером на пути к успеху ИИ не является производительность модели. Это качество данных.

Что такое хорошие данные

Высококачественные данные – это не только точность. Это означает информацию, которая является актуальной, полной и релевантной для решения задачи. Представьте себе клиента, который пытается отменить заказ на сайте электронной коммерции. Система должна проверить детали заказа, статус доставки и запись о платеже. Если какие-либо из этих данных находятся в разных системах, которые не общаются друг с другом, помощник ИИ не сможет дать полезный ответ.

Хорошие данные соединяют эти точки мгновенно. Они позволяют ИИ видеть полную картину, а не фрагменты ее. Плохие данные, с другой стороны, заставляют модель угадывать. И когда ИИ начинает угадывать, он совершает ошибки, которые стоят денег и наносят ущерб доверию. Недавние примеры показывают, насколько опасны такие предположения.

Чат-бот бизнеса Нью-Йорка давал незаконные советы, потому что он использовал устаревшую или неполную правовую информацию. Чат-бот службы поддержки клиентов Air Canada делал ложные заявления о возврате средств, потому что он не имел контекста из политики компании. Даже крупные системы набора персонала неправильно фильтровали кандидатов из-за предвзятых или неправильно помеченных данных, как видно из первого урегулирования, связанного с ИИ, ЕEOC. Эти неудачи не только технические. Они репутационные и финансовые, и они возникают из систем ИИ, которые были обучены на ненадежных данных.

Исследования отрасли подтверждают масштаб этой проблемы. Gartner сообщает, что 80 процентов проектов ИИ не смогут масштабироваться из-за плохого качества данных и управления. Аналогично, опрос MIT Sloan Management Review показал, что проблемы с данными, а не алгоритмами, являются основной причиной, по которой проекты ИИ в корпорациях терпят неудачу.

Культура важна так же, как и код

Улучшение качества данных – это не то, что можно исправить с помощью одного инструмента или команды. Для этого требуется культурный сдвиг. Поэтому лидеры бизнеса должны относиться к данным как к живой системе, которая требует ухода и ответственности. Это не только заявление о том, что вы хотите “улучшить данные” – этого недостаточно. Каждая часть организации должна понимать, как информация движется, кто ее владеет, и что происходит, когда она меняется.

Мы видели, как это происходит в реальных системах. Многие приложения ИИ полагаются на ежедневные обновления данных. Если ваша база данных обновляется один раз в день, знания вашей модели всегда будут отставать от реальности. В быстро меняющихся средах эта задержка может означать устаревшие идеи и плохие решения. Компаниям необходимо пересмотреть весь поток данных, от того, как собирается информация, до того, как она доставляется модели.

Хорошо выполненная работа может сэкономить огромное количество времени и средств. Когда конвейеры данных спроектированы с ясностью и целью, системы ИИ могут учиться и действовать на основе наиболее recentных и релевантных данных. Когда они не спроектированы, команды тратят больше времени на очистку данных, чем на их использование.

Эксперты в управлении данными часто указывают, что ключом к сильному качеству данных является обратная связь между людьми, процессами и платформами. Без этой обратной связи информация становится устаревшей, а модели теряют связь с реальными условиями – проблема, иногда называемая “дрейфом данных”.

Баланс между скоростью и целостностью

Часто существует напряжение между быстрым движением и сохранением точности. Многие организации хотят немедленных результатов от своих инвестиций в ИИ, но спешка может привести к более крупным проблемам позже. Цель должна заключаться в гибкости данных с целостностью. Другими словами, построение систем, которые могут двигаться быстро без потери точности.

Для этого каждая компания должна определить четкие пути для потока данных от источника к модели в режиме реального времени. Также помогает определить, какой тип информации разрешен, а какой должен остаться вне системы. Чувствительные или конфиденциальные данные никогда не должны достигать модели, даже если пользователь технически имеет доступ к ним. Защита этой границы строит доверие и не позволяет системам ИИ утечку или неправильное использование информации.

Когда ИИ становится более автономным, человеческий надзор останется критически важным. Модель не должна иметь полный контроль над деловыми действиями. Она определенно не должна принимать решения. Вместо этого она должна делать запросы. Более важно, что люди всегда должны проверять и утверждать ее действия, чтобы обеспечить их соответствие политике компании и нормативным требованиям.

Построение качества с нуля

Поддержание качества данных в масштабе – это не только вопрос исправления ошибок. Это начинается с архитектуры. Вам необходимо определить, где живут ваши наиболее надежные данные, затем спроектировать систему, которая объединяет их в одном доверенном месте. Оттуда вы можете отслеживать, какие данные использует модель, и откуда они берутся.

Этот подход предотвращает путаницу и сохраняет систему прозрачной. Он также помогает командам быстрее устранять неполадки, когда что-то идет не так. Когда вы знаете точно, какие данные дали ответ модели, вы можете проверить и исправить проблемы, прежде чем они распространятся.

Будущее корпоративного ИИ будет принадлежать компаниям, которые встраивают качество в свою инфраструктуру по умолчанию. Мы ожидаем увидеть больше готовых систем ИИ, которые обрабатывают как рассуждения, так и интеграцию данных в одном пакете. Эти “приборы ИИ” могут сделать его проще для организаций развертывать умные системы, не теряя контроля над своими данными.

Аналитики прогнозируют, что организации, способные объединить и эффективно управлять своими данными, увидят более быструю адопцию и более высокую отдачу от инвестиций в проекты ИИ. Недавний отчет о готовности данных объясняет, что эта способность отделяет компании, которые постоянно инновируют, от тех, которые застревают после ранних пилотов. Разница часто заключается в том, построены ли их системы ИИ на последовательной, хорошо структурированной информации.

Основная мысль

Качество данных может показаться не таким интересным по сравнению с прорывами в проектировании моделей, но это тихая сила, которая решает, будет ли ИИ успешным или нет. Без чистых, актуальных и последовательных данных даже самые умные системы споткнутся. С ними даже скромные проекты ИИ могут создать прочную ценность.

Каждый лидер, инвестирующий в ИИ, должен задать простой вопрос: Доверяем ли мы данным, которые управляют нашими решениями? Судя по тому, что мы видели, компании, которые могут с уверенностью ответить “да”, уже лидируют в гонке ИИ.

Oren Eini является основателем и генеральным директором RavenDB, много-модельной NoSQL документальной базы данных, которой доверяют разработчики и предприятия по всему миру. Помимо того, что он является движущей силой роста и расширения базы данных RavenDB, Oren является активным блогером и регулярно выступает на отраслевых мероприятиях по всему миру.

Раскрытие информации о рекламе: Unite.AI придерживается строгих редакционных стандартов, чтобы предоставлять читателям точную информацию и новости. Мы можем получать вознаграждение, если вы переходите по ссылкам на продукты, которые мы рассмотрели.