사상 리더

인공지능 개발에서 더러운 데이터의 높은 비용

Published November 1, 2024

Updated April 3, 2026

Eli Goodman, CEO & Co-Founder of Datos

인공지능 개발에서 현대적인 금ラッシュ가 진행되고 있다는 것은 비밀이 아니다. 2024년 워크 트렌드 지수에 따르면, 40% 이상의 비즈니스 리더는 인공지능(AI)을 사용하여 비즈니스 프로세스를 근본적으로 재설계할 것으로 예상한다. 이 지진적인 변화는 단순한 기술 업그레이드가 아니라, 비즈니스 운영, 의사 결정, 고객과의 상호 작용의 근본적인 변환이다. 이 빠른 개발은 데이터와 1차 데이터 관리 도구에 대한 수요를 부추기고 있다. Forrester에 따르면, 기술 리더의 92%가 2024년에 데이터 관리와 인공지능 예산을 증가시킬 계획이다.

최신 McKinsey Global Survey on AI에 따르면, 65%의 응답자가 자신의 조직이 정기적으로 생성적 인공지능 기술을 사용하고 있다고 나타났다. 이 채택은 중요한 발전을 나타내지만, 또한 중요한課題를 강조한다. 즉, 이러한 인공지능 시스템에 공급되는 데이터의 품질이다. 데이터가 신뢰할 수 있고 정확한 데이터가 점점 더 어려워지는 산업에서 효과적인 인공지능은 훈련에 사용되는 데이터만큼 좋다.

나쁨 데이터의 높은 비용

나쁨 데이터는 새로운 문제가 아니다. 그러나 인공지능의 시대에 그 영향이 증폭된다. 2017년에 매사추세츠 공과 대학(MIT)의 한 연구에 따르면, 나쁨 데이터는 회사에惊嘆的な 15%에서 25%의 수익을 비용으로 돌아온다고 추정했다. 2021년에 Gartner는 저품질 데이터가 조직에 평균 12.9 백만 달러의 비용을 초래한다고 추정했다.

더러운 데이터-불완전한, 부정확한, 또는 일관되지 않은 데이터-는 인공지능 시스템에 연쇄적인 영향을 미칠 수 있다. 인공지능 모델이 저품질 데이터에 훈련될 때, 결과적인 통찰력과 예측은 근본적으로 결함이 있다. 이것은 인공지능 애플리케이션의 효능을 약화시키고 중요한 의사 결정에 의존하는 비즈니스에重大な 위험을 초래한다.

이것은 제한된 자원을 데이터 정리와 구성에 점점 더 집중해야 하는 기업 데이터 과학 팀에게 주요한 두통을 일으키고 있다. 최근 DBT가 수행한 상태 엔지니어링 보고서에 따르면, 데이터 과학 전문가의 57%가 자신의 작업에서 데이터 품질이 나쁨을 주요 문제로 지적했다.

인공지능 모델에 대한 영향

나쁨 데이터의 영향은 세 가지 주요 방식으로 인공지능 개발에 나타난다:

정확도와 신뢰성의 감소: 인공지능 모델은 데이터에서 파생된 패턴과 상관관계에 달려 있다. 입력 데이터가 오염되면 모델은 신뢰할 수 없는 출력을 생성한다. 이것은 잘못된 전략, 제품 실패, 고객 신뢰 상실로 이어질 수 있다.
편향 증폭: 더러운 데이터는 종종 편향을 포함한다. 이것이 무시되면 인공지능 알고리즘에 내재된다. 이것은 특히 채용, 대출, 법 집행과 같은 민감한 분야에서 차별적인 관행을 초래할 수 있다. 예를 들어, 인공지능 채용 도구가 편향된 역사적인 채용 데이터에 훈련되면 특정 인구 통계에 대해 부당하게 편향될 수 있다.
운영 비용의 증가: 결함이 있는 인공지능 시스템은 끊임없이 수정하고 재훈련해야 하므로 추가 시간과 자원을 소비한다. 회사들은 오류를 수정하는 것보다 혁신하고 개선하는 것보다 더 많은 시간을 보낼 수 있다.

데이터파ocalypse

“우리는 비인간 생성 콘텐츠가 인간 생성 콘텐츠의 양을 훨씬 초과하는 ‘전환점’에 빠르게 접근하고 있다. 인공지능 자체의 발전은 데이터 정리와 검증을 위한 새로운 도구를 제공하고 있다. 그러나 웹上的 인공지능 생성 콘텐츠의 양은 기하급수적으로 증가하고 있다.

인공지능 생성 콘텐츠가 웹에 푸시되고, 이 콘텐츠가 인공지능 생성 콘텐츠에 의해 생성된 경우, 우리는 1차 및 신뢰할 수 있는 데이터가 희귀하고贵重한 자원이 되는 미래를 맞이하고 있다.

데이터 희석의課題

인공지능 생성 콘텐츠의 확산은 여러 주요 산업課題를 초래한다:

품질 관리: 인간 생성 데이터와 인공지능 생성 데이터를 구별하는 것이 점점 더 어려워지므로, 인공지능 모델을 훈련하는 데 사용되는 데이터의 품질과 신뢰성을 보장하기가 더 어려워진다.
지적 재산권 문제: 인공지능 모델이 인공지능 생성 콘텐츠에서 무의식적으로 스크레이핑하고 학습하면, 데이터와 관련된 소유권 및 권리와 관련된 법적 복잡성이 발생할 수 있다.
윤리적 영향: 데이터의 기원이 투명하지 않으면, 잘못된 정보의 확산 또는 편향의 강화와 같은 윤리적인 문제가 발생할 수 있다.

데이터-서비스가 기본이 된다

데이터-서비스(DaaS) 솔루션이 점점 더 많이 채택되고 있다. 훈련 목적으로 1차 데이터를 보완하고 강화하기 위해 DaaS를 사용하고 있다. DaaS의 真の 가치는 데이터 자체가 정규화, 정리, 평가되었으며, 다양한 신뢰도와 상업적 응용 프로그램 사용 사례에 대한 표준화된 프로세스가 시스템이 데이터를 소화하는 데 적합하도록 되어 있다. 이 산업이 성숙함에 따라, 데이터 산업 전반에 걸친 표준화가 시작될 것으로 예상된다. 이미 소매 미디어 부문에서 이러한 표준화의 추진을 보이고 있다.

인공지능이 다양한 산업에 침투함에 따라 데이터 품질의 중요성은 더욱 강조될 것이다. 깨끗한 데이터에 우선순위를 둔 회사들은 경쟁 우위를 점할 것이며, 그렇지 않은 회사들은 빠르게 뒤처질 것이다.

인공지능 개발에서 더러운 데이터의 높은 비용은 무시할 수 없는 문제이다. 데이터 품질이 나쁨은 인공지능 시스템의 기반을 약화시키고, 결함이 있는 통찰력, 증가한 비용, 그리고 잠재적인 윤리적인 함정으로 이어진다. 포괄적인 데이터 관리 전략을 채택하고 데이터 무결성을 重視하는 문화를 조성함으로써, 조직은 이러한 위험을 완화할 수 있다.

데이터가 새로운 石油인 시대에, 그 纯度를 보장하는 것은 기술적인 필요성만이 아니라 전략적인 임무이다. 오늘날 깨끗한 데이터에 투자하는 비즈니스는 내일 혁신의 최전선에서 선도할 것이다.

Related Topics:dirty data thought leaders