사상 리더
데이터 품질이 기업 AI의 성공 또는 실패를 결정한다

OpenAI의 ChatGPT가 2022년 말에 데뷔한 이후, 모든 회사가 AI를 더 빠르게 도입하려고 애쓰고 있습니다. Nvidia와 같은 큰 하드웨어 업체들은 이전보다 더 많은 GPU를 판매하고 있으며, OpenAI와 Anthropic과 같은 큰 모델 빌더들은 더 큰 모델을 계속해서 구축하고 있습니다.
그러나 가장 先進的な 모델과 가장 큰 예산을 가지고 있는 경우에도, 많은 AI 프로젝트는 여전히 실패합니다. 우리는 의료, 운송, 금융 등 다양한 산업에서 이런 일이 발생하는 것을 보았습니다. 이유는 간단하지 않습니다. AI는 훈련에 사용된 데이터와 실시간으로 받는 데이터만큼 좋은 것입니다. 그 데이터가 잘못 레이블이 지정되거나, 구식이거나, 불완전한 경우, 어떤 모델도 일관된 또는 신뢰할 수 있는 결과를 생산할 수 없습니다.
그리고 이것이 오늘날 많은 회사들이 직면하는 큰 문제입니다. 그들은 AI 도구에大量의 투자를 하면서, 그들의 데이터 시스템은 여전히 산재하고 신뢰할 수 없습니다. 결과는 진행의 환상입니다. 모델은 인상적인 답변을 생산하지만, 통찰력은 souvent 약한 기초에 기반합니다. AI 성공의 실제 장벽은 모델 성능이 아닙니다. 그것은 데이터 품질입니다.
데이터 품질이란 무엇인가
데이터 품질은 단순히 정확성에 관한 것이 아닙니다. 그것은 현재, 완전하고, 문제에 관련된 정보를 말합니다. 고객이 전자 상거래 사이트에서 주문 취소를 시도하는 경우를 상상해 보십시오. 시스템은 주문 세부 정보, 배송 상태 및 결제 기록을 확인해야 합니다. 이러한 데이터 포인트 중 하나라도 다른 시스템에 존재하고, 서로 통신하지 않는 경우, AI 어시스턴트는 유용한 답변을 줄 수 없습니다.
데이터 품질은 이러한 점을 즉시 연결합니다. 그것은 AI가 부분이 아닌 전체 그림을 볼 수 있도록 합니다. 반면, 나쁨 데이터는 모델이 추측하도록 강요합니다. 그리고 AI가 추측을 시작하면, 그것은 비용을 초과하고 신뢰를 손상시키는 오류를犯します. 최근의 예는 이러한 가정이 얼마나 위험할 수 있는지 보여줍니다.
뉴욕시의 비즈니스 채팅봇은 구식 또는 불완전한 법적 정보에서 데이터를 가져와 불법적인 조언을 제공했습니다. 에어 캐나다의 고객 서비스 봇은 회사 정책에서 맥락을欠いた 때문에 거짓 환불 주장을 했습니다. 또한, 큰 채용 시스템은 편향되거나 잘못 레이블이 지정된 데이터로 인해 잘못된 후보자를 필터링했습니다. 이것은 EEOC의 첫 번째 AI 관련 합의에서 볼 수 있습니다. 이러한 실패는 기술적인 것만이 아닙니다. 그것은 명성과 재정적인 손실을 초래하며, 신뢰할 수 없는 데이터에서 훈련된 AI 시스템에서 비롯됩니다.
산업 연구는 이 문제의 규모를 확인합니다. Gartner는 80%의 AI 프로젝트가 데이터 품질과 거버넌스 때문에 확장에 실패한다고 보고합니다. 同様하게, MIT Sloan Management Review 조사는 데이터 문제가 알고리즘이 아닌 기업 AI 프로젝트가 붕괴하는 최상위 이유라는 것을 발견했습니다.
문화는 코드만큼 중요하다
데이터 품질을 개선하는 것은 단일 도구 또는 명령어로 해결할 수 있는 것이 아닙니다. 그것은 문화적인 변화를 필요로 합니다. đó가 pourquoi 비즈니스 리더들은 데이터를 관리하고 책임을 지는 살아있는 시스템으로 간주해야 합니다. 이것은 단순히 “데이터를 더 좋게 만들고 싶다”고 선언하는 것에 관한 것이 아닙니다. 조직의 모든 부분은 정보가 어떻게 이동하는지,誰が 소유하는지, 그리고 그것이 변경될 때 무엇이 발생하는지 이해해야 합니다.
우리는 실제 시스템에서 이것이 어떻게 작용하는지 보았습니다. 많은 AI 응용 프로그램은 밤마다 데이터를 업데이트합니다. 데이터베이스가 하루에 한 번 새로 고치면, 모델의 지식은 항상 현실을 따라가지 못합니다. 빠르게 변화하는 환경에서, 그 지연은 구식의 통찰력과 나쁨 의사 결정으로 이어질 수 있습니다. 회사들은 데이터가 수집되는 방법부터 모델에 제공되는 방법까지 전체 데이터 흐름을 재고해야 합니다.
이것을 잘하면 엄청난 시간과 비용을節約할 수 있습니다. 데이터 파이프라인이 명확하고 목적을 가지고 설계되면, AI 시스템은 가장 최근의 정보와 관련된 정보를 학습하고 행동할 수 있습니다. 그렇지 않으면, 팀은 데이터를 사용하는 것보다 데이터를 정리하는 데 더 많은 시간을 보냅니다.
데이터 관리 전문가들은 종종 데이터 품질의 핵심은 사람, 프로세스 및 플랫폼 간의 피드백 루프라고 지적합니다. 그 루프가 없으면 정보는 구식이 되고, 모델은 현실 세계의 조건과 연결이 끊어집니다. 이것은 때때로 데이터 드리프트(data drift)라고 불리는 문제입니다.
속도와 무결성의 균형
속도와 정확성 사이에는 종종 긴장이 있습니다. 많은 조직은 AI 투자로부터 즉각적인 결과를 원하지만, 서두르면 나중에 더 큰 문제가 발생할 수 있습니다. 목표는 무결성과 함께 데이터의 민첩성을 구축하는 것입니다. 즉, 정밀성을 잃지 않고 빠르게 움직일 수 있는 시스템을 구축하는 것입니다.
이 점에서, 모든 회사는 데이터가 출처에서 모델로 실시간으로 흐르는 명확한 경로를 정의해야 합니다. 또한, 어떤 정보가 허용되고, 어떤 정보가 허용되지 않는지 정의하는 것도 도움이 됩니다. 민감하거나 개인 정보는 모델에 도달하지 않도록 해야 합니다. 그 경계를 보호하면 신뢰를 구축하고, AI 시스템이 정보를 유출하거나 잘못 사용하는 것을 방지할 수 있습니다.
AI가 더 자율적으로 되는 경우, 인간의 감시가 여전히 중요합니다. 모델은 비즈니스 행동에 대한 전체적인 제어를 가지고 있으면 안 됩니다. 그것은 또한 어떤 결정도 내리지 않아야 합니다. 대신, 그것은 요청을 해야 합니다. 더욱 중요한 것은, 인간이 모델의 행동을 검토하고 승인하여 회사 정책과 규정과 일치하는지 확인해야 합니다.
품질을 기본으로 구축
데이터 품질을 확장하는 것은 단순히 오류를 정리하는 문제가 아닙니다. 그것은 아키텍처에서 시작됩니다. 가장 신뢰할 수 있는 데이터가 어디에 있는지 식별한 다음, 그것을 하나의 신뢰할 수 있는 위치에 모으는 시스템을 설계해야 합니다. 그곳에서, 모델이 사용하는 데이터와 그것이 어디에서 왔는지 추적할 수 있습니다.
이 접근법은 혼란을 방지하고 시스템을 투명하게 유지합니다. 또한, 팀이 오류가 발생했을 때 더 빠르게 문제를 해결할 수 있습니다. 모델의 답변에 어떤 데이터가 사용되었는지 정확히 알면, 문제가 퍼지기 전에 검증하고 수정할 수 있습니다.
기업 AI의 미래는 기본적으로 품질을 포함하는 회사에 속할 것입니다. 우리는 이유와 데이터 통합을 모두 처리하는 하나의 패키지로 AI 시스템을 제공하는 플러그 앤 플레이 AI 시스템을 더 많이 볼 수 있을 것입니다. 이러한 “AI 어플라이언스”는 조직이 데이터를 제어하지 않고도 스마트 시스템을 배포하는 것을 더 쉽게 만들 수 있습니다.
분석가들은 데이터를 효과적으로 통일하고 관리할 수 있는 조직은 AI 프로젝트에서 더 빠른 채택과 높은 ROI를 볼 것이라고 예측합니다. 최근의 데이터 준비도 보고서는 이 기능이 지속적으로 혁신하는 회사와 초기 시제품 이후에停滯하는 회사 사이의 차이를 만든다고 설명합니다. 차이는 종종 그들의 AI 시스템이 일관된, 잘 구조화된 정보에 기반하고 있는지 여부에 달려 있습니다.
결론
데이터 품질은 모델 디자인의 돌파구에 비해 흥미롭지 않을 수 있지만, AI가 성공하거나 실패하는지 결정하는 조용한 힘이 됩니다. 깨끗하고, 현재의, 일관된 데이터가 없으면, 가장 스마트한 시스템도 실수할 수 있습니다. 그것이 있는 경우, 심지어 소규모 AI 프로젝트도 지속적인 가치를 창출할 수 있습니다.
모든 리더는 AI에 투자할 때, 간단한 질문을 해야 합니다. “우리가 의사 결정에 사용하는 데이터를 신뢰합니까?” 우리가 본 바와 같이, “예”라고 자신있게 대답할 수 있는 회사는 이미 AI 경쟁에서 선두를 달리고 있습니다.












