사상 리더
AI 구현에서 데이터 품질의 중요성

인공 지능과 기계 학습 기술은 모든 크기의 산업에서 큰 이점을 제공할 수 있습니다. McKinsey 보고서에 따르면, 인공 지능 기술을 사용하는 기업은 2030년까지 현금 흐름을 두 배로 늘릴 수 있습니다. 반면에, AI를 배치하지 않는 기업은 현금 흐름이 20% 감소할 것입니다. 그러나 이러한 이점은 재정 이상으로 확장됩니다. AI는 기업이 노동력 부족을 극복하는 데 도움이 될 수 있습니다. AI는 또한 고객 경험과 비즈니스 결과를 크게 개선하여 비즈니스更加 신뢰할 수 있게 만듭니다.
AI가如此 많은 이점을 제공한다면, 왜 모든 사람이 AI를 채택하지 않는 걸까요? 2019년에, PwC 조사에 따르면, 76%의 기업이 비즈니스 가치를 향상시키기 위해 AI를 사용할 계획이라고 합니다. 그러나, 고품질 데이터에 접근할 수 있는企業은僅 15%에 불과합니다. 또 다른 연구 에 따르면, 응답자의 66%가 낮은 품질의 데이터가 AI를 효과적으로 배치하고 채택하는 능력을 저해한다고 말했습니다.
조사에 따르면, 기계 학습과 AI 기술을 사용함에 있어 상위 3가지의 도전은 “데이터의 범위, 역사, 인구에 대한 정확한 정보”, “불완전하거나 손상된 레코드의 식별”, 및 “데이터의 정리 및 표준화”를 중심으로 회전합니다. 이것은 낮은 품질의 데이터가 비즈니스에서 고품질의 AI 기반 분석을 얻는 주요 장애물임을 보여줍니다.
데이터가 중요한 이유는 무엇일까요?
AI 구현에서 데이터 품질이 중요한 이유는 많습니다. 여기 가장 중요한 몇 가지가 있습니다:
1. 쓰레기가 들어가면 쓰레기가 나온다
출력은 입력에 크게 의존한다는 것은 이해하기 쉽습니다. 이 경우, 데이터 세트가 오류로 가득 차 있거나 편향되어 있다면, 결과도 잘못된 방향으로 나아갈 것입니다. 대부분의 데이터 관련 문제는 데이터의 양이 아니라 데이터의 품질에 관한 것입니다. 낮은 품질의 데이터를 사용하면, AI 모델이 제대로 작동하지 않을 것입니다.
2. 모든 AI 시스템은 동일하지 않다
데이터 세트에 대해 생각할 때, 우리는 일반적으로 양적 데이터를 생각합니다. 그러나 비디오, 개인 인터뷰, 의견, 사진 등과 같은 질적 데이터도 있습니다. AI 시스템에서 양적 데이터 세트는 구조화되어 있고, 질적 데이터 세트는 비구조화되어 있습니다. 모든 AI 모델이 두 종류의 데이터 세트를 다룰 수 있는 것은 아닙니다. 따라서 기대하는 출력을 얻기 위해 적절한 데이터 유형을 선택하는 것이 중요합니다.
3. 품질 대 양
AI 시스템이 많은 데이터를 학습하기 위해 섭취해야 한다고 생각하는 경향이 있습니다. 품질 대 양의 논쟁에서, 후자는 일반적으로 기업에 의해 선호됩니다. 그러나 데이터 세트가 짧지만 고품질이라면, 출력이 관련성이 있고 강건하다는 것을 보장할 수 있습니다.
4. 좋은 데이터 세트의 특성
좋은 데이터 세트의 특성은 주관적일 수 있으며, 주로 AI가 제공하는 응용 프로그램에 의존합니다. 그러나 데이터 세트를 분석할 때 찾고자 하는 몇 가지 일반적인 특성이 있습니다.
- 완전성: 데이터 세트는 빈 격자나 데이터 세트의 빈칸이 없어야 합니다. 각 셀에는 데이터 조각이 있어야 합니다.
- 포괄성: 데이터 세트는 가능한 한 포괄적이어야 합니다. 예를 들어, 사이버 위협 벡터를 찾고 있다면, 모든 서명 프로파일과 필요한 모든 정보를 가져야 합니다.
- 일관성: 데이터 세트는 할당된 변수에 따라 일관되어야 합니다. 예를 들어, 패키지 박스를 모델링한다면, 선택한 변수(플라스틱, 종이, 판지 등)에 대한 적절한 가격 데이터가 있어야 합니다.
- 정확성: 정확성은 좋은 데이터 세트의 핵심입니다. AI 모델에 입력하는 모든 정보는 신뢰할 수 있고 완전히 정확해야 합니다. 데이터 세트의 큰 부분이 잘못된 경우, 출력도 부정확할 것입니다.
- 유일성: 이 점은 일관성과 유사합니다. 각 데이터 포인트는 제공하는 변수에 고유해야 합니다. 예를 들어, 플라스틱 랩의 가격을 다른 포장 카테고리에 속하게 하고 싶지 않습니다.
데이터 품질 보장
데이터 품질이 높다는 것을 보장하는 방법은 많습니다. 예를 들어, 데이터 원천이 신뢰할 수 있는지 확인하는 것입니다. 여기 몇 가지 최선의 기술이 있습니다.
1. 데이터 프로파일링
데이터 프로파일링은 데이터를 사용하기 전에 이해하는 데 필수적입니다. 데이터 프로파일링은 값의 분포, 최대, 최소, 평균 값 및 이상 값을 제공합니다. 또한, 데이터의 형식 불일치를 도와줍니다. 데이터 프로파일링은 데이터 세트가 사용 가능하거나 사용할 수 없는지 이해하는 데 도움이 됩니다.
2. 데이터 품질 평가
중앙 라이브러리의 사전 구축된 데이터 품질 규칙을 사용하여, 중앙 라이브러리를 사용하여 데이터 세트를 확인할 수 있습니다. 데이터 카탈로그에 내장된 데이터 도구가 있는 경우, 고객 이름, 이메일, 제품 코드를 확인하기 위해 규칙을 재사용할 수 있습니다. 또한, 일부 데이터를 풍부하게 하고 표준화할 수 있습니다.
3. 데이터 품질 모니터링 및 평가
과학자들은 사용하려는 대부분의 데이터 세트에 대해 미리 계산된 데이터 품질을 가지고 있습니다. 특정 속성이 어떤 문제가 있는지 좁혀보고, 해당 속성을 사용할지 여부를 결정할 수 있습니다.
4. 데이터 준비
연구자와 과학자는 일반적으로 AI 모델링을 위해 데이터를 약간 조정해야 합니다. 이러한 연구자들은 속성을 파싱하고, 열을 전치하고, 데이터에서 값을 계산하기 위한 사용하기 쉬운 도구가 필요합니다.
인공 지능의 세계는 지속적으로 변화하고 있습니다. 각 회사가 데이터를 다르게 사용하는 동안, 데이터 품질은 모든 AI 구현 프로젝트에 필수적입니다. 신뢰할 수 있고 좋은 품질의 데이터를 가지고 있다면, 거대한 데이터 세트의 필요성을 제거하고 성공할 가능성을 높일 수 있습니다. 다른 모든 조직과 마찬가지로,贵社가 AI 구현으로 전환하고 있다면, 좋은 품질의 데이터가 있는지 확인하십시오. 데이터 원천이 신뢰할 수 있는지 확인하고, 데이터 요구 사항에 부합하는지 확인하기 위해 의무적으로 확인하십시오.












