사상 리더

인공 지능/기계 학습 전략을 죽일 수 있는 편향성과 그 대책

Published April 18, 2024

Updated April 4, 2026

Adi Hirschtein, VP of Product at Duality Technologies

‘편향성’은 어떤 유형의 모델에서도 모델이 충분한 양의 고품질, 다양한 데이터로 훈련되지 않아 입력 데이터나 프롬프트에 대해 정확하게 반응하지 않는 상황을 설명합니다. 예를 들어, 애플의 얼굴 인식 전화 잠금 기능은 더 어두운 피부 톤을 가진 사람들에게서 훨씬 더 높은 속도로 실패했습니다. 모델은 더 어두운 피부 톤을 가진 사람들의 이미지로 충분히 훈련되지 않았기 때문입니다. 이것은 비교적 낮은 위험의 편향성 예이지만, EU 인공 지능법이 시장에 나갈 때 모델의 효능과 제어를 증명하는 요구를 제시한 이유입니다. 비즈니스, 금융, 건강 또는 개인 상황에 영향을 미치는 모델의 출력은 신뢰할 수 있어야 하며, 그렇지 않으면 사용되지 않을 것입니다.

데이터로 편향성 해결

고품질 데이터의大量

인공 지능/기계 학습 모델에서 편향성을 극복하고 최소화하는 데 중요한 데이터 관리 관행 중 하나는大量의 고품질, 다양한 데이터를 수집하는 것입니다. 이는 그러한 데이터를 보유한 여러 조직과 협력하는 것을 필요로 합니다. 전통적으로 데이터 수집 및 협력은 개인 정보 보호 및/또는 지적 재산 보호 문제로 인해 어려움을 겪습니다. 민감한 데이터를 모델 소유자에게 보낼 수 없으며, 모델 소유자는 데이터 소유자에게 지적 재산을泄露할 위험이 있습니다. 일반적인 해결 방법은 모의 또는 합성 데이터를 사용하는 것입니다. 이는 유용하지만 실제, 전체 컨텍스트 데이터를 사용하는 것과 비교할 때 제한이 있습니다. 여기서 개인 정보 보호 강화 기술(PETs)이 필요한答案을 제공합니다.

합성 데이터: 가까이지만 아직 부족함

합성 데이터는 실제 데이터를 모방하기 위해 인공적으로 생성됩니다. 이는 어려운 작업이지만 인공 지능 도구를 사용하면 조금 더 쉬워지고 있습니다. 좋은 품질의 합성 데이터는 실제 데이터와 같은 특징 거리를 가져야 하며, 그렇지 않으면 유용하지 않을 것입니다. 품질이 좋은 합성 데이터는 훈련 데이터의 다양성을 효과적으로 향상시키는 데 사용될 수 있으며, 이는 소수자 또는 인공 지능 제공업체가 충분한 데이터를 보유하지 못한 인구에 대한 격차를 메우는 데 사용될 수 있습니다. 합성 데이터는 또한 실제 세계에서 충분한 양으로 찾기 어려운 에지 케이스를 해결하는 데 사용될 수 있습니다. 또한 조직은 데이터 거주지 및 개인 정보 보호 요구 사항을 충족하기 위해 실제 데이터에 대한 액세스를 차단하는 합성 데이터 세트를 생성할 수 있습니다. 이것은 좋게 들리지만, 합성 데이터는 퍼즐의 일부분에 불과하며, 해결책은 아닙니다.

합성 데이터의 한 가지 명백한 제한은 실제 세계와의 연결이 부족하다는 것입니다. 예를 들어, 합성 데이터만으로 훈련된 자율 주행 자동차는 실제, 예상치 못한 도로 조건에 어려움을 겪을 것입니다. 또한 합성 데이터는 실제 데이터에서 생성된 편향성을 물려받습니다. 이는 우리의 논의 목적을 사실상 무효화합니다. 결론적으로, 합성 데이터는 세부 사항 조정 및 에지 케이스 해결에 유용한 옵션입니다. 그러나 모델의 효능과 편향성 최소화를 위한重大한 개선은 실제 데이터에 액세스하는 데 여전히 의존합니다.

더好的 방법: PETs활성 워크플로우를 통한 실제 데이터

PETs는 데이터를 사용 중에 보호합니다. 인공 지능/기계 학습 모델의 경우에도 모델의 지적 재산을 보호할 수 있습니다. “두 마리의 새를 한 번에 잡는” 효과입니다. PETs를 사용하는 솔루션은 이전에는 개인 정보 보호 및 보안 문제로 인해 액세스할 수なかった 실제, 민감한 데이터 세트에서 모델을 훈련할 수 있는 옵션을 제공합니다. 실제 데이터에 대한 데이터 흐름의 잠금 해제는 편향성을 줄이는 최선의 옵션입니다. 그러나 실제로 어떻게 작동할까요?

현재 주요 옵션은 기밀 컴퓨팅 환경에서 시작합니다. 그런 다음 PETs 기반 소프트웨어 솔루션과 통합하여 사용하기 쉽게 준비합니다. 이는 표준 신뢰할 수 있는 실행 환경(TEE)에는 포함되지 않은 데이터 거버넌스 및 보안 요구 사항을 해결합니다. 이 솔루션에서 모델과 데이터는 모두 보안 컴퓨팅 환경으로 보내기 전에 암호화됩니다. 환경은 어디에 호스팅되는지 중요하지 않습니다. 이는 데이터 지역화 요구 사항을 해결하는 데 중요합니다. 이는 모델 IP와 입력 데이터의 보안이 계산 중에 유지됨을 의미합니다. 즉, 신뢰할 수 있는 실행 환경 제공자는 환경 내의 모델이나 데이터에 액세스할 수 없습니다. 암호화된 결과는 검토를 위해 다시 보내지고, 로그는 검토를 위해 사용할 수 있습니다.

이 흐름은 데이터가 어디에 있거나 누구에게 속하는지에 관계없이 최고 품질의 데이터를 잠금 해제하여 편향성을 최소화하고 신뢰할 수 있는 모델을 생성하는 경로를 만듭니다. 이 흐름은 EU 인공 지능법이 AI 규제 샌드박스에 대한 요구 사항을 설명한 것입니다.

윤리적 및 법적 준수를 촉진

좋은 품질의 실제 데이터를 수집하는 것은 어렵습니다. 개인 정보 보호 및 지역화 요구 사항은 즉시 액세스할 수 있는 데이터 세트를 제한합니다. 혁신과 성장이 발생하려면 데이터가 그 값을 추출할 수 있는 사람에게 흐르도록 해야 합니다.

EU 인공 지능법의 제54조는 “고위험” 모델 유형에 대한 요구 사항을 규정하며, 시장에 나갈 수 있도록 증명해야 하는 내용을 요약합니다. 간단히 말해, 팀은 실제 데이터를 AI 규제 샌드박스 내에서 사용하여 충분한 모델 효능과 제3장 제2절에 자세히 설명된 모든 제어와의 준수를 증명해야 합니다. 이러한 제어에는 모니터링, 투명성, 설명 가능성, 데이터 보안, 데이터 보호, 데이터 최소화 및 모델 보호가 포함됩니다. DevSecOps + Data Ops라고 생각하십시오.

첫 번째 도전은 실제 세계 데이터 세트를 찾는 것입니다. 이러한 모델 유형의 경우 이는 본질적으로 민감한 데이터입니다. 기술 보장이 없는 경우 많은 조직은 모델 제공업체에 데이터를 신뢰하지 않을 수 있으며, 그렇게 하는 것을 허용되지 않을 수 있습니다. 또한 법이 AI 규제 샌드박스를 정의하는 방식은 자체적으로 도전입니다. 일부 요구 사항에는 모델이 실행된 후 시스템에서 데이터가 제거되는 것을 보장하는 것이 포함되며, 거버넌스 제어, 시행 및 증명 보고도 포함됩니다.

많은 조직은 데이터 클린 룸(DCR) 및 신뢰할 수 있는 실행 환경(TEE)을 사용해 보았습니다. 그러나 이러한 기술은 데이터 및 AI 규제 요구 사항을 충족하고 운영화하기 위해 상당한 전문 지식과 작업을 필요로 합니다.
DCR은 사용하기 더 쉽지만 아직 더 강력한 AI/ML 요구 사항에 유용하지 않습니다. TEE는 보안 서버이지만すぐ에 유용하기 위해 통합 협력 플랫폼이 필요합니다. 그러나 이것은 개인 정보 보호 강화 기술 플랫폼이 TEE와 통합하여 설정 및 사용을 간소화하고, 따라서 AI 규제 샌드박스 및 민감한 데이터의 수집 및 사용을 쉽게 하는 기회를 식별합니다.

개인 정보 보호를 보장하는 방식으로 더 다양한 및 포괄적인 데이터 세트를 사용할 수 있도록 이러한 기술을 활성화하면, 데이터 개인 정보 보호와 관련된 윤리적 표준 및 법적 요구 사항(예: GDPR 및 EU 인공 지능법)을 준수하는 인공 지능 및 기계 학습 관행을 보장할 수 있습니다. 요약하자면, 요구 사항은 종종 불만과 한숨으로 반응하지만, 이러한 요구 사항은 단순히 우리에게 신뢰하고 중요한 데이터 주도 의사 결정에 의존할 수 있는 더 나은 모델을 구축하도록 지시하는 것입니다. 동시에 모델 개발 및 사용자 지정에 사용된 데이터 주체의 개인 정보를 보호합니다.

Unite.AI

인공 지능/기계 학습 전략을 죽일 수 있는 편향성과 그 대책

데이터로 편향성 해결

고품질 데이터의大量

윤리적 및 법적 준수를 촉진

You may like