Connect with us

5๊ฐœ์˜ ๊ธฐ์ดˆ ํ•„๋Ÿฌ๋ฅผ ํ†ตํ•œ ์ฑ…์ž„ ์žˆ๋Š” AI ๋ณด์žฅ

์œค๋ฆฌ

5๊ฐœ์˜ ๊ธฐ์ดˆ ํ•„๋Ÿฌ๋ฅผ ํ†ตํ•œ ์ฑ…์ž„ ์žˆ๋Š” AI ๋ณด์žฅ

mm

우리는 새로운 디지털 경제에서 생성되는 데이터의 해양을 처리하기 위한 AI/ML 시스템의 압도적인 성장을 보이고 있습니다. 그러나 이러한 성장과 함께, AI의 윤리적 및 법적 영향을 심각하게 고려해야 합니다.

우리가 자동 대출 승인을 예로 들면, 더 복잡하고 중요한 작업을 AI 시스템에 맡길수록, 이러한 시스템이 책임 있고 신뢰할 수 있는지에 대해 절대적으로 확신해야 합니다. AI에서 편향을 줄이는 것은 많은 연구자의 관심이 되는巨대하고 윤리적인 영향을 미치는 영역이 되었으며, 이러한 시스템에 주는 자율성의 양도 마찬가지입니다.

책임 있는 AI의 개념은 AI 배포에 대한 신뢰를 구축하는 데 도움이 될 수 있는 중요한 프레임워크입니다. 책임 있는 AI를 위한 5개의 핵심 기초 필러가 있습니다. 이 기사는 이러한 필러를 탐구하여 더 나은 시스템을 구축하는 데 도움이 됩니다.

1. 재현성

소프트웨어 개발 세계에는 “내 컴퓨터에서는 작동합니다”라는 옛말이 있습니다. ML과 AI에서는 이 문구를 “내 데이터셋에서는 작동합니다”로 바꿀 수 있습니다. 즉, 기계 학습 모델은 종종 블랙 박스일 수 있으며, 많은 훈련 데이터셋에는 샘플링 편향 또는 확인 편향과 같은 내재된 편향이 있어 최종 제품의 정확도를 저하할 수 있습니다.

AI/ML 시스템을 더 재현 가능하고 따라서 정확하고 신뢰할 수 있게 만드는 첫 번째 단계는 MLOps 파이프라인을 표준화하는 것입니다. 가장 똑똑한 데이터 과학자들도 자신만의 기술과 라이브러리가 있으며, 이는 기능 엔지니어링과 결과 모델이 사람마다 균일하지 않음을 의미합니다. MLflow와 같은 도구를 사용하여 MLOps 파이프라인을 표준화하여 이러한 차이를 줄일 수 있습니다.

AI/ML 시스템을 더 재현 가능하게 만드는 또 다른 방법은 “골드 데이터셋”이라고 하는 것을 사용하는 것입니다. 이러한 데이터셋은 본질적으로 새로운 모델을 출시하기 전에 테스트와 검증으로 작용하는 대표적인 데이터셋입니다.

2. 투명성

앞서 언급한 바와 같이, 많은 ML 모델, 특히 신경망은 블랙 박스입니다. 이러한 모델을 더 책임 있게 만들기 위해 더 해석 가능하게 만들어야 합니다. 의사 결정 트리와 같은 단순한 시스템의 경우 시스템이 특정 결정을 내린 이유와 방법을 이해하기는 khá 쉽지만, AI 시스템의 정확도와 복잡도가 증가함에 따라 해석 가능성이 종종 감소합니다.

설명 가능성이라고 하는 새로운 연구 분야가 있으며, 이는 신경망 및 딥 러닝과 같은 복잡한 AI 시스템에도 투명성을 제공하려고 합니다. 이러한 방법은 프록시 모델을 사용하여 신경망의 성능을 복사하지만, 또한 중요한 기능에 대한 유효한 설명을 제공하려고 합니다.

이 모든 것은 공정성으로 이어집니다. 특정 결정을 내린 이유를 알고 싶으며, 이러한 결정이 공정한지 확인하고 싶습니다. 또한 편향이 모델에 침투하지 않도록 부적절한 기능이 고려되지 않도록 하려는 것입니다.

3. 책임성

책임 있는 AI의 가장 중요한 측면은 책임성입니다. 이 주제에 대한 많은 논의가 있으며, 정부 부문에서도 AI 결과를 구동하는 정책에 대해 논의하고 있습니다. 이 정책 주도 접근 방식은 인간이 루프에 참여해야 하는 단계를 결정합니다.

책임성은 정책 입안자와 AI/ML 시스템을 제어하는 데 도움이 되는 강력한 모니터와 메트릭을 요구합니다. 책임성은 재현성과 투명성을 함께 묶지만, AI 윤리 위원회와 같은 효과적인 감독이 필요합니다. 이러한 위원회는 정책 결정, 측정할 항목을 결정 및 공정성 검토를 수행할 수 있습니다.

4. 보안

AI 보안은 데이터의 기밀성과 무결성을 중점으로 합니다. 시스템이 데이터를 처리할 때, 이러한 시스템을 안전한 환경에서 유지하고 싶습니다. 데이터가 데이터베이스에 저장되어 있는 경우와 파이프라인을 통해 호출되는 경우에 모두 암호화되어 있기를 원합니다. 그러나 데이터가 평문으로 기계 학습 모델에 공급되는 경우에도 취약점이仍然 존재합니다. 호모모르픽 암호화와 같은 기술은 암호화된 환경에서 기계 학습 훈련을 허용하여 이러한 문제를 해결합니다.

또 다른 측면은 모델 자체의 보안입니다. 예를 들어, 모델 반전 공격으로 해커가 모델을 구축하는 데 사용된 훈련 데이터를 학습할 수 있습니다. 또한 모델 중독 공격이 있으며, 모델이 훈련 중에 나쁜 데이터를 삽입하여 성능을 완전히 손상시킵니다. 이러한 적대적 공격에 대한 모델 테스트를 통해 모델을 안전하고 보안을 유지할 수 있습니다.

5. 개인 정보 보호

구글과 OpenMined는 최근 AI 개인 정보 보호에 우선순위를 두고 있으며, OpenMined는 이 주제에 대한 최근 컨퍼런스를 개최했습니다. GDPR 및 CCPA와 같은 새로운 규정과 потен적으로 더 많은 규정이 도입됨에 따라, 개인 정보 보호는 기계 학습 모델을 훈련하는 방법에 중추적인 역할을 할 것입니다.

고객의 데이터를 개인 정보 보호에 주의하여 처리하는 방법 중 하나는 연합 학습을 사용하는 것입니다. 이 분산 기계 학습 방법은 다양한 모델을 로컬로 훈련한 다음 중앙 허브에서 집계하는 동시에 데이터를 안전하고 보안 및 개인 정보 보호합니다. 또 다른 방법은 통계적 노이즈를 도입하여 고객의 개별 값을 누출하지 않는 것입니다. 이를 통해 집계를 작업할 수 있으며, 알고리즘에 대한 고객의 개별 데이터는 무결성과 안전성을 유지합니다.

AI를 책임 있게 유지

  궁극적으로, AI를 책임 있게 유지하는 것은 AI/ML 시스템을 설계하는 각 조직의 책임입니다. 이러한 5가지 책임 있는 AI의 측면에서 기술을 의도적으로 추구함으로써, 기계 학습의 힘을 활용할 수 있을 뿐만 아니라, 신뢰할 수 있고 직설적인 방법으로 조직, 고객 및 규제 기관을 안심시킬 수 있습니다.

Dattaraj Rao, Persistent Systems์˜ Chief Data Scientist๋Š” โ€œKeras to Kubernetes: The Journey of a Machine Learning Model to Productionโ€์ด๋ผ๋Š” ์ฑ…์˜ ์ €์ž์ž…๋‹ˆ๋‹ค. Persistent Systems์—์„œ Dattaraj๋Š” ์ปดํ“จํ„ฐ ๋น„์ „, ์ž์—ฐ์–ด ์ดํ•ด, ํ™•๋ฅ ์  ํ”„๋กœ๊ทธ๋ž˜๋ฐ, ๊ฐ•ํ™” ํ•™์Šต, ์„ค๋ช… ๊ฐ€๋Šฅํ•œ AI ๋“ฑ ์ตœ์ฒจ๋‹จ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํƒ๊ตฌํ•˜๋Š” AI ์—ฐ๊ตฌ์†Œ๋ฅผ ์ด๋Œ๋ฉฐ ์˜๋ฃŒ, ๊ธˆ์œต, ์‚ฐ์—… ๋ถ„์•ผ์—์„œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. Dattaraj๋Š” ๊ธฐ๊ณ„ ํ•™์Šต๊ณผ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ 11๊ฐœ์˜ ํŠนํ—ˆ๋ฅผ ๋ณด์œ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.