Connect with us

๊ธฐ๊ณ„ ํ•™์Šต ๋ชจ๋ธ์ด ๋‹น์‹ ์— ๋Œ€ํ•ด ์žŠ์–ด๋ฒ„๋ฆฌ๊ฒŒ ํ•˜๋Š” ๊ฒƒ

์ธ๊ณต์ง€๋Šฅ

๊ธฐ๊ณ„ ํ•™์Šต ๋ชจ๋ธ์ด ๋‹น์‹ ์— ๋Œ€ํ•ด ์žŠ์–ด๋ฒ„๋ฆฌ๊ฒŒ ํ•˜๋Š” ๊ฒƒ

mm

특정 데이터를 기계 학습 모델에서 제거하는 것은 커피 한 잔에서 두 번째 술을 뜨는 것과 비슷합니다. 데이터는 이미 모델 내의 많은 다른 뉴런과 내在地 연결되어 있습니다. 데이터 포인트가 초기에 높은 차원 부분에서 훈련에 참여한 ‘정의’ 데이터를 나타낸다면, 이를 제거하면 모델의 기능을 근본적으로 재정의하거나 시간과 돈을 소비하여 다시 훈련해야 할 수 있습니다.

유럽에서는 적어도 일반 데이터 보호 규정(GDPR)의 제 17조가 要求한다. 회사들은 사용자 데이터를 요청에 따라 제거해야 합니다. 이 법은 데이터베이스 ‘drop’ 쿼리 이상의 삭제가 아니라는 이해에 따라 제정되었으며, 초안 EU 인공 지능법에서 나온 입법은 효과적으로 GDPR의 정신을 인공 지능 시스템에 적용되는 법률로 복사하여貼します.

전 세계적으로 기계 학습 시스템에서 데이터를 삭제하도록 개인에게 권한을 부여하는 추가 입법이 고려되고 있으며, 2018년 캘리포니아 소비자 개인 정보 보호법(CCPA)은 이미 주민들에게 이 권리를 제공합니다.

왜 중요할까

데이터셋이 작동 가능한 기계 학습 모델로 훈련될 때, 데이터의 특성은 일반화되고 추상화되며, 모델은 데이터에서 원리와 광범위한 경향을 추론하기 위해 설계되며, 궁극적으로 특정하고 일반화되지 않은 데이터를 분석하는 데 유용한 알고리즘을 생성합니다.

그러나 모델 반전과 같은 기술은 기초가 되는 데이터를 재식별할 가능성을 보여주었으며, 회원资格 추론 공격도 익명성에 대한 이해로만 데이터셋에 포함된 민감한 데이터를 포함하여 원본 데이터를 노출할 수 있습니다.

이 추구에 대한 관심이 증가하는 것은 草根 개인 정보 보호 운동에 의존할 필요가 없습니다. 기계 학습 부문이 향후 10년 동안 상업화되고 국가가 현재 자유 방임 문화를 종료하도록 압력을 받게 되면, 데이터가 기여한 분류, 추론 및 생성 인공 지능 프레임워크에 대한 독점 및 고수익을 위한 IP 적용 조직(및 IP 트롤)이 데이터를 해독하고 검토할 상업적 인센티브가 증가할 것입니다.

기계 학습 모델에健忘症을 유도

따라서 우리는 커피에서 설탕을 제거하는 문제에 직면합니다. 이는 최근 몇 년 동안 연구자들을 괴롭혀 왔던 문제입니다. 2021년 EU 지원 논문 얼굴 인식 라이브러리의 개인 정보 보호 위험에 대한 비교 연구는 여러 인기 있는 얼굴 인식 알고리즘이 재식별 공격에서 성별 또는 인종 기반 차별을 가능하게 할 수 있음을 발견했습니다. 2015년 Columbia University의 연구는 제안했다. 데이터 내의 여러 합계를 업데이트하는 ‘기계 학습’ 방법; 2019년 스탠퍼드 연구원은 제안했다. K-평균 클러스터링 구현을 위한 새로운 삭제 알고리즘.

중국과 미국의 연구 컨소시엄은 데이터 삭제 접근 방식의 성공을 평가하기 위한 통일된 지표와 함께 Forsaken이라는 새로운 ‘잊어버리기’ 방법을 소개하는 새로운 연구를 발표했습니다. 연구자들은 Forsaken이 90% 이상의 잊어버리기 속도와 모델의 전체 성능에서 5%의 정확도 손실만으로 달성할 수 있다고 주장합니다.

논문잊어버리기 학습: 뉴런 마스킹을 통한 기계 학습이라고 불리며, 중국과 버클리에서 연구자들이 참여했습니다.

Forsaken의 원리인 뉴런 마스킹은 특정 데이터를 모델에서 제거하기 위한 필터로 작동하는 마스크 그라데이션 생성기를 사용합니다. 이는 모델을 다시 훈련시키지 않고 업데이트합니다. 이는 데이터를 포함하기 전에 발생한 스냅샷에서 모델을 다시 훈련시키거나(스트리밍 기반 모델의 경우) 모델을 처음부터 다시 훈련시키는 것보다 훨씬 빠른 접근 방식입니다.

๋งˆ์Šคํฌ ๊ทธ๋ผ๋ฐ์ด์…˜ ์ƒ์„ฑ๊ธฐ์˜ ์•„ํ‚คํ…์ฒ˜

마스크 그라데이션 생성기의 아키텍처. 출처: https://arxiv.org/pdf/2003.10933.pdf

생물학적 기원

연구자들은 이 접근 방식이 ‘적극적인 잊어버리기’라는 생물학적 과정에서 영감을 받았다고 말합니다. 여기서 사용자는 특정 기억에 대한 모든 엔그램 세포를 제거하기 위해 도파민의 특별한 유형을 조작하여 적극적으로 기억을 지우는 작업을 수행합니다.

Forsaken은 이 작업을 복제하는 마스크 그라데이션을 지속적으로 호출하며, 비대상 데이터의 치명적인 잊어버리기를 방지하기 위해 이过程을 느리게 하거나 중지하기 위한 안전 장치가 있습니다.

시스템의 장점은 기존의 많은 유형의 신경망에 적용될 수 있으며, 최근의 유사한 연구는 주로 컴퓨터 비전 네트워크에서 성공을 거두었으며, 모델 훈련 절차와 간섭하지 않으며, 핵심 아키텍처를 변경하거나 데이터를 다시 훈련시키지 않고 보조로 작동합니다.

효과 제한

기여한 데이터의 삭제는 기계 학습 알고리즘의 기능에 잠재적으로 유해한 영향을 미칠 수 있습니다. 이를 피하기 위해 연구자들은 정규화를 이용했습니다. 이는 일반적인 신경망 훈련에서 과학을 피하기 위해 일반적으로 사용됩니다. 선택된 구현은 Forsaken이 훈련에서 수렴하지 않도록 보장하기 위해 설계되었습니다.

사용 가능한 데이터 분산을 설정하기 위해 연구자들은 실제 데이터셋에 포함되지 않은 데이터(즉, ‘민감한’ 데이터를 실제 데이터셋에서 모방하는 데이터)를 사용하여 알고리즘이 작동해야 하는 방식을 조절했습니다.

데이터셋에 대한 테스트

이 방법은 8개의 표준 데이터셋에서 테스트되었으며, 일반적으로 모델의 정확도에 거의 영향을 미치지 않고 전체 재훈련보다 잊어버리기 속도가ใกล운 또는 더 높았습니다.

전체 재훈련이 실제로 다른 방법보다 나쁠 수 있다는 것은 불가능합니다. 대상 데이터는 완전히 отсутств하기 때문입니다. 그러나 모델은 이미 삭제된 데이터의 특성을 ‘홀로그래픽’ 방식으로 추상화했습니다. 즉, 물의 유용성을 재정의하는 방식으로(유사성에 의해) 한 방울의 잉크가 물의 유용성을 재정의하는 것과 같습니다.

모델의 가중치는 이미 제거된 데이터에 의해 영향을 받았으며, 그 영향력을 완전히 제거하는唯一한 방법은 모델을 처음부터 다시 훈련시키거나(데이터가 포함되기 전에 발생한 스냅샷에서 모델을 다시 훈련시키는 경우) 데이터가 포함되기 전에 발생한 스냅샷에서 모델을 다시 훈련시키는 것보다 훨씬 빠른 접근 방식입니다.

๊ธฐ๊ณ„ ํ•™์Šต ์ž‘๊ฐ€, ์ธ๊ฐ„ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€. Metaphysic.ai์˜ ์—ฐ๊ตฌ ์ฝ˜ํ…์ธ  ์ฑ…์ž„์ž ์ถœ์‹ .
๊ฐœ์ธ ์‚ฌ์ดํŠธ: martinanderson.ai
์—ฐ๋ฝ์ฒ˜: [email protected]
ํŠธ์œ„ํ„ฐ: @manders_ai