์ธ๊ณต์ง๋ฅ
์ ์ด๋ ๋ง๊ฐ: AI์่จๆถ์์ ๋ค์ ํฐ ๋์

수년 동안, AI 분야는 하나의 목표에 집중했다: 시스템이 더 잘 기억하도록 만드는 것. 우리는 대규모 데이터셋에서 모델을 훈련시키고 지속적으로 정보를 보관하고 회상하는 능력을 개선했다. 그러나 우리는 이제 불편한 현실을 깨닫고 있다. 잊지 않는 시스템은 이제 자신의 기억에 갇혀 있다.曾经 看似 강점은 이제 심각한 약점이 되었다.
인간은 자연스럽게 잊는다. 우리는 정보를 놓고, 적응하고, 앞으로 나아간다. AI 시스템은 다르게 작동한다. 그들은 우리가 잊을 것을 가르칠 때까지 모든 것을 기억한다. 이것은 실제 문제를 일으킨다. AI는 개인 정보 보호 위반, 구식 정보, 내재된 편향, 새로운 작업을 학습할 때 시스템이 중단되는 문제에 어려움을 겪는다. 앞으로의 도전은 AI가 더 많이 기억하도록 만드는 것이 아니다. 우리는 AI가 지혜롭게 잊는 방법을 가르쳐야 한다.
망각의 두 가지 얼굴
AI에서 망각은 두 가지 다른 형태로 나타나며, 각기 다른 문제를 가지고 있다.
첫 번째는 카타스트로피적 망각이다. 이것은 신경망이 새로운 작업을 훈련한 후에 이전에 학습한 지식을 잃는 경우에 발생한다. 예를 들어, 고양이와 개를 인식하도록 훈련된 모델은 새를 식별하는 방법을 학습한 후에 그 능력을 잊을 수 있다.
두 번째 형태는 제어된 망각이다. 이것은 고의적이다. 훈련된 모델에서 특정 정보를 제거하는 것을 포함한다. 개인 정보 보호 법률과 같은 GDPR는 사람들에게 “잊혀질 권리”를 부여하며, 이는 회사들이 요청 시 데이터를 삭제하도록 요구한다. 이것은 고장난 시스템을 수정하는 것이 아니다. 이것은 결코 저장되어서는 안 되는 데이터나 요청 시 삭제되어야 하는 데이터를 의도적으로 제거하는 것이다.
이 두 가지 문제는 서로 반대되는 방향으로 끌고 있다. 하나는 잊지 않도록 요구한다. 다른 하나는 망각을 가능하게 만든다. 동시에 두 가지를 관리하는 것은 AI의 가장 어려운 도전 중 하나이다.
기억이 부담으로 되는 경우
AI 연구는 오랫동안 기억을 개선하는 데 집중했다. 모델은 더 커졌고, 데이터셋은 더 커졌으며, 컨텍스트 창은 더 길어졌다. GPT-4o와 같은 시스템은 이제 128,000 토큰의 컨텍스트를 처리할 수 있으며, Claude는 200,000에 도달할 수 있다. 이러한 발전은 성능을 개선했지만 새로운 문제도 도입했다.
모델이 너무 많은 것을 기억하면, 구식 또는 관련이 없는 정보를 회상할 수 있다. 이것은 계산을 낭비하며 사용자를 혼란스럽게 할 수 있다. 예를 들어, 회사의 지식 베이스에서 훈련된 고객 지원 채팅봇을 고려해 보자. 정책을 업데이트하지만 몇 번의 상호 작용 후에 봇이 구식 정보로 돌아간다. 이것은 발생한다. 왜냐하면 AI는 기억을 제대로 우선순위를 지정할 수 없기 때문이다. AI는 현재 정보와 구식 정보를 구별할 수 없다.
개인 정보 보호 법률은 상황을 더 어려게 만든다. GDPR에 따라 사용자가 데이터를 삭제하도록 요청하면 회사들은 그것을 삭제해야 한다. 그러나 AI 모델에서 데이터를 삭제하는 것은 컴퓨터에서 파일을 삭제하는 것과 다르다. 개인 데이터가 모델의 매개변수에 포함되면 네트워크 내의 수백만 개의 연결에 걸쳐 퍼진다. 시스템 전체를 다시 훈련시켜서 그 데이터를 제거하는 것은 비용이 많이 들고 종종 불가능하다. 연구에 따르면 더 큰 모델은 사이버 공격에 더 취약하다. 모델이 더 크면, 더 많이 기억하게 되며, 주의 깊게 설계된 프롬프트를 통해 개인 데이터를 재생산할 수 있다. 공격자는 결코 접근해서는 안 되는 정보를 추출할 수 있다.
망각이 어려운 이유
AI 모델은 파일을 폴더에 저장하는 것과 같은 방식으로 훈련 예제를 저장하지 않는다. 그들은 훈련 정보를 모델의 가중치와 활성화에 압축하고 혼합한다. 다른 모든 것을 방해하지 않고 하나의 데이터 조각을 제거하는 것은 매우 어렵다. 또한, 우리는 특정 훈련 데이터가 모델의 내부 가중치를 어떻게影响하는지 쉽게 추적할 수 없다. 모델이 데이터에서 학습한 후에, 그 지식은 모델의 매개변수에 다양한 방식으로 퍼져 나가며, 추적하기 어렵다.
모델을 다시 훈련시키는 것은 대부분의 프로덕션 환경에서 비용이 많이 들고 느리다. GDPR에 따라 개인 데이터를 삭제하도록 요청할 때, AI 시스템에서 그것을 제거해야 한다. 그러나 각 삭제 요청마다 모델을 처음부터 다시 훈련시키는 것은 대부분의 경우에 비용이 많이 들고 느리다. 수십억 개의 데이터 포인트에서 훈련된 대규모 언어 모델의 경우, 이러한 접근 방식은 비용이 많이 들고 시간이 많이 걸릴 것이다.
망각의 검증은 또 다른 도전이다. 우리는 데이터가 실제로 잊어졌는지 어떻게 증명할 수 있는가? 회사들은 外部 감사를 통해 정보를 삭제했다는 것을 보여주어야 한다. 신뢰할 수 있는 검증 방법이 없으면, 비즈니스는 규정 준수를 증명할 수 없으며, 사용자는 데이터가 실제로 삭제되었다는 것을 신뢰할 수 없다.
이러한 도전은 기계 학습의 반대라는 새로운 분야로 이어졌다. 이는 모델에서 특정 데이터의 영향을 제거하는 기술에 중점을 둔다. 그러나 이러한 방법은 아직 초기 단계에 있다. 정확한 반대 학습은 모델을 다시 훈련시키는 것을 필요로 하며, 근사 방법은 삭제된 정보의 흔적을 남길 수 있다.
안정성-플라스틱성 딜레마
우리가 해결해야 할 핵심 도전은 카타스트로피적 망각을 방지하면서 제어된 망각을 가능하게 하는 것이다. 이것은 AI가 직면하는 핵심 도전 중 하나인 안정성-플라스틱성 딜레마로 이어진다. 모델은 새로운 정보를 학습할 수 있을 만큼 유연해야 하지만, 이전에 학습한 지식을 유지할 수 있을 만큼 안정적이어야 한다. 모델을 안정성으로 너무 밀어붙이면, 그것은 적응할 수 없다. 반면에, 모델을 유연성으로 너무 밀어붙이면, 그것은 모든 것을 잊을 수 있다.
인간의 기억은 이 딜레마를 해결하는 데 유용한 단서를 제공한다. 신경과학은 망각이 결함이 아님을 알려준다. 그것은 의도적인 과정이다. 뇌는 학습을 더 잘 작동하도록 하기 위해 의도적으로 이전 또는 낮은 가치의 정보를 제거하거나 억제한다. 새로운 언어를 학습할 때, 이전 언어를 삭제하지 않는다. 그러나 사용을 중단하면 회상이 더 어려워진다. 정보는 여전히 존재하지만, 우선순위가 낮아진다. 뇌는 삭제가 아닌 선택적 억제를 사용한다.
AI 연구자들은 유사한 아이디어를 채택하기 시작했다. 생성적 재생 기술은 뇌가 기억을 저장하는 방식을 모방한다. 그것은 원시 데이터를 저장하는 대신, 이전 지식의 추상적인 표현을 생성한다. 이것은 카타스트로피적 망각을 줄이고 기억을.compact하게 유지한다. 또 다른 유망한 아이디어는 지능형衰退이다. 저장된 기억은 최근성, 관련성, 유용성에 따라 점수가 매겨진다. 중요하지 않은 기억은 점차 우선순위가 낮아지고, 필요할 때만 회상된다. 이것은 정보를 사용할 수 있게 유지하면서, 필요할 때만 보여준다. AI 시스템은 가치 있는 정보를 폐기하지 않고, 대규모 지식 베이스를 관리할 수 있다.
목표는 삭제가 아니다. 기억과 망각을 지혜롭게 균형있게 하는 것이다.
미래는 무엇인가?
산업은 세 가지 주요 방향으로 이동하고 있다.
첫째, 하이브리드 메모리 아키텍처가 등장하고 있다. 이러한 시스템은 에피소드 메모리(특정 경험)와 의미 메모리(일반 지식)를 결합한다. 중요 정보를 유지하고 덜 관련이 있는 것을 퇴색시키는 랭킹 및 가지치기 메커니즘을 사용한다. Pinecone과 Weaviate와 같은 벡터 데이터베이스는 이러한 메모리를 효율적으로 관리하고 회상하는 데 도움이 된다.
둘째, 개인 정보 보호를 강화하는 기술이 普及되고 있다. 연합 학습, 차별적 개인 정보 보호, 동형 암호화와 같은 기술은 민감한 개인 데이터의 필요성을 줄인다. 이러한 방법은 모델이 공동으로 또는 안전하게 훈련될 수 있도록 하며, 민감한 사용자 정보를 수집할 필요가 없다.它们는 직접적으로 망각을 해결하지는 않지만, 나중에 잊어야 할 개인 데이터의 양을 줄인다.
셋째, 기계 학습의 반대는 계속 개선되고 있다. 새로운 방법은 모델의 매개변수를 특정 데이터에 연결하지 않고 조정할 수 있다. 이러한 접근 방식은 초기 단계에 있지만, 데이터 삭제 요구 사항을 준수하는 방향으로 나아가고 있다. 그러나 반대 학습이 실제로 모든 데이터 흔적을 제거하는지 확인하는 것은 여전히 어렵다. 연구자들은 효과를 측정하는 테스트를 개발하고 있다.
결론
AI 시스템은 기억하는 데 탁월해졌다. 그러나 그것들은 아직 망각하는 데 서툴다. 이 격차는 무시하기 어렵게 된다. AI가 더 강력해지고 규제가 더 엄격해짐에 따라, 지혜롭게 잊는 능력은 기억하는 능력만큼 중요해질 것이다. AI를 더 안전하고, 더 적응性 있고, 더 개인 정보 보호에 주의하는 시스템으로 만들기 위해, 우리는 그것이 주의 깊게, 선택적으로, 지혜롭게 잊는 방법을 가르쳐야 한다. 제어된 망각은 데이터 개인 정보 보호를 보호할 뿐만 아니라, AI 시스템이 자신의 기억에 갇히지 않고 진화하도록 도와줄 것이다.












