인공지능
LLM에서 블랙 박스 문제: 도전 과제 및 등장하는 해결책

기계 학습, 즉 인공지능의 하위 집합은 세 가지 구성 요소로 구성됩니다. 알고리즘, 훈련 데이터 및 결과 모델입니다. 알고리즘은 본질적으로 일련의 절차로, 큰 예제 세트(훈련 데이터)에서 패턴을 식별하는 방법을 학습합니다. 이 훈련의 결과는 기계 학습 모델입니다. 예를 들어, 이미지에 대한 개의 이미지로 훈련된 알고리즘은 결과적으로 이미지에서 개를 식별할 수 있는 모델을 생성합니다.
기계 학습의 블랙 박스
기계 학습에서 알고리즘, 훈련 데이터 또는 모델의 세 가지 구성 요소 중 하나가 블랙 박스가 될 수 있습니다. 알고리즘이 공개적으로 알려져 있는 경우 개발자는 지적 재산을 보호하기 위해 모델 또는 훈련 데이터를 비밀로 유지할 수 있습니다. 이러한 불투명성으로 인해 AI의 의사 결정 프로세스를 이해하는 것이 어려워집니다.
AI 블랙 박스는 내부 작동이 사용자에게 불투명하거나 보이지 않는 시스템입니다. 사용자는 데이터를 입력하고 출력을 받을 수 있지만 출력을 생성하는 논리 또는 코드는 숨겨져 있습니다. 이것은 많은 AI 시스템, 특히 ChatGPT 및 DALL-E 3와 같은 고급 생성 모델의 일반적인 특성입니다.
GPT-4와 같은 LLM은 상당한 도전을 제기합니다. 내부 작동이 크게 불투명하여 “블랙 박스”가 됩니다. 이러한 불투명성은 기술적인 퍼즐이 아닙니다. 실제로 안전성 및 윤리적 문제를 제기합니다. 예를 들어, 이러한 시스템이 결정을 내리는 방법을 알 수 없다면 의료 진단 또는 금융 평가와 같은 중요한 영역에서 신뢰할 수 있습니까?
LIME 및 SHAP의 기술 탐구
기계 학습(Machine Learning, ML) 및 딥 러닝(Deep Learning, DL) 모델의 해석 가능성은 이러한 고급 모델의 불투명한 내부 작동을 볼 수 있도록 도와줍니다. 로컬 해석 가능 모델-에이전시 독립적 설명(LIME) 및 SHapley Additive 설명(SHAP)은 두 가지 대표적인 해석 가능성 기술입니다.
LIME는 예를 들어, 입력 주변에서 원래 모델의 동작을 근사하는 더 단순한 로컬 대리 모델을 생성하여 복잡성을 분해합니다. 이를 통해 LIME는 복잡한 모델의 예측에 어떻게 각 특성이 영향을 미치는지 이해하는 데 도움이 됩니다. 본질적으로 모델이 특정 결정을 내린 이유에 대한 ‘로컬’ 설명을 제공합니다. 이는 비기술적 사용자에게 특히 유용합니다. 모델의 복잡한 의사 결정 프로세스를 더 이해하기 쉬운 용어로 번역하기 때문입니다.
SHAP는 게임 이론, 특히 셰플리 값의 개념에서 영감을 얻습니다. 각 특성에 ‘중요도’ 값을 할당하여 각 특성이 실제 예측과 기준 예측(모든 입력에 대한 평균 예측) 사이의 차이에 얼마나 기여하는지 나타냅니다. SHAP의 강점은 일관성과 전체적인 관점을 제공하는 능력에 있습니다. 개별 예측을 설명하는 것 외에도 모델 전체에 대한 통찰력을 제공합니다. 특히 딥 러닝 모델에서 이는 매우 유용합니다. 여기서 여러 계층과 수많은 매개 변수로 인해 예측 프로세스가 미로를 통과하는 것처럼 보일 수 있습니다. SHAP는 각 특성의 기여도를 양적으로 제공하여 모델의 의사 결정 경로에 대한 더 명확한 지도 제공합니다.

SHAP (출처)
LIME와 SHAP는 모두 AI 및 ML 영역에서 필수적인 도구로 등장했습니다. 투명성 및 신뢰성에 대한 중요한 필요성을 해결하고 있습니다. AI를 다양한 분야에 더 깊이 통합할수록 이러한 모델을 해석하고 이해하는 능력은 기술적인 필요성뿐만 아니라 윤리적이고 책임 있는 AI 개발을 위한 근본적인 요구사항이 됩니다. 이러한 기술은 ML 및 DL 모델의 복잡성을 풀어가는 데 상당한 발전을 나타냅니다. 이러한 모델을 해석할 수 없는 ‘블랙 박스’에서 그 결정과 행동을 이해하고 신뢰하며 효과적으로 사용할 수 있는 시스템으로 변환합니다.
LLM의 규모 및 복잡성
이러한 모델의 규모는 그 복잡성을 더합니다. 예를 들어, 175억 매개 변수를 갖는 GPT-3와 최신 모델은 수조 개의 매개 변수를 갖습니다. 각 매개 변수는 신경 네트워크 내에서 복잡한 방식으로 상호 작용하여 개별 구성 요소를 검사하여 예측할 수 없는 출현 능력을 생성합니다. 이러한 규모와 복잡성으로 인해 내부 논리를 완전히 이해하는 것이 거의 불가능하여 이러한 모델에서 편향이나 원치 않는 행동을 진단하는 데 장애물이 됩니다.
트레이드 오프: 규모 대 해석 가능성
LLM의 규모를 줄이는 것은 해석 가능성을 향상시킬 수 있지만 고급 능력의 비용으로 이루어집니다. 규모는 더 작은 모델에서 달성할 수 없는 행동을 가능하게 합니다. 이는 규모, 능력 및 해석 가능성 사이에 내재된 트레이드 오프를 제시합니다.
LLM 블랙 박스 문제의 영향
1. 결함이 있는 의사 결정
GPT-3 또는 BERT와 같은 LLM의 의사 결정 프로세스에 대한 불투명성은 감지되지 않는 편향 및 오류로 이어질 수 있습니다. 의료 또는 사법과 같은 분야에서 결정이 далеко 갈래지는 결과를 가질 수 있습니다. LLM을 윤리적 및 논리적 타당성으로 감사할 수 없는 것은 주요 관심사입니다. 예를 들어, 오래된 또는 편향된 데이터에 의존하는 의료 진단 LLM은 유해한 추천을 할 수 있습니다. 마찬가지로, 채용 프로세스에서 LLM은 의도하지 않게 성별 편향을 계속할 수 있습니다. 블랙 박스 특성은 결함을 숨기지만 잠재적으로 증폭할 수 있으며, 투명성을 향상시키기 위한 적극적인 접근이 필요합니다.
2. 다양한 맥락에서 제한된 적응성
LLM의 내부 작동에 대한 통찰력의 부족은 그들의 적응성을 제한합니다. 예를 들어, 학업 자격보다 실용적인 기술을 가치 있는 역할에 대한 후보자를 평가하는 데 효율적이지 않을 수 있습니다. 이는 평가 기준을 조정할 수 없는 능력으로 인해 발생합니다. 마찬가지로, 의료 LLM은 데이터 불균형으로 인해 희귀한 질병 진단에 어려움을 겪을 수 있습니다. 이러한 유연성의 부족은 특정 작업 및 맥락에 대해 LLM을 재조정하기 위한 투명성이 필요하다는 것을 강조합니다.
3. 편향 및 지식 격차
LLM의 방대한 훈련 데이터 처리는 알고리즘 및 모델 아키텍처에 의해 부과되는 제한으로 인해 영향을 받습니다. 예를 들어, 불균형된 데이터 세트로 훈련된 의료 LLM은 인구 통계적 편향을 표시할 수 있습니다. 또한, 특수 주제에 대한 LLM의 능숙함은 오버コン피던트한 잘못된 출력으로 이어질 수 있습니다. 이러한 편향 및 지식 격차를 해결하려면 추가 데이터 이상이 필요합니다. 모델의 처리 메커니즘을 조사해야 합니다.
4. 법적 및 윤리적 책임
LLM의 불투명성은 의사 결정으로 인해 발생하는任何 피해에 대한 책임에 대한 법적 회색 지대를 생성합니다. 의료 환경에서 잘못된 조언으로 인해 환자에게 피해를 입힌 경우, 모델의 불투명성으로 인해 책임을 결정하기가 어렵습니다. 이러한 법적 불확실성은 민감한 영역에서 LLM을 배치하는 엔티티에 대한 위험을 나타내며, 투명성 및 명확한 거버넌스의 필요성을 강조합니다.
5. 민감한 응용 프로그램에서의 신뢰 문제
의료 및 금융과 같은 중요한 영역에서 사용되는 LLM의 경우, 투명성의 부족은 신뢰성을 저하합니다. 사용자 및 규제 기관은 이러한 모델이 편향이나 불공정한 기준을 기반으로 의사 결정을 내리지 않는다는 것을 보장해야 합니다. LLM에서 편향의 부재를 검증하려면 의사 결정 프로세스를 이해하는 것이 필수적이며, 윤리적인 배치를 위한 설명 가능성의 중요성을 강조합니다.
6. 개인 데이터에 대한 위험
LLM은 광범위한 훈련 데이터를 필요로 하며, 이는 민감한 개인 정보를 포함할 수 있습니다. 이러한 모델의 블랙 박스 특성은 이러한 데이터가 처리되고 사용되는 방식에 대한 우려를 제기합니다. 예를 들어, 환자 기록으로 훈련된 의료 LLM은 데이터 개인 정보 및 사용에 대한 질문을 제기합니다. 개인 데이터가 악용되지 않고 사용되지 않도록 이러한 모델 내에서 투명한 데이터 처리 프로세스를 보장해야 합니다.
해석 가능성을 위한 등장하는 해결책
이러한 도전 과제를 해결하기 위해 새로운 기술이 개발되고 있습니다. 이러한 기술에는 대응적 근사 방법이 포함됩니다. 첫 번째 방법은 특정 텍스트 개념을 변경하면서 다른 개념을 일정하게 유지하는 LLM을 프롬프트하는 것입니다. 이 접근 방식은 효과적이지만 추론 시간에 자원 집중적입니다.
두 번째 접근 방식은 LLM을 통해 훈련 중에 지침을 받는 전용 임베딩 공간을 생성하는 것입니다. 이 공간은 인과 그래프와 일치하며 대응적 근사를 근사하는 일치를 식별하는 데 도움이 됩니다. 이 방법은 테스트 시간에 더 적은 자원을 필요로 하며, 수십억 매개 변수를 갖는 LLM에서도 모델 예측을 효과적으로 설명하는 것으로 나타났습니다.
이러한 접근 방식은 NLP 시스템에서 인과 설명의 중요성을 강조합니다. 안전성 및 신뢰성을 보장하기 위해 인과 설명은 필수적입니다. 대응적 근사는 특정 개념이 다른 경우에 주어진 텍스트가 어떻게 변경되는지 상상하는 방법을 제공하여 NLP 모델에서 고급 개념의 실제 인과 효과를 실용적으로 추정하는 데 도움이 됩니다.
깊은 분석: LLM의 설명 방법 및 인과성
탐색 및 특성 중요도 도구
탐색은 모델의 내부 표현이 무엇을 인코딩하는지 해석하는 데 사용되는 기술입니다. 이는 감독 또는 비감독으로 수행될 수 있으며, 특정 개념이 네트워크의 특정 위치에 인코딩되는지 여부를 결정하는 것을 목표로 합니다. 그러나 Geiger et al. (2021)이 강조한 바와 같이, 탐색은 인과 설명을 제공하는 데 한계가 있습니다.
특성 중요도 도구는 또 다른 형태의 설명 방법으로, 일반적으로 입력 특성에 초점을 맞추며, 일부 그래디언트 기반 방법은 숨겨진 상태로 확장합니다. 통합 그래디언트 방법은 기준(대응적) 입력을 탐색하여 인과 설명을 제공하는 예입니다. 이러한 방법은 유용하지만, 단순한 입력 특성 이상의 실제 개념과 분석을 연결하는 데 어려움을 겪습니다.
개입 기반 방법
개입 기반 방법은 모델의 동작에 대한 영향을 연구하기 위해 입력 또는 내부 표현을 수정하는 것을 포함합니다. 이러한 방법은 인과적 효과를 추정하기 위해 대응적 상태를 생성할 수 있습니다. 그러나 대응적 입력 또는 네트워크 상태를 생성하지 않으면 제어되지 않는 경우, 이러한 방법은 비현실적인 입력 또는 네트워크 상태를 생성할 수 있습니다. 인과 프록시 모델(CPM)은 S-learner 개념에서 영감을 얻은 새로운 접근 방식으로, 설명된 모델의 동작을 설명하는 모델을 모방합니다. 그러나 각 모델에 대한 별도의 설명자가 주요 제한입니다.
대응적 근사
대응적 근사는 기계 학습에서 데이터 증강을 위해 널리 사용되며, 다양한 요소 또는 레이블에 대한 변형을 포함합니다. 이러한 대응적 근사는 수동 편집, 유추적 키워드 대체 또는 자동 텍스트 다시 작성으로 생성할 수 있습니다. 수동 편집은 정확하지만, 또한 자원 집중적입니다. 키워드 기반 방법에는 제한이 있으며, 생성적 접근 방식은 유창성과 범위를 제공하는 균형을 제공합니다.
신뢰할 수 있는 설명
설명에서 신뢰도는 모델의 기본적인 이유를 정확하게 묘사하는 것을 의미합니다. 신뢰도의 普遍적으로 받아들여지는 정의는 없으므로, 감도, 일관성, 특성 중요도 일치, 강건성 및 시뮬레이션 가능성과 같은 다양한 지표를 통해 특성화됩니다. 이러한 대부분의 방법은 특성 수준의 설명에 초점을 맞추고 있으며, 상관관계와 인과관계를 혼동하는 경향이 있습니다. 우리의 연구는 인과성 문헌을 활용하여 직관적인 기준을 제안하는 것을 목표로 합니다. 순서-신뢰도입니다.
LLM의 내재된 복잡성에 대해 깊이 있게 탐구하여 그들의 ‘블랙 박스’ 특성과 제기되는重大한 도전 과제를 이해했습니다. 의료 및 금융과 같은 중요한 영역에서 결함이 있는 의사 결정의 위험에서부터 편향 및 공정성에 대한 윤리적 딜레마에 이르기까지, LLM에서 투명성이 필요한 것은 이제까지 어느 때보다 더 분명합니다.
LLM의 미래와 그것들이 우리의 일상 생활 및 중요한 의사 결정 프로세스에 통합되는 것은 이러한 모델을 더 발전시킨 것뿐만 아니라 더 이해 가능하고 책임 있는 모델로 만드는 우리의 능력에 달려 있습니다. 설명 가능성 및 해석 가능성의 추구는 기술적인 업적으로만이 아니라 AI 시스템에 대한 신뢰를 구축하는 기본적인 측면입니다. LLM이 사회에 더 통합됨에 따라 투명성에 대한 요구는 AI 실무자뿐만 아니라 이러한 시스템과 상호 작용하는 모든 사용자로부터 증가할 것입니다.














