인공지능
LLM의 블랙박스 문제: 도전 과제와 부상하는 해결책

머신러닝은 AI의 하위 집합으로, 알고리즘, 훈련 데이터, 그리고 결과 모델이라는 세 가지 구성 요소를 포함합니다. 알고리즘은 본질적으로 일련의 절차로서, 많은 양의 예시(훈련 데이터)로부터 패턴을 식별하는 법을 학습합니다. 이 훈련의 결과물이 머신러닝 모델입니다. 예를 들어, 개 이미지로 훈련된 알고리즘은 이미지에서 개를 식별할 수 있는 모델을 만들어냅니다.
머신러닝에서의 블랙박스
머신러닝에서는 세 가지 구성 요소(알고리즘, 훈련 데이터, 모델) 중 어느 하나가 블랙박스가 될 수 있습니다. 알고리즘은 공개적으로 알려진 경우가 많지만, 개발자는 지적 재산권을 보호하기 위해 모델이나 훈련 데이터를 비공개로 유지하기도 합니다. 이러한 불투명성은 AI의 의사 결정 과정을 이해하는 것을 어렵게 만듭니다. AI 블랙박스는 내부 작동 방식이 사용자에게 불투명하거나 보이지 않는 시스템입니다. 사용자는 데이터를 입력하고 출력을 받을 수 있지만, 그 출력을 만들어내는 논리나 코드는 숨겨져 있습니다. 이는 ChatGPT와 DALL-E 3와 같은 고급 생성 모델을 포함한 많은 AI 시스템의 일반적인 특징입니다. GPT-4와 같은 LLM은 중요한 도전 과제를 제시합니다: 그들의 내부 작동 방식은 대부분 불투명하여 “블랙박스” 상태입니다. 이러한 불투명성은 단순한 기술적 퍼즐이 아닙니다. 이는 실제 세계의 안전 및 윤리적 문제를 제기합니다. 예를 들어, 이러한 시스템이 어떻게 결론에 도달하는지 분간할 수 없다면, 의료 진단이나 금융 평가와 같은 중요한 분야에서 그들을 신뢰할 수 있을까요?
LIME과 SHAP 기법 탐구
머신러닝(ML) 및 딥러닝(DL) 모델의 해석 가능성은 이러한 고급 모델의 불투명한 내부 작동을 들여다볼 수 있게 해줍니다. LIME(Local Interpretable Model-agnostic Explanations)과 SHAP(SHapley Additive exPlanations)는 두 가지 주류 해석 가능성 기법입니다.
LIME은 예를 들어, 특정 입력 주변에서 원본 모델의 동작을 근사화하는 더 단순한 로컬 대리 모델을 생성함으로써 복잡성을 분해합니다. 이를 통해 LIME은 개별 특성이 복잡한 모델의 예측에 어떻게 영향을 미치는지 이해하는 데 도움을 주며, 본질적으로 모델이 특정 결정을 내린 ‘지역적’ 이유를 설명합니다. 이는 모델의 복잡한 의사 결정 과정을 더 이해하기 쉬운 용어로 번역하기 때문에 비기술 사용자에게 특히 유용합니다.
반면 SHAP는 게임 이론, 특히 샤플리 값 개념에서 영감을 얻었습니다. 이는 각 특성에 ‘중요도’ 값을 할당하여 각 특성이 실제 예측과 기준 예측(모든 입력에 대한 평균 예측) 사이의 차이에 얼마나 기여하는지를 나타냅니다. SHAP의 강점은 일관성과 글로벌 관점을 제공하는 능력에 있습니다. 이는 개별 예측을 설명할 뿐만 아니라 모델 전체에 대한 통찰력을 제공합니다. 이는 상호 연결된 레이어와 수많은 매개변수로 인해 예측 과정이 미로를 통과하는 여정처럼 보이는 딥러닝 모델에서 특히 가치 있습니다. SHAP는 각 특성의 기여도를 정량화함으로써 이를 해명하고, 모델의 의사 결정 경로에 대한 더 명확한 지도를 제공합니다.

SHAP (Source)
LIME과 SHAP 모두 AI 및 ML 영역에서 투명성과 신뢰성에 대한 중요한 필요를 해결하는 필수 도구로 부상했습니다. 우리가 AI를 다양한 분야에 더 깊이 통합해 나감에 따라, 이러한 모델을 해석하고 이해하는 능력은 단순한 기술적 필요가 아닌 윤리적이고 책임감 있는 AI 개발을 위한 근본적인 요구 사항이 되고 있습니다. 이러한 기법들은 ML 및 DL 모델의 복잡성을 풀어내는 데 있어 중요한 진전을 나타내며, 그들을 이해할 수 없는 ‘블랙박스’에서 결정과 행동을 이해하고, 신뢰하며, 효과적으로 활용할 수 있는 이해 가능한 시스템으로 변모시키고 있습니다.
LLM의 규모와 복잡성
이러한 모델들의 규모는 그들의 복잡성을 더합니다. 예를 들어, 1750억 개의 매개변수를 가진 GPT-3와 수조 개의 매개변수를 가진 새로운 모델들을 생각해 보십시오. 각 매개변수는 신경망 내에서 복잡한 방식으로 상호작용하며, 개별 구성 요소만을 검토해서는 예측할 수 없는 창발적 능력에 기여합니다. 이러한 규모와 복잡성은 그들의 내부 논리를 완전히 파악하는 것을 거의 불가능하게 만들어, 이러한 모델에서 편향이나 원치 않는 행동을 진단하는 데 장애물이 됩니다.
트레이드오프: 규모 대 해석 가능성
LLM의 규모를 줄이면 해석 가능성을 높일 수 있지만, 그들의 고급 능력을 희생해야 합니다. 규모는 더 작은 모델이 달성할 수 없는 행동을 가능하게 하는 요소입니다. 이는 규모, 능력, 해석 가능성 사이의 본질적인 트레이드오프를 제시합니다.
LLM 블랙박스 문제의 영향
1. 결함 있는 의사 결정
GPT-3나 BERT와 같은 LLM의 의사 결정 과정에서의 불투명성은 발견되지 않은 편향과 오류로 이어질 수 있습니다. 의료나 형사 사법과 같이 결정이 광범위한 결과를 초래하는 분야에서, LLM을 윤리적이고 논리적으로 건전한지 감사할 수 없는 것은 주요 우려 사항입니다. 예를 들어, 구식이거나 편향된 데이터에 의존하는 의료 진단 LLM은 해로운 권고를 할 수 있습니다. 마찬가지로, 채용 과정의 LLM은 의도치 않게 성별 편향을 영속시킬 수 있습니다. 따라서 블랙박스 성격은 결함을 숨길 뿐만 아니라 잠재적으로 이를 증폭시킬 수 있어, 투명성을 높이기 위한 적극적인 접근이 필요합니다.
2. 다양한 맥락에서의 제한된 적응성
LLM의 내부 작동에 대한 통찰력 부족은 그들의 적응성을 제한합니다. 예를 들어, 채용 LLM은 학력보다 실용적 기술을 중시하는 역할에 대한 후보자 평가에 비효율적일 수 있으며, 이는 평가 기준을 조정할 수 없는 능력 때문입니다. 마찬가지로, 의료 LLM은 데이터 불균형으로 인해 희귀 질환 진단에 어려움을 겪을 수 있습니다. 이러한 융통성 부족은 특정 작업과 맥락에 맞게 LLM을 재조정하기 위해 투명성이 필요함을 강조합니다.
3. 편향과 지식 격차
LLM이 방대한 훈련 데이터를 처리하는 것은 그들의 알고리즘과 모델 아키텍처에 의해 부과된 제한을 받습니다. 예를 들어, 의료 LLM은 불균형한 데이터셋으로 훈련된 경우 인구통계학적 편향을 보일 수 있습니다. 또한, 틈새 주제에 대한 LLM의 숙련도는 오해의 소지가 있어, 과도하게 확신에 찬 잘못된 출력으로 이어질 수 있습니다. 이러한 편향과 지식 격차를 해결하려면 추가 데이터 이상의 것이 필요합니다. 이는 모델의 처리 메커니즘을 검토할 것을 요구합니다.
4. 법적 및 윤리적 책임
LLM의 불분명한 성격은 그들의 결정으로 인해 발생하는 모든 피해에 대한 책임에 관한 법적 회색 지대를 만듭니다. 의료 환경에서 LLM이 잘못된 조언을 제공하여 환자에게 해를 끼치는 경우, 모델의 불투명성으로 인해 책임 소재를 결정하기 어려워집니다. 이러한 법적 불확실성은 민감한 분야에 LLM을 배포하는 기관에 위험을 초래하며, 명확한 거버넌스와 투명성의 필요성을 강조합니다.
5. 민감한 응용 분야에서의 신뢰 문제
의료 및 금융과 같은 중요한 분야에서 사용되는 LLM의 경우, 투명성 부족은 그들의 신뢰성을 훼손합니다. 사용자와 규제 기관은 이러한 모델이 편향을 품고 있지 않거나 불공정한 기준에 기반하여 결정을 내리지 않도록 해야 합니다. LLM에 편향이 없음을 검증하려면 그들의 의사 결정 과정에 대한 이해가 필요하며, 이는 윤리적 배포를 위한 설명 가능성의 중요성을 강조합니다.
6. 개인 데이터와 관련된 위험
LLM은 방대한 훈련 데이터가 필요하며, 여기에는 민감한 개인 정보가 포함될 수 있습니다. 이러한 모델의 블랙박스 성격은 이 데이터가 어떻게 처리되고 사용되는지에 대한 우려를 제기합니다. 예를 들어, 환자 기록으로 훈련된 의료 LLM은 데이터 개인정보 보호와 사용에 대한 질문을 제기합니다. 개인 데이터가 오용되거나 악용되지 않도록 보장하려면 이러한 모델 내에서 투명한 데이터 처리 과정이 필요합니다.
해석 가능성을 위한 부상하는 해결책
이러한 도전 과제를 해결하기 위해 새로운 기법들이 개발되고 있습니다. 여기에는 반사실적(CF) 근사 방법이 포함됩니다. 첫 번째 방법은 LLM에 특정 텍스트 개념을 변경하도록 프롬프트하면서 다른 개념은 일정하게 유지하는 것을 포함합니다. 이 접근 방식은 효과적이지만, 추론 시점에 자원을 많이 소모합니다. 두 번째 접근 방식은 훈련 중에 LLM의 지도를 받는 전용 임베딩 공간을 생성하는 것입니다. 이 공간은 인과 그래프와 일치하며 CF를 근사화하는 매치를 식별하는 데 도움을 줍니다. 이 방법은 테스트 시점에 더 적은 자원을 필요로 하며, 수십억 개의 매개변수를 가진 LLM에서도 모델 예측을 효과적으로 설명하는 것으로 나타났습니다. 이러한 접근 방식들은 안전을 보장하고 신뢰를 구축하기 위해 NLP 시스템에서 인과적 설명의 중요성을 강조합니다. 반사실적 근사는 주어진 텍스트의 생성 과정에서 특정 개념이 다르다면 어떻게 변할지 상상할 수 있는 방법을 제공하여, NLP 모델에 대한 고수준 개념의 실용적인 인과 효과 추정에 도움을 줍니다.
심층 분석: LLM의 설명 방법과 인과성
프로빙 및 특성 중요도 도구
프로빙은 모델의 내부 표현이 무엇을 인코딩하는지 해독하는 데 사용되는 기법입니다. 이는 지도 학습 또는 비지도 학습일 수 있으며, 특정 개념이 네트워크의 특정 위치에 인코딩되어 있는지 판단하는 것을 목표로 합니다. 어느 정도 효과적이지만, Geiger et al. (2021)이 강조한 바와 같이, 프로브는 인과적 설명을 제공하는 데는 부족합니다. 설명 방법의 또 다른 형태인 특성 중요도 도구는 종종 입력 특성에 초점을 맞추지만, 일부 그래디언트 기반 방법은 이를 은닉 상태로 확장합니다. 한 예는 기준선(반사실적, CF) 입력을 탐색함으로써 인과적 해석을 제공하는 통합 그래디언트 방법입니다. 그 유용성에도 불구하고, 이러한 방법들은 여전히 단순한 입력 속성 이상의 실제 세계 개념과의 연결을 분석하는 데 어려움을 겪습니다.
인터벤션 기반 방법
인터벤션 기반 방법은 모델 동작에 대한 영향을 연구하기 위해 입력이나 내부 표현을 수정하는 것을 포함합니다. 이러한 방법들은 인과 효과를 추정하기 위해 CF 상태를 생성할 수 있지만, 신중하게 통제되지 않으면 비현실적인 입력이나 네트워크 상태를 생성하는 경우가 많습니다. Causal Proxy Model (CPM)은 S-learner 개념에서 영감을 받은 이 영역의 새로운 접근 방식으로, CF 입력 하에서 설명 대상 모델의 동작을 모방합니다.














