Connect with us

사상 리더

통제되지 않은 LLM과 의료 규정 준수 딜레마

mm

다양한 산업 분야에서 생성형 AI(GenAI)는 비교적 짧은 시간 안에 빠른 돌파구를 이루었습니다. 이러한 발전은 기초 모델에 의해 주도되는데, 기초 모델은 The California Report on Frontier AI Policy에서 “상당한 양의 데이터와 컴퓨팅 자원을 필요로 하여 다양한 다운스트림 AI 애플리케이션을 구동할 수 있는 능력을 산출하는, 범용 기술의 한 종류”로 정의됩니다.

Gemini나 ChatGPT와 같은 이러한 범용 대규모 언어 모델(LLM)은 데이터 분석, 글쓰기, 추론과 같은 영역에서 인간의 인지 능력을 복제하고 넘어서는 점점 더 강력한 힘을 보여주고 있습니다. 특히 의료 분야에서는 임상의 및 기타 의료 전문가들이 행정 부담을 줄이고, 운영을 가속화하며, 심지어 임상적 의사 결정을 지원하기 위해 이 기술을 찾으면서 생성형 AI 도입이 증가하고 있습니다.

그러나 이 기술이 큰 가능성을 제공하는 반면, 의료 분야에서의 생성형 AI 도입은 책임 있게 구현되거나 활용되지 않을 경우 주요 규정 준수 위험을 초래합니다. 특히, 범용 LLM의 사용은 의료 기관이 개인정보 보호나 보안 위반을 방지하기 위해 완전히 이해해야 하는 특정한 규정 준수 문제를 동반합니다. 이러한 모델은 검증되지 않은 데이터 소스에 의존하거나, 허가되지 않은 방식으로 환자 건강 정보를 활용하거나, 편향 및/또는 부정확한 정보를 영속화할 수 있습니다.

환자 데이터 프라이버시를 유지하고, 진화하는 규정을 준수하며, 비용이 많이 드는 위험을 최소화하기 위해 의료 리더들은 “통제되지 않은” LLM 사용이라는 규정 준수 “시한폭탄”을 해체하기 위한 단호한 접근 방식을 취해야 합니다.

의료 분야에서의 범용 LLM 사용 현황

의료 전반에서 직원들은 행정 업무부터 환자 커뮤니케이션에 이르기까지 일상적인 업무를 지원하기 위해 점점 더 LLM을 활용하고 있습니다. 멀티모달 LLM 또한 텍스트, 이미지, 오디오를 쉽게 처리할 수 있는 능력으로 이러한 응용 분야를 더욱 확장하고 있습니다. 행정 지원 외에도, 제공자들이 단순한 사무 작업뿐만 아니라 임상 업무를 지원하기 위해 이 기술을 찾는 경우도 증가하고 있습니다.

이러한 모델들은 이미 일부가 인상적인 결과로 볼 수 있는 성과를 보여주고 있으며, 여러 연구에 따르면 LLM 성능이 특정 영역에서 인간의 능력을 충족하거나 심지어 능가합니다. 예를 들어, GPT-4 모델은 미국 의사 국가 시험(USMLE)을 종합 점수 86.7%로 통과했습니다.

하이브리드 AI는 기계 학습(ML)과 LLM을 결합하여 복잡한 분석을 처리하고 결과를 평이한 언어로 번역하는 의료 분야 생성형 AI 사용의 또 다른 새로운 접근 방식입니다. 두 모델을 통합함으로써 이 접근 방식은 환각, 부정확성, 편향을 포함한 LLM의 단점을 극복하면서 그 강점을 활용하려고 합니다. 에이전트 AI 또한 환자 메시지에 응답하거나 예약을 스케줄링하는 것과 같이 인간의 입력 없이 핵심 작업을 자동화할 수 있는 능력으로 도입이 증가하고 있습니다.

그러나 AI가 지닌 잠재력은 보다 적극적인 거버넌스의 긴요한 필요성을 부각시킵니다. 이러한 도구들이 의료 운영에 더 깊이 내재될수록 정확성, 안전성 및 규정 준수를 보장하는 데 걸린 위험은 더 커집니다.

의료 분야에서의 범용 LLM의 규정 준수 위험

의료 분야의 디지털 도입은 새로운 가능성을 다수 열어주었지만, 동시에 주요 취약점도 노출시켰습니다. 예를 들어, 2023년 11월 1일부터 2024년 10월 31일 사이에 의료 부문은 1,710건의 보안 사고를 경험했으며, 그중 1,542건은 데이터 유출이 확인된 사건이었습니다.

AI 시대는 이러한 균열을 더욱 깊게 하여 데이터 프라이버시와 보안에 새로운 복잡성을 추가합니다. 보다 구체적으로, 의료 분야에서 범용 LLM의 사용은 몇 가지 주요 규정 준수 위험을 불러일으킵니다:

위험 #1: 불투명한 상자 개발 방식으로 인한 지속적 모니터링 또는 검증 불가

폐쇄형 모델은 모델이 어떤 특정 데이터로 훈련되었는지 또는 업데이트가 어떻게 이루어지는지와 같은 개발 과정에 대한 투명성이 부족합니다. 이러한 불투명성은 개발자와 연구자가 모델을 깊이 파고들어 안전 위험의 근원을 결정하거나 의사 결정 과정을 식별하는 것을 방해합니다. 결과적으로, 폐쇄형 LLM은 검증되지 않은 의료 데이터 소스의 사용을 가능하게 하고 안전 취약점이 통제되지 않은 채로 방치되도록 할 수 있습니다.

위험 #2: 환자 데이터 유출

LLM이 항상 비식별화된 환자 데이터에 의존하는 것은 아닙니다. 특수한 프롬프트나 상호작용은 식별 가능한 건강 정보를 의도치 않게 드러낼 수 있어 HIPAA 위반 가능성을 초래합니다.

위험 #3: 편향 및 부정확한 정보의 영속화

한 실험에서 연구자들은 생의학 모델의 지식 기반 한 범주에 소량의 잘못된 사실을 주입하면서 다른 모든 영역에서의 모델 행동은 보존했습니다. 연구자들은 허위 정보가 모델의 출력 전반에 걸쳐 전파된다는 것을 발견했으며, 이는 LLM이 허위 정보 공격에 취약하다는 점을 강조했습니다.

기초 모델에서 발견된 모든 결함은 상위 모델로부터 채택된 모든 모델과 결과적인 애플리케이션에 상속됩니다. 출력의 불균형은 대표성이 부족한 그룹에 대한 부정확한 조언과 같은 건강 불평등을 악화시킬 수 있습니다.

위험 #4: 규제 불일치

범용 LLM의 사용은 공급업체가 훈련 데이터를 검증할 수 없는 경우, 특히 HIPAA, GDPR 또는 진화하는 AI 특정 규정을 준수하지 않을 수 있습니다. 이러한 위험은 의료 기관 직원들이 승인되지 않거나 모니터링되지 않은 AI 도구 또는 섀도우 AI를 사용함으로써 더욱 가중됩니다. IBM에 따르면, 모든 부문의 조사 대상 조직의 20%가 섀도우 AI와 관련된 보안 사고로 인한 위반 사건을 겪었습니다.

궁극적으로, 의료 분야에서의 범용 LLM 위험은 법적 조치, 평판 손상, 환자 신뢰 상실 및 소송 비용을 포함한 실제적인 영향을 미칩니다.

모범 사례: LLM 지침 및 고려 사항

생성형 AI를 책임 있게 도입하기 위해 의료 리더들은 환자와 기관 모두를 보호하는 명확한 가드레일을 수립해야 합니다. 다음 모범 사례는 의료 기관이 책임 있고 규정을 준수하는 AI 사용을 위한 기초를 마련하는 데 도움이 될 수 있습니다:

모범 사례 #1: AI 기술을 현명하게 선택하라

공급업체에게 AI 기술이 어떻게 개발되었는지, 개발 과정에서 어떤 데이터 소스가 사용되었는지에 대한 명확성을 요구하십시오. 전문가가 검증한 의료 콘텐츠만 활용하고, 투명한 의사 결정 과정을 가지며, 환자 건강 정보로 모델을 훈련하지 않는 도구를 우선시하십시오.

모범 사례 #2: 인간 개입(Human-in-the-Loop) 안전 장치 구축

진료 결정에 영향을 미칠 수 있는 AI 생성 출력은 임상의가 검토하도록 보장하십시오. AI는 강력한 도구가 될 수 있지만, 환자의 삶에 직접적인 영향을 미치는 산업에서는 임상 감독이 책임 있는 사용과 AI 지원 정보의 정확성을 보장하는 핵심입니다.

모범 사례 #3: 교육 및 인력 준비

임상의와 직원들에게 AI 사용의 이점과 위험에 대해 교육하여 섀도우 AI 도입을 줄이십시오. 의료 직원들은 인력 부족과 높은 번아웃 비율로 인해 긴장된 복잡한 인력 환경을 헤쳐나가고 있습니다. AI 교육 과정을 단순화하면 업무 부담을 더하지 않으면서 규정 준수를 보장하는 데 도움이 됩니다.

모범 사례 #4: 거버넌스 문화 확립

AI 솔루션의 안전성, 신뢰성 및 규정 준수를 검증하기 위해 제3자 평가를 통합하십시오. 동시에, 승인, 사용 및 모니터링을 정의하는 조직 전체의 명확한 AI 감독 프레임워크를 구현하여 기술에 대한 신뢰를 더욱 강화하고 직원들이 무단 도구를 사용하는 것을 방지하십시오.

모범 사례 #5: 리더십과 AI 관리 책임 조정

리더십과 협력하여 FDA와 ONC의 지침뿐만 아니라 진화하는 규정을 앞서 나가십시오. 주 차원에서도 규제 노력이 나타나고 있습니다. 예를 들어, 캘리포니아는 특히 의료 환경에서 위험 공개, 투명성 및 완화를 강조하는 Transparency in Frontier AI Act를 제정했으며, 알고리즘적 차별을 방지하기 위해 설계된 Colorado Artificial Intelligence Act (CAIA)도 있습니다.

모범 사례 #6: 지속적 모니터링 및 피드백 루프

의료 환경 내에서의 AI 사용은 절대 “설정하고 잊어버리는” 마음가짐으로 접근해서는 안 됩니다. 지속적인 모니터링을 위한 프레임워크를 설정하면 AI 도구의 정확성을 보장하고, 책임성을 강화하며, 시간이 지남에 따라 규정 준수를 유지하는 데 도움이 될 수 있습니다.

모범 사례 #7: 감독 및 연구 최적화를 위한 파트너십 추구

의료 기관은 규제 기관 및 공공 부문과의 파트너십을 활용하여 감독을 극대화하고, 안전 표준에 대한 산업적 관점을 기여하며, 전문가 자원을 결합해야 합니다.

규정 준수 리더십을 통한 신뢰 구축

의료 분야에서 AI 솔루션의 차별화는 점점 더 전문가 콘텐츠의 질, 평가 과정의 무결성, 그리고 임상 워크플로우에의 책임 있는 통합에 달려 있을 것입니다. AI 도입의 다음 단계는 코드보다는 규정 준수 리더십에 더 많이 좌우될 것입니다.

신뢰는 규정 준수 자체만큼 중요합니다. 기술이 진정으로 효과적이기 위해서는 환자와 제공자들이 AI가 안전하며 고품질의 윤리적인 치료와 일치한다고 믿어야 합니다. 규정 준수 리더십은 단순한 방어적 조치가 아닌 전략적 이점입니다. 유해한 사건이 발생하기 전에 미리 가드레일을 수립하는 선도적인 조직들은 AI 기반 의료 미래에서 자신들을 차별화할 것입니다.

//www.wolterskluwer.com/en/health">Wolters Kluwer의 헬스 부문에서 제품 엔지니어링을 총괄하며 부문 CTO를 역임하고 있습니다. 또한 AI 및 데이터 센터 오브 엑설런스를 이끌어 기업 전반에 걸친 혁신과 첨단 기술 도입을 주도하고 있습니다.