인공지능

정신 건강 AI 도구가 우연히 정확한 딥페이크 감지법을 발견한 방법

Published January 14, 2026

Updated April 25, 2026

Salomé Beyer Velez

기술 거물 Open AI가 2025년 9월에 플래그십 Sora 2 비디오 및 오디오 생성 모델을 출시했을 때, 딥페이크 비디오는 소셜 미디어 플랫폼을洪水로 만들었고, 잠재적으로 위험한 초현실적 콘텐츠에 대한 청중들의 인식이 점점 더 높아지고 있습니다.

Open AI는 Sora 2의 책임 있는 출시를 최우선 순위로 여겼지만, 사용자가 “피드에서 볼 수 있는 내용을 제어하고 자신의 유사성을 끝까지 제어할 수 있는 도구와 선택권을 제공할 것”이라고 주장했으며, 2025년 10월에 뉴스 가드 테크(NeesGuardTech)의 한 연구에 따르면 이 모델은 80%의 시간에 거짓 클레임 비디오를 생성했습니다.

몰도바 선거 관리 官員이 투표용지를 파괴하는 뉴스 리포트를模倣하는 비디오에서, 이민 관리 官員에 의해 구금된 어린이를 묘사하는 가짜 장면이나 코카콜라 대변인이 슈퍼볼을 후원하지 않을 것이라고 발표하는 장면까지, 잘못된 정보를 생성하는 것이 상호 연결된 세계에서 더 높은 결과를 가질 수 없습니다.

소라(Sora) 너머: 피싱(Voishing)

Open AI의 도구가 출시되기 전에 이미 딥페이크 파일의 생성과 온라인 배포가 증가하고 있었습니다. 사이버 보안 회사 DeepStrike의 2025년 9월 보고서에 따르면, 딥페이크 콘텐츠는 2023年的 50만개에서 2025年の驚異的な 800만개로 급증했으며, 대부분이 사기 목적으로 사용되었습니다.

이 추세는 멈추지 않는 것으로 보입니다. 미국에서만 AI 사기가 2027년까지 400억 달러에 이를 것으로 예상됩니다.

그런데도 이러한 급증은 양적 측면에만 국한되지 않습니다. Sora 2나 Google의 Veo 3와 같은 도구로 인해 AI 생성 얼굴, 목소리, 전신 공연의 콘텐츠가 지금까지와는 달리 더 현실적으로 되었습니다. 컴퓨터 과학자이자 딥페이크 연구자인 Siwei Lyu가 지적한 바와 같이, 현대 모델은歪曲이나 왜곡 없이 안정적인 얼굴을 생성할 수 있으며, 목소리 클로닝은 “구별할 수 없는 문턱”을 넘었습니다.

진실은, 딥페이크가 감지보다 앞서고 있습니다. 기술 회사들이 즐거운 도구로 판매하는 것, 즉 올림픽 체조 루틴이나 정교한 배경 사운드 스케이프를 생성하는 모든 것들은 범죄자들이 기업과 개인을 모두 표적으로 하여 악용하고 있습니다. 2025년 상반기 동안, 딥페이크 사건은 기업에 3억 5600만 달러, 개인에게 5억 4100만 달러의 손실을 초래했습니다.

전통적인 딥페이크 감지 방법, 즉 워터마크, 에어브러시된 얼굴, 메타데이터 확인 등은 실패하고 있습니다. 그리고 목소리 딥페이크가 두 번째로 흔한 AI启用 사기 형태이며, 보이스 피싱(vishing)이 2025년에 442% 증가한 가운데, 그 결과는 이미 나타나고 있습니다.

“몇 초의 오디오만으로도 자연스러운 억양, 리듬, 강조, 감정, па우즈, 호흡 소음을 갖춘 설득력 있는 클론을 생성할 수 있습니다.” Lyu는 적었습니다.

인간을 듣는 과학

Kintsugi는 우울증과 불안을 감지하는 음성 바이오마커 기술을 개발하는 헬스 테크 스타트업입니다. 그들의 작업은 간단한 전제에서 시작되었습니다. 즉, 인간을 듣는 것이 필수입니다.

“나는 Kintsugi를 개인적으로 경험한 문제 때문에 시작했습니다. 나는 5개월 동안 치료 세션을 예약하기 위해 제공업체에게 전화를 걸었지만, 아무도 전화를 받지 않았습니다. 나는 계속 시도했지만, 만약 그것이 나의 아버지나 형제였다면, 나는 이미 멈췄을 것입니다.” CEO 그레이스 창은 Unite.AI와의 대화에서 말했습니다.

캘리포니아에 본사를 둔 이 회사는 2019년에 “트라이어지 병목”이라고 창이 묘사한 문제를 해결하기 위해 설립되었습니다. 창은 조건을 더 일찍이고 수동으로 감지하여 사람들이 더 빠르게 적절한 치료를 받을 수 있도록 도와줄 수 있다고 믿었습니다. 그리고 Kintsugi Voice를 통해 음성 바이오마커는 우울증과 불안을 식별합니다.

음성 및 음성 분석을 정신 건강 상태의 바이오마커로 사용하는 성공적인 사례는 연구를 통해 입증되고 있습니다. 2025년 5월에 발표된 논문에 따르면, 음향 바이오마커는 정신 건강과 신경 발달 장애의 초기 징후를 감지할 수 있으며, 임상 환경에서 인지 기능 저하를 평가하기 위해 노래 분석을 통합하는 것을 주장했습니다.

음성 측정은 실제로 우울증이 있는 사람과 없는 사람을 식별하는 데 78%에서 96%의 정확도를 보입니다. 미국 정신 의학회에 따르면, 음성 바이오마커는 우울증과 불안을 감지하는 데 효과적인 도구입니다.

창이 처음에는 깨닫지 못했지만, 기술은 보안 산업의 가장 긴급한 도전 중 하나를 해결했습니다. 즉, 인간 음성이 무엇인지 식별하는 것입니다.

정신 건강 관리에서 사이버 보안까지

2025년 말 뉴욕에서 열린 정상 회의에서, 창은 사이버 보안 분야의 친구에게 합성 음성을 실험하는 것이 실망스러웠다고 말했습니다.

“우리는 우리의 정신 건강 모델을 훈련하기 위해 합성 데이터를 탐색했지만, 생성된 음성은 실제 인간 음성과 너무 다르해서 우리는 거의 100%의 경우를 구별할 수 있었습니다.”라고 그녀는 말했습니다.

“그는 나를 막고 ‘그레이스, 이것은 보안에서 해결된 문제가 아닙니다’라고 했습니다. 그 순간 모든 것이 연결되었습니다. 이후 보안, 금융 서비스, 통신 회사와의 대화는 딥페이크 음성 공격이 얼마나 빠르게 증가하고 있는지, 그리고 라이브 콜에서 인간 음성과 합성 음성을 구별하는 필요성을 확인했습니다.” 창은 추가했습니다.

2025년 4월, FBI는 미국 고위 官員으로 가장하는 악의적인 문자 및 음성 메시지 캠페인에 대해 경고했습니다. 미국의 대형 국립 은행은 하루 평균 5.5회의 음성 조작 사기 시도를 목표로 하였으며, 밴더빌트 대학 의료 센터의 병원 직원은 보이스 피싱 공격을 보고했습니다.

딥페이크는 초기에 Kintsugi의 작업에 포함되지 않았습니다. 회사의 팀은 Cartesia, Sesame, ElevenLabs와 같은 오프-더-쉘프 모델을 사용하여 행정 콜 센터 에이전트와 아웃바운드 워크플로우를 위한 합성 음성을 실험했습니다. 그러나 딥페이크 사기는 Sora와 같은 모델이 특징적인 시장에서焦点이되지 않았습니다.

인간 음성의 진위를 나타내는 인간 수준의 신호는 인간이 인간인 것을 만드는 동일한 바이오마커입니다. 언어나 의미와는 상관없이, Kintsugi Voice는 신호 처리와 음성의 물리적 지연을 작동시키며, 미묘한 타이밍, 프로소디 변동성, 인지 부하, 그리고 음성이 생성되는 방식을 반영하는 생리학적 마커를 캡처합니다.

“합성 음성은 유창할 수 있지만, 동일한 생물학적 및 인지적 아티팩트를 갖지 않습니다.” 창은 말했습니다. 회사의 모델은 3~5초의 오디오만으로도 감지 정확도에서 상위 10%의 성과를 보입니다.

Kintsugi는 특히 전문가와의 치료를 받는 데 시간과 자원이 소요되는 지역에서 정신 건강과 관련하여 어려움을 겪는 사람들에게 혁신적인 변화를 가져올 수 있습니다. 동시에, 기술은 딥페이크 감지와 사이버 보안에 대한 혁신을 가져올 수 있습니다. 즉, 진위를 감지하는 것입니다.

미래는 인간 중심 기술에 달려 있다

サイ버 보안은 오랫동안 기술의 악용 또는 가해자 자체에 초점을 맞추어 왔습니다. 그러나 Kintsugi의 우연한 발견은 인간성 자체에賭けて 있습니다.

“우리는 완전히 다른 표면 영역에서 작동하고 있습니다. 즉, 인간의 진위를 확인하는 것입니다. LLM은 LLM 생성 콘텐츠를 신뢰할 수 있게 감지할 수 없으며, 아티팩트 기반 방법은 취약합니다. 실제 인간의 변동성을 인코딩하는 대규모 임상 레이블 데이터セット을 캡처하는 것은 비용이 많이 들고, 느리며, 대부분의 보안 회사들의 핵심 전문 분야 밖입니다.” 창은 말했습니다.

스타트업의 접근 방식은 또한 더广い 전환을 시사합니다. 즉, 도메인 간 혁신입니다. 건강 관리 분야의 선도자는 AI 지원 보이스 피싱 감지에서 선도적인 역할을 할 수 있으며, 우주 기술의 혁신자는 새로운 응급 대응 메커니즘을 지원할 수 있습니다.

창은 음성 상호 작용을 통해 실제 인간과 실제 의도를 확인하는 표준이 되는 것을 목표로 합니다.

“HTTPS가 웹의 기본 신뢰 계층이 된 것처럼, 우리는 ‘인간 증명’이 음성 기반 시스템의 기본 계층이 될 것이라고 믿습니다. 신호는 그 인프라의 시작입니다.”라고 그녀는 말했습니다.

생성적 AI가 계속 가속화함에 따라, 가장 효과적인 방어 수단은 인간이 인간인 것을 이해하는 데서 나올 수 있습니다.