Anderson의 관점

AI가 실제 사람에게 더 빠르게 연결해줄 수 있다

Published October 29, 2025

Updated April 25, 2026

Martin Anderson

A stock-style image of a smashed domestic landline phone, where the receiver has been thrust into the main phone body. Qwen, Qwen Edit 5209, Firefly V3 et al.

새로운 연구에 따르면 오픈 소스 ChatGPT 스타일 AI 설정은 자연어를 사용하여 호출 센터에서 올바른 사람에게 호출자를 연결할 수 있으며, 매주 다른令人沮丧하는 메뉴 선택을 따르지 않아도 된다.

실제 사람에게 연결되는 것을 호출 센터에서 경험하는 것은 느린 속도로 여러 선택지를 탐색해야 하기 때문에令人沮丧하는 경험이 될 수 있다. 이러한 선택 중 하나도 당신의 경우에 적합하지 않다면, 경험있는 사용자는 ‘선택지 지옥’에서 벗어나기 위해 인간 고문을 얻기 위한 트릭과 우회 방법을 사용하는 경향이 있다. 많은 사람들이 이것을 더 또는 덜 ‘전투적’이고 사용자에게 적대적인 경험으로 인식할 것이다.

예상대로, 호출 센터는 AI 시스템에 의해 증강 또는 대체되는 최전선에 있다. 일부 구역에서慎重한 접근 방식을 권장하는 반면, 호출 센터 AI 자동화는 기술 헤드라인과 비즈니스에 대한 이점을 제공하는 데早期 ROI를 제공하는低垂의 果實이다.

자체 개발

그러나 오픈 소스 원칙과 무료로 제공되는 데이터가 거의 적용되거나 사용할 수 없는 분야도 있다. 이것은 이해할 수 있다. 고객 응답 시스템을 자동화하려는 모든 회사는 하드웨어 인사이트, 방법론 또는 기업 지적 재산을 구축하는 데 관심이 없다.

첫째, 이러한 자원을 공유하면 경쟁사에 대한 우위를 잃을 것이다. 더 중요한 것은, AI-in-the-loop 시스템이 기밀 정보를 공개하는 경향이 있기 때문에 법적으로 위험하다.

이로 인해 여러 잘 투자된 플레이어가 서로 독립적으로 AI 지원 호출 센터 응답 시스템을 개발하게 되었으며, 또한 AI 기반 고객 응답 기능에 대한 수요가 증가함에 따라 B2B 스타트업과既存의 주요 플레이어가 등장하게 되었다.

PolyAI 음성 보조자가 가상의 회사 ‘Augusta Lawn Care’의 고객 서비스 호출을 열며, 기존 호출 센터 인프라를 통해 대화 트레이닝 데이터를 사용하여 자동 응답을 생성한다. 출처

또한 호출 센터 미로를 탐색하는 불편함을 제거하기 위한 경주는 연구 노력을 자극하는 요인이 되었다. 그러나 이러한 대부분의 출판물은 Arxiv 및 기타 오픈 연구 출판 네트워크 외부에서 발생하는 경향이 있다. 이것은 IVR 개발의 일반적으로 비밀스러운 성격을 반영한다.

대신, AI 고객 응답 시스템의 자동화와 관련된 연구, 데이터 및 비즈니스 인텔리전스는 모두 질투적으로 보호되며, 오픈 소스 옵션이 거의 없다. 심지어 FOSS 시스템과 데이터를 사용하는 것이 법적으로 합법적인 옵션이라도, 이는 의심스럽다.

로컬 호출

이 점을 고려하면 콜롬비아의 새로운 논문이 IVR을 조금이라도 기업의 금고에서 해방시키려는 시도를 보는 것이 상쾌하다. 새로운 연구는 ‘IVR 터치 톤을 넘어서: LLM을 사용한 고객 의도 라우팅’이라는 간결한 제목을 가진 논문으로, 콜롬비아의 Universidad Distrital Francisco José de Caldas의 연구자에 의해 작성되었으며, 고객 의도 라우팅(CIR) 시스템에 대한 작동 가능한 스키마를 생성하기 위해 대형 언어 모델(LLM)을 사용하는 최초의 비 폐쇄 프로젝트라고 주장한다.

실제 세계 호출 데이터나 사유 메뉴 트리에 접근하려고 시도하는 대신, 새로운 프로젝트는 세 가지 AI 모델을 사용하여 모든 구성 요소를 처음부터 생성한다. 하나는 현실적인 호출 센터 메뉴를 발명하기 위해, 다른 하나는 수백 개의 호출자 불만을 시뮬레이션하기 위해, 세 번째는 채팅봇으로서 호출자를 올바른 목적지로 라우팅하려고 한다.

결과는 완전히 합성되었지만 믿을 수 있는 테스트 베드이며, 920개의 고유한 사용자 쿼리와 함께 가상의 통신 회사를 특징으로 하며, 실험을 통해 법적 위험을 피하면서 현재 AI가 모호하고 어수선한 언어를 해석하고 호출자를 올바른 사람에게 연결할 수 있는지 테스트할 수 있다.

테스트 결과 시스템이 자유 형식의 호출자 불만을 호출 센터 목적지에 정확하게 일치시키는 정확도가 89.13%까지 달할 수 있음을 나타냈다. 특히 ‘평면화된’ 메뉴 옵션이 제공될 때는 더욱 그러하다(稍後에 자세히 설명한다).

연구에서도 호출자가 더 캐주얼하거나 다양한 언어를 사용할수록 AI가 더 오류를犯す 것으로 나타났지만, 일부 오류는 AI가 잘못 이해한 것이 아니라 전화 메뉴 자체가 혼란스러웠기 때문이었다.

새로운 프로젝트의 일부로 공유된 고객 상호 작용 예시. 출처

프로젝트 데이터는 공개로 제공된다.

방법

첫 번째 모델은 가상의 통신 회사에 대한詳細한 전화 메뉴를 생성한다. 두 번째 모델은 호출자 메시지를 생성하여 실제로 사람들이 도움을 위해 호출할 때 어떻게 말하는지 시뮬레이션한다. 이를 위해 프로젝트를 위해 920개의 예시가 생성되었다.

세 번째 모델은 각 호출자를 메시지와 메뉴 버전에 따라 올바른 부서로 연결하는 임무를 맡았다. 이 스키마는 실험을 완전히 반복 가능하게 하면서도 실제 호출 데이터나 고객 정보를 노출할 필요를 피했다:

삼중 접근 방식에 사용된 세 가지 시스템. 출처

각각 사용된 세 가지 모델은 gpt-3.5-turbo, gpt-4o-mini, 및 gpt-4.1-mini였다.

현실적인 고객 서비스 환경을 시뮬레이션하기 위해 처음부터 전화 메뉴를 생성하는 것이 필요했다. 관련 데이터셋이 부족하기 때문에, gpt-3.5-turbo 모델은 가상의 통신 제공업체를 위한 전체 다단계 구조를 생성하도록 지시받았다.

각 브랜치는 청구, 기술 지원, 계정 관리, 새로운 서비스와 같은 서비스 영역을 나타내도록 구성되었으며, 현실적인 하위 옵션과 트리 전체에 걸쳐 다양한 깊이를 갖는다. 이 인공 메뉴에서 두 가지 버전이 나중에 테스트를 위해 생성되었다. 하나는 인간이 전체 메뉴를 읽을 수 있는 평면 텍스트 계층 구조였으며, 다른 하나는 각기 자신의 버튼 시퀀스를 갖는 엔드포인트 목록이었다.

이것은 시스템을 테스트하는 두 가지 방법을 허용했다. 하나는詳細한 텍스트 계층 구조를 사용하고, 다른 하나는 ‘스트립된 다운’ 버전의 라우팅 과제를 사용하는 것이다:

AI에게 제공된 두 가지 전화 메뉴 버전:詳細한 텍스트 계층 구조와 간결한 직접 메뉴 옵션 목록.

호출자 메시지를 생성하기 위해 두 번째 언어 모델을 사용하여 호출자 불만이나 요청의 고유한 집합을 생성했으며, 각 메뉴 엔드포인트에 대해 10개의 예시가 생성되었다.

이러한 각 예시는 다시 말할 수 있는 버전으로 확장되었으며, 실제 호출자가 문제를 어떻게 표현하는지 시뮬레이션하기 위해 길이, 톤,甚至 작은 오류 또는 ‘채우기’ 언어의 변경을 도입했다.

초기에 생성된 920개의 호출자 메시지는 시스템의 정밀도를 테스트하고 실제 세계 언어의 예측 불가능성을 시뮬레이션하기 위해 설계되었다.

세 번째 단계는 각 호출자 메시지를 메뉴의 두 가지 다른 버전에 따라 올바른 부서로 연결하는 데 얼마나 정확하게 모델을 매핑할 수 있는지 테스트했다(위 이미지 참조).

첫 번째 버전에서는 AI에게 전체 설명된 전화 트리 아웃라인이 제공되었으며, 두 번째 버전에서는 버튼 시퀀스와 연결된 최종 목적지 목록만 제공되었다.

목표는 간결한 목록 기반 프롬프트가 모델이 각 호출을 올바른 목적지로 라우팅하는 것을 더 신뢰성 있게 만드는지 확인하는 것이었다. 두 경우 모두, 시스템은 한 번에 하나의 메시지를 수신했으며, 자동 점수를 위해 추가 단어 또는 설명 없이 경로만 반환하도록 요청받았다.

격리

테스트 결과를 오염시키지 않기 위해 실험은 각 모델을 서로 분리했다. 전화 메뉴는 첫 번째 모델에 의해 작성되었지만, 다른 시스템에 익숙하지 않은 상태로 수동으로 최종화되었다.

호출자 메시지는 gpt-4o-mini에 의해 별도로 생성되었으며, 메뉴 구조에 접근할 수 없었다. 마지막으로, 호출자를 라우팅하는 것을 처리한 gpt-4.1-mini는 메뉴 텍스트와 들어오는 메시지만 보았으며, 메뉴나 메시지를 생성하는 데 참여하지 않았다.

측정

라우팅 시스템의 성능을 측정하기 위해 두 가지 표준 지표가 사용되었다: 정확도는 모델이 정확한 경로를 반환한 경우의 비율로 정의되었다(예: 1‑2‑3). 오류의 위치를 분리하기 위해 혼동 행렬도 생성되었으며, 각 경로가 다른 경로와 얼마나 자주 혼동되는지 보여주었다. 평가는 Python에서 pandas와 scikit-learn 라이브러리를 사용하여 수행되었다.

결과

테스트에서 모델의 정확도는 전화 메뉴가 표시되는 방식에 크게 의존했다. 평면화된 목록의 메뉴 경로가 제공될 때, 시스템은 더 간단한 데이터셋에서 89.13%의 정확도를 달성했으며, 전체 설명된 버전의 메뉴를 사용할 때는 81.30%의 정확도를 달성했다:

세 번째 모델(LLM3)의 라우팅 정확도, 다양한 프롬프트 형식 및 데이터셋 유형에 걸쳐, 평면화된 메뉴 경로가 일관되게 계층적 설명을 능가하며, 입력에 다시 말한 또는 비공식 언어가 포함될 때 정확도가 약간 감소함을 나타낸다.

이 패턴은 더 큰, 언어적으로 다양한 데이터셋에서도 유지되었으며, 평면화된 버전이 86.52%를 기록했으며, 설명형 형식은 77.07%를 기록했다.

이 결과는 논문에서 언급한 바와 같이, 더 간결한 목록 기반 프롬프트가 모델이 쿼리를 더 신뢰성 있게 일치시키는 데 도움이 된다고 제안한다.

또한 호출자 메시지의 다시 말한 및 비공식 버전이 도입될 때 정확도가 약간 감소했으며, 이것은 더 큰 다양성이 실제성을 향상시키지만 분류를 더 어렵게 만든다는 것을 나타낸다.

논문은 다음과 같이 결론을 내린다:

‘우리의 결과는 LLM이 평면화된 IVR 경로를 제공될 때(최대 89.13)보다冗長한 메뉴 설명(최저 77.07%)보다 의도를 더 정확하게 라우팅한다는 것을 보여준다. 이는 간결하고 구조화된 프롬프트가 노이즈를 줄이고 라우팅 작업과 더 잘 일치한다는 원리를 지원한다.

‘중요한 것은 메뉴를 평면화된 경로로 변환하는 것이 실제 사용을 위한 간단하고 자동화 가능한 과정이라는 것이다.’

결론

최소한으로도 연구의 가장 폐쇄적이고 배제적인 분야 중 하나에서 오픈 워크가 발생하고 있는 것을 보는 것이 상쾌하다. 앞으로 보아야 할 것은 ‘프레이밍’ 아키텍처가 필요할지, 아니면 모델이 로컬에서 사용 가능한 비즈니스 인텔리전스에만 접근하면 되며, 이는 제3자 제공업체와 데이터를 공유할 필요가 없음을 의미한다.

궁극적으로, 여기서 작동하는 더广い 설계 원칙은 향후 고객 서비스를 넘어서도 자연스럽게 채택될 가능성이 있으며, 의도적인 사용 사례에 대한 정렬이 필요하지 않다.

* 원본 논문 참조.

2025년 10월 29일 처음 게시됨