Connect with us

Anderson의 관점

AI가 실시간 상담원 연결을 더 빠르게 도울 수 있다

mm
A stock-style image of a smashed domestic landline phone, where the receiver has been thrust into the main phone body. Qwen, Qwen Edit 5209, Firefly V3 et al.

새로운 연구에 따르면, 오픈소스 ChatGPT 스타일 AI 시스템이 자연어를 사용하여 콜센터 이용자를 적절한 상담원으로 연결할 수 있는 잠재력이 있습니다. 매주 달라지고 의도적으로 방해하는 듯한 짜증나는 메뉴 선택을 따르지 않고도 가능합니다.

 

콜센터에서 실시간 상담원과 연결되려는 시도는 종종 좌절스러운 경험입니다. 느린 속도로 여러 선택지를 탐색해야 하며, 어떤 선택지가 자신의 경우에 적합한지 확신하지 못하는 경우가 많기 때문입니다. 만약 어떤 선택지도 해당되지 않는다면, 경험 많은 이용자들은 요령과 우회 방법을 사용하여 어떤 형태로든 인간 상담원에게 접근하고 ‘옵션 지옥’에서 벗어나려고 합니다. 많은 사람들이 이를 다소 ‘전투적인’ 그리고 사용자에게 적대적인 경험으로 인식할 것입니다.

당연하게도, 콜센터는 AI 시스템에 의한 증강 또는 대체의 최전선에 있습니다. 그리고 신중한 접근 방식이 일각에서 촉구되고 있음에도 불구하고, 콜센터 AI 자동화는 여전히 기술 헤드라인과 이례적으로 빠른 초기 투자 수익률(ROI)을 제공할 수 있는 AI 기반 혁신의 전망을 위한 낮게 열매로 남아 있습니다.

폐쇄적 영역

그러나 오픈소스 원칙과 자유롭게 이용 가능한 데이터가 거의 적용되거나 제공되지 않는 분야가 있으며, 이 분야가 그 중 하나입니다. 이는 당연합니다: 고객 응답 시스템을 자동화하려는 모든 회사는 그들이 어렵게 얻은 통찰력, 방법론 또는 기업 지식재산을 구동하는 데이터를 공유하는 데 제한적이거나 전혀 관심이 없을 것입니다.

한 가지로, 이러한 자원을 공유하는 것은 경쟁사에 대한 우위를 잃는 것을 의미합니다. 더 중요한 것은, AI 연계 시스템이 특권 정보를 유출하기 쉬운 점을 고려할 때 법적 위험이 따릅니다.

이로 인해 많은 자금을 투자받은 업체들이 서로 독립적으로(아마도 불가피한 노력의 중복이 있겠지만) AI 지원 콜센터 응답 시스템을 개발하게 되었고, AI 기반 고객 응답 역량에 대한 증가하는 수요를 충족시키려는 B2B 스타트업과 기존 업체들이 확산되었습니다.

PolyAI 음성 어시스턴트가 가상 회사 'Augusta Lawn Care'의 고객 서비스 통화를 시작하며, 대량의 훈련 대화를 활용하여 기존 콜센터 인프라를 통해 응답을 자동화합니다. 출처: https://www.unite.ai/best-ai-phone-platforms/에서 수집

PolyAI 음성 어시스턴트가 가상 회사 ‘Augusta Lawn Care’의 고객 서비스 통화를 시작하며, 대량의 훈련 대화를 활용하여 기존 콜센터 인프라를 통해 응답을 자동화합니다. Source

또한, 콜센터 미로 탐색의 좌절감을 제거하려는 경쟁은 연구 노력의 촉매제가 되었습니다. 비록 대부분의 이러한 출판물이 일반적인 IVR(Interactive Voice Response) 개발의 은밀한 성격에 맞춰 Arxiv 및 기타 오픈 연구 출판 네트워크가 아닌 곳에서 이루어지는 경향이 있지만요.

대신, 고객 응답 시스템의 AI 자동화와 관련된 연구, 데이터 및 비즈니스 인텔리전스는 모두 질투심 많게 보호되며, 이용 가능한 오픈소스 옵션은 매우 적습니다. FOSS 시스템과 데이터 사용이 법적으로 건전한 옵션을 제공했다 하더라도 말이죠. 이는 의심스럽습니다.

지역 통화

이를 염두에 두고, 콜롬비아의 새로운 논문이 IVR을 기업의 금고에서 조금이라도 벗어나게 하려는 시도를 보이는 것은 신선합니다. 새로운 연구Beyond IVR Touch-Tones: Customer Intent Routing using LLMs라는 제목의 간결한 논문으로, 보고타의 Universidad Distrital Francisco José de Caldas 연구자가 작성했으며, 대규모 언어 모델(LLM)을 사용하여 작동하는 고객 의도 라우팅(CIR) 시스템 체계를 생성하는 첫 번째 비폐쇄적 프로젝트라고 주장합니다.

실제 통화 데이터나 독점 메뉴 트리에 접근하려고 시도하는 대신, 이 새로운 프로젝트는 세 가지 AI 모델을 사용하여 모든 구성 요소를 처음부터 생성합니다: 하나는 현실적인 콜센터 메뉴를 발명하고, 다른 하나는 수백 가지의 발신자 불만을 시뮬레이션하며, 세 번째는 챗봇 역할을 하여 그 불만들을 올바른 목적지로 라우팅하려고 합니다.

결과는 완전히 합성되었지만 설득력 있는 테스트베드로, 가상의 통신 회사와 920개의 고유한 사용자 질의를 특징으로 하며, 실험은 법적 위험을 피하면서 현재 AI가 모호하고 지저분한 음성을 얼마나 잘 해석하고 여전히 발신자를 올바른 사람에게 연결할 수 있는지 탐구할 수 있게 합니다.

테스트에 따르면, 이 체계의 시스템은 자유 형식의 발신자 불만을 최대 89.13%의 정확도로 올바른 콜센터 목적지에 매칭할 수 있으며, 특히 장황한 설명 대신 ‘평면화된’ 메뉴 옵션이 제공될 때 더욱 그렇습니다(이에 대해서는 나중에 더 설명합니다).

연구는 또한 발신자가 더 캐주얼하거나 다양한 언어를 사용할 때 AI가 더 많이 실수한다는 것을 발견했지만, 그런 실수 중 일부는 AI가 오해했기 때문이 아니라 전화 메뉴 자체가 혼란스러웠기 때문에 발생했습니다.

새 프로젝트의 일부로 공유된 고객 상호작용 예시. [출처] https://figshare.com/articles/dataset/Beyond_IVR_Touch-Tones_Customer_Intent_Routing_using_LLMs/30118690

새 프로젝트의 일부로 공유된 고객 상호작용 예시. Source

프로젝트 데이터는 공개적으로 이용 가능하게 되었습니다.

방법

삼분 접근법의 첫 번째 모델은 가상의 통신 회사를 위한 상세한 전화 메뉴를 생성합니다. 두 번째 모델은 독특한 발신자 메시지를 생성합니다. 간단한 것부터 재구성되거나 더 캐주얼하게 만들어진 것까지, 사람들이 도움을 요청하며 실제로 말하는 방식을 시뮬레이션합니다. 이와 관련하여 프로젝트를 위해 920개의 예시가 생성되었습니다.

세 번째 모델은 메시지와 메뉴의 한 버전만을 기반으로 각 발신자를 올바른 부서에 연결하는 임무를 부여받았습니다. 이 체계는 실험을 완전히 반복 가능하게 하면서도 실제 통화 데이터 필요성이나 고객 정보 노출을 피할 수 있게 했습니다:

삼분 접근법을 위해 선택된 세 가지 시스템. [출처] https://arxiv.org/pdf/2510.21715

삼분 접근법을 위해 선택된 세 가지 시스템. Source

사용된 세 모델은 각각 gpt-3.5-turbo; gpt-4o-mini; 그리고 gpt-4.1-mini였습니다.

설득력 있는 고객 서비스 환경을 시뮬레이션하기 위해서는 처음부터 복잡한 전화 메뉴를 합성할 필요가 있었습니다. 관련 데이터셋의 부족으로 인해, gpt-3.5-turbo 모델은 가상의 통신 사업자를 위한 완전한 다중 분기 구조를 생성하도록 프롬프트되었습니다.

각 분기는 요금 청구, 기술 지원, 계정 관리, 신규 서비스와 같은 서비스 영역을 나타내도록 구성되었으며, 현실적인 하위 옵션과 트리 전체에 걸친 다양한 깊이를 가졌습니다. 이 인공 메뉴에서 나중에 테스트하기 위해 두 가지 버전이 생성되었습니다: 하나는 사람이 전체 메뉴를 읽는 방식을 모방한 일반 텍스트 계층 구조로, 다른 하나는 각각 고유한 버튼 누름 시퀀스를 가진 엔드포인트 목록으로.

이를 통해 시스템이 라우팅 과제의 상세한 버전과 ‘간소화된’ 버전 모두에서 테스트될 수 있었습니다:

AI에 제공된 두 가지 버전의 전화 메뉴: 상세한 텍스트 계층 구조와 간소화된 직접 메뉴 옵션 목록으로, 각 형식이 발신자를 올바른 장소로 라우팅하는 데 얼마나 잘 지원하는지 비교했습니다.

AI에 제공된 두 가지 버전의 전화 메뉴: 상세한 텍스트 계층 구조와 간소화된 직접 메뉴 옵션 목록으로, 각 형식이 발신자를 올바른 장소로 라우팅하는 데 얼마나 잘 지원하는지 비교했습니다.

테스트에 필요한 발신자 메시지를 생성하기 위해, 두 번째 언어 모델을 사용하여 원본 불만 또는 요청 세트를 생성했으며, 각 메뉴 엔드포인트에 대해 10개의 고유한 예시를 만들었습니다.

이들 각각은 그런 다음 여러 개의 재구성된 버전으로 확장되어 실제 발신자들이 자신의 문제를 표현할 수 있는 다양한 방식을 모방했으며, 길이, 어조의 변화, 심지어 사소한 오류나 ‘필러’ 언어를 도입했습니다.

처음에 생성된 920개의 발신자 메시지는 시스템의 정밀도를 테스트하고 실제 음성의 예측 불가능성을 시뮬레이션하도록 설계되었습니다.

세 번째 단계는 최종 모델이 IVR 시스템을 제시하는 두 가지 다른 방식(위 이미지 참조)을 기반으로 각 발신자 메시지를 올바른 메뉴 목적지에 얼마나 정확하게 매핑할 수 있는지 테스트했습니다.

첫 번째 버전에서 AI는 전화 트리의 모든 분기와 하위 옵션이 텍스트 형태로 나열된 완전하고 설명적인 개요를 제공받았습니다. 두 번째 버전에서는 버튼 시퀀스와 연결된 최종 목적지 목록만 보았습니다.

목표는 간소화된 메뉴 버전이 모델이 각 통화가 어디로 가야 하는지 결정하는 것을 더 쉽게 만들어 줄지 보는 것이었습니다. 두 경우 모두 시스템은 한 번에 하나의 메시지를 받았고, 자동 채점을 용이하게 하기 위해 경로만 반환하도록 요청받았으며, 추가 단어나 설명은 없었습니다.

격리

테스트 결과를 오염시키지 않기 위해, 실험은 각 모델을 다른 모델들로부터 격리시켰습니다: 전화 메뉴는 첫 번째 모델에 의해 초안이 작성되었지만, 그 후 수동으로 최종화되어 다른 시스템들에게는 익숙하지 않게 유지되었습니다.

발신자 메시지는 그런 다음 gpt-4o-mini에 의해 별도로 생성되었으며, 엔드포인트의 이름만 사용하고 메뉴 구조에는 접근하지 못했습니다. 마지막으로, 라우팅을 처리한 gpt-4.1-mini는 메뉴 텍스트와 수신 메시지만 보았으며, 둘 중 어느 것의 생성에도 관여하지 않았습니다.

측정 기준

라우팅 시스템의 성능을 측정하기 위해 두 가지 표준 측정 기준이 사용되었습니다: 정확도는 모델이 정확한 경로(예: 123)를 반환한 사례의 백분율로 정의되었습니다. 오류의 위치를 분리하기 위해 혼동 행렬도 생성되었으며*, 각 경로가 다른 경로와 얼마나 자주 혼동되었는지 보여줍니다. 평가는 pandasscikit-learn 라이브러리를 사용하여 Python에서 실행되었습니다.

결과

테스트에서 모델의 정확도는 전화 메뉴가 어떻게 제시되었는지에 크게 의존했습니다: 평면화된 메뉴 경로 목록이 제공되었을 때, 시스템은 더 간단한 데이터셋에서 89.13%의 정확도에 도달했으며, 이는 메뉴의 완전한 설명 버전을 사용했을 때의 81.30%와 비교됩니다:

[c

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai