인터뷰

Matt Hocking, WellSaid Labs 공동 창립자 – 인터뷰 시리즈

업데이트 on 2024 년 4 월 10 일

Matt Hocking은 공동 창립자입니다. 웰사이드랩스, 최고의 엔터프라이즈급 AI 음성 생성기. 그는 15년 넘게 팀을 이끌고 기술 솔루션을 대규모로 제공한 경험을 갖고 있습니다.

당신의 배경은 상당히 기업가적입니다. 처음에 AI에 어떻게 참여하게 되었나요?

나는 항상 나 자신이 꽤 기업가적이라고 생각해왔다고 생각한다. 저는 대학 졸업 후 처음으로 사업을 시작했고 제품 디자인에 대한 배경 지식을 바탕으로 초기 단계의 아이디어로 사람들을 돕는 데 관심을 갖고 있습니다. 제 경력 전반에 걸쳐 저는 꽤 놀라운 실적을 거둔 여러 스타트업과 함께 일할 수 있는 행운을 누렸습니다. 그러한 경험을 하는 동안 저는 많은 훌륭한 창업자들을 직접 접했고, 그 결과 창업자로서 나만의 아이디어를 추구하도록 영감을 받았습니다. AI2에 합류했을 때 AI는 나에게 비교적 새로운 것이었습니다. 그러나 그 경험은 제 제품과 스타트업 관점을 정말 놀라운 연구에 적용하고 이러한 새로운 발전이 앞으로 많은 사람들에게 어떻게 도움이 될 수 있는지 상상할 수 있는 기회를 제공했습니다. 처음부터 저의 목표는 실제 사람들을 위한 실제 비즈니스를 개발하는 것이었습니다. 저는 AI가 신중하게 적용된다면 미래에 많은 흥미로운 기회와 효율성을 창출할 수 있는 잠재력을 가지고 있다고 믿습니다.

WellSaid Labs에 거주하는 기업가였을 때 어떻게 아이디어가 탄생했는지 이야기를 나눠주실 수 있나요? Allen AI 연구소?

저는 2년에 상주 기업가로 Allen Institute for Artificial Intelligence(AI2018)에 합류했습니다. 세계에서 가장 혁신적인 인큐베이터라고 할 수 있는 AI2에는 오늘날 가능한 것의 가장자리부터 문제를 해결하는 유형의 제품에 이르기까지 솔루션을 적용하는 AI 분야에서 가장 뛰어난 인재들이 있습니다. 전 세계의 문제. 디자인과 기술에 대한 저의 배경은 창의적인 분야에 대한 오랜 관심을 키워줬고, 오늘날 우리 모두가 목격하고 있는 AI 붐과 함께 저는 이 둘을 연결할 수 있는 방법을 모색하고 싶었습니다. 저는 다양한 민감한 시나리오를 통해 환자를 안내하는 대화형 의료 앱을 개발하는 동안 Michael Petrochuk(WellSaid Labs 공동 창립자 겸 CTO)를 소개받았습니다. 경험을 위한 콘텐츠를 개발하는 과정에서 우리 팀은 성우와 협력하여 아바타에 대한 수천 줄의 음성 해설을 사전 녹음했습니다. Michael이 연구 중에 달성한 몇 가지 획기적인 성과를 접했을 때, 우리 둘 다 인간과 동등한 TTS(텍스트 음성 변환)가 제가 작업 중인 제품뿐만 아니라 수많은 사람들에게 영향을 미칠 수 있는 방식의 가치를 빠르게 깨달았습니다. 다른 응용 프로그램 및 산업의. 기술과 툴링은 음성을 매체로 사용하여 제작하는 제작자의 요구 사항을 충족하는 데 어려움을 겪었습니다. 우리는 이 기술을 모든 창작자에게 제공하여 음성이 모든 이야기의 필수적인 부분이 되도록 하는 길을 보았습니다.

WellSaid Labs는 성우에게 AI 음성 해설 공간을 제공하는 몇 안 되는 회사 중 하나입니다. 실제 목소리를 제품에 통합하는 것이 왜 중요하다고 생각하셨나요?

이에 대한 우리의 대답은 두 가지입니다. 첫째, 전문 성우의 역량을 칭찬하고 성우 기회를 확대하는 솔루션을 만들고 싶었습니다. 둘째, 우리는 우리 제품에 최고 수준의 인간적 품질을 부여하기 위해 노력합니다. 우리의 성우들은 장기적인 협력 파트너로서 그들의 음성 데이터와 이를 통해 제작된 후속 콘텐츠 모두에 대해 보상과 수익 공유를 받습니다. 목소리의 유사성을 기반으로 AI 음성 아바타를 만들기 위해 우리가 고용하는 모든 성우는 플랫폼에서 목소리가 얼마나 사용되는지에 따라 비용을 지불받습니다. 우리는 인재들이 우리와 협력할 수 있도록 장려합니다. 그들의 기여에 대한 공정한 보상은 우리에게 매우 중요합니다.

시장에서 최고 수준의 인간 품질 제품을 제공하기 위해 우리는 데이터를 어디서 얻을 수 있는지에 대해 엄격해야 합니다. 이 프로세스를 통해 우리는 교육을 통해 품질에 대한 더 많은 통제권을 확보할 수 있습니다. 깊은 학습 인간의 동등성과 특정 상황에 맞는 스타일을 모두 표현하는 모델입니다. 우리는 제공된 입력을 암송하는 음성을 생성하는 것만이 아닙니다. 우리 모델은 페이지에 있는 내용을 수행하는 다양한 음성 스타일을 제공합니다. 사용자가 라이브러리의 아바타를 사용하여 음성 해설을 생성하든, 브랜드에 맞게 맞춤 제작된 음성으로 음성 해설을 생성하든, 당사는 원활한 프로세스와 사용하기 쉬운 플랫폼을 보장하기 위해 실제 음성 데이터를 사용합니다. 고객이 후반 작업에서 목소리를 조작하고 편집해야 한다면 원하는 출력을 얻는 과정이 복잡하고 길어질 것입니다. 우리의 목소리는 쓰여진 내용의 맥락을 파악하여 맥락에 맞게 정확한 읽기를 제공합니다. 우리는 뉴스 읽기, 오디오 광고 제작, 자동 콜센터 지원 등 모든 유형의 사용 사례에 대한 음성을 제공하므로 각 사용 사례에 맞는 전문 음성 인재와 협력하면 상황에 맞는 고품질 음성 데이터를 모두 얻을 수 있습니다. .

우리는 고객의 목소리를 대변할 수 있도록 아바타 라이브러리에 정기적으로 새로운 스타일과 악센트를 업데이트하고 추가합니다. WellSaid Labs의 스튜디오에서 고객과 브랜드는 지역, 스타일 및 사용 사례에 따라 다양한 목소리를 오디션할 수 있으므로 제조업체의 요구 사항에 맞는 오디오 콘텐츠를 보다 원활하고 통합적으로 제작할 수 있습니다. 초기 녹음이 샘플링되면 사용자는 특정 단어, 철자 및 발음에 신호를 주어 AI가 자신의 요구 사항에 대해 일관되게 구체적으로 말할 수 있도록 할 수 있습니다.

WellSaid Labs는 최초의 윤리적 AI 음성 플랫폼이라는 주장을 펼치고 있습니다. AI 윤리가 왜 중요한가요?

AI 채택이 증가하고 주류가 됨에 따라 유해한 사용 사례와 악의적인 행위자에 대한 두려움이 모든 대화의 중심에 있습니다. 이러한 우려는 불행하게도 실제 사건을 통해 검증됩니다. AI 음성도 예외는 아닙니다. 거의 매일 유명인, 공인, 정치인이 광고나 정치적 목적을 위해 딥페이크를 당하고 있다는 새로운 보도가 뉴스 헤드라인을 장식합니다. 이 기술에 대한 공식적인 연방 규정은 여전히 진화하고 있지만, 기술이 계속 발전함에 따라 악의적인 행위자와 합성 음성 사용을 탐지하고 퇴치하는 것이 점점 더 어려워질 것입니다.

AI 윤리가 핵심 원칙인 AI2에서 온 Michael과 저는 첫날 이러한 대화를 나눴습니다. AI 음성 기술을 개발하는 데에는 동의, 개인 정보 보호 및 전반적인 안전과 관련하여 중요한 책임이 따릅니다. 우리는 개발자로서 기술을 안전하게 구축하고 윤리적 문제를 해결하며 향후 합성 음성 개발을 위한 토대를 마련해야 한다는 것을 알고 있습니다. 우리는 AI 음성 기술의 오용 가능성을 인식하고 제품의 오용 가능성을 줄이기 위한 책임을 받아들입니다. 우리는 빠르게 달리고 도중에 실수를 저지르기보다는 첫날부터 이 기초를 다져야 합니다. 고품질의 신뢰할 수 있는 제품을 만들기 위해 우리를 믿고 있는 기업 고객과 성우들이 그렇게 하는 것은 올바른 일이 아닐 것입니다.

우리는 이 분야의 입법 요구를 전적으로 지지합니다. 그러나 우리는 연방 규정이 제정될 때까지 기다리지 않을 것입니다. 우리는 항상 개인 정보 보호, 보안, 투명성 및 책임을 지원하는 관행을 우선시해 왔으며 앞으로도 계속해서 우선 순위를 정할 것입니다.

우리는 우리가 내리는 모든 결정에서 책임 있는 혁신을 기반으로 하는 회사의 윤리적 의도를 엄격히 준수합니다. 이는 글로벌 고객, 즉 기업 브랜드에게 가장 큰 이익이 됩니다.

윤리적인 AI 음성 플랫폼을 어떻게 개발합니까?

WellSaid Labs는 처음부터 윤리적 혁신에 전념해 왔습니다. 우리는 사내 데이터 모델, 명시적인 동의 요구 사항, 콘텐츠 조정 프로그램 및 브랜드 보호에 대한 노력을 통해 신뢰와 투명성을 중앙 집중화합니다. WellSaid에서는 다음의 원칙을 따릅니다. 책임감있는 AI 우리의 결정과 디자인을 구체화하고 이러한 원칙은 우리의 목소리 사용까지 확장됩니다. 우리의 윤리강령은 이러한 원칙을 책임성, 투명성, 개인정보 보호 및 보안, 공정성으로 나타냅니다.

책임: 우리는 적절한 콘텐츠에 대한 엄격한 기준을 유지하여 유해하거나 혐오스럽거나 사기성이 있거나 폭력을 조장할 의도가 있는 콘텐츠에 우리의 목소리를 사용하는 것을 금지합니다. 당사의 신뢰 및 안전 팀은 엄격한 콘텐츠 조정 프로그램을 통해 이러한 표준을 유지하고 당사의 서비스 약관을 위반하려고 시도하는 사용자를 차단하고 제거합니다.

투명도: 누군가의 음성 데이터로 합성 음성을 구축하려면 명시적인 동의가 필요합니다. 사용자는 해당 사람의 명시적인 서면 동의가 없는 한 정치인, 유명인 또는 다른 사람의 음성 데이터를 업로드하여 자신의 음성 복제물을 만들 수 없습니다.

개인 정보 및 보안: 합성 음성을 표현하기 위해 스톡 이미지와 가명을 사용하여 성우의 신원을 보호합니다. 또한 음성 오용 가능성을 줄이기 위해 WellSaid Labs 또는 기타 합성 음성 회사와 관계를 공유하는 방법 및 대상에 대해 주의를 기울일 것을 권장합니다.

공평: 우리는 플랫폼에 음성 데이터를 제공하는 모든 성우에게 보상을 제공하며, 그들의 데이터로 구축한 합성 음성 사용에 대해 지속적인 수익 공유를 제공합니다.

이러한 원칙과 함께 우리는 지적재산권도 엄격하게 존중합니다. 우리는 사용자나 성우가 제공한 콘텐츠에 대해 소유권을 주장하지 않습니다. 우리는 우리가 하는 모든 일에서 무결성, 공정성, 투명성을 최우선으로 생각하여 합성 음성 기술이 책임감 있고 윤리적으로 사용되도록 보장합니다. 우리는 모든 사람에게 목소리를 제공할 수 있도록 다양한 배경과 경험을 지닌 목소리와의 파트너십을 적극적으로 모색합니다.

책임감 있는 혁신과 윤리를 염두에 두고 AI 음성 기술을 개발하려는 우리의 노력은 어떤 수단을 통해든 규제되지 않은 새로운 산업을 활용하려는 업계의 다른 기업들과 차별화됩니다. 윤리, 안전 및 개인 정보 보호에 대한 초기 투자는 혁신의 최전선에 있는 회사에서 윤리적으로 만들어진 제품과 서비스를 점점 더 추구하는 성우와 고객 사이에서 신뢰와 충성도를 구축합니다.

WellSaid Labs는 AI 음성이 인간과 동등한 수준을 달성할 수 있도록 하는 자체 내부 AI 모델을 만들었으며, 인간이 갖는 불완전성을 대화에 가져옴으로써 이를 달성했습니다. AI를 더 좋게 만드는 이러한 불완전성은 무엇이며, 이러한 불완전성은 어떻게 구현됩니까?

WellSaid Labs는 단순한 TTS 생성기가 아닙니다. 초기 TTS 기술은 단어 뒤에 있는 맥락과 감정을 전달하는 음조, 톤, 방언과 같은 인간 음성 특성을 인식할 수 없었던 반면, WellSaid 음성은 인간 동등성을 달성하여 AI 생성 음성에 인간 고유의 불완전성을 가져왔습니다.

음성 품질에 대한 우리의 주요 척도는 인간의 자연스러움이며 언제나 그랬습니다. 이러한 신념은 우리가 구축한 스크립트 라이브러리부터 재능을 제공하는 지침, 그리고 최근에는 핵심 TTS 알고리즘을 반복하는 방법에 이르기까지 모든 단계에서 우리의 기술을 형성해 왔습니다.

우리는 실제 인간의 발성을 훈련합니다. 우리의 성우들은 우리를 위해 녹음할 때 대본을 진정성 있고 흥미롭게 읽어줍니다. 반면, 음성 완벽함은 로봇적으로 완벽하고 부자연스러운 출력을 이끌어내는 기계적 개념입니다. 전문 성우가 공연할 때 말하는 속도가 변동합니다. 소리의 크기는 읽고 있는 내용에 따라 움직입니다. 그들의 보컬 피치는 흥분된 읽기가 필요한 구절에서 올라가고 더 침울한 선으로 다시 떨어질 수 있습니다. 이러한 역동적인 변화는 매력적인 인간 보컬 퍼포먼스를 구성합니다.

전문 인재의 역동적인 성과와 조화를 이루는 AI 프로세스를 구축함으로써 우리는 진정한 자연스러운 TTS 플랫폼을 구축했습니다. 우리는 전체 창작 과정에 걸쳐 예측 제어 기능을 갖춘 최초의 긴 형식 TTS 시스템을 개발했습니다. 당사의 음성 라이브러리는 다양한 오디오 데이터 컬렉션을 보유하고 있어 사용자가 생산 단계에서 발음 안내나 제어 가능성과 같은 특정 음성 신호를 모델에 통합할 수 있습니다. 하나의 플랫폼에서 WellSaid 사용자는 외부 데이터를 가져올 필요 없이 음성 해설을 녹음, 편집 및 스타일화할 수 있습니다.

텍스트 음성 변환(TTS) AI 회사를 구축하는 데 따른 몇 가지 과제에 대해 논의해 주실 수 있나요?

AI 음성 기술의 발전은 생산자와 소비자 모두에게 완전히 새로운 장애물을 만들어냈습니다. 주요 과제 중 하나는 AI 부문에 범람하는 소음과 과대 광고에 얽매이지 않는 것입니다. 새롭고 인기 있는 기술로서 많은 조직에서는 단기적인 AI 음성 해설 개발을 통해 수익을 창출하려고 노력하고 있습니다. 우리는 핵심 윤리 원칙과 진정성을 바탕으로 모든 사람을 위한 목소리를 제공하고자 합니다. 신뢰성에 대한 이러한 고수는 당사 기술의 개발 및 배포를 지연시킬 수 있지만 WellSaid 음성 및 해당 데이터의 안전과 보안을 강화합니다.

TTS 플랫폼 개발의 또 다른 과제는 조직이나 개인 행위자가 우리 기술을 오용하지 않도록 보장하는 구체적인 동의 지침을 개발하는 것이었습니다. 이러한 문제를 해결하기 위해 우리는 협력적이고 장기적인 파트너십을 모색하고 음성 해설 개발에 전적으로 참여하여 책임성, 투명성 및 사용자 보안을 향상시킵니다. 우리는 WellSaid Labs의 목소리 라이브러리가 제작자와 청중을 반영할 수 있도록 다양한 배경, 조직 및 경험을 가진 성우와의 파트너십을 적극적으로 모색합니다. 이러한 프로세스는 우리 기술이 최대한 안전하고 윤리적으로 사용되도록 의도적이고 세부적으로 설계되었으며, 이로 인해 개발 및 출시 일정이 느려질 수 있습니다.

생성 AI 음성의 미래에 대한 귀하의 비전은 무엇입니까?

오랫동안 AI 음성 기술은 기업이 대규모로 의미 있는 콘텐츠를 만들 수 있을 만큼 높은 품질에 도달하지 못했습니다. 이제 오디오 기술에는 더 이상 값비싼 장비와 하드웨어가 필요하지 않으므로 작성된 모든 콘텐츠를 오디오 형식으로 제작하고 게시하여 매력적인 다중 모드 경험을 만들 수 있습니다.

오늘날 AI 음성은 인간과 같은 오디오를 생성하고 디지털 스토리텔링을 보다 쉽게 접근하고 자연스럽게 만드는 데 필요한 뉘앙스를 포착할 수 있습니다. 생성 AI 음성의 미래는 우리 삶의 모든 측면에 영향을 미치는 포괄적인 청각 경험이 될 것입니다. 기술이 계속 발전함에 따라 우리는 점점 더 자연스럽고 표현력이 풍부한 합성 음성이 인간과 기계 생성 음성 사이의 경계를 모호하게 하여 비즈니스, 커뮤니케이션, 접근성 및 주변 세계와 상호 작용하는 방식에 대한 새로운 문을 열게 될 것입니다.

기업은 AI 음성 인터페이스에서 향상된 개인화를 발견하고 이를 사용하여 가상 비서와의 상호 작용을 더욱 몰입적이고 사용자 친화적으로 만들 것입니다. 지능형 콜센터 상담원부터 패스트푸드 드라이브스루까지 이러한 개선이 이미 이루어지고 있습니다. 광고, 제품 마케팅, 뉴스 내레이션, 팟캐스트, 오디오북 및 기타 멀티미디어를 포함한 콘텐츠 제작은 매력적인 콘텐츠를 개발하는 도구를 사용하여 효율성이 향상됩니다. 특히 다국어 모델이 회사의 범위를 확장할 수 있으므로 궁극적으로 조직의 리프트와 수익이 증가합니다. 단일 원산지에서 글로벌 입지를 확보하는 것까지. 제작 팀은 합성 음성을 통해 브랜드 요구 사항에 맞게 맞춤화되거나 청취자에게 맞춤화된 음성을 생성할 수 있어 큰 이점을 얻을 수 있습니다.

AI가 도입되기 전에 TTS 기술에는 전체 내용을 대규모로 쉽게 전달하는 데 필요한 인간의 중요한 감정, 억양 및 발음 능력이 부족했습니다. 이제 AI 기반 TTS는 실시간 음성 기능과 대화형 대화 에이전트를 포함하여 더욱 몰입적이고 접근 가능한 경험을 제공합니다.

인간과 같은 음성 기능을 달성하는 것은 하나의 여정이었지만 이제 이를 달성할 수 있게 되었기 때문에 우리는 조직을 위한 실제 비즈니스 가치를 창출하는 AI 음성의 전체 범위를 목격하고 있습니다.

훌륭한 인터뷰 감사합니다. 자세한 내용을 알고 싶은 독자는 방문하세요. 웰사이드 연구소.