Connect with us

Matt Hocking, WellSaid Labs์˜ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

์ธํ„ฐ๋ทฐ

Matt Hocking, WellSaid Labs์˜ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

mm

Matt Hocking은 WellSaid Labs의 공동 창립자로, 기업급 AI 음성 생성 기술을 제공하는 회사입니다. 그는 15년 이상의 경험을 가지고 있으며, 대규모 기술 솔루션을 제공하는 팀을 이끌어 왔습니다.

귀하의 배경은 khá 기업가적입니다. 어떻게 처음으로 AI에 관여하게 되셨나요?

저는 항상 자신을 khá 기업가적이라고 생각했습니다. 대학을 졸업하고 제품 디자인 배경을 가지고 있기 때문에, 초기 아이디어를 가진 사람들을 도와주는 것에 관심을 가졌습니다. 제 경력 동안, 저는 몇몇의 스타트업에서 일했으며, 그 중 몇몇은 매우 성공을 거두었습니다. 이러한 경험을 통해, 저는 훌륭한 창업자们을 직접 만나고, 그들의 아이디어를 추구하는 것을 영감을 받았습니다. AI는 저에게 새로운 것이었지만, AI2에서 일하면서, 저는 제품과 스타트업에 대한 지식을 적용하여, 어떻게 이러한 새로운 기술이 많은 사람들을 도와줄 수 있는지 상상할 수 있었습니다. 제 목표는 처음부터 실제 비즈니스와 실제 사람들을 위한 솔루션을 개발하는 것이었습니다. 저는 AI가 미래에 많은 기회와 효율성을 창출할 수 있다고 믿습니다.

WellSaid Labs의 아이디어는 어떻게 생각해 냈나요? 2018년에 The Allen Institute for AI의 기업가로 거주하면서, 어떻게 이 아이디어를 생각해 냈나요?

저는 2018년에 The Allen Institute for Artificial Intelligence (AI2)에서 기업가로 거주했습니다. 세계에서 가장 혁신적인 인큐베이터 중 하나인 AI2는 가장 밝은 AI 전문가들이 모여, 오늘날 가능한 가장 앞선 솔루션을 실제 제품으로 만들고 있습니다. 저의 디자인과 기술 배경은 창의적인 분야에 대한 오랜 관심을 가지고 있었습니다. 현재 우리는 보는 AI 붐으로, 저는 두 가지를 연결하는 방법을 찾고 싶었습니다. 저는 Michael Petrochuk (WellSaid Labs의 공동 창립자이자 CTO)를 만났으며, 그는 저에게 몇몇의 혁신적인 성과를 보여주었습니다. 우리는 함께 human-parity text-to-speech (TTS) 기술이 저의 제품과 다른 응용 프로그램 및 산업에 어떻게 변화를 줄 수 있는지 빠르게 인식했습니다. 기술과 툴은 음성을 매체로 사용하는 제작자의 필요를 따라가지 못했습니다. 우리는 이 기술을 모든 창작자에게 제공하여, 음성이 모든 이야기의 일부가 될 수 있도록 하는 경로를 찾았습니다.

WellSaid Labs는 음성 배우들에게 AI 음성 분야로의 경로를 제공하는 몇몇 회사 중 하나입니다. 왜 실제 음성을 제품에 통합하는 것이 중요하다고 생각하나요?

저희의 대답은 두 가지입니다. 첫째, 우리는 전문 음성 배우들의 능력을 보완하는 솔루션을 만들고 싶었습니다. 둘째, 우리는 제품에最高의 인간 품질을 가지고 싶었습니다. 저희의 음성 배우들은 장기적인 협력 파트너이며, 그들의 음성 데이터와 이후 생성된 콘텐츠에 대한 보상과 수익을 공유받습니다. 저희가 음성 배우를 고용하여 그들의 음성과 같은 AI 음성 아바타를 만들 때, 그들은 그들의 음성이 사용되는 만큼에 따라 보상을 받습니다. 저희는 음성 배우들에게 협력할 것을 권장하며, 그들의 기여에 대한 공정한 보상을 중요하게 생각합니다.

최고의 인간 품질의 제품을 제공하기 위해서, 저희는 데이터의 품질을 엄격하게 관리해야 합니다. 이 과정으로, 저희는 품질에 대한 더 많은 제어를 가지고, 딥 러닝 모델을 인간과 맥락적으로 관련된 스타일로 훈련시킬 수 있습니다. 저희는 단순히 제공된 입력을 읽는 음성만을 생성하지 않습니다. 저희의 모델은 페이지에 있는 것을 수행하는 다양한 음성 스타일을 제공합니다. 사용자들이 저희의 라이브러리에서 아바타를 사용하여 음성을 생성하거나 브랜드에 맞게 맞춤형 음성을 생성하는 경우, 저희는 실제 음성 데이터를 사용하여無шов한 프로세스와 사용하기 쉬운 플랫폼을 제공합니다. 저희의 고객이 저희의 음성을 후처리에서 조작하고 편집해야 한다면, 원하는 출력을 얻는 과정은笨重하고 길 것입니다. 저희의 음성은 작성된 콘텐츠의 맥락을 고려하여 정확한 읽기를 제공합니다. 저희는 모든 종류의 사용 사례에 대한 음성을 제공합니다. 따라서 각 사용 사례에 대한 전문 음성 배우와의 협력을 통해, 저희는 맥락과 높은 품질의 음성 데이터를 얻을 수 있습니다.

저희는 고객의 목소리를 대표하기 위해 저희의 아바타 라이브러리에 새로운 스타일과 억양을 지속적으로 업데이트하고 추가합니다. WellSaid Labs의 스튜디오에서, 고객과 브랜드는 지역, 스타일, 사용 사례에 따라 다양한 음성을 오디션할 수 있으며, 이는 제작자의 필요에 따라 개인화된 오디오 콘텐츠의 더無шов한 생산을 허용합니다. 초기 녹음을 샘플링한 후, 사용자는 특정 단어, 철자, 발음에 대한 큐를 지정하여 AI가 일관되게 그들의 필요에 따라 말할 수 있습니다.

WellSaid Labs는 첫 번째 윤리적인 AI 음성 플랫폼으로 자리 잡고 있습니다. AI 윤리는 왜 중요하나요?

AI의 채택이 증가하고 주류가 되면서, 유해한 사용 사례와 악의적인 행위에 대한 두려움이 모든 대화의 중심에 있습니다. 이러한 우려는 실제 사건으로 입증되고 있습니다. AI 음성도 예외가 아닙니다. 거의 매일, 새로운 보고서가 유명인, 공인, 또는 정치인이 광고 또는 정치 목적으로 глубф된 것으로 나타납니다. 공식적인 연방 규제는 아직 발전 중이지만, 합성 음성의 악의적인 행위자와 사용 사례를 감지하고 대처하는 것은 점점 더 어려워질 것입니다.

AI2에서 온 저희는 첫날부터 이러한 대화를했습니다. AI 음성 기술을 개발하는 것은 동의, 개인 정보, 및 전반적인 안전성에 대한重大な 책임을 포함합니다. 우리는 개발자로서, 저희의 기술을 안전하게 구축하고, 윤리적인 우려를 해결하며, 합성 음성의 미래 개발을 위한 기반을 마련해야 합니다. 우리는 AI 음성 기술의 오남용 가능성을 인정하며, 저희의 제품의 오남용 가능성을 줄이기 위한 책임을 지닙니다. 우리는 이것을 첫날부터 해야 합니다. 그렇지 않으면, 저희의 기업 고객과 음성 배우에게 잘못된 일을 할 것입니다. 그들은 저희에게 높은 품질의 제품을 구축하도록 믿고 있습니다.

저희는 이 분야의 입법을 지지합니다. 그러나, 저희는 연방 규제가 시행될 때까지 기다리지 않을 것입니다. 저희는 항상 개인 정보, 보안, 투명성, 및 책임성을 지원하는 관행을 우선시했습니다.

저희는 책임 있는 혁신에 대한 저희의 회사 윤리 코드를 엄격하게遵守합니다. 이는 저희의 글로벌 고객인 기업 브랜드의 최선의 이익을 위한 것입니다.

윤리적인 AI 음성 플랫폼을 어떻게 개발합니까?

WellSaid Labs는 처음부터 윤리적인 혁신에 헌신했습니다. 저희는 내부 데이터 모델, 명시적인 동의 요구, 콘텐츠 모더레이션 프로그램, 및 브랜드 보호에 대한 저희의 헌신을 통해 신뢰와 투명성을 중앙집중화합니다. WellSaid에서, 저희는 저희의 결정과 설계를 형성하기 위해 Responsible AI의 원칙을 따릅니다. 저희의 윤리 코드는 이러한 원칙을 나타냅니다. 즉, 책임성, 투명성, 개인 정보 및 보안, 및 공정성입니다.

책임성: 저희는 적절한 콘텐츠에 대한 엄격한 표준을 유지하며, 저희의 음성이 유해한, 증오스러운, 사기성의, 또는 폭력을 조장하는 콘텐츠에 사용되지 않도록 합니다. 저희의 신뢰 및 안전 팀은 이러한 표준을 엄격한 콘텐츠 모더레이션 프로그램으로 유지하며, 저희의 서비스 약관을 위반하는 사용자를 차단하고 제거합니다.

투명성: 저희는 누군가의 음성 데이터를 사용하여 합성 음성을 생성하기 전에 명시적인 동의를 요구합니다. 사용자들은 저희의 동의 없이 정치인, 유명인, 또는 다른 사람의 음성 데이터를 업로드하여 그들의 음성을 복제할 수 없습니다.

개인 정보 및 보안: 저희는 저희의 음성 배우들의 신원을 보호하기 위해 스톡 이미지와 가명으로 합성 음성을 나타냅니다. 저희는 또한 그들에게 저희와의 관련을 공유하는 것에 주의를 기울일 것을 권장하여, 그들의 음성이 오남용되는 기회를 줄입니다.

공정성: 저희는 저희의 플랫폼에 음성 데이터를 제공하는 모든 음성 배우에게 보상을 제공하며, 그들의 음성이 사용되는 경우에 대한 지속적인 수익을 공유합니다.

이러한 원칙과 함께, 저희는 지적 재산권을 엄격하게 존중합니다. 저희는 사용자 또는 음성 배우가 제공하는 콘텐츠에 대한 소유권을 주장하지 않습니다. 저희는 모든 것을 하는 데 있어誠實性, 공정성, 및 투명성을 우선시하여, 저희의 합성 음성 기술이 책임 있게 사용되도록 합니다. 저희는 다양한 배경과 경험을 가진 음성 배우와의 협력을 적극적으로 추구하여, WellSaid Labs의 음성 라이브러리가 저희의 창작자와 청중을 대표할 수 있도록 합니다.

저희의 책임 있는 혁신과 윤리적인 AI 음성 기술 개발에 대한 저희의 헌신은 저희를 이 분야의 다른 회사와 차별화합니다. 저희의 초기 투자와 윤리, 안전, 및 개인 정보 보호에 대한 저희의 헌신은 저희의 음성 배우와 고객의 신뢰와 충성도를 확립합니다. 이는 혁신의 최전선에 있는 회사에서 윤리적으로 제작된 제품과 서비스를 찾는 고객에게 중요합니다.

WellSaid Labs는 자체 AI 모델을 개발하여 인간과 같은 음성을 달성했습니다. 이러한 인간과 같은 음성을 달성하기 위해, 저희는 인간의 결점을 대화에 도입했습니다. 이러한 결점이 AI를 더 좋은 것으로 만드는 것은 무엇이며, 어떻게 이러한 결점을 구현하나요?

WellSaid Labs는 단순한 TTS 생성기가 아닙니다. 초기 TTS 기술은 인간의 음성 품질, 즉 피치, 톤, 방언을 인식하지 못했지만, WellSaid 음성은 인간과 같은 음성을 달성하고, 단어 뒤에 있는 맥락과 감정을 전달할 수 있습니다.

저희의 음성 품질의 주요 측정치는 인간의 자연스러움입니다. 이 믿음은 저희의 기술을 모든 단계에서 형성했습니다. 저희의 스크립트 라이브러리, 저희가 탤런트에게 제공하는 지침, 및 최근에 저희의 핵심 TTS 알고리즘을 반복하는 방식 모두가 이러한 믿음에 따라 형성되었습니다.

저희는 실제 인간의 음성 데이터를 사용하여 훈련합니다. 저희의 음성 탤런트는 저희에게 녹음을 할 때 실제로 그리고 매력적으로 읽습니다. 말의 완벽성은 기계적인 개념으로, 비자연스럽고 로봇적인 출력을 생성합니다. 전문 음성 탤런트가 수행할 때, 그들의 말 속도는 변합니다. 그들의 음량은 콘텐츠와 함께 변화합니다. 그들의 음성 피치는 흥奮하는 구절에서는 상승하고, 더 진지한 구절에서는 하락할 수 있습니다. 이러한 역동적인 변동은 매력적인 인간의 음성 공연을 구성합니다.

저희의 전문 음성 탤런트들의 역동적인 공연과 협조하여, 저희는真正로 자연스러운 TTS 플랫폼을 구축했습니다. 저희는 최초의 장기 형식의 TTS 시스템을 개발했으며, 전체 창의적 과정에 걸쳐 예측 가능한 제어를 제공했습니다. 저희의 음성 라이브러리는 다양한 오디오 데이터를 보유하고 있으며, 사용자들이 특정한 음성 큐, 발음 지침, 또는 제어 가능성을 모델에 통합할 수 있도록 허용합니다. WellSaid 사용자는 한 플랫폼에서 음성을 녹음, 편집, 및 스타일을 지정할 수 있습니다.

AI 음성 회사 구축의 일부로 직면하는 도전에 대해 논의해 주시겠습니까?

AI 음성 기술의 개발은 제작자와 소비자 모두에게 새로운 장애물을 만들었습니다. 주요 도전 중 하나는 AI 부문의 소음과 과장에 빠지지 않는 것입니다. 많은 조직이 단기적인 AI 음성 개발에서 수익을 얻으려고 합니다. 저희는 중앙적인 윤리적인 원칙과 실제성에 따라 모든 사람에게 음성을 제공하고 싶습니다. 이러한 실제성을 지키는 것은 저희의 기술 개발과 배포를 지연시킬 수 있습니다. 그러나, WellSaid 음성과 데이터의 안전성과 보안성을 확립합니다.

AI 음성 기술의 개발에서 또 다른 도전은 저희의 기술이 악의적으로 사용되지 않도록 하는 것입니다. 이를 극복하기 위해, 저희는 협력적인 장기적인 파트너십을 추구하며, 음성 개발에 완전히 참여하여 책임성, 투명성, 및 사용자 보안을 증가시킵니다. 저희는 다양한 배경과 경험을 가진 음성 탤런트와의 협력을 적극적으로 추구하여, WellSaid Labs의 음성 라이브러리가 저희의 창작자와 청중을 대표할 수 있도록 합니다. 이러한 과정은 의도적이고 세부적인 것으로 설계되며, 저희의 기술이 가능한 한 안전하게 사용되도록 합니다. 이는 개발과 출시 시간을 늦출 수 있습니다.

생성된 AI 음성의 미래에 대한 귀하의 비전은 무엇입니까?

가장 오래된 시간 동안, AI 음성 기술은 의미 있는 콘텐츠를 대규모로 생성할 수 있는 품질에 도달하지 못했습니다. 이제 오디오 기술은 더 이상 비싼 장비와 하드웨어가 필요하지 않습니다. 모든 작성된 콘텐츠는 오디오 형식으로 생성되고 게시되어, 매력적인 멀티모달 경험을 만들 수 있습니다.

현재, AI 음성은 인간과 같은 오디오를 생성하고, 디지털 스토리텔링을 더 접근 가능하고 자연스럽게 만들기 위해 필요한ニュアンス를 캡처할 수 있습니다. 생성된 AI 음성의 미래는 모든면에서 감각적인 경험을 제공할 것입니다. 기술이 계속 발전함에 따라, 인간과 기계적으로 생성된 음성이 더욱 자연스럽고 표현력이 풍부해져, 인간과 기계 간의 구분을 모호하게 만들 것입니다. 이는 비즈니스, 커뮤니케이션, 접근성, 및 저희가 세계와 상호작용하는 방식에 새로운 기회를 열어줄 것입니다.

비즈니스에서는 AI 음성 인터페이스에서 개인화를 강화하고, 가상 어시스턴트와의 상호작용을 더 몰입감 있게 만들 것입니다. 이러한 향상은 이미 진행 중입니다. 지능형 콜 센터 에이전트, 패스트 푸드 드라이브 스루 등에서 볼 수 있습니다. 콘텐츠 생성, 광고, 제품 마케팅, 뉴스 낭독, 팟캐스트, 오디오 북, 및 기타 멀티미디어는 매력적인 콘텐츠를 개발하는 도구를 사용하여 효율성을 높일 것입니다. 이는 조직에 대한 리프트와 수익을 증가시킬 것입니다. 특히, 다국어 모델은 회사에 글로벌 존재를 제공할 수 있습니다. 제작 팀은 브랜드의 필요에 맞게 맞춤형 음성을 생성하거나 청중에 맞게 맞춤형 음성을 생성하여, 합성 음성을 사용하여 콘텐츠를 개발하는 데 큰 이점을 얻을 것입니다.

AI 이전의 TTS 기술은 큰 규모와 쉽게 이야기를 전달하는 데 필요한 인간의 감정, 억양, 및 발음 능력이 부족했습니다. 이제, AI 기반의 TTS는 더 몰입감 있게 접근 가능하고, 실시간 음성 능력과 상호작용하는 대화 에이전트를 제공합니다.

인간과 같은 음성 능력을 달성하는 것은 여정이었지만, 이제 그것이 가능해졌으며, 저희는 조직에真正로 비즈니스 가치를 제공하는 AI 음성의 전체 범위를 목격하고 있습니다.

잘한 인터뷰에 감사드립니다. 더 많은 정보를 원하는 독자는 WellSaid Labs를 방문해야 합니다.

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.