Connect with us

Vikrant Tomar, CTO and Founder of Fluent.ai – Interview Series

์ธ๊ณต์ง€๋Šฅ

Vikrant Tomar, CTO and Founder of Fluent.ai – Interview Series

mm

Vikrant Tomar, 는 Fluent.ai의 CTO이자 설립자입니다. Fluent.ai는 디바이스 OEM 및 서비스 제공업체를 위한 음성 이해 및 음성 사용자 인터페이스 소프트웨어입니다.

음성 인식의 음향 모델링을 공부하기 시작한 것이 무엇이었나요?

사실, 기기가 다른 사람과 같은 방식으로 기기와 대화할 수 있는 능력입니다. 이 비전은 저에게 매력적이었습니다. 저는 학사 학위의 마지막 해에 음성 인식에 대해 공부하기 시작했습니다. 이것은 또한 저가 연구에 관심을 가지기 시작한 때입니다. 그래서 저는 음성 인식 과목과 관련된 연구 프로젝트를 수강했습니다. 저는 이 작업으로 인해 InterSpeech 컨퍼런스에서 연구 논문을 발표할 수 있었습니다. 이 모든 것이 저를 음성 인식 연구를 장기적으로 집중하게 만들었습니다. 따라서 박사 학위입니다.

2015년에 Fluent.ai를 설립했습니다. 이 스타트업의 기원 이야기를 공유할 수 있나요?

저는 오래전부터 기업가적인 열망을 가지고 있었습니다. 저와 두 명의 친구는 학사 학위를 마친 후에 회사를 설립하려고 시도했습니다. 그러나 몇 가지 이유로 그 시도는 성공하지 못했습니다. 맥길에서 박사 학위를 취득하는 동안 저는 몬트리올의 스타트업 현장을 주시했습니다. 그 때 저는 TandemLaunch라는 스타트업 ファ운드리에서 Fluent.ai를 만들었습니다. 그 때 저는 박사 학위를 거의 마치고 있었고, 다시 한 번 기업가 정신을 시도하는 것을 심각하게 고려했습니다. 연구와 다른 음성 연구 그룹과의 협력을 통해 저는 대부분의 경험들이 음성 인식을 특정 방식으로 수행하는 것에 집중되어 있었다는 것을 깨달았습니다. 즉, 음성에서 텍스트 전사로 가는 다음 자연어 처리입니다. 그러나 이것은 사용성에 대한 간격을 남겼습니다. 많은 인구는 이러한 방법으로 개발된 음성 솔루션의 이점을 얻을 수 없습니다. 이러한 방법을 위해 필요한 데이터의 양은 너무 커서 少数 언어를 위한 별도의 모델을 개발하는 것은 경제적으로 의미가 없습니다. 또한 많은 방언과 언어에는 별도의 서면 형태가 없습니다. 심지어 제 가족도 저가 개발한 도구를 사용할 수 없었습니다(그들은 힌디 방언을 사용합니다). 이러한 모든 것을 고려하여 저는 음성 모델을 생성하는 다른 방법에 대해 생각하기 시작했습니다. 여기서 필요한 데이터의 양은 적거나 사용자가 직접 모델을 훈련하거나 업데이트할 수 있습니다. 저는 KU Leuven University(KUL)에서 수행된 연구가 이러한 요구 사항 중 일부를 충족할 수 있다는 것을 알고 있었습니다. KUL에서 일부 기술을 사용하여 Fluent가 오늘날의 첫 번째 단계를 밟을 수 있었습니다.

Fluent.ai의 직관적인 음성 이해 솔루션에 대해 자세히 설명해 주시겠습니까?

Fluent.ai의 음성 인식 솔루션은 인간이 언어를 학습하고 인식하는 방식에서 영감을 받았습니다. 전통적인 음성 인식 시스템은 먼저 입력 음성을 텍스트로 전사한 다음 그 텍스트에서 의미를 추출합니다. 이것은 인간이 음성을 인식하는 방식이 아닙니다. 예를 들어, 아이들이 읽고 쓰는 것을 배우기 전에 그들은 말하는 대화에 어려움이 없습니다. 비슷한 방식으로, Fluent의 딥 뉴럴 네트워크 기반 모델은 텍스트로 전사할 필요 없이 음성 소리에서 직접 의미를 추출할 수 있습니다. 기술적으로 이것은真正의 Spoken Language Understanding입니다. 이 접근 방식에는 여러 가지 이점이 있습니다. 전통적인 음성 인식은 여러 개의 독립적으로 훈련된 모듈이 함께 연결되어 최종 응답을 제공하는 방식입니다. 이것은 비최적의 솔루션으로 결과가 억양, 노이즈, 배경 조건 등에 따라 다를 수 있습니다. Fluent의 자동 의도 인식(AIR) 시스템은 최적의 솔루션을 제공하기 위해 공동으로 훈련된 엔드투엔드 최적화된 신경 네트워크 기반 아키텍처입니다. 또한 우리는 전통적인 음성 인식 시스템에서 일반적으로 존재하는 몇 가지 계산적으로 무거운 모듈을 제거할 수 있습니다. 이것은 저전력 마이크로컨트롤러에서 40KB의 RAM으로 실행되는 저전력 음성 인식 시스템을 생성할 수 있도록 허용합니다. 마지막으로, 우리의 Spoken Language Understanding 기반 AIR 시스템은 유일한 방식으로 여러 언어 간의 유사성을 활용하여 동일한 모델에서 여러 언어를 인식하는 것과 같은 기능을 제공할 수 있습니다.

주변 노이즈 문제를 극복하는 데 있는 몇 가지 AI 도전 과제는 무엇입니까?

노이즈는 음성 인식의 가장 큰 도전 중 하나입니다. 이것을真正의 도전 과제로 만드는 것은 많은 유형의 노이즈가 있으며 음성 스펙트럼에 다른 방식으로 영향을 미친다는 것입니다. 때때로 노이즈는 마이크 응답에도 영향을 미칠 수 있습니다. 많은 경우에 음성 소스를 노이즈 소스에서 분리하는 것이 불가능합니다. 노이즈는 음성 스펙트럼에 있는 정보를 가릴 수 있으며, 경우에 따라 유용한 정보를 완전히 제거할 수 있습니다. 두 경우 모두 정확도가 낮습니다. 일관된 노이즈 유형을 제거하는 것은 쉽지만, 배경에서 사람들이 말하는 노이즈나 음악과 같은 노이즈 유형은 음성 스펙트럼에 미치는 영향으로 인해 제거하기 어렵습니다.

Edge AI를 정의하고 Fluent.ai에서 이 유형의 AI를 사용하는 방법에 대해 설명해 주시겠습니까?

Edge AI는 AI 응용 프로그램을 저전력 디바이스로 이동하는 다양한 방법을 다루는 총칭입니다. 점점 더 이 용어는 에지 디바이스가 자체적으로 특정 지능 계산을 수행하는 경우에 사용됩니다. Fluent에서 우리는 에지에서 높은 품질의 Spoken Language Understanding를 제공하는 데 중점을 두고 있습니다. 저전력 컴퓨팅 디바이스에서 입력 음성을 자체적으로 인식할 수 있는 효율적인 알고리즘을 개발했습니다. 클라우드 기반 서버에서 처리하기 위해 데이터를 전송할 필요가 없습니다. 이점은 두 가지입니다. 첫째, 사용자의 프라이버시는 클라우드에서 음성 데이터를 스트리밍하고 저장함으로써 손상되지 않습니다. 둘째, 이러한 접근 방식은 클라우드 서버와 디바이스 사이에서 음성 데이터와 응답이 이동할 필요가 없기 때문에 대기 시간을 줄입니다.

사용 중인 다른 유형의 기계 학습 기술은 무엇입니까?

저희의 주요 초점은 음성 인식에 대한 딥 러닝 기반 접근 방식입니다. NASIL[1]과 같은 강화 학습(RL) 방법을 사용하여 새로운, 이전에 알려지지 않은 AI 모델 아키텍처를 발견하고 있습니다(일종의 AI가 AI를 생성하는 것입니다). 또한 AutoML을 사용하여 미리 결정된 AI 모델을 조정하여 다양한 응용 프로그램에 대해 신뢰할 수 있는 결과를 달성하여 신뢰성과 재현성을 높입니다. 모델 압축 및 기타 수학적 접근 방식은 모델 성능을さらに 최적화합니다.

자연어 이해와 자연어 처리의 다음 5년 동안 무슨 일이 일어날 것으로 보입니까?

저는 시스템이 더 자연스러운 상호 작용을 제공하도록 진화할 것으로 생각합니다. 최근 몇 년간의 진행에도 불구하고, 대부분의 현재 시스템은 단순한 질의에만 응답하거나 음성 활성화된 인터넷 검색만 수행할 수 있습니다. 우리는 더 많은 솔루션이 완전한 질의에 대해 이유를 제공하고 응답할 수 있는 솔루션을 볼 것입니다. 음성 기반 검색 엔진 이상의 기능을 하는 것입니다.

또한 관심 있는 측면은 프라이버시입니다. 현재 인기 있는 솔루션은 주로 인터넷에 연결된 디바이스로, 모든 음성 데이터를 클라우드 서버로 스트리밍합니다. 그러나 이러한 솔루션의 프라이버시는 문제가 되고 있습니다. 우리는 또한 음성 UI의 적용이 소비자 전자 제품을 넘어 산업 설정, 전문 오디오 공간, 그리고 호텔 및 회의실에서 증가하고 있음을 보게 될 것입니다. 이러한 응용 프로그램의 핵심 요구 사항은 프라이버시이므로, 현재의 연결된 솔루션은 충분하지 않습니다. 따라서 우리는 에지 AI 또는 디바이스 내 자연어 솔루션을 더 많이 볼 것입니다.

저는 이전에 언급했듯이, 음성 및 자연어 솔루션은 전 세계 인구의 많은 부분에 접근할 수 없습니다. 작은 양의 데이터로 훈련할 수 있는 새로운 유형의 AI 모델을 생성하는 데 많은 노력이 투자되고 있으며, 이는 개발 비용을 줄이고, 少数 언어를 위한 모델 개발을 가능하게 합니다. 同じ 방식으로, 우리는 동일한 모델에서 여러 언어를 인식할 수 있는 솔루션을 볼 것입니다. 전반적으로, 사용자의 질의에 대한 응답을 모국어로 할 수 있는 다국어 AI 모델의 더 많은 배치를 볼 것입니다.

Fluent.ai에 대해 공유하고 싶은 다른 내용이 있나요?

음성 기술은 지난 몇 년간 많은 발전을 이루었으며, 앞으로도 성장 가능성이 크습니다. Fluent.ai에서는 새로운 사용 사례를 찾고 있으며 지속적으로 내부적으로 혁신을 추구하고 있습니다. COVID-19 대유행은 엘리베이터 버튼, 레스토랑의 키오스크 등 고감도 영역에 대한 민감성을 높였습니다. 이것은 음성 활성화된 기술에 대한 새로운 수요를 창출했습니다. Fluent.ai는 이러한 간격을 메우기 위해 도움을 주기를 희망합니다. 저희의 솔루션은 다국어이며, 따라서 더 포용적이며, 오프라인에서 작동하므로 추가적인 프라이버시 계층을 제공합니다. 이러한 기능은 앞으로 음성 기술의 미래가 될 것입니다.

좋은 인터뷰 감사합니다. 더 많은 정보를 원하는 독자는 Fluent.ai를 방문하시기 바랍니다.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.