Connect with us

Dylan Fox, AssemblyAI의 CEO & 설립자 – 인터뷰 시리즈

인터뷰

Dylan Fox, AssemblyAI의 CEO & 설립자 – 인터뷰 시리즈

mm

Dylan Fox는 AssemblyAI의 CEO 및 설립자입니다. AssemblyAI는 오디오 및 비디오 파일과 실시간 오디오 스트림을 AssemblyAI의 Speech-to-Text API를 사용하여 자동으로 텍스트로 변환하는 플랫폼입니다.

머신 러닝에 처음 관심을 가지게 된 것은 무엇인가?

나는 프로그래밍을 배우기 시작했고 워싱턴 DC에서 열린 Python Meetups에 참석했습니다. 대학 과정에서 나는 알고리즘 유형의 프로그래밍 문제에 더 관심을 가지게 되었고, 이는 자연스럽게 머신 러닝과 NLP로 이어졌습니다.

AssemblyAI를 설립하기 전에 시스코의 선임 소프트웨어 엔지니어로 어떤 일을 했나요?

시스코에서 나는 협업 제품을 위한 머신 러닝에 중점을 둔 선임 소프트웨어 엔지니어였습니다.

시스코에서 일하고 음성 인식 기술을 구입하는 문제로 인해 AssemblyAI를 설립하게 된 계기는 무엇인가?

이전 직장에서 나는 많은 AI 프로젝트를 작업했으며, 이는 음성 인식을 포함했습니다. 그러나 음성 인식을 서비스로 제공하는 모든 회사는 매우 구식이었고, 구입하기 어렵고, 구식 AI 기술을 사용하고 있었습니다.

나는 AI 연구에 더 관심을 가지게 되었고, 음성 인식 분야에서 연구가 얼마나 빠르게 진행되고 있는지 알게 되었습니다. 그래서 나는 “최신 AI 연구를 사용하여 Twilio 스타일의 API 회사로 개발자에게 음성 인식에 대한 최첨단 AI 모델에 접근하기 쉽게 만드는 것이 어떨까?”라고 생각했습니다.

그리고 그것이 AssemblyAI라는 아이디어가 탄생한 곳입니다.

정확하고 신뢰할 수 있는 음성 인식 기술을 구축하는 데 가장 큰 도전은 무엇인가?

비용과人才가 음성 인식 기술을 구축하는 데 가장 큰 도전입니다.

데이터를 구입하는 비용이 많이 들고, 강력한 음성 인식 시스템을 구축하려면 수백만 시간의 데이터가 필요합니다. 또한 모델을 훈련시키고 제공하는 데에는 엄청난 컴퓨팅 자원이 필요하며, 이를 최적화하고 경제적으로 만드는 데에는 전문 기술이 필요합니다.

이러한 기술을 구축하는 데에는 전문적인 기술이 필요하지만, 이러한 기술을 찾기가 어렵습니다. 이것이 고객이 우리에게 강력한 AI 모델을 연구, 훈련, 내부에서 제공받기 위해 오는 이유입니다. 고객은 음성 인식 및 NLP를 위한 최첨단 AI 모델에 대한 수년간의 연구를 간단한 API로 얻을 수 있습니다.

오디오 및 비디오 콘텐츠를 순수하게 전사하는 것을 넘어서 AssemblyAI는 추가 모델을 제공합니다. 이러한 모델에 대해 논의할 수 있나요?

우리의 AI 모델 스위트는 실시간 및 비동기 전사에만 국한되지 않습니다. 우리는 이러한 추가 모델을 오디오 인텔리전스 모델이라고 부르며, 고객이 오디오 데이터를 분석하고 더 잘 이해하는 데 도움이 됩니다.

요약 모델은 전체 요약과 시간 코드 요약을 제공하며, 자동으로 구절을 분할하고 대화의 주제가 변경될 때마다 요약을 생성합니다(유튜브 장과 유사합니다).

감성 분석 모델은 음성 파일에서 말한 각 문장의 감성을 감지합니다. 각 문장은 긍정적, 부정적, 중립적으로 표시될 수 있습니다.

엔티티 감지 모델은 음성 파일에서 언급되는 광범위한 엔티티를 식별합니다. 사람이나 회사 이름, 이메일 주소, 날짜, 위치 등이 포함됩니다.

주제 감지 모델은 오디오 및 비디오 파일에서 논의되는 주제를 레이블링합니다. 예측된 주제 레이블은 표준화된 IAB 분류법을 따르므로 컨텍스트 타게팅에 적합합니다.

콘텐츠 모더레이션 모델은 음성 및 비디오 파일에서 민감한 콘텐츠를 감지합니다. 증오 언어, 폭력, 민감한 사회 문제, 알코올, 마약 등이 포함됩니다.

AssemblyAI를 사용하는 회사의 가장 큰 사용 사례는 무엇인가?

AssemblyAI를 사용하는 회사의 가장 큰 사용 사례는 전화, 비디오, 가상 미팅, 미디어 등 4가지 범주에 걸쳐 있습니다.

CallRail은 전화 분야의 훌륭한 예입니다. CallRail은 AssemblyAI의 AI 모델(코어 전사, 자동 전사 하이라이트, PII 편집)을 사용하여 고객에게 강력한 대화형 지능 솔루션을 제공합니다.

본질적으로 CallRail은 이제 자동으로 전화 통화에서 핵심 콘텐츠를 표면화하고 정의할 수 있습니다. 핵심 콘텐츠에는 특정 고객 요청, 자주 묻는 질문, 자주 사용되는 키워드 및 구가 포함됩니다. PII 편집 모델을 사용하여 전사 텍스트에서 발견된 민감한 데이터(예: 사회 보장 번호, 신용 카드 번호, 개인 주소 등)를 자동으로 감지하고 제거할 수 있습니다.

비디오 사용 사례는 비디오 스트리밍 플랫폼에서 비디오 편집기인 Veed까지 다양합니다. Veed는 사용자가 캡션을 사용하여 비디오를 직접 편집할 수 있도록 합니다.

가상 미팅에서 미팅 전사 소프트웨어 회사는 Fathom과 같은 회사가 AssemblyAI를 사용하여 사용자가 줌 통화를 전사하고 하이라이트하는 지능형 기능을 구축하고 있습니다. 이를 통해 미팅 참여도가 개선되고 미팅 중 및 후에 번거로운 작업이 제거됩니다(예: 노트 작성).

미디어에서는 팟캐스트 호스팅 플랫폼이 동적 광고를 사용하여 사용자 생성 콘텐츠를 모니티즈하기 위해 콘텐츠 모더레이션 및 주제 감지 모델을 사용하는 것을 볼 수 있습니다.

AssemblyAI는 최근 3,000만 달러의 시리즈 B 라운드를 조달했습니다. 이것은 AssemblyAI의 미션을 어떻게 가속화할 것인가?

AI 분야에서 진행되는 진행은 매우 흥미롭습니다. 우리의 목표는 이 진행을 인터넷의 모든 개발자와 제품 팀에게 노출시키는 것입니다. 우리는 ASR 및 NLP 작업(예: 음성 인식, 요약, 언어 식별 등)에 대한 최첨단 AI 모델을 연구하고 훈련하고 제공하는 데 계속해서 노력할 것입니다. 우리는 이러한 AI 모델을 개발자와 제품 팀에게 간단한 API를 통해 노출시킬 것입니다.

AssemblyAI는 개발자와 제품 팀이 필요한 고급 AI 모델에 쉽게 접근할 수 있는 곳입니다. 여기서 개발자와 제품 팀은 새로운 제품, 서비스, 전체 회사 등을 구축하기 위해 필요한 고급 AI 모델에 접근할 수 있습니다.

過去 6개월 동안, 우리는 15개의 새로운 언어를 지원하기 시작했습니다. 스페인어, 독일어, 프랑스어, 이탈리아어, 힌디어, 일본어 등이 포함됩니다. 우리는 요약 모델, 실시간 음성 인식 모델, 콘텐츠 모더레이션 모델 및 다른 많은 제품 업데이트를 출시했습니다.

우리는 아직 시리즈 A 자금을 거의 사용하지 않았지만, 이 새로운 자금은 우리가 노력의 규모를 공격적으로 확대할 수 있도록 해줄 것입니다. 그리고 우리는 제품 로드맵을 가속화하고, AI 연구 및 추론 엔진을 위한 더 나은 인프라를 구축하고, AI 연구 팀을 성장시킬 수 있을 것입니다. 현재 우리의 연구 팀에는 DeepMind, Google Brain, Meta AI, BMW, 시스코의 연구원들이 포함되어 있습니다.

AssemblyAI에 대해 더 공유하고 싶은 것이 있나요?

우리의 목표는 개발자와 제품 팀이 매우 큰 규모에서 최첨단 AI 모델에 접근할 수 있도록 하는 것입니다. 간단한 API를 통해.

감사합니다. 더 많은 정보를 원하는 독자는 AssemblyAI를 방문할 수 있습니다.

앙투안은 Unite.AI의 비전있는 리더이자 공동 창립자로서, AI와 로봇공학의 미래를 형성하고 촉진하는 데 대한 불변의 열정에 의해 추동됩니다. 연쇄적인 기업가로서, 그는 AI가 사회에 대한 전기와 같은 파괴력을 가질 것이라고 믿으며, 종종 파괴적인 기술과 AGI의 잠재력에 대해 열광합니다.

作为 futurist, 그는 이러한 혁신이 우리의 세계를 어떻게 형성할지 탐구하는 데 전념하고 있습니다. 또한, 그는 Securities.io의 창립자로서, 미래를 재정의하고 전체 부문을 재형성하는 최첨단 기술에 투자하는 플랫폼입니다.