인터뷰

Dylan Fox, AssemblyAI CEO 겸 창립자 – 인터뷰 시리즈

게재

2 년 전

2022 년 9 월 14 일

앙투안 타르디프

Dylan Fox는 CEO이자 창립자입니다. 어셈블리AI, AssemblyAI의 Speech-to-Text API를 사용하여 오디오 및 비디오 파일과 라이브 오디오 스트림을 텍스트로 자동 변환하는 플랫폼.

처음에 기계 학습에 끌린 이유는 무엇입니까?

나는 대학에 다녔던 워싱턴 DC에서 프로그래밍 방법을 배우고 Python Meetups에 참석하는 것으로 시작했습니다. 대학 과정을 거치면서 알고리즘 방식의 프로그래밍 문제에 더 빠져들게 되었고 자연스럽게 기계 학습과 NLP로 이어졌습니다.

AssemblyAI를 설립하기 전에는 Cisco의 선임 소프트웨어 엔지니어였습니다. 어떤 작업을 하셨습니까?

Cisco에서 저는 협업 제품을 위한 기계 학습에 중점을 둔 선임 소프트웨어 엔지니어였습니다.

Cisco에서의 업무와 음성 인식 기술 소싱 문제로 인해 AssemblyAI를 출시하게 된 계기는 무엇입니까?

이전 직장 중 일부에서는 음성 인식이 필요한 여러 프로젝트를 포함하여 많은 AI 프로젝트에서 일할 기회가 있었습니다. 그러나 음성 인식을 서비스로 제공하는 모든 회사는 미친 듯이 구식이었고 어떤 것도 구매하기 어려웠으며 구식 AI 기술을 실행하고 있었습니다.

AI 연구에 점점 더 관심을 갖게 되면서 음성 인식 분야에서 많은 작업이 진행되고 있고 연구가 얼마나 빨리 개선되고 있는지 알게 되었습니다. 그래서 "개발자가 최신 음성 AI 모델에 훨씬 쉽게 액세스할 수 있는 최신 AI 연구를 사용하여 Twilio 스타일의 API 회사를 구축할 수 있다면 어떨까요? 훨씬 더 나은 개발자 경험을 제공합니다.”

그리고 거기에서 어셈블리AI 성장했다.

정확하고 신뢰할 수 있는 음성 인식 기술을 구축하는 데 가장 큰 어려움은 무엇입니까?

비용과 인재는 정확하고 신뢰할 수 있는 음성 인식 기술을 구축할 때 모든 회사가 해결해야 할 가장 큰 과제입니다.

데이터를 수집하는 데 비용이 많이 들고 강력한 음성 인식 시스템을 구축하려면 일반적으로 수십만 시간이 필요합니다. 뿐만 아니라 교육을 위한 컴퓨팅 요구 사항도 엄청납니다. 그리고 이러한 모델을 생산에 제공하는 데에도 비용이 많이 들고 이를 최적화하고 경제적으로 만들 전문 인력이 필요합니다.

이러한 기술을 구축하려면 찾기 힘든 전문 기술도 필요합니다. 이것이 우리가 사내에서 연구, 교육 및 배포하는 강력한 AI 모델을 위해 고객이 우리를 찾는 큰 이유입니다. 간단한 API를 통해 ASR 및 NLP를 위한 최첨단 AI 모델에 대한 수년간의 연구에 액세스할 수 있습니다.

순수한 오디오 및 비디오 콘텐츠 전사 외에 AssemblyAI는 추가 모델을 제공합니다. 이러한 모델이 무엇인지 논의할 수 있습니까?

당사의 AI 모델 제품군은 실시간 및 비동기 전사를 넘어 확장됩니다. 이러한 추가 모델은 고객이 오디오 데이터를 분석하고 더 잘 이해하는 데 도움이 되므로 Audio Intelligence 모델이라고 합니다.

당사의 요약 모델은 전체 요약뿐만 아니라 대화의 주제가 변경될 때(YouTube 장과 유사) 각 "장"에 대한 요약을 자동으로 분할하고 생성하는 시간 코드 요약을 제공합니다.

감정 분석 모델은 오디오 파일에서 말하는 각 문장의 감정을 감지합니다. 성적표의 각 문장은 긍정적, 부정적 또는 중립으로 표시될 수 있습니다.

당사의 엔터티 감지 모델은 사람 또는 회사 이름, 이메일 주소, 날짜 및 위치와 같이 오디오 파일에서 말하는 광범위한 엔터티를 식별합니다.

주제 감지 모델은 오디오 및 비디오 파일에서 말하는 주제에 레이블을 지정합니다. 예측 주제 레이블은 표준화된 IAB 분류법을 따르므로 문맥 타겟팅에 적합합니다.

콘텐츠 조정 모델은 오디오 및 비디오 파일에서 증오심 표현, 폭력, 민감한 사회 문제, 알코올, 약물 등과 같은 민감한 콘텐츠를 감지합니다.

AssemblyAI를 사용하는 회사의 가장 큰 사용 사례는 무엇입니까?

회사에서 AssemblyAI에 대한 가장 큰 사용 사례는 전화 통신, 비디오, 가상 회의 및 미디어의 네 가지 범주에 걸쳐 있습니다.

CallRail은 전화 법 Space는 AssemblyAI의 AI 모델(Core Transcription, Automatic Transcript Highlights 및 PII Redaction)을 활용하여 고객에게 강력한 대화형 인텔리전스 솔루션을 제공합니다.

기본적으로 CallRail은 이제 특정 고객 요청, 자주 묻는 질문, 자주 사용하는 키워드 및 구문과 같은 주요 콘텐츠를 고객과의 전화 통화에서 자동으로 표시하고 정의할 수 있습니다. 당사의 PII Redaction 모델은 기록 텍스트에서 발견된 민감한 데이터(예: 주민등록번호, 신용카드 번호, 개인 주소 등)를 자동으로 감지하고 제거하는 데 도움이 됩니다.

Video 사용 사례는 비디오 스트리밍 플랫폼에서 AssemblyAI의 Core Transcription 모델을 사용하여 사용자의 비디오 편집 프로세스를 단순화하는 Veed와 같은 비디오 편집기에 이르기까지 다양합니다. Veed는 사용자가 비디오를 기록하고 캡션을 사용하여 직접 편집할 수 있도록 합니다.

In 가상 회의, Fathom과 같은 회의 전사 소프트웨어 회사는 AssemblyAI를 사용하여 사용자가 Zoom 통화의 주요 순간을 전사하고 강조 표시하는 데 도움이 되는 지능형 기능을 구축하여 더 나은 회의 참여를 촉진하고 회의 중 및 이후에 지루한 작업(예: 메모 작성)을 제거합니다.

In 미디어 , 예를 들어 팟캐스트 호스팅 플랫폼은 콘텐츠 조정 및 주제 감지 모델을 사용하여 브랜드 안전 사용 사례를 위한 더 나은 광고 도구를 제공하고 동적 광고로 사용자 생성 콘텐츠에서 수익을 창출할 수 있습니다.

최근 AssemblyAI 30천만 달러 규모의 시리즈 B 라운드 모금. 이것이 AssemblyAI 임무를 어떻게 가속화할까요?

AI 분야에서 이루어지고 있는 발전은 믿을 수 없을 정도로 흥미진진합니다. 우리의 목표는 간단한 API 세트를 통해 이 진행 상황을 인터넷의 모든 개발자 및 제품 팀에 공개하는 것입니다. ASR 및 NLP 작업(예: 음성 인식, 요약, 언어 식별 및 기타 여러 작업)을 위한 최첨단 AI 모델을 계속 연구하고 훈련하면서 이러한 AI 모델을 개발자와 제품 팀에 계속 노출할 것입니다. 간단한 API를 통해 — 무료로 사용할 수 있습니다.

AssemblyAI는 개발자와 제품 팀 모두 흥미로운 새 제품, 서비스 및 전체 회사를 구축하는 데 필요한 고급 AI 모델에 쉽게 액세스할 수 있는 곳입니다.

지난 6개월 동안 우리는 다음에 대한 ASR 지원을 시작했습니다. 15개의 새로운 언어—스페인어, 독일어, 프랑스어, 이탈리아어, 힌디어 및 일본어를 포함하여 요약 모델, 실시간 ASR 모델, 콘텐츠 조정 모델 및 수많은 다른 제품 업데이트.

우리는 시리즈 A 펀드에 거의 투자하지 않았지만 이 새로운 펀딩은 우리의 활주로를 손상시키지 않으면서 우리의 노력을 공격적으로 확장할 수 있는 능력을 제공할 것입니다.

이 새로운 자금으로 우리는 제품 로드맵을 가속화하고, AI 연구 및 추론 엔진을 가속화하기 위해 더 나은 AI 인프라를 구축하고, 현재 DeepMind, Google Brain, Meta AI, BMW, 시스코.

AssemblyAI에 대해 공유하고 싶은 다른 사항이 있습니까?

우리의 임무는 간단한 API를 통해 대규모로 개발자와 제품 팀이 최신 AI 모델에 액세스할 수 있도록 하는 것입니다.

훌륭한 인터뷰 감사합니다. 자세한 내용을 알고 싶은 독자는 방문하세요. 어셈블리AI.

Unite.AI

Dylan Fox, AssemblyAI CEO 겸 창립자 – 인터뷰 시리즈

인터뷰

Dylan Fox, AssemblyAI CEO 겸 창립자 – 인터뷰 시리즈

차례

Unite.AI

Dylan Fox, AssemblyAI CEO 겸 창립자 – 인터뷰 시리즈

차례

너는 좋아할지도 모른다.