rozhovory

Dylan Fox, generálny riaditeľ a zakladateľ AssemblyAI – Séria rozhovorov

uverejnené

Pred 2 rokov

September 14, 2022

Dylan Fox je generálnym riaditeľom a zakladateľom spoločnosti AssemblyAI, platforma, ktorá automaticky konvertuje audio a video súbory a živé audio streamy na text pomocou Speech-to-Text API spoločnosti AssemblyAI.

Čo ťa spočiatku priťahovalo k strojovému učeniu?

Začal som tým, že som sa naučil programovať a zúčastnil som sa Python Meetups vo Washingtone DC, kde som išiel na vysokú školu. Prostredníctvom vysokoškolských kurzov som zistil, že sa viac opieram o problémy s programovaním typu algoritmov, čo ma prirodzene priviedlo k strojovému učeniu a NLP.

Pred založením AssemblyAI ste boli senior softvérovým inžinierom v spoločnosti Cisco, na čom ste pracovali?

V spoločnosti Cisco som bol senior softvérovým inžinierom so zameraním na strojové učenie pre ich produkty spolupráce.

Ako vás vaša práca v spoločnosti Cisco a problém so získavaním technológie rozpoznávania reči inšpirovali k spusteniu AssemblyAI?

V niektorých mojich predchádzajúcich zamestnaniach som mal príležitosť pracovať na mnohých projektoch AI vrátane niekoľkých projektov, ktoré vyžadovali rozpoznávanie reči. Ale všetky spoločnosti ponúkajúce rozpoznávanie reči ako službu boli šialene zastarané, ťažko sa od nich dalo niečo kúpiť a používali zastaranú technológiu AI.

Keď som sa začal viac a viac zaujímať o výskum AI, všimol som si, že v oblasti rozpoznávania reči sa robí veľa práce a ako rýchlo sa výskum zlepšuje. Takže to bola kombinácia faktorov, ktoré ma inšpirovali k myšlienke: „Čo keby ste mohli vybudovať spoločnosť API v štýle Twilio pomocou najnovšieho výskumu AI, ktorý by vývojárom oveľa jednoduchšie pristupoval k najmodernejším modelom AI pre reč? uznanie, s oveľa lepšou skúsenosťou vývojárov.“

A práve odtiaľ vznikol nápad AssemblyAI rástol.

Čo je najväčšou výzvou pri budovaní presnej a spoľahlivej technológie rozpoznávania reči?

Náklady a talent sú najväčšie výzvy, ktorým musí každá spoločnosť čeliť pri budovaní presnej a spoľahlivej technológie rozpoznávania reči.

Získavanie údajov je drahé a zvyčajne potrebujete stovky tisíc hodín na vytvorenie robustného systému rozpoznávania reči. Nielen to, výpočtové požiadavky sú obrovské na trénovanie. A prevádzka týchto modelov vo výrobe je tiež nákladná a vyžaduje špecializovaný talent na optimalizáciu a hospodárnosť.

Budovanie týchto technológií si tiež vyžaduje špecializovaný súbor zručností, ktorý je ťažké nájsť. To je veľký dôvod, prečo k nám zákazníci prichádzajú pre výkonné modely AI, ktoré skúmame, školíme a nasadzujeme interne. Získajú prístup k dlhoročnému výskumu najmodernejších modelov AI pre ASR a NLP, a to všetko s jednoduchým API.

Okrem čistého prepisu audio a video obsahu AssemblyAI ponúka ďalšie modely, môžete diskutovať o tom, čo sú tieto modely?

Naša sada modelov AI presahuje rámec len prepisu v reálnom čase a asynchrónneho prepisu. Tieto dodatočné modely označujeme ako modely Audio Intelligence, pretože pomáhajú zákazníkom analyzovať a lepšie porozumieť zvukovým údajom.

Náš súhrnný model poskytuje celkový súhrn, ako aj časovo kódované súhrny, ktoré automaticky segmentujú a generujú súhrn pre každú „kapitolu“, keď sa témy v konverzácii menia (podobne ako v kapitolách na YouTube).

Náš model analýzy sentimentu zisťuje pocity každej vety reči vyslovenej v zvukových súboroch. Každá veta v prepise môže byť označená ako pozitívna, negatívna alebo neutrálna.

Náš model detekcie entít identifikuje širokú škálu entít, ktoré sú vyslovené v zvukových súboroch, ako sú mená osôb alebo spoločností, e-mailové adresy, dátumy a miesta.

Náš model detekcie tém označuje témy, ktoré sú vyslovené v audio a video súboroch. Predpovedané menovky tém sa riadia štandardizovanou taxonómiou IAB, vďaka čomu sú vhodné na kontextové zacielenie.

Náš model moderovania obsahu zisťuje citlivý obsah vo zvukových a video súboroch – ako sú nenávistné prejavy, násilie, citlivé sociálne problémy, alkohol, drogy a ďalšie.

Aké sú niektoré z najväčších prípadov použitia pre spoločnosti používajúce AssemblyAI?

Najväčšie prípady použitia, ktoré majú spoločnosti pre AssemblyAI, zahŕňajú štyri kategórie: telefón, video, virtuálne stretnutia a médiá.

CallRail je skvelým príkladom zákazníka v Telefónia space, ktorý využíva modely AI spoločnosti AssemblyAI – Core Transscription, Automatic Transcript Highlights a PII Redaction – na poskytovanie výkonného riešenia Conversational Intelligence svojim zákazníkom.

CallRail teraz v podstate dokáže automaticky zobraziť a definovať kľúčový obsah vo svojich telefonických hovoroch svojim zákazníkom vo veľkom rozsahu – kľúčový obsah, ako sú špecifické požiadavky zákazníkov, často kladené otázky a často používané kľúčové slová a frázy. Náš model PII Redaction im pomáha automaticky zisťovať a odstraňovať citlivé údaje nachádzajúce sa v texte prepisu (napr. čísla sociálneho poistenia, čísla kreditných kariet, osobné adresy a ďalšie).

Video prípady použitia siahajú od platforiem na streamovanie videa až po editory videa, ako je Veed, ktorí používajú modely Core Transscription spoločnosti AssemblyAI na zjednodušenie procesu úpravy videa pre používateľov. Veed umožňuje svojim používateľom prepisovať svoje videá a upravovať ich priamo pomocou titulkov.

In Virtuálne stretnutia, spoločnosti zaoberajúce sa softvérom na prepisovanie stretnutí, ako je Fathom, používajú AssemblyAI na vytváranie inteligentných funkcií, ktoré pomáhajú ich používateľom prepisovať a zvýrazniť kľúčové momenty z ich hovorov zoom, čím podporujú lepšie zapojenie sa do stretnutí a eliminujú únavné úlohy počas stretnutí a po nich (napr. písanie poznámok).

In media, vidíme, že napríklad platformy na hosťovanie podcastov používajú naše modely moderovania obsahu a zisťovania tém, aby mohli ponúkať lepšie reklamné nástroje pre prípady použitia bezpečnosti značky a speňažiť obsah vytváraný používateľmi pomocou dynamických reklám.

AssemblyAI nedávno získal 30 miliónov dolárov v sérii B. Ako to urýchli misiu AssemblyAI?

Pokrok dosiahnutý v oblasti AI je neuveriteľne vzrušujúci. Naším cieľom je predstaviť tento pokrok každému vývojárskemu a produktovému tímu na internete – prostredníctvom jednoduchej sady rozhraní API. Keďže pokračujeme vo výskume a výcviku najmodernejších modelov AI pre úlohy ASR a NLP (ako je rozpoznávanie reči, sumarizácia, identifikácia jazyka a mnoho ďalších úloh), budeme tieto modely AI naďalej vystavovať vývojárom a produktovým tímom. cez jednoduché API — dostupné zadarmo.

AssemblyAI je miesto, kam môžu prísť vývojári aj produktové tímy, aby získali jednoduchý prístup k pokročilým modelom AI, ktoré potrebujú na vytváranie vzrušujúcich nových produktov, služieb a celých spoločností.

Za posledných 6 mesiacov sme spustili podporu ASR pre 15 nových jazykov– vrátane španielčiny, nemčiny, francúzštiny, taliančiny, hindčiny a japončiny, vydali hlavné vylepšenia nášho súhrnného modelu, modelov ASR v reálnom čase, modelov moderovania obsahu a nespočetné množstvo ďalších produktových aktualizácií.

Sotva sme namočili do našich fondov série A, ale toto nové financovanie nám umožní agresívne zvýšiť naše úsilie – bez kompromisov na našej dráhe.

Vďaka tomuto novému financovaniu budeme môcť urýchliť náš produktový plán, vybudovať lepšiu infraštruktúru AI na urýchlenie nášho výskumu AI a inferenčných nástrojov a rozšírime náš výskumný tím AI – ktorý dnes zahŕňa výskumníkov z DeepMind, Google Brain, Meta AI, BMW a Cisco.

Je ešte niečo, o čo by ste sa chceli podeliť o AssemblyAI?

Naším poslaním je sprístupniť najmodernejšie modely AI vývojárom a produktovým tímom v extrémne veľkom rozsahu prostredníctvom jednoduchého API.

Ďakujeme za skvelý rozhovor, čitatelia, ktorí sa chcú dozvedieť viac, by mali navštíviť AssemblyAI.