ciot Dylan Fox, CEO și fondator al AssemblyAI - Seria de interviuri - Unite.AI
Conectează-te cu noi

interviuri

Dylan Fox, CEO și fondator al AssemblyAI – Seria de interviuri

mm

Publicat

 on

Dylan Fox este CEO și fondator al AdunareaAI, o platformă care convertește automat fișierele audio și video și fluxurile audio live în text cu API-urile Speech-to-Text de la AssemblyAI.

Ce te-a atras inițial către învățarea automată?

Am început prin a învăța cum să programez și am participat la Python Meetups în Washington DC, unde am fost la facultate. Prin cursurile de la facultate, m-am trezit înclinându-mă mai mult pe probleme de programare de tip algoritm, ceea ce m-a condus în mod natural către învățarea automată și NLP.

Înainte de a fonda AssemblyAI, ați fost inginer software senior la Cisco, la ce lucrați?

La Cisco, am fost inginer software senior, concentrându-mă pe Machine Learning pentru produsele lor de colaborare.

Cum v-a inspirat munca dvs. la Cisco și o problemă legată de aprovizionarea cu tehnologia de recunoaștere a vorbirii să lansați AssemblyAI?

În unele dintre slujbele mele anterioare, am avut ocazia să lucrez la o mulțime de proiecte AI, inclusiv mai multe proiecte care necesitau recunoașterea vorbirii. Dar toate companiile care ofereau recunoașterea vorbirii ca serviciu erau nebun de învechite, greu de cumpărat ceva și aveau tehnologie AI depășită.

Pe măsură ce am devenit din ce în ce mai interesat de cercetarea AI, am observat că se lucrează mult în domeniul recunoașterii vorbirii și cât de repede se îmbunătățește cercetarea. Așa că a fost o combinație de factori care m-a inspirat să mă gândesc: „Dar dacă ai putea construi o companie API în stil Twilio folosind cele mai recente cercetări AI, care a fost mult mai ușor pentru dezvoltatori să acceseze modele AI de ultimă generație pentru vorbire. recunoaștere, cu o experiență de dezvoltator mult mai bună.”

Și de acolo a venit ideea pentru AdunareaAI crescut.

Care este cea mai mare provocare din spatele construirii unei tehnologii precise și fiabile de recunoaștere a vorbirii?

Costul și talentul sunt cele mai mari provocări pe care orice companie le poate aborda atunci când construiește o tehnologie de recunoaștere a vorbirii precisă și fiabilă.

Datele sunt costisitoare de achiziționat și, de obicei, aveți nevoie de sute de mii de ore pentru a construi un sistem robust de recunoaștere a vorbirii. Nu numai că, cerințele de calcul sunt enorme de antrenat. Și deservirea acestor modele în producție este, de asemenea, costisitoare și necesită talent specializat pentru a optimiza și a face economic.

Construirea acestor tehnologii necesită, de asemenea, un set de abilități specializate, care este greu de găsit. Acesta este un motiv important pentru care clienții vin la noi pentru modele puternice de IA pe care le cercetăm, le antrenăm și le implementăm în interior. Aceștia au acces la ani de cercetare asupra modelelor AI de ultimă generație pentru ASR și NLP, toate cu un API simplu.

În afară de transcrierea exclusivă a conținutului audio și video, AssemblyAI oferă modele suplimentare, puteți discuta care sunt aceste modele?

Suita noastră de modele AI se extinde dincolo de doar transcrierea în timp real și asincronă. Ne referim la aceste modele suplimentare ca modele Audio Intelligence, deoarece ajută clienții să analizeze și să înțeleagă mai bine datele audio.

Modelul nostru de rezumare oferă un rezumat general, precum și rezumate codificate în timp care segmentează și generează automat un rezumat pentru fiecare „capitol” pe măsură ce subiectele dintr-o conversație se modifică (similar cu capitolele YouTube).

Modelul nostru de analiză a sentimentelor detectează sentimentul fiecărei propoziții rostite în fișierele audio. Fiecare propoziție dintr-o transcriere poate fi marcată ca pozitivă, negativă sau neutră.

Modelul nostru de detectare a entităților identifică o gamă largă de entități care sunt rostite în fișiere audio, cum ar fi nume de persoane sau companii, adrese de e-mail, date și locații.

Modelul nostru de detectare a subiectelor etichetează subiectele care sunt vorbite în fișierele audio și video. Etichetele de subiecte prezise urmează taxonomia IAB standardizată, ceea ce le face potrivite pentru direcționarea contextuală.

Modelul nostru de moderare a conținutului detectează conținut sensibil în fișierele audio și video, cum ar fi discursul instigator la ură, violența, probleme sociale sensibile, alcool, droguri și multe altele.

Care sunt unele dintre cele mai mari cazuri de utilizare pentru companiile care folosesc AssemblyAI?

Cele mai mari cazuri de utilizare pe care companiile le au pentru AssemblyAI se întind în patru categorii: telefonie, video, întâlniri virtuale și media.

CallRail este un exemplu excelent de client în Telefonie space, care folosește modelele AI ale AssemblyAI — Core Transcription, Automatic Transcript Highlights și PII Redaction — pentru a oferi clienților săi o soluție puternică de Conversational Intelligence.

În esență, CallRail poate acum să evidențieze și să definească automat conținutul cheie în apelurile lor telefonice către clienții lor la scară - conținut cheie, cum ar fi solicitări specifice ale clienților, întrebări frecvente și cuvinte cheie și expresii utilizate frecvent. Modelul nostru de redactare a PII îi ajută să detecteze și să elimine automat datele sensibile găsite în textul transcripției (de exemplu, numere de securitate socială, numere de card de credit, adrese personale și multe altele).

Video cazurile de utilizare variază de la platforme de streaming video până la editori video precum Veed, care utilizează modelele Core Transcription de la AssemblyAI pentru a simplifica procesul de editare video pentru utilizatori. Veed permite utilizatorilor săi să-și transcrie videoclipurile și să le editeze direct folosind subtitrările.

In Întâlniri virtuale, companii de software de transcriere a întâlnirilor precum Fathom folosesc AssemblyAI pentru a construi funcții inteligente care îi ajută pe utilizatori să transcrie și să evidențieze momentele cheie din apelurile lor Zoom, favorizând o mai bună implicare a întâlnirilor și eliminând sarcinile obositoare în timpul și după întâlniri (de exemplu, luarea de note).

In Mass-media, vedem că platformele de găzduire de podcast, de exemplu, folosesc modelele noastre de Moderare a conținutului și Detectare subiecte, astfel încât să poată oferi instrumente publicitare mai bune pentru cazurile de utilizare a siguranței mărcii și să monetizeze conținutul generat de utilizatori cu reclame dinamice.

AssemblyAI recent a strâns o rundă de Seria B de 30 de milioane de dolari. Cum va accelera acest lucru misiunea AssemblyAI?

Progresul înregistrat în domeniul AI este incredibil de interesant. Scopul nostru este să expunem acest progres pentru fiecare dezvoltator și echipă de produs de pe internet - printr-un set simplu de API-uri. Pe măsură ce continuăm să cercetăm și să instruim modele AI de ultimă generație pentru sarcinile ASR și NLP (cum ar fi recunoașterea vorbirii, rezumarea, identificarea limbajului și multe alte sarcini), vom continua să expunem aceste modele AI dezvoltatorilor și echipelor de produse. prin intermediul API-urilor simple — disponibile gratuit.

AssemblyAI este un loc în care atât dezvoltatorii, cât și echipele de produse pot veni pentru a avea acces ușor la modelele avansate de IA de care au nevoie pentru a construi noi produse, servicii și companii întregi.

În ultimele 6 luni, am lansat suportul ASR pentru 15 limbi noi—inclusiv spaniolă, germană, franceză, italiană, hindi și japoneză, au lansat îmbunătățiri majore ale modelului nostru de rezumare, modelelor ASR în timp real, modelelor de moderare a conținutului și nenumărate alte actualizări ale produsului.

Abia ne-am investit în fondurile noastre din seria A, dar această nouă finanțare ne va oferi capacitatea de a ne intensifica eforturile – fără a face compromisuri asupra pistei noastre.

Cu această nouă finanțare, vom putea să ne accelerăm foaia de parcurs pentru produse, să construim o infrastructură AI mai bună pentru a accelera motoarele noastre de cercetare și inferență AI și să ne dezvoltăm echipa de cercetare AI, care include astăzi cercetători de la DeepMind, Google Brain, Meta AI, BMW și Cisco.

Mai există ceva pe care ați dori să împărtășiți despre AssemblyAI?

Misiunea noastră este să facem modele AI de ultimă generație accesibile dezvoltatorilor și echipelor de produse la scară extrem de mare printr-un API simplu.

Mulțumim pentru interviul minunat, cititorii care doresc să afle mai multe ar trebui să viziteze AdunareaAI.

Un partener fondator al unit.AI și un membru al Consiliul Tehnologic Forbes, Antoine este un futurist care este pasionat de viitorul AI și al roboticii.

El este, de asemenea, fondatorul Securities.io, un site web care se concentrează pe investițiile în tehnologie disruptivă.