Interviuri

Dylan Fox, CEO & Fondator al AssemblyAI – Seria de Interviuri

Published September 14, 2022

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Dylan Fox este CEO & Fondator al AssemblyAI, o platformă care convertește automat fișiere audio și video și fluxuri audio live în text cu ajutorul API-urilor Speech-to-Text de la AssemblyAI.

Ce v-a atras inițial către învățarea mașinilor?

Am început prin a învăța să programez și am participat la întâlnirile Python din Washington DC, unde am studiat. Prin cursurile universitare, m-am îndreptat mai mult către probleme de programare de tip algoritm, ceea ce m-a condus în mod natural către învățarea mașinilor și NLP.

Înainte de a fonda AssemblyAI, ați fost Inginer Software Senior la Cisco, la ce lucrați?

La Cisco, am fost Inginer Software Senior, axându-mă pe Machine Learning pentru produsele lor de colaborare.

Cum v-a inspirat munca de la Cisco și o problemă cu sursa tehnologiei de recunoaștere a vorbirii să lansați AssemblyAI?

În unele dintre joburile mele anterioare, am avut ocazia de a lucra la multe proiecte AI, inclusiv proiecte care au necesitat recunoaștere a vorbirii. Dar toate companiile care oferă recunoaștere a vorbirii ca serviciu erau incredibil de învechite, greu de cumpărat și rulează tehnologie AI învechită.

Pe măsură ce m-am interesat tot mai mult de cercetarea AI, am observat că există multă muncă în domeniul recunoașterii vorbirii și cu ce rapiditate se îmbunătățește cercetarea. Așadar, a fost o combinație de factori care m-a inspirat să gândesc: “Ce-ar fi dacă ați putea construi o companie de tip Twilio, folosind cea mai recentă cercetare AI, care să fie mult mai ușor de accesat de către dezvoltatori, cu modele AI de recunoaștere a vorbirii de ultimă generație, cu o experiență mult mai bună pentru dezvoltatori.”

Și de acolo a apărut ideea pentru AssemblyAI.

Care este cea mai mare provocare din spatele construirii tehnologiei de recunoaștere a vorbirii precise și fiabile?

Costul și talentul sunt cele mai mari provocări pentru orice companie care abordează construirea tehnologiei de recunoaștere a vorbirii precise și fiabile.

Datele sunt scumpe de achiziționat, și de obicei, aveți nevoie de sute de mii de ore pentru a construi un sistem robust de recunoaștere a vorbirii. Nu numai atât, cerințele de calcul sunt enorme pentru a antrena. Și pentru a furniza aceste modele în producție este, de asemenea, costisitor și necesită talent specializat pentru a le optimiza și a le face economice.

Construirea acestor tehnologii necesită, de asemenea, un set de abilități specializate, care este greu de găsit. Acesta este un motiv mare pentru care clienții vin la noi pentru modele AI puternice pe care le cercetăm, le antrenăm și le implementăm intern. Ei au acces la ani de cercetare în modele AI de ultimă generație pentru ASR și NLP, toate prin intermediul unui API simplu.

În afara transcrierii pure a conținutului audio și video, AssemblyAI oferă și alte modele, puteți discuta despre ce sunt aceste modele?

Suita noastră de modele AI se extinde dincolo de transcrierea în timp real și asincronă. Ne referim la aceste modele suplimentare ca modele de Inteligență Audio, care ajută clienții să analizeze și să înțeleagă mai bine datele audio.

Modelul nostru de Rezumat oferă un rezumat general, precum și rezumate codate în timp, care segmentează și generează automat un rezumat pentru fiecare “capitol” într-o conversație, atunci când subiectele se schimbă (similar cu capitolele de pe YouTube).

Modelul nostru de Analiză a Sentimentului detectează sentimentul fiecărei propoziții vorbite în fișiere audio. Fiecare propoziție dintr-un transcript poate fi marcată ca Pozitiv, Negativ sau Neutru.

Modelul nostru de Detectare a Entităților identifică o gamă largă de entități care sunt menționate în fișiere audio, cum ar fi nume de persoane sau companii, adrese de e-mail, date și locații.

Modelul nostru de Detectare a Subiectelor etichetează subiectele care sunt discutate în fișiere audio și video. Etichetele de subiect prezise urmează taxonomia standardizată IAB, ceea ce le face potrivite pentru țintirea contextuală.

Modelul nostru de Moderare a Conținutului detectează conținut sensibil în fișiere audio și video — cum ar fi discursul urât, violența, problemele sociale sensibile, alcoolul, drogurile și multe altele.

Care sunt cele mai mari cazuri de utilizare pentru companiile care utilizează AssemblyAI?

Cele mai mari cazuri de utilizare pentru companiile care utilizează AssemblyAI se extind pe patru categorii: telefonia, video, întâlniri virtuale și mass-media.

CallRail este un exemplu excelent de client în spațiul Telefoniei, care utilizează modelele AI ale AssemblyAI — Transcriere de bază, Evidențiere automată a transcrierilor și Redactarea PII — pentru a oferi o soluție puternică de Inteligență Conversațională clienților săi.

În esență, CallRail poate acum să suprafețeze și să definească conținutul cheie din apelurile telefonice ale clienților săi la scară largă — conținut cheie, cum ar fi cereri specifice ale clienților, întrebări frecvente și cuvinte și fraze frecvent utilizate. Modelul nostru de Redactare PII ajută la detectarea și eliminarea automată a datelor sensibile găsite în textul transcrierii (de exemplu, numere de securitate socială, numere de card de credit, adrese personale și multe altele).

Cazurile de utilizare a videoului variază de la platforme de streaming video la editori de video, cum ar fi Veed, care utilizează modelele de transcriere de bază ale AssemblyAI pentru a simplifica procesul de editare a videourilor pentru utilizatori. Veed permite utilizatorilor săi să transcrie videourile și să le editeze direct utilizând subtitrările.

În Întâlniri Virtuale, companiile de software pentru transcrierea întâlnirilor, cum ar fi Fathom, utilizează AssemblyAI pentru a construi funcții inteligente care ajută utilizatorii să transcrie și să evidențieze momentele cheie din apelurile Zoom, promovând o implicare mai bună în întâlniri și eliminând sarcinile tedioase în timpul și după întâlniri (de exemplu, luarea notițelor).

În Mass-media, vedem platforme de găzduire a podcasturilor, de exemplu, care utilizează modelele noastre de Moderare a Conținutului și Detectare a Subiectelor, astfel încât acestea să poată oferi unelte publicitare mai bune pentru cazurile de utilizare a siguranței mărcilor și să monetizeze conținutul generat de utilizatori cu reclame dinamice.

AssemblyAI a strâns recent o rundă de 30 de milioane de dolari Seria B. Cum va accelera aceasta misiunea AssemblyAI?

Progresul realizat în domeniul AI este incredibil de entuziasmant. Scopul nostru este de a expune acest progres tuturor dezvoltatorilor și echipelor de produs de pe internet — prin intermediul unui set simplu de API. Pe măsură ce continuăm să cercetăm și să antrenăm modele AI de ultimă generație pentru sarcinile ASR și NLP (cum ar fi recunoașterea vorbirii, rezumarea, identificarea limbii și multe alte sarcini), vom continua să expunem aceste modele AI dezvoltatorilor și echipelor de produs prin API simple — disponibile gratuit.

AssemblyAI este un loc în care atât dezvoltatorii, cât și echipele de produs pot veni pentru a avea acces ușor la modelele avansate de AI de care au nevoie pentru a construi produse, servicii și companii noi interesante.

În ultimele 6 luni, am lansat suport ASR pentru 15 limbi noi — incluzând spaniolă, germană, franceză, italiană, hindi și japoneză, am lansat îmbunătățiri majore pentru modelul nostru de Rezumat, modelele noastre de recunoaștere a vorbirii în timp real, modelele noastre de Moderare a Conținutului și numeroase alte actualizări de produs.

Abia am atins fondurile noastre de Seria A, dar această finanțare nouă ne va da capacitatea de a ne extinde eforturile fără a compromite durata de viață.

Cu această finanțare nouă, vom putea accelera drumul nostru de produs, vom construi o infrastructură de AI mai bună pentru a accelera motoarele noastre de cercetare și inferență și vom crește echipa noastră de cercetare AI — care include astăzi cercetători de la DeepMind, Google Brain, Meta AI, BMW și Cisco.

Există altceva pe care ați dori să-l împărtășiți despre AssemblyAI?

Misiunea noastră este de a face modelele de AI de ultimă generație accesibile dezvoltatorilor și echipelor de produs la scară foarte largă, prin intermediul unui API simplu.

Mulțumim pentru acest interviu minunat, cititorii care doresc să afle mai multe ar trebui să viziteze AssemblyAI.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.

Unite.AI

Dylan Fox, CEO & Fondator al AssemblyAI – Seria de Interviuri

You may like