Connect with us

Dylan Fox, AssemblyAI:n CEO & perustaja – Haastattelusarja

Haastattelut

Dylan Fox, AssemblyAI:n CEO & perustaja – Haastattelusarja

mm

Dylan Fox on AssemblyAI:n CEO & perustaja, joka on alusta, joka muuttaa automaattisesti ääni- ja videotiedostot sekä live-äänilähetykset tekstimuotoon AssemblyAI:n Speech-to-Text API:en avulla.

Mikä aluksi kiinnosti sinua koneoppimisessa?

Aloin ohjelmointiin ja osallistuin Python-kokouksiin Washington DC:ssa, jossa kävin collegea. College-kurssien kautta löysin itseni enemmän algoritmi-tyyppisiin ohjelmointiongelmiin, mikä luonnollisesti johti minua koneoppimiseen ja NLP:hen.

Ennen AssemblyAI:n perustamista olit Senior Software Engineer Ciscoilla, mitä sinä silloin teit?

Ciscoilla olin Senior Software Engineer, joka keskittyi koneoppimiseen heidän yhteistyötuotteidensa parissa.

Kuinka työsi Ciscoilla ja ongelma puheentunnistusteknologian hankinnassa innoitti sinua perustamaan AssemblyAI:n?

Joidenkin aiempien työpaikkojeni aikana minulla oli mahdollisuus työskennellä monissa AI-projekteissa, mukaan lukien useissa projekteissa, jotka vaativat puheentunnistusta. Mutta kaikki puheentunnistusta palveluna tarjoavat yritykset olivat vanhanaikaisia, vaikeita ostaa ja käyttivät vanhentunutta AI-teknologiaa.

Kun minusta tuli yhä enemmän kiinnostunut AI-tutkimuksesta, huomasin, että puheentunnistuksen alalla tehtiin paljon työtä ja kuinka nopeasti tutkimus parani. Se oli yhdistelmä tekijöistä, jotka innoittivat minua ajattelemaan: “Mitä jos voisi rakentaa Twilio-tyylisen API-yrityksen, joka käyttäisi viimeisintä AI-tutkimusta, joka olisi kehittäjille helpommin saatavilla ja tarjoaisi paremman kehittäjäkokemuksen puheentunnistukselle.”

Ja siitä syntyi AssemblyAI:n idea.

Mikä on suurin haaste luotettavan ja tarkan puheentunnistusteknologian rakentamisessa?

Kustannukset ja kyvyt ovat suurimmat haasteet millekään yritykselle, joka yrittää rakentaa luotettavaa ja tarkkaa puheentunnistusteknologiaa.

Data on kallista hankkia, ja yleensä tarvitsee satoja tuhansia tunteja rakentaa vankka puheentunnistusjärjestelmä. Ei pelkästään se, vaan laskennan vaatimukset ovat valtavat kouluttaa. Ja näiden mallien tarjoaminen tuotannossa on myös kallista ja vaatii erikoistunutta osaamista optimoida ja tehdä taloudelliseksi.

Näiden teknologioiden rakentaminen vaatii myös erikoistunutta osaamista, jota on vaikea löytää. Se on suuri syy, miksi asiakkaat tulevat meidän luo voimakkaiden AI-mallien vuoksi, joita me tutkimme, koulutamme ja otamme käyttöön sisäisesti. He saavat pääsyn vuosien AI-malleihin ASR:lle ja NLP:lle, kaikki yksinkertaisen API:n kautta.

AssemblyAI tarjoaa lisäksi muita malleja puheen ja videon sisällön transkriboimisen ulkopuolella. Voitko kertoa, mitä nämä mallit ovat?

Meidän AI-mallien sarja ulottuu transkriboimisen ulkopuolelle. Kutsumme näitä lisämalleja Älykkäiksi äänimalliksi, jotka auttavat asiakkaitamme analysoimaan ja ymmärtämään äänidataa paremmin.

Meidän Yhteenvetomalli tarjoaa yleiskatsauksen, sekä aikakoodatut yhteenvetot, jotka jakavat automaattisesti ja generoivat yhteenvetoa kunkin “luku”-aiheen muutosten mukaan (samankaltaisia kuin YouTube-luvut).

Meidän Mielialan analyysimalli tunnistaa mielialan jokaisesta lauseesta, joka puhutaan äänitiedostoissa. Jokainen lause transkriptissa voidaan merkitä positiiviseksi, negatiiviseksi tai neutraaliksi.

Meidän Entiteettien havaitsemismalli tunnistaa laajan valikoiman entiteettejä, jotka puhutaan äänitiedostoissa, kuten henkilön tai yrityksen nimet, sähköpostiosoitteet, päivämäärät ja sijainnit.

Meidän Aiheen tunnistusmalli merkitsee aiheet, jotka puhutaan ääni- ja videotiedostoissa. Ennustetut aiheen merkinnät seuraavat standardoitua IAB-luokittelua, mikä tekee niistä sopivia kontekstuaalista kohdistusta varten.

Meidän Sisällön valvontamalli havaitsee herkkää sisältöä ääni- ja videotiedostoissa – kuten vihapuhetta, väkivaltaa, herkkää sosiaalista sisältöä, alkoholia, huumeita ja paljon muuta.

Mitkä ovat suurimmat käyttötarkoitukset yrityksille, jotka käyttävät AssemblyAI:ta?

Suurimmat käyttötarkoitukset yrityksillä, jotka käyttävät AssemblyAI:ta, kattavat neljä luokkaa: puhelinverkko, video, virtuaaliset kokoukset ja media.

CallRail on hyvä esimerkki asiakkaasta puhelinverkkoalueella, joka hyödyntää AssemblyAI:n AI-malleja – Core Transkriptio, Automaattinen Transkriptio Korostus ja PII Poisto – toimittamaan voimakkaan Conversational Intelligence -ratkaisun asiakkailleen.

Perusasiassa CallRail voi nyt automaattisesti löytää ja määritellä avainsisältöä puhelukutsuissaan asiakkailleen suuressa mittakaavassa – avainsisältöä, kuten tiettyjä asiakaspyyntöjä, yleisesti kysyttyjä kysymyksiä ja usein käytettyjä avainsanoja ja lauseita. Meidän PII Poistomalli auttaa heitä havaitsemaan ja poistamaan automaattisesti herkkää tietoa transkriptitekstistä (esim. sosiaaliturvatunnukset, luottokorttinumerot, henkilökohtaiset osoitteet jne.).

Video-käyttötarkoitukset ulottuvat videovirtausalustoista videoeditoreihin, kuten Veed, joka käyttää AssemblyAI:n Core Transkriptio-malleja yksinkertaistamaan videoeditointiprosessia käyttäjilleen. Veed sallii käyttäjilleen transkriboida videonsa ja editoida niitä suoraan käyttäen tekstityksiä.

Virtuaalisissa kokouksissa kokous-transkriptio-ohjelmisto-yritykset, kuten Fathom, käyttävät AssemblyAI:ta rakentamaan älykkäitä ominaisuuksia, jotka auttavat heidän käyttäjiään transkriboimaan ja korostamaan avainhetket heidän Zoom-kutsuistaan, edistäen parempaa kokouskäyttäytymistä ja poistamalla turhat tehtävät kokousten aikana ja jälkeen (esim. muistiinpanojen ottaminen).

Mediassa näemme podcast-isäntäalustoja, jotka käyttävät meidän Sisällön valvonta- ja Aiheen tunnistusmalleja, jotta he voivat tarjota parempia mainosvälineitä brändien turvallisuuskäyttötarkoituksiin ja rahdata käyttäjien luoma sisältö dynaamisilla mainoksilla.

AssemblyAI on äskettäin kerännyt 30 miljoonan dollarin Series B -rahoituksen. Miten tämä kiihdyttää AssemblyAI:n tehtävää?

AI-alalla tehtävän edistys on erittäin jännittävää. Meidän tavoitteemme on paljastaa tämä edistys jokaiselle kehittäjälle ja tuotetiimille internetissä – yksinkertaisen API:n kautta. Kun jatkamme AI-mallien tutkimista ja kouluttamista ASR- ja NLP-tehtävissä (kuten puheentunnistus, yhteenveto, kielentunnistus jne.), jatkamme näiden AI-mallien esittelyä kehittäjille ja tuotetiimeille yksinkertaisen API:n kautta – saatavilla ilmaiseksi.

AssemblyAI on paikka, jossa sekä kehittäjät että tuotetiimit voivat tulla etsimään helppoa pääsyä edistyneisiin AI-malleihin, joita he tarvitsevat rakentamaan uusia tuotteita, palveluita ja kokonaisia yrityksiä.

Viimeisen 6 kuukauden aikana olemme julkaisseet ASR-tuen 15 uudelle kielelle – mukaan lukien espanja, saksa, ranska, italia, hindi ja japani, julkaissut merkittäviä parannuksia Summarization-malliimme, Real-Time ASR -malleihimme, Content Moderation -malleihimme ja moniin muihin tuoteuudistuksiin.

Emme ole käyttäneet edes osaa Series A -rahastostamme, mutta tämä uusi rahoitus antaa meille mahdollisuuden kiihdyttää pääomaa ilman, että vaarantaisimme talouttamme.

Tämän uuden rahoituksen avulla voimme kiihdyttää tuotekehityksemme, rakentaa paremman AI-infrastruktuurin AI-tutkimuksen ja inference-moottorien nopeuttamiseksi ja kasvattaa AI-tutkimustiimimme – johon kuuluvat tutkijat DeepMindista, Google Brainista, Meta AI:sta, BMW:stä ja Cisco:sta.

Onko jotain muuta, mitä haluaisit jakaa AssemblyAI:sta?

Meidän tehtävämme on tehdä huipputason AI-mallit saatavilla kehittäjille ja tuotetiimeille erittäin suuressa mittakaavassa yksinkertaisen API:n kautta.

Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, kannattaa vierailla AssemblyAI:ssa.

Antoine on visionäärinen johtaja ja Unite.AI:n perustajakumppani, jota ohjaa horjumaton intohimo muokata ja edistää tulevaisuuden tekoälyä ja robottiikkaa. Sarjayrittäjänä hän uskoo, että tekoäly tulee olemaan yhtä mullistava yhteiskunnalle kuin sähkö, ja hänestä usein kuuluu ylistyksiä mullistavien teknologioiden ja AGI:n mahdollisuuksista.
Hänen ollessaan futuristi, hän on omistautunut tutkimiseen, miten nämä innovaatiot muokkaavat maailmaamme. Lisäksi hän on Securities.io:n perustaja, joka on alusta, joka keskittyy sijoittamiseen uraauurtaviin teknologioihin, jotka määrittelevät uudelleen tulevaisuuden ja muokkaavat koko sektoreita.