tynkä Dylan Fox, AssemblyAI:n toimitusjohtaja ja perustaja - Haastattelusarja - Unite.AI
Liity verkostomme!

Haastattelut

Dylan Fox, AssemblyAI:n toimitusjohtaja ja perustaja – haastattelusarja

mm

Julkaistu

 on

Dylan Fox on yhtiön toimitusjohtaja ja perustaja AssemblyAI, alusta, joka muuntaa automaattisesti ääni- ja videotiedostot ja suorat äänivirrat tekstiksi AssemblyAI:n Speech-to-Text API-liittymien avulla.

Mikä alun perin houkutteli sinua koneoppimiseen?

Aloitin opettelemalla ohjelmoinnin ja osallistuin Python Meetups -tapahtumaan Washington DC:ssä, missä kävin yliopistossa. Yliopistokurssien kautta huomasin nojautuvani enemmän algoritmityyppisiin ohjelmointiongelmiin, mikä luonnollisesti johti koneoppimiseen ja NLP:hen.

Ennen AssemblyAI:n perustamista olit vanhempi ohjelmistosuunnittelija Ciscossa. Mitä työskentelit?

Ciscossa olin vanhempi ohjelmistosuunnittelija, joka keskittyi koneoppimiseen heidän yhteistyötuotteissaan.

Miten työsi Ciscossa ja puheentunnistusteknologian hankintaongelma inspiroivat sinua käynnistämään AssemblyAI:n?

Joissakin aikaisemmissa töissäni minulla oli mahdollisuus työskennellä monissa tekoälyprojekteissa, mukaan lukien useita puheentunnistusta vaativia projekteja. Mutta kaikki puheentunnistusta palveluna tarjoavat yritykset olivat järjettömän vanhentuneita, heiltä oli vaikea ostaa mitään ja he käyttivät vanhentunutta tekoälytekniikkaa.

Kun kiinnostuin tekoälytutkimuksesta yhä enemmän, huomasin, että puheentunnistuksen alalla tehdään paljon työtä ja kuinka nopeasti tutkimus parani. Joten se oli useiden tekijöiden yhdistelmä, joka inspiroi minua ajattelemaan: "Mitä jos voisit rakentaa Twilio-tyylisen API-yrityksen käyttämällä viimeisintä tekoälytutkimusta, jonka avulla kehittäjät voisivat käyttää puheen huippuluokan tekoälymalleja. tunnustusta paljon paremmalla kehittäjäkokemuksella."

Ja sieltä se idea tulikin AssemblyAI kasvoi.

Mikä on suurin haaste tarkan ja luotettavan puheentunnistusteknologian rakentamisessa?

Kustannukset ja lahjakkuus ovat kaikkien yritysten suurimmat haasteet tarkan ja luotettavan puheentunnistusteknologian rakentamisessa.

Tietojen hankkiminen on kallista, ja tarvitset yleensä satoja tuhansia tunteja vankan puheentunnistusjärjestelmän rakentamiseen. Ei vain sitä, laskentavaatimukset ovat valtavat koulutettavaksi. Ja näiden mallien palveleminen tuotannossa on myös kallista ja vaatii erikoisosaamista optimoimaan ja tekemään sen taloudelliseksi.

Näiden teknologioiden rakentaminen vaatii myös erikoisosaamista, jota on vaikea löytää. Tämä on suuri syy siihen, miksi asiakkaat hakevat meiltä tehokkaita tekoälymalleja, joita tutkimme, koulutamme ja otamme käyttöön talon sisällä. He saavat käyttöönsä vuosien tutkimuksen ASR:n ja NLP:n huippumoderneista tekoälymalleista, kaikki yksinkertaisella API:lla.

Puhtaasti ääni- ja videosisällön transkription lisäksi AssemblyAI tarjoaa lisämalleja, voitko keskustella, mitä nämä mallit ovat?

Tekoälymallivalikoimamme ulottuu muutakin kuin vain reaaliaikainen ja asynkroninen transkriptio. Kutsumme näitä lisämalleja Audio Intelligence -malleiksi, koska ne auttavat asiakkaita analysoimaan ja ymmärtämään audiodataa paremmin.

Yhteenvetomallimme tarjoaa yleisen yhteenvedon sekä aikakoodatut yhteenvedot, jotka automaattisesti segmentoivat ja luovat yhteenvedon kullekin "luvulle" keskustelun aiheiden muuttuessa (samalla tavalla kuin YouTube-luvuissa).

Sentimenttianalyysimallimme tunnistaa jokaisen äänitiedostoissa puhutun puhelauseen tunteen. Jokainen tekstin virke voidaan merkitä positiiviseksi, negatiiviseksi tai neutraaliksi.

Entity Detection -mallimme tunnistaa laajan joukon kokonaisuuksia, jotka puhutaan äänitiedostoissa, kuten henkilöiden tai yritysten nimet, sähköpostiosoitteet, päivämäärät ja sijainnit.

Aiheentunnistusmallimme merkitsee ääni- ja videotiedostoissa puhutut aiheet. Ennustetut aihetunnisteet noudattavat standardoitua IAB:n taksonomiaa, mikä tekee niistä sopivia asiayhteyteen kohdistukseen.

Sisällönvalvontamallimme havaitsee arkaluontoisen sisällön ääni- ja videotiedostoista – kuten vihapuheen, väkivallan, arkaluontoiset sosiaaliset ongelmat, alkoholin, huumeet ja paljon muuta.

Mitkä ovat AssemblyAI:ta käyttävien yritysten suurimpia käyttötapauksia?

Yritysten suurimmat AssemblyAI:n käyttötapaukset jakautuvat neljään kategoriaan: puhelin, video, virtuaalikokoukset ja media.

CallRail on loistava esimerkki asiakkaasta Puhelimet tilaa, joka hyödyntää AssemblyAI:n tekoälymalleja – Core Transcription, Automatic Transcript Highlights ja PII Redaction – tarjotakseen asiakkailleen tehokkaan Conversational Intelligence -ratkaisun.

Pohjimmiltaan CallRail voi nyt automaattisesti tuoda esiin ja määritellä keskeistä sisältöä asiakkailleen suunnatuissa puheluissaan – avainsisältöä, kuten erityisiä asiakaspyyntöjä, usein kysyttyjä kysymyksiä ja usein käytettyjä avainsanoja ja lauseita. PII-muokkausmallimme auttaa heitä automaattisesti havaitsemaan ja poistamaan transkriptitekstissä olevat arkaluontoiset tiedot (esim. sosiaaliturvatunnukset, luottokorttinumerot, henkilökohtaiset osoitteet ja paljon muuta).

Video käyttötapaukset vaihtelevat videon suoratoistoalustoista Veedin kaltaisiin videoeditoreihin, jotka käyttävät AssemblyAI:n Core Transcription -malleja yksinkertaistamaan videon muokkausprosessia käyttäjien kannalta. Veed sallii käyttäjiensä litteroida videonsa ja muokata niitä suoraan tekstitysten avulla.

In Virtuaali kokoukset, kokousten transkriptioohjelmistoyritykset, kuten Fathom, käyttävät AssemblyAI:ta rakentaakseen älykkäitä ominaisuuksia, jotka auttavat käyttäjiä litteroimaan ja tuomaan esiin Zoom-puheluiden tärkeimmät hetket, mikä edistää parempaa osallistumista kokouksiin ja eliminoi työläitä tehtäviä kokousten aikana ja niiden jälkeen (esim. muistiinpanojen tekeminen).

In Media, näemme esimerkiksi podcast-isännöintialustoja, jotka käyttävät sisällönvalvonta- ja aiheentunnistusmallejamme, jotta ne voivat tarjota parempia mainostyökaluja tuotemerkin turvallisuuden käyttötapauksiin ja kaupallistaa käyttäjien luomaa sisältöä dynaamisilla mainoksilla.

AssemblyAI äskettäin keräsi 30 miljoonan dollarin sarjan B kierroksen. Miten tämä nopeuttaa AssemblyAI:n tehtävää?

Tekoälyn alalla tapahtuva edistys on uskomattoman jännittävää. Tavoitteemme on paljastaa tämä edistyminen kaikille Internetin kehittäjille ja tuotetiimille – yksinkertaisten sovellusliittymien avulla. Jatkaessamme uusimpien tekoälymallien tutkimista ja kouluttamista ASR- ja NLP-tehtäviin (kuten puheentunnistus, yhteenveto, kielen tunnistaminen ja monet muut tehtävät), jatkamme näiden tekoälymallien esittämistä kehittäjille ja tuotetiimeille. yksinkertaisten API:iden kautta – saatavilla ilmaiseksi.

AssemblyAI on paikka, johon sekä kehittäjät että tuotetiimit voivat tulla saadakseen helpon pääsyn edistyneisiin tekoälymalliin, joita he tarvitsevat uusien jännittävien tuotteiden, palveluiden ja kokonaisten yritysten rakentamiseen.

Viimeisten 6 kuukauden aikana olemme ottaneet käyttöön ASR-tuen 15 uutta kieltä- mukaan lukien espanja, saksa, ranska, italia, hindi ja japani, julkaissut merkittäviä parannuksia yhteenvetomalliimme, reaaliaikaisiin ASR-malleihin, sisällönvalvontamalleihin ja lukemattomia muita tuotepäivityksiä.

Olemme hädin tuskin uppoutuneet A-sarjan rahastoihimme, mutta tämä uusi rahoitus antaa meille mahdollisuuden laajentaa ponnistelujamme aggressiivisesti – tinkimättä kiitoradasta.

Tällä uudella rahoituksella voimme nopeuttaa tuotesuunnitelmaamme, rakentaa parempaa tekoälyinfrastruktuuria nopeuttaaksemme tekoälytutkimusta ja johtopäätösmoottoreitamme ja kasvattaa tekoälytutkimustiimiämme – johon kuuluu nykyään tutkijoita DeepMindistä, Google Brainista, Meta AI:sta, BMW ja Cisco.

Onko jotain muuta, mitä haluaisit jakaa AssemblyAI:sta?

Missiomme on tuoda huippuluokan tekoälymallit kehittäjien ja tuoteryhmien saataville erittäin suuressa mittakaavassa yksinkertaisen API:n kautta.

Kiitos upeasta haastattelusta, lukijoiden, jotka haluavat tietää lisää, kannattaa käydä AssemblyAI.

Unite.AI:n perustajaosakas ja jäsen Forbes Technology Council, Antoine on a futurist joka on intohimoinen tekoälyn ja robotiikan tulevaisuudesta.

Hän on myös perustaja Securities.io, verkkosivusto, joka keskittyy investoimaan häiritsevään teknologiaan.