Tekoäly

Vikrant Tomar, CTO ja perustaja Fluent.ai – Haastattelusarja

Published January 13, 2021

Updated April 5, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vikrant Tomar on Fluent.ai:n CTO ja perustaja, joka on kehittänyt puheentunnistus- ja äänikäyttöliittymäohjelmistoa laitteiden valmistajille ja palveluntarjoajille.

Mikä alun perin kiinnosti sinua akustisen mallinnuksen opiskelussa puheentunnistusta varten?

Oikeasti, se, että voimme puhua laitteille samalla tavalla kuin puhumme toisille ihmisille. Tämä visio on ollut minulle mielenkiintoinen. Aloin opiskella puheentunnistusta yliopiston loppututkinnon aikana. Tämä oli myös aika, jolloin aloin kiinnostua tutkimuksesta, joten otin puheentunnistuskurssin ja liittyi aiheeseen liittyvään tutkimushankkeeseen. Pystyin julkaisemaan tutkimuspaperin InterSpeech-konferenssissa, joka on yksi suurimmista ja arvostetuimmista puheentunnistuskonferensseista. Tämä työ motivoi minua valitsemaan puheentunnistuksen tutkimuksen pitkäaikaiseksi tavoitteeksi, ja näin ollen valmistelin väitöskirjaa.

Vuonna 2015 sinä perustit Fluent.ai:n, voitko kertoa tarinan tämän startupin syntymästä?

Minulla on ollut yrittäjänhenki pitkään. Yhdessä kahden ystävän kanssa yritimme perustaa yhtiön valmistumisen jälkeen, mutta monista syistä tämä yritys ei onnistunut. McGillissä suorittamani väitöskirjatutkinnon aikana seurasin Montrealin startup-kenttää. Tuolloin tutustuin myös TandemLaunchiin, jossa perustin Fluent.ai:n. Olin tuolloin väitöskirjatutkinnon loppuvaiheessa, ja harkitsin uudelleen yrittäjyyttä. Tutkimuskokemukseni, yhteistyö muiden puheentutkimusryhmien kanssa ja työkokemukseni olivat keskittyneet puheentunnistuksen kehittämiseen tietynlaisella tavalla: äänen muuttamisesta tekstiksi ja sitten luonnollisen kielen prosessointiin. Tämä jätti kuitenkin aukon käytettävyydessä. Suuri osa väestöstä ei voi hyödyntää näin kehittettyjä puheratkaisuja. Tällaisten menetelmien vaatima datamäärä on niin suuri, ettei se olisi taloudellisesti kannattavaa kehittää erillisiä malleja vähemmän puhutuille kielille. Lisäksi monilla murteilla ja kielillä ei ole erillistä kirjallista muotoa. Jopa omani perhe ei voinut käyttää minun kehittämiä työkaluja (he puhuvat hindin murretta). Kaiken tämän vuoksi aloin pohtia eri tapoja luoda puhemalleja, joissa datamäärä on vähäisempi ja/tai loppukäyttäjä voi itse kouluttaa tai päivittää malleja. Olin tietoinen KU Leuvenin yliopistossa (KUL) tehdystä työstä, joka voisi täyttää osan näistä vaatimuksista. KUL:sta peräisin olevan teknologian ansiosta pystyimme ottamaan ensimmäiset askeleet siinä, mitä Fluent.ai on tänään.

Voitko selittää tarkemmin Fluent.ai:n älykkäitä puheentunnistusratkaisuja?

Fluent.ai:n puheentunnistusratkaisut perustuvat siihen, miten ihmiset hankkivat ja tunnistavat kieltä. Perinteiset puheentunnistusjärjestelmät transkriboivat ensin syötteenä olevan puheen tekstiksi ja sitten poistavat merkityksen tästä tekstistä. Tämä ei ole sama, miten ihmiset tunnistavat puhetta. Otetaan esimerkki lapsista ennen kuin he oppivat lukemaan ja kirjoittamaan: vaikka he eivät tiedä mitään kirjallisen kielen esitysmuodosta, he pystyvät kuitenkin puhumaan helposti. Samalla tavalla Fluentin syväoppimismallit pystyvät suoraan poistamaan merkityksen puheääniestä ilman, että ne transkriboivat tekstiksi. Teknisesti tämä on todellinen puhutun kielen ymmärtäminen. Tässä lähestymistavassa on useita etuja. Perinteinen puheentunnistus on kömpelö lähestymistapa, jossa useat eri osat, jotka on koulutettu erikseen, yhdistetään antamaan lopullinen vastaus. Tämä johtaa alimitoituun ratkaisuun, joka kärsii aksenteista, melusta, taustaoilosuhteista jne. Fluentin automaattinen aikomustunnistus (AIR) -järjestelmä on päästä jaloista optimoitu; se on täysin neuroverkkopohjainen arkkitehtuuri, jossa kaikki osat on koulutettu yhdessä antamaan optimaalinen ratkaisu. Lisäksi pystymme poistamaan useita laskennallisesti raskaita osia, jotka ovat yleisiä perinteisissä puheentunnistusjärjestelmissä. Tämä mahdollistaa luomisen matalan jalanjäljen puheentunnistusjärjestelmiä, jotka voivat toimia vain 40 KB RAM-muistilla matalatehoisella mikrokontrollerilla, joka toimii 50 MHz:n nopeudella. Lopulta, meidän puhutun kielen ymmärtäminen perustuvat AIR-järjestelmät pystyvät hyödyntämään yhtäläisyyksiä eri kielten välillä ainutlaatuisella tavalla tarjoamaan erinomaisia ominaisuuksia, kuten kykyä tunnistaa useita kieliä samassa mallissa.

Mitkä ovat joitakin suurimpia haasteita älykkään puheentunnistuksen kehittämisessä ympäristömelun ongelman ratkaisemiseksi?

Melu on yksi suurimmista haasteista puheentunnistukselle. Se, mikä tekee siitä erityisen haasteellisen ongelman, on se, että on monia erilaisia melutyyppejä, ja ne vaikuttavat puheen spektriin eri tavoilla. Joskus melu voi vaikuttaa myös mikrofonin vasteeseen. Monissa tapauksissa ei ole mahdollista erottaa puheääniä melusta. Joissakin tapauksissa melu johtaa siihen, että puheen spektrissä oleva tieto maskataan, kun taas toisissa tapauksissa se voi poistaa kaiken hyödyllisen tiedon. Molemmat johtavat alhaiseen tarkkuuteen. Vaikka on helppo poistaa johdonmukaiset melutyypit, kuten tuulettimen melu, jotkut melutyypit, kuten puhe tai musiikki, ovat erittäin vaikeita poistaa, koska ne vaikuttavat puheen spektriin eri tavoilla.

Voitko määritellä, mitä reunan äly on ja miten Fluent.ai käyttää tätä älyä?

Reunan äly on yleisnimi, jota käytetään useista eri tavoista, joilla älysovellukset voidaan siirtää matalatehoisiin laitteisiin. Yhä useammin tämä termi käytetään tapauksiin, joissa reunan laitteet suorittavat itse tiettyjä älykkäitä laskelmia. Fluentilla keskitymme tuomaan korkealaatuisen puhutun kielen ymmärtämisen reunalle. Olemme kehittäneet tehokkaita algoritmeja, jotka mahdollistavat matalatehoisten laskentalaitteiden tunnistaa itse syötteenä oleva puhe ilman, että dataa tarvitse lähettää pilvipalvelimelle prosessointia varten. Edut ovat kaksinkertaiset: ensinnäkin, käyttäjän yksityisyyttä ei vaaranneta lähettämällä ja tallentamalla äänidataa pilveen. Toiseksi, tällainen lähestymistapa vähentää viivettä, koska puhedataa ja vastausta ei tarvitse kuljettaa pilvipalvelimen ja laitteen välillä.

Mitkä muut koneoppimisen teknologiat ovat käytössä?

Pääasiallinen fokus on syväoppimiseen perustuvissa lähestymistavoissa puheentunnistukselle. Käytämme RL (vahvistusoppiminen) -menetelmiä, esim. NASIL[1], löytääksemme uusia, aikaisemmin tuntemattomia älymallien arkkitehtuureja (eli äly luomassa älyä jossain mielessä). Ja käytämme AutoML:ää säätääksemme ennalta määrättyjä älymallejamme saavuttaaksemme luotettavia tuloksia eri sovelluksille, mikä lisää luotettavuutta ja toistettavuutta. Mallin pakkaus ja muut matemaattiset lähestymistavat auttavat edelleen optimoimaan mallin suorituskykyä.

Mitä tapahtuu seuraavien 5 vuoden aikana sekä luonnollisen kielen ymmärtämiselle että luonnollisen kielen prosessoinnille?

Luulen, että järjestelmät kehittyvät tarjoamaan luonnollisempia vuorovaikutuksia. Vaikka on tehty edistystä viime vuosina, useimmat nykyiset järjestelmät voivat vain vastata yksinkertaisiin kysymyksiin tai suorittaa ääniohjatun internethaun. Näemme yhä enemmän ratkaisuja, jotka voivat päättää ja vastata kokonaisen kysymyksen henkilölle sen sijaan, että ne toimisivat vain korostettuna äänipohjaisena hakukoneena.

Toinen mielenkiintoinen näkökulma on yksityisyys. Nykyiset suositut ratkaisut ovat pääasiassa internet-yhteydellisiä laitteita, jotka lähettävät kaiken käyttäjän äänidatan pilvipalvelimelle. Mutta näiden ratkaisujen yksityisyys on muodostunut ongelmaksi. Aloammekin nähdä äänikäyttöliittymän sovelluksia kuluttajaelektroniikan ulkopuolella teollisissa ympäristöissä, ammattimaisessa äänitilassa sekä hotelleissa ja konferenssisaleissa. Tärkeä vaatimus näille sovelluksille on yksityisyys, joten nykyiset yhteydelliset ratkaisut eivät ole riittäviä – näemme yhä enemmän reunan älyä tai laitteen omia luonnollisen kielen ratkaisuja.

Kuten mainitsin aiemmin, puhe- ja luonnollisen kielen ratkaisut ovat edelleen monien maailmanlaajuisten väestöjen ulottumattomissa. On tehty paljon työtä kehittääksemme uudenlaisia älymallien kehittämistä vähäisellä datalla, mikä johtaa kehityskustannusten laskuun ja mahdollistaa mallien kehittämisen vähemmän puhutuille kielille. Samalla linjalla näemme ratkaisuja, jotka voivat oppia tunnistamaan useita kieliä samassa mallissa. Kokonaisuudessaan näemme yhä enemmän monikielisen älymallien käyttöönottoa, jotka voivat vastata käyttäjän kysymyksiin hänen äidinkielensä kielellä.

Onko jotain muuta, mitä haluaisit jakaa Fluent.ai:sta?

Puheentunnistusteknologia on edennyt pitkälle viime vuosina, ja sillä on edelleen paljon kasvupotentiaalia. Fluent.ai:ssa etsimme aina uusia sovelluksia olemassa olevasta teknologiastamme samalla, kun jatkamme sisäistä innovointia. COVID-19-pandemia on luonut korostetun herkkyyden kosketteleville pinnoille, kuten hissinäppäimille, ravintoloiden kioskeille jne., mikä on luonut uuden kysynnän ääniohjatuille teknologioille. Fluent.ai toivoo pystyvänsä täyttämään nämä aukot, koska meidän ratkaisumme ovat monikielisiä ja siten enemmän inklusiivisia, ja ne toimivat offline-tilassa, tarjoten lisäkerroksen yksityisyyttä. Nämä toiminnallisuudet, kuten mainittu, ovat todennäköisesti puheentunnistusteknologian tulevaisuutta.

Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, kannattaa vierailla Fluent.ai:n sivuilla.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Unite.AI

Vikrant Tomar, CTO ja perustaja Fluent.ai – Haastattelusarja

You may like