Connect with us

Vikrant Tomar, CTO og grundlægger af Fluent.ai – Interview Serie

Kunstig intelligens

Vikrant Tomar, CTO og grundlægger af Fluent.ai – Interview Serie

mm

Vikrant Tomar er CTO og grundlægger af Fluent.ai, et taleforståelses- og stemmebrugergrænsefladesoftware til enheds-OEM’er og tjenesteudbydere.

Hvad var det, der oprindeligt tiltrak dig til at studere akustisk modellering til talegenkendelse?

Det var faktisk evnen til at tale med enheder på samme måde, som vi taler med andre mennesker. Denne vision har været fascinerende for mig. Jeg begyndte at studere talegenkendelse under mit sidste år på bacheloruddannelsen. Det var også på dette tidspunkt, jeg begyndte at blive interesseret i forskning, så jeg tog et kursus i talegenkendelse og et relateret forskningsprojekt. Jeg kunne publicere en forskningsartikel på InterSpeech-konferencen, en af de største og mest anerkendte talegenkendelseskonferencer, fra dette arbejde. Alt dette motiverede mig til at vælge forskning i talegenkendelse som fokus for længere tid, og derfor ph.d.-studiet.

I 2015 lancerede du Fluent.ai, kan du dele historien bag dette startup?

Jeg har haft en iværksætterdrøm i mig i lang tid. Jeg, sammen med to andre venner, havde forsøgt at starte et firma efter vores bacheloruddannelse, men af flere årsager lykkedes det ikke. Under min ph.d. på McGill holdt jeg øje på Montreals startup-scene. På dette tidspunkt fik jeg også kontakt med folk fra TandemLaunch – startup-foundry, hvor jeg oprettede Fluent.ai. Da var jeg ved at være færdig med min ph.d., og jeg var ved at give iværksætteri et alvorligt overvejelse. Gennem min arbejdserfaring, forskning og association med andre taleforskningsgrupper indså jeg, at de fleste af disse erfaringer havde været fokuseret på at gøre talegenkendelse på en bestemt måde: fra tale til teksttranskription og derefter naturlig sprogbehandling. Men dette efterlod en gap i brugervenligheden. En stor del af befolkningen kan ikke drage fordel af taleløsninger udviklet på denne måde. Mængden af data, der kræves til disse metoder, er så stor, at det ikke ville have økonomisk mening at udvikle separate modeller for sprog med færre talere. Desuden har mange dialekter og sprog ingen distinkt skriftlig form. Endda min egen familie kunne ikke bruge værktøjer udviklet af mig (de taler en dialekt af hindi). Under disse omstændigheder begyndte jeg at tænke over forskellige måder at oprette talemodeller på, hvor mængden af data, der kræves, var mindre, og/eller slutbrugeren selv kunne træne eller opdatere modellerne. Jeg var bekendt med arbejdet, der var blevet udført på KU Leuven University (KUL), som kunne opfylde nogle af disse krav. Med en del af teknologien fra KUL kunne vi tage de første skridt mod, hvad Fluent er i dag.

Kan du uddybe Fluent.ai’s intuitive taleforståelsesløsninger?

Fluent.ai’s talegenkendelsesløsninger er inspireret af, hvordan mennesker tilegner sig og genkender sprog. Konventionelle talegenkendelsessystemer transkriberer først indtalt tale til tekst og derefter udtrækker mening fra denne tekst. Det er ikke sådan, mennesker genkender tale. Tag et eksempel på børn, før de lærer at læse og skrive: på trods af, at de ikke ved noget om den skriftlige repræsentation af sprog, kan de alligevel have en talekonversation med lethed. På samme måde er Fluent’s dybe neurale netværksbaserede modeller i stand til direkte at udtrække mening ud af talelyde uden først at skulle transkribere dem til tekst. Teknisk set er dette sand taleforståelse. Der er flere fordele ved denne tilgang. Traditionel talegenkendelse er en besværlig tilgang, hvor flere moduler, der er trænet adskilt, væves sammen for at give en endelig respons. Dette resulterer i en underoptimal løsning, der lider under variationer i resultater for accenter, støj, baggrundsforhold osv. Fluent’s automatisk intentionsgenkendelse (AIR) system er end-to-end optimeret; det er helt et neuralt netværksbaseret arkitektur, hvor alle modulerne er trænet fælles for at give den mest optimale løsning. Derudover kan vi fjerne en række beregningsmæssigt tunge moduler, der normalt er til stede i konventionelle talegenkendelsessystemer. Dette giver os mulighed for at oprette lav-fodaftryks talegenkendelsessystemer, der kan køre på så lidt som 40 KB RAM på en lav-strøm mikrocontroller, der kører med 50 MHz. Endelig kan vores taleforståelsesbaserede AIR-systemer udnytte ligheder mellem forskellige sprog på en unik måde for at give enestående funktioner som evnen til at genkende multiple sprog i samme model.

Hvad er nogle af de AI-udfordringer ved at overvinde støjproblemet?

Støj er en af de største udfordringer for talegenkendelse. Det, der gør det til en rigtig udfordrende problem, er, at der er mange forskellige typer støj, og de påvirker tale-spektret på forskellige måder. Nogle gange kan støj også have en indvirkning på mikrofonresponsen. I mange tilfælde er det ikke muligt at adskille talekilder fra støjkilder. I nogle tilfælde kan støj føre til, at informationen i tale-spektret maskeres, mens det i andre tilfælde kan fjerne den nyttige information. Begge dele resulterer i lav nøjagtighed. Mens det er let at fjerne konsistente støjtyper, som f.eks. vindmølle-støj, er nogle støjtyper, som f.eks. baggrundsstøj eller mennesker, der taler i baggrunden eller musik, meget svære at fjerne, fordi de påvirker tale-spektret på en måde, der er svær at forudsige.

Kan du definere, hvad Edge AI er, og hvordan Fluent.ai bruger denne type AI?

Edge AI er en samlebetegnelse, der dækker over en række forskellige måder, hvorpå AI-anvendelser kan flyttes til lav-strøm enheder. Mere og mere bruges denne betegnelse til de tilfælde, hvor edge-enhederne selv udfører visse intelligente beregninger. Hos Fluent fokuserer vi på at bringe højkvalitets taleforståelse til edge. Vi har udviklet effektive algoritmer, der giver lav-strøm beregningsenheder mulighed for selv at genkende indtalt tale uden at skulle sende data til en cloud-baseret server til bearbejdning. Fordelene er tofold: først og fremmest bliver brugerens privatliv ikke kompromitteret ved at streame og gemme deres stemme-data i skyen. For det andet reducerer denne tilgang forsinkelsen, fordi tale-data og respons ikke behøver at rejse mellem cloud-serveren og enheden.

Hvad andre typer maskinlærings-teknologier anvendes?

Vores primære fokus er på dyb-læringsbaserede tilgange til talegenkendelse. Vi anvender RL (reinforcement learning) metoder, f.eks. NASIL[1], til at opdage nye, tidligere ukendte AI-modellarkitekturer (så AI, der skaber AI i en vis forstand). Og vi anvender AutoML til at justere vores forudbestemte AI-modeller for at opnå pålidelige resultater for forskellige anvendelser, og dermed øge pålidelighed og reproducerbarhed. Modelkomprimering og andre matematiske tilgange hjælper yderligere med at optimere modelpræstationen.

Hvad ser du sker i de næste 5 år for både natural language understanding og natural language processing?

Jeg tror, at systemerne vil udvikle sig til at give mere naturlige interaktioner. På trods af fremskridtene i de seneste år kan de fleste nuværende systemer kun besvare simple spørgsmål eller udføre en stemmeaktiveret internetsøgning. Vi vil se flere og flere løsninger, der kan resonere og besvare et fuldt spørgsmål for en person i stedet for kun at fungere som en glorificeret stemme-baseret søgemaskine.

Den anden interessante aspekt er privatliv. Nuværende populære løsninger er primært internet-tilkoblede enheder, der streamer alle brugerens stemme-data til en cloud-server. Men privatlivets sikkerhed for disse løsninger er blevet et problem. Vi begynder også at se anvendelser af stemme-brugergrænseflade ud over forbruger-elektronik i industrielle sammenhænge, i professionel lyd-rum, samt i hospitality og konference-rum. En nøglekrav til disse anvendelser er privatliv, derfor er nuværende tilkoblede løsninger ikke tilstrækkelige – så vi vil se mange flere edge AI eller on-device naturlig sprog-løsninger.

Som jeg nævnte tidligere, forbliver tale- og naturlig sprog-løsninger utilgængelige for en stor del af verdens befolkning. Der er betydelig arbejde i gang med at skabe nye typer AI-modeller, der kan trænes med små mængder data, hvilket resulterer i reducerede udviklingsomkostninger, og dermed muliggør udvikling af modeller i sprog med færre talere. I samme ånd vil vi se løsninger, der kan lære at genkende multiple sprog i samme model. Overordnet set vil vi se mere og mere udvikling af multilinguale AI-modeller, der kan besvare en brugers spørgsmål på deres modersmål.

Er der noget andet, du gerne vil dele om Fluent.ai?

Tale-teknologi er kommet langt i de sidste par år og har en stor vækstpotentiale på vej. Hos Fluent.ai søger vi altid efter nye anvendelser af vores eksisterende teknologi, mens vi samtidig innovrer internt. COVID-19-pandemien har skabt en øget følsomhed over for høj-berøringsområder, såsom elevator-knapper, kiosker i restauranter og mere, hvilket har skabt en ny efterspørgsel efter stemme-aktiveret teknologi. Fluent.ai håber at hjælpe med at udfylde disse huller, da vores løsninger er multilinguale og derfor mere inklusiv, og de fungerer offline, hvilket giver et ekstra lag af privatliv. Disse funktioner, som nævnt, er sandsynligvis fremtiden for tale-teknologi.

Tak for det gode interview, læsere, der ønsker at lære mere, skal besøge Fluent.ai.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.