Inteligență artificială

Vikrant Tomar, CTO și fondator al Fluent.ai – Seria de interviuri

Published January 13, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vikrant Tomar, este CTO și fondator al Fluent.ai, un software de înțelegere a vorbirii și de interfață vocală pentru producătorii de dispozitive și furnizorii de servicii.

Ce v-a atras inițial să studiați modelarea acustică pentru recunoașterea vorbirii?

În realitate, capacitatea de a vorbi cu dispozitivele în același mod în care vorbim cu o altă ființă umană. Această viziune a fost fascinantă pentru mine. Am început să studiez recunoașterea vorbirii în ultimul an al studiilor mele de licență. Acesta a fost și momentul în care am început să mă interesez de cercetare, așa că am urmat un curs de recunoaștere a vorbirii și un proiect de cercetare conexe. Am reușit să public o lucrare de cercetare la conferința InterSpeech, una dintre cele mai mari și mai reputate conferințe de recunoaștere a vorbirii, din această lucrare. Toate acestea m-au motivat să aleg cercetarea în domeniul recunoașterii vorbirii ca obiectiv pe termen lung, deci doctoratul.

În 2015 ați lansat Fluent.ai, puteți să ne spuneți povestea de fond a acestui startup?

Am avut o dorință antreprenorială în mine de mult timp. Eu, împreună cu doi prieteni, am încercat să începem o companie după absolvirea studiilor de licență, dar din diverse motive, acea încercare nu a reușit. În timpul doctoratului meu la McGill, am urmărit scena startup-urilor din Montreal. În această perioadă, am avut ocazia să intru în contact cu oameni de la TandemLaunch – incubatorul de startup-uri unde am creat Fluent.ai. La acea vreme, eram spre sfârșitul doctoratului meu și îmi dădeam seama că îmi doresc să încerc din nou antreprenoriatul. Prin experiența mea de lucru, cercetare și asociere cu alte grupuri de cercetare a vorbirii, am realizat că majoritatea acestor experiențe s-au concentrat pe efectuarea recunoașterii vorbirii într-un anumit mod: de la vorbire la transcriere text și apoi procesare a limbajului natural. Cu toate acestea, acest lucru a lăsat o lacună în ceea ce privește utilizabilitatea. O mare parte a populației nu poate beneficia de soluțiile de vorbire dezvoltate în acest mod. Cantitatea de date necesară pentru astfel de metode este atât de mare încât nu ar fi fezabil din punct de vedere financiar să se dezvolte modele separate pentru limbile cu mai puțini vorbitori. Mai mult, multe dialecte și limbi nu au o formă scrisă distinctă. Chiar și familia mea nu a putut utiliza uneltele dezvoltate de mine (ei vorbesc un dialect al limbii hindi). Luând în considerare toate acestea, am început să mă gândesc la modalități diferite de a crea modele de vorbire, în care cantitatea de date necesare să fie mai mică și/sau utilizatorul final să poată însuși antrena sau actualiza modelele. Eram conștient de lucrările efectuate la Universitatea KU Leuven (KUL) care puteau să îndeplinească unele dintre aceste cerințe. Cu o parte din tehnologie provenind de la KUL, am putut să facem primii pași către ceea ce este Fluent.ai astăzi.

Puteți să detaliați soluțiile intuitive de înțelegere a vorbirii oferite de Fluent.ai?

Soluțiile de recunoaștere a vorbirii oferite de Fluent.ai sunt inspirate de modul în care oamenii dobândesc și recunosc limbile. Sistemele convenționale de recunoaștere a vorbirii transcriu mai întâi vorbirea de intrare în text și apoi extrag sensul din acel text. Acesta nu este modul în care oamenii recunosc vorbirea. Luați exemplul copiilor înainte de a învăța să citească și să scrie: în ciuda faptului că nu știu nimic despre reprezentarea scrisă a limbilor, ei sunt capabili să aibă o conversație vorbită cu ușurință. În mod similar, modelele bazate pe rețele neuronale profunde ale Fluent.ai sunt capabile să extragă direct sensul din sunetele vorbirii fără a fi nevoie să le transcrie mai întâi în text. Din punct de vedere tehnic, aceasta este o adevărată înțelegere a limbajului vorbit. Există multiple avantaje ale acestei abordări. Recunoașterea vorbirii convențională este o abordare laborioasă, în care mai multe module care sunt antrenate separat sunt împletite pentru a oferi o soluție finală. Acest lucru duce la o soluție suboptimă care suferă de variații în rezultate pentru accente, zgomot, condiții de fundal etc. Sistemul de recunoaștere automată a intenției (AIR) al Fluent.ai este optimizat de la capăt la capăt; este în întregime o arhitectură bazată pe rețele neuronale, în care toate modulele sunt antrenate împreună pentru a oferi cea mai optimă soluție. În plus, putem să eliminăm o serie de module computațional grele, care sunt prezente în mod obișnuit în sistemele convenționale de recunoaștere a vorbirii. Acest lucru ne permite să creăm sisteme de recunoaștere a vorbirii cu o amprentă mică care pot rula în doar 40KB de RAM pe un microcontroller cu putere redusă care rulează la 50 MHz. În final, sistemele noastre de înțelegere a limbajului vorbit bazate pe AIR pot să exploateze asemănările dintre diferite limbi într-un mod unic pentru a oferi funcții fără precedent, cum ar fi capacitatea de a recunoaște multiple limbi în același model.

Care sunt unele dintre provocările legate de inteligența artificială pentru depășirea problemei zgomotului ambiental?

Zgomotul este una dintre cele mai mari provocări pentru recunoașterea vorbirii. Ceea ce face ca această problemă să fie foarte dificilă este faptul că există multe tipuri diferite de zgomot și acestea afectează spectrul vorbirii în moduri diferite. Uneori, zgomotul poate avea și un impact asupra răspunsului microfonului. În multe cazuri, nu este posibil să se separe sursele de vorbire de sursele de zgomot. În unele cazuri, zgomotul poate duce la mascarea informațiilor disponibile în spectrul vorbirii, în timp ce în altele, poate să elimine complet informațiile utile. Ambele duc la o acuratețe scăzută. În timp ce este ușor să se elimine tipurile de zgomot consistente, cum ar fi zgomotul ventilatorului, anumite tipuri de zgomot, cum ar fi zgomotul de vorbire sau muzică, sunt foarte dificil de eliminat, deoarece modul în care afectează spectrul vorbirii.

Puteți să definiți ce este Edge AI și cum Fluent.ai folosește acest tip de inteligență artificială?

Edge AI este un termen generic folosit pentru a acoperi o serie de moduri diferite în care aplicațiile de inteligență artificială pot fi mutate pe dispozitive cu putere redusă. Din ce în ce mai mult, acest termen este folosit pentru cazurile în care dispozitivele de margine efectuează ele însele anumite calcule inteligente. La Fluent, ne concentrăm pe aducerea înțelegerii limbajului vorbit de înaltă calitate la margine. Am dezvoltat algoritmi eficienți care permit dispozitivelor cu putere redusă să recunoască singure vorbirea de intrare, fără a fi nevoie să trimită datele către un server cloud pentru procesare. Avantajele sunt duble: în primul rând, confidențialitatea utilizatorului nu este compromisă prin transmiterea și stocarea datelor vocale în cloud. În al doilea rând, o astfel de abordare reduce latența, deoarece datele vocale și răspunsul nu trebuie să călătorească între serverul cloud și dispozitiv.

Care sunt alte tipuri de tehnologii de învățare automată care sunt folosite?

Focalizarea noastră principală este pe abordări bazate pe învățare profundă pentru recunoașterea vorbirii. Folosim metode de învățare prin întărire (RL), de exemplu, NASIL[1], pentru a descoperi noi arhitecturi de modele AI necunoscute anterior (într-un anumit sens, AI care creează AI). Și folosim AutoML pentru a ajusta modelele noastre predefinite de AI pentru a obține rezultate fiabile pentru diferite aplicații, astfel creșterea fiabilității și reproductibilității. Compresia modelului și alte abordări matematice ajută, de asemenea, la optimizarea performanței modelului.

Ce se va întâmpla în următorii 5 ani pentru înțelegerea limbajului natural și procesarea limbajului natural?

Cred că sistemele vor evolua pentru a oferi interacțiuni mai naturale. În ciuda progresului din ultimii ani, majoritatea sistemelor actuale pot doar să răspundă la întrebări simple sau să efectueze o căutare vocală pe internet. Vom vedea mai multe soluții care pot să raționeze și să răspundă la o întrebare completă pentru o persoană, în loc să funcționeze doar ca un motor de căutare vocală glorificat.

Un alt aspect interesant este confidențialitatea. Soluțiile actuale populare sunt în principal dispozitive conectate la internet care transmit toate datele vocale ale utilizatorului către un server cloud. Cu toate acestea, confidențialitatea unor astfel de soluții devine o problemă. Suntem, de asemenea, martorii aplicațiilor interfeței vocale dincolo de electronica de consum, în spațiul audio profesional, precum și în industria ospitalității și a sălilor de conferințe. O cerință cheie pentru aceste aplicații este confidențialitatea, prin urmare soluțiile actuale conectate nu sunt suficiente – deci vom vedea mai multe soluții de inteligență artificială de margine sau de înțelegere a limbajului natural pe dispozitiv.

Așa cum am menționat mai devreme, soluțiile de vorbire și de limbaj natural rămân inaccesibile pentru o mare parte a populației lumii. Există o cantitate semnificativă de lucru pentru a crea noi tipuri de modele AI care pot fi antrenate cu o cantitate mică de date, ceea ce duce la costuri de dezvoltare reduse și, în consecință, permite dezvoltarea de modele în limbi cu mai puțini vorbitori. Pe aceeași linie, vom vedea soluții care pot să învețe să recunoască multiple limbi în același model. În general, vom vedea mai multe implementări de modele AI multilingve care pot să răspundă la o întrebare a utilizatorului în limba sa maternă.

Există altceva pe care ați dori să îl împărtășiți despre Fluent.ai?

Tehnologia vorbirii a evoluat mult în ultimii ani și are un potențial de creștere semnificativ pe drumul de ahead. La Fluent.ai, suntem întotdeauna în căutarea de noi cazuri de utilizare a tehnologiei noastre existente, în timp ce inovăm în mod continuu în interior. Pandemia COVID-19 a creat o sensibilitate crescută față de zonele cu atingere ridicată, cum ar fi butoanele de lift, chioșcurile din restaurante și altele, ceea ce a generat o nouă cerere pentru tehnologia vocală. Fluent.ai speră să ajute la umplerea acestor goluri, deoarece soluțiile noastre sunt multilingve și, prin urmare, mai incluzive, și funcționează offline, oferind un strat suplimentar de confidențialitate. Aceste funcții, așa cum am menționat, sunt probabil să fie viitorul tehnologiei vorbirii.

Mulțumim pentru acest interviu minunat, cititorii care doresc să afle mai multe despre Fluent.ai ar trebui să viziteze site-ul nostru.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Unite.AI

Vikrant Tomar, CTO și fondator al Fluent.ai – Seria de interviuri

You may like