Interviuri
Johan Wadenholt Vrethem, CEO la Voxo – Seria de interviuri

Johan Wadenholt Vrethem aduce peste două decenii de experiență la intersecția tehnologiei și afacerilor, cu accent pe utilizarea inteligenței artificiale pentru a transforma modul în care organizațiile operează și interacționează cu clienții lor. El a condus inițiative digitale majore și programe pentru clienți în sectoarele bancar și financiar la CGI, înainte de a co-fonda Voxo pentru a impulsiona inovația în analiza conversațională și tehnologia evenimentelor.
La Voxo AI, Johan conduce livrarea de informații în timp real, bazate pe inteligență artificială, din discuții live de la evenimente și conferințe, permițând echipelor să treacă de la date la acțiune cu viteză și precizie. Angajat atât pentru impactul comercial, cât și pentru binele social, el a condus, de asemenea, inițiative de responsabilitate socială corporativă menite să prevină exploatarea copiilor online.
Voxo AI este o platformă de inteligență a evenimentelor care utilizează inteligența artificială pentru a captura și transforma conversații vorbite live din conferințe, panouri și sesiuni în insight-uri structurate și utilizabile. Prin analiza audio în timp real, generează rezumate instantanee, idei principale și conținut post-eveniment, cum ar fi rapoarte și active marca, permițând organizatorilor, participanților, sponsorilor și vorbitorilor să extragă valoare durabilă din discuții fără a necesita luarea de notițe manuale sau lucrări de follow-up.
Înainte de a fonda Voxo, ai petrecut ani conducând inițiative digitale și bazate pe inteligență artificială complexe în sectorul bancar și al serviciilor financiare la CGI. Care au fost frustrările sau lacunele specifice din acea experiență care te-au convins că este timpul să construiești propria ta companie axată pe inteligență conversațională?
Perioada mea la CGI a fost incredibil de formativă. Este o organizație mare cu sute de active IP, pe lângă consultanță, și am avut ocazia să văd medii de livrare complexe, guvernanță și transformare la scară largă.
M-am mutat de la analist de afaceri la director în doar doi ani, și în acel moment m-am simțit pregătit să mă concentrez. Când i-am întâlnit pe co-fondatori, a fost clar că putem construi ceva mai ascuțit, o singură pistă care utilizează cea mai bună tehnologie disponibilă pentru a rezolva o problemă foarte specifică și de mare valoare. Ce nu știu mulți oameni este că am început ca o companie fintech axată pe documentație în consultanță financiară. De acolo am evoluat în analiza conversațională și, în cele din urmă, am extins în inteligența evenimentelor după aproape un deceniu de învățare despre cum să extragem sens real din conversația umană.
La început, care au fost cele mai grele provocări tehnice sau comerciale în construirea inteligenței artificiale care să poată înțelege conversații reale, în loc de intrări controlate și scriptate?
În produsele noastre fintech de la început, tehnologia a limitat ambiția. Recunoașterea automată a vorbirii pentru limbile nordice, care a fost focusul nostru inițial, a avut rate de eroare de cuvânt în intervalul 70-80 la sută. La acel nivel, pur și simplu nu poți construi un produs care să înlocuiască documentația umană.
În același timp, capacitățile moderne ale modelelor de limbaj mare nu existau încă, așa că producerea de rezumate fiabile a fost aproape imposibilă. Când am lansat mai târziu serviciul nostru de eveniment, peisajul s-a schimbat. Am construit cunoștințe profunde de-a lungul anilor, și, în sfârșit, am avut blocurile de construcție ale inteligenței artificiale potrivite pentru a înțelege chei, dezbateri și mese rotunde într-un mod care putea fi escaladat.
Voxo a început cu analiza conversațională și mai târziu a extins în inteligența evenimentelor la scară largă. Care au fost semnalele care te-au făcut să crezi că evenimentele live sunt următoarea frontieră majoră pentru inteligența vorbirii?
Interesant, am început să lucrăm cu evenimente ca o modalitate de a ajunge la executivi de nivel C mai repede și de a demonstra cât de puternică poate fi inteligența conversațională. Dar odată ce am livrat la cel mai mare eveniment tehnologic din Suedia, Techarenan, cu peste 10.000 de participanți, am văzut o schimbare uriașă.
Cererea din partea clienților a fost imediată și foarte clară. Oamenii nu erau doar impresionați, ci voiau să cumpere serviciul de eveniment ca produs. Acesta a fost semnalul. Am decis să investim timpul, focusul și resursele necesare pentru a livra la nivel global și pentru a face acest lucru la cel mai înalt nivel de calitate posibil.
Din punct de vedere al sistemului, ce se schimbă fundamental atunci când treci de la transcrierea unei singure ședințe la procesarea a sute de sesiuni concurente de-a lungul unui eveniment pe mai multe zile?
Complexitatea se combină rapid. Nu doar menții stabilitatea și calitatea în fiecare sesiune individuală, ci și te confrunți cu haosul lumii reale. Schimbările de programare de ultimă oră, schimburile de vorbitori și actualizările programului sunt normale la evenimentele mari.
Pentru a livra fără a pune o sarcină suplimentară pe echipele de evenimente deja extinse, ai nevoie de procese care să fie riguroase și, în același timp, flexibile. Ai nevoie, de asemenea, de o metodologie de analiză dovedită. Nu poți pur și simplu arunca sute de ore de audio într-un model și cere un raport interesant. Pentru a genera ieșiri de înaltă calitate în minute, trebuie să combini multiple modele, conducte și straturi de structură.
Multe unelte de inteligență artificială pun accentul pe automatizare mai presus de orice. De ce ai decis să incluzi revizuirea umană ca parte integrantă a platformei Voxo?
Încrederea este încă cea mai mare barieră, mai ales pentru clienții din sectorul întreprinderilor, cum ar fi HubSpot, GitHub și Intuit. Teamă de a publica ceva inexact este foarte reală. De aceea, procese stabile, plus o combinație de revizuire a inteligenței artificiale și asigurare a calității umane, rămân o cerință pentru mulți clienți de astăzi.
Le oferim clienților controlul. Ei pot revizui și aproba rezumatele înainte de a distribui orice, și facem ca acest flux de lucru să fie eficient. Cu timpul, cred că nevoia de revizuire umană va scădea pe măsură ce tehnologia și măsurile de siguranță se maturizează. Până atunci, nimic nu contează mai mult decât a câștiga dreptul de a fi încredințați cu conținut care reprezintă marca lor.
Cum a schimbat transcrierea și rezumarea în timp real modul în care echipele de evenimente gândesc despre timeline-urile de conținut și valoarea post-eveniment?
Acest lucru resetează fundamental timeline-ul. În loc ca conținutul să fie ceva pe care îl publicați săptămâni mai târziu, devine ceva pe care îl puteți utiliza în timp ce evenimentul este încă în desfășurare și imediat după fiecare sesiune.
Ceea ce observăm este că clienții noștri au, brusc, material care ține vie implicarea pentru luni. Participanții și vorbitorii sunt, de asemenea, mult mai predispuși să partajeze conținut imediat după o sesiune, atâta timp cât este ușor și arată bine. Dacă același conținut sosește o lună mai târziu, este, de obicei, prea târziu pentru a conduce o distribuție semnificativă, mai ales pe rețelele sociale. Transcrierea și rezumarea în timp real transformă conținutul într-o extensie a experienței live, nu doar o arhivă post-eveniment.
Evenimentele implică multiple părți interesate: organizatori, vorbitori, sponsori și participanți. Cum proiectează Voxo ieșiri care să deservească toate acestea fără a dilua insight-urile sau calitatea?
Proiectăm de la parte interesată spre exterior, dar păstrăm aceeași sursă de adevăr subiacentă. Toată lumea beneficiază de același conținut capturat, apoi personalizăm ieșirile pentru a se potrivi cu obiectivele părții interesate.
Participanții primesc rezumate instantanee de sesiune și posibilitatea de a revedea sesiunile pe care le-au ratat. Echipele de marketing primesc active marca sponsorilor, create pentru distribuție și impact măsurabil. Organizatorii primesc o valoare mai mare a participanților, o impulsie mai lungă a evenimentului și noi opțiuni de venituri. Vorbitorii primesc o modalitate de a partaja un rezumat lustruit cu un singur clic, iar organizatorii beneficiază de efectul de rețea.
Cheia este că nu diluăm calitatea. Construim un singur motor de conținut robust, apoi îl ambalăm diferit pentru fiecare parte interesată, în funcție de ceea ce creează valoare reală.
Evenimentele care utilizează Voxo raportează o livrare de conținut mai rapidă și o implicare mai mare a sponsorilor. Ce crezi că contează mai mult în realizarea acestui impact, viteza, structura, calitatea insight-urilor?
Este combinația. Viteza nu contează dacă conținutul lipsește de structură și calitate. În același timp, chiar și cel mai bun conținut devine mai puțin valoros dacă sosește prea târziu.
Adevantajul real este livrarea tuturor celor trei împreună. Insight-uri de înaltă calitate, ambalate într-o structură clară, livrate suficient de repede pentru a fi încă relevante. Acesta este ceea ce face conținutul util, partajabil și comercial impactant.
Ce înseamnă, de fapt, “timp real” pentru platformele de conținut conduse de inteligență artificială în următorii ani, și cât de aproape suntem de acea realitate astăzi?
În unele cazuri, timpul real adevărat este deja aici. Am livrat comentarii în timp real pe mai multe fluxuri live, de exemplu, cu NHS în Manchester anul trecut, împreună cu First Sight Media și Lineup Ninja. Am introdus, de asemenea, experiențe în timp real încă din 2023 la Techarenan, cu vorbitori precum Al Gore și Steve Wozniak.
Cu toate acestea, există loc și pentru timp real aproape și pentru timp real adevărat la evenimente. Partea importantă este să fii intenționat cu privire la ceea ce creează valoare. Un nor de cuvinte în timp real care se actualizează în spatele unui vorbitor poate fi mai distractiv decât util. Timpul real ar trebui să îmbunătățească experiența participantului, nu să concureze cu aceasta.
În final, ce este o concepție greșită comună despre rezumate sau transcrieri generate de inteligență artificială pe care o corectezi în mod regulat atunci când vorbești cu clienții din sectorul întreprinderilor?
Concepția greșită cea mai mare este că poți obține rezumate fiabile și consistente de înaltă calitate prin simpla transcriere a unui fișier audio și lipirea lui în ChatGPT. Oamenii realizează repede că este consumator de timp și dificil de menținut consistent, mai ales atunci când ai un număr mare de sesiuni. Și, chiar și atunci, transcrierea și rezumarea sunt doar o mică parte din ceea ce livrăm. Este poate 5 la sută. Lucrul real este viteza, structura, contextul, ambalajul gata pentru marca, asigurarea calității și formatele de distribuție care fac conținutul utilizabil și valoros la scară întreprindere.
Mulțumim pentru acest interviu minunat. Citiitorii care doresc să afle mai multe ar trebui să viziteze Voxo AI.












