Intervjuer
Johan Wadenholt Vrethem, VD pĂ„ Voxo – Intervjuserie

Johan Wadenholt Vrethem har mer än två decenniers erfarenhet av att arbeta i skärningspunkten mellan teknik och affärsverksamhet, med fokus på att använda AI för att förändra hur organisationer fungerar och interagerar med sina kunder. Han ledde stora digitala initiativ och kundprogram inom bank- och finanssektorn på CGI, innan han co-founding Voxo för att driva innovation inom konversationsanalys och eventteknik.
På Voxo AI är Johan ansvarig för leveransen av realtidsbaserad, AI-driven intelligens från live-diskussioner på event och konferenser, vilket möjliggör för team att gå från data till handling med hastighet och precision. Han är också engagerad i både kommersiell påverkan och socialt ansvar, och har lett CSR-initiativ som syftar till att förhindra online-utnyttjande av barn.
Voxo AI är en eventintelligensplattform som använder artificiell intelligens för att fånga och omvandla live-talade samtal från konferenser, paneldiskussioner och sessioner till strukturerad, användbar insikt. Genom att analysera realtidsljud genererar den omedelbara sammanfattningar, nyckeltal och post-event-innehåll som rapporter och varumärkes- tillgångar, vilket möjliggör för arrangörer, deltagare, sponsorer och talare att extrahera varaktig värde från diskussioner utan manuell anteckning eller uppföljningsarbete.
Innan du grundade Voxo, tillbringade du år med att leda komplexa digitala och AI-drivna initiativ inom bank- och finanssektorn på CGI. Vilka specifika frustrationer eller luckor från den erfarenheten övertygade dig om att det var dags att bygga ditt eget företag med fokus på konversationsintelligens?
Min tid på CGI var otroligt formativ. Det är ett stort företag med hundratals IP-tillgångar utöver konsulttjänster, och jag fick en första rad till komplexa leveransmiljöer, styrning och företagsomvandling i stor skala. Det var också fragmenterat, spritt över många teknologier, intressenter och konkurrerande prioriteringar.
Jag gick från affärsanalytiker till direktör på bara två år, och vid den tidpunkten kände jag mig redo att fokusera. När jag mötte mina medgrundare, insåg jag att vi kunde bygga något skarpare, en enskild spår som använde den bästa tillgängliga tekniken för att lösa ett mycket specifikt, högvärdigt problem. Vad många människor inte vet är att vi började som ett fintech-företag som fokuserade på dokumentation inom finansiell rådgivning. Därifrån utvecklades vi till konversationsanalys, och till slut expanderade vi till eventintelligens efter nästan ett decennium av att lära oss hur man extraherar riktigt värde från mänsklig konversation.
Tidigt, vilka var de svåraste tekniska eller kommersiella utmaningarna i att bygga AI som kunde tillförlitligt förstå riktiga samtal snarare än kontrollerade, manus-baserade indata?
I våra tidigaste fintech-produkter begränsade tekniken ambitionen. Automatisk taligenkänning för nordiska språk, som var vårt initiala fokus, hade ordfel på 70 till 80 procents nivå. På den nivån kan du inte bygga en produkt som ersätter mänsklig dokumentation.
Samtidigt existerade moderna stora språkmodellfunktioner inte ännu, så att producera tillförlitliga sammanfattningar var nästan omöjligt. När vi senare lanserade vår eventtjänst, hade landskapet förändrats. Vi hade byggt djup kunskap under åren, och vi hade äntligen rätt AI-byggnadsblock för att förstå nyckeltal, debatter och paneldiskussioner på ett sätt som kunde skalas.
Voxo började med konversationsanalys och expanderade senare till storskalig eventintelligens. Vilka signaler visade att live-event var den nästa stora fronten för tal-AI?
Intressant nog började vi arbeta med event som ett sätt att nå C-nivåchefer snabbare och demonstrera hur kraftfull konversationsintelligens kunde vara. Men när vi levererade på Sveriges största tech-event, Techarenan, med över 10 000 deltagare, såg vi en enorm förändring.
Den inkommande efterfrågan var omedelbar och mycket tydlig. Människor var inte bara imponerade, de ville köpa eventtjänsten som en produkt. Det var signalen. Vi beslutade att investera den tid, fokus och resurser som krävdes för att leverera det globalt, och att göra det på den högsta möjliga kvalitetsnivån.
Från ett systemperspektiv, vad förändras fundamentalt när du går från att transkribera ett enda möte till att bearbeta hundratals samtidiga sessioner över en flerdagars-event?
Komplexiteten ökar snabbt. Du måste inte bara upprätthålla stabilitet och kvalitet över varje enskild session, du måste också hantera verkliga världens kaos. Sena schemaförändringar, talarswap och programuppdateringar är normala på stora event.
För att leverera utan att lägga extra belastning på redan ansträngda eventteam, behöver du processer som är rigorösa och fortfarande flexibla. Du behöver också en beprövad metodik för analys. Du kan inte bara kasta hundratals timmar av ljud i en modell och be om en intressant rapport. För att generera högkvalitativa utdata på några minuter, måste du kombinera flera modeller, pipelines och lager av struktur.
Många AI-verktyg betonar automatisering ovan allt annat. Varför beslutade du att inkludera mänsklig granskning som en kärndel av Voxos plattform?
Förtroende är fortfarande den största barriären, särskilt för företagskunder som HubSpot, GitHub och Intuit. Rädslan för att publicera något felaktigt är mycket verklig. Därför är stabila processer, plus en kombination av AI-granskning och mänsklig kvalitetssäkring, fortfarande ett krav för många kunder idag.
Vi ger också kunderna kontroll. De kan granska och godkänna sammanfattningar innan något distribueras, och vi gör det arbetsflödet effektivt. Över tiden tror jag att behovet av mänsklig granskning kommer att minska när tekniken och skyddsmekanismerna mognar. Tills dess är ingenting viktigare än att förtjäna rätten att lita på innehåll som representerar deras varumärke.
Hur har nära-realtids-transkription och sammanfattning förändrat sättet som eventteam tänker på innehålls-tidsplaner och post-event-värde?
Det återställer fundamentalt tidsplanen. Istället för att innehåll är något du publicerar veckor senare, blir det något du kan använda medan evenemanget fortfarande pågår och omedelbart efter varje session.
Vad vi ser är att kunderna plötsligt har material som håller engagemanget vid liv i månader. Deltagare och talare är också mycket mer benägna att dela innehåll strax efter en session, så länge det är lätt och ser snyggt ut. Om samma innehåll anländer en månad senare, är det vanligtvis för sent för att driva meningsfull distribution, särskilt på sociala medier. Nära-realtid förvandlar innehåll till en förlängning av den live-upplevelsen, inte bara en post-event-arkiv.
Event inbegriper flera intressenter, arrangörer, talare, sponsorer och deltagare. Hur designar Voxo utdata som tjänar alla dem utan att urvattna insikt eller kvalitet?
Vi designar från intressenten utåt, men vi behåller samma underliggande källa till sanning. Alla drar nytta av samma inspelade innehåll, sedan anpassar vi utdata för att matcha intressentens mål.
Deltagare får omedelbara, delbara sessionsammanfattningar och möjligheten att återbesöka sessioner de missade. Marknadsföringsteam får sponsor-varumärkes- tillgångar som är byggda för distribution och mätbar påverkan. Arrangörer får högre deltagarvärde, längre evenemangsmomentum och nya intäktsalternativ. Talare får en enklick-möjlighet att dela en polerad sammanfattning, och arrangörer drar nytta av den nätverkseffekten.
Event som använder Voxo rapporterar snabbare innehållsleverans och högre sponsor-engagemang. Vad tror du är viktigast för att uppnå den påverkan, hastighet, struktur eller insikt-kvalitet?
Det är kombinationen. Hastighet spelar ingen roll om innehållet saknar struktur och kvalitet. Samtidigt blir även det bästa innehållet mindre värdefullt om det anländer för sent.
Den verkliga fördelen är att leverera alla tre tillsammans. Högkvalitativa insikter, paketerade i en tydlig struktur, levererade tillräckligt snabbt för att fortfarande kännas relevanta. Det är vad som gör innehållet användbart, delbart och kommersiellt påverkande.
Vad betyder “realtid” egentligen för AI-drivna innehålls-plattformar under de närmaste åren, och hur nära är vi den verkligheten idag?
I vissa fall är sanningsenlig realtid redan här. Vi har levererat realtids-kommentarer över flera live-strömmar, till exempel med NHS i Manchester förra sommaren tillsammans med First Sight Media och Lineup Ninja. Vi introducerade också realtids-upplevelser så tidigt som 2023 på Techarenan med talare som Al Gore och Steve Wozniak.
Det sagt, finns det fortfarande utrymme för både nära-realtid och sanningsenlig realtid på event. Den viktiga delen är att vara medveten om vad som skapar värde. En realtids-ordmoln som uppdateras bakom en talare kan vara mer distraherande än hjälpsamt. Realtid bör förbättra deltagarupplevelsen, inte konkurrera med den.
Till sist, vad är en vanlig missuppfattning om AI-genererade sammanfattningar eller transkriptioner som du regelbundet måste rätta till när du talar med företagskunder?
Den största missuppfattningen är att du kan få tillförlitliga, konsekventa, högkvalitativa sammanfattningar genom att enkelt transkribera en ljudfil och klistra in den i ChatGPT. Människor inser snabbt att det är tidskrävande och svårt att upprätthålla konsekvens, särskilt när du har ett stort antal sessioner. Och även då är transkription och sammanfattning bara en liten del av vad vi levererar. Det är kanske 5 procent. Det riktiga arbetet är hastigheten, strukturen, kontexten, varumärkes-klara paketeringen, kvalitetssäkringen och distributionsformaten som gör innehållet användbart och värdefullt på företagsnivå.
Tack för den underbara intervjun, läsare som vill lära sig mer kan besöka Voxo AI.












