Wywiady
Johan Wadenholt Vrethem, CEO at Voxo – Wywiad z serii

Johan Wadenholt Vrethem przynosi ponad dwie dekady doświadczenia na styku technologii i biznesu, ze szczególnym naciskiem na wykorzystanie sztucznej inteligencji do transformacji, w jaki sposób organizacje działają i angażują się w swoich klientów. Kierował dużymi inicjatywami cyfrowymi i programami dla klientów w sektorach bankowości i finansów w CGI, zanim współzałożył Voxo, aby napędzać innowacje w analityce konwersacyjnej i technologii wydarzeń.
W Voxo AI, Johan stoi na czele dostarczania inteligencji w czasie rzeczywistym, napędzianej przez sztuczną inteligencję, z żywych dyskusji na wydarzeniach i konferencjach, umożliwiając zespołom przechodzenie od danych do działania z szybkością i precyzją. Zobowiązany do wpływu komercyjnego i dobra społecznego, kierował również inicjatywami CSR mającymi na celu zapobieganie wykorzystywaniu dzieci w sieci.
Voxo AI to platforma inteligencji wydarzeń, która wykorzystuje sztuczną inteligencję do przechwytywania i transformowania żywych rozmów ustnych z konferencji, paneli i sesji w strukturalne, użyteczne spostrzeżenia. Analizując dźwięk w czasie rzeczywistym, generuje natychmiastowe podsumowania, kluczowe spostrzeżenia i treści post-wydarzeniowe, takie jak raporty i zastrzeżone aktywa, umożliwiając organizatorom, uczestnikom, sponsorom i prelegentom wydobycie trwałej wartości z dyskusji bez ręcznego notowania lub pracy następczej.
Przed założeniem Voxo, spędziłeś lata na kierowaniu złożonymi inicjatywami cyfrowymi i napędzanymi przez sztuczną inteligencję w bankowości i usługach finansowych w CGI. Jakie konkretnie frustracje lub luki z tego doświadczenia przekonały cię, że czas zbudować własną firmę skupioną na inteligencji konwersacyjnej?
Mój czas w CGI był niezwykle kształtujący. To duża organizacja z setkami aktywów IP oprócz konsultingu, i dostałem miejsce w pierwszym rzędzie do złożonych środowisk dostarczania, zarządzania i transformacji przedsiębiorstwa w skali. Było to również fragmentaryczne, rozproszone po wielu technologiach, stakeholderach i konkurujących priorytetach.
Przeszedłem od analityka biznesowego do dyrektora w zaledwie dwa lata, i w tym momencie czułem się gotowy, aby się skoncentrować. Gdy spotkałem moich współzałożycieli, kliknęło to, że możemy zbudować coś ostrzejszego, jeden tor, który wykorzystywałby najlepszą dostępną technologię, aby rozwiązać bardzo konkretny, wysoko-wartościowy problem. Co wielu ludzi nie wie, to to, że zaczynaliśmy jako firma fintech, skupiona na dokumentacji w doradztwie finansowym. Stamtąd ewoluowaliśmy w kierunku analityki konwersacyjnej, a ostatecznie rozszerzyliśmy się na inteligencję wydarzeń po blisko dekadzie uczenia się, jak wydobyć prawdziwy sens z ludzkiej konwersacji.
We wczesnych dniach, jakie były najtrudniejsze techniczne lub handlowe wyzwania w budowaniu sztucznej inteligencji, która mogłaby niezawodnie zrozumieć prawdziwe rozmowy, a nie kontrolowane, zaplanowane dane wejściowe?
W naszych wczesnych produktach fintech, technologia ograniczała ambicję. Automatyczne rozpoznawanie mowy dla języków nordyckich, które było naszym początkowym celem, miało wskaźniki błędów słów w zakresie 70 do 80 procent. Na tym poziomie po prostu nie możesz zbudować produktu, który zastępuje ludzką dokumentację.
W tym samym czasie, nowoczesne możliwości dużych modeli językowych jeszcze nie istniały, więc wytwarzanie niezawodnych podsumowań było niemal niemożliwe. Gdy później uruchomiliśmy naszą usługę wydarzeń, krajobraz się zmienił. Zbudowaliśmy głęboką wiedzę przez lata, i w końcu mieliśmy odpowiednie bloki AI, aby zrozumieć przemówienia, debaty i sesje okrągłego stołu w sposób, który mógł się skalować.
Voxo zaczął od analityki konwersacyjnej i później rozszerzył się na dużą skalę inteligencję wydarzeń. Jakie sygnały powiedziały ci, że żywe wydarzenia są następną dużą granicą dla sztucznej inteligencji mowy?
Ciekawie, zaczynaliśmy pracę z wydarzeniami jako sposób, aby szybciej dotrzeć do executive’ów i zademonstrować, jak potężna może być analityka konwersacyjna. Ale gdy tylko dostarczyliśmy na największym wydarzeniu technologicznym w Szwecji, Techarenan, z ponad 10 000 uczestników, zobaczyliśmy ogromną zmianę.
Popyt napływowy był natychmiastowy i bardzo wyraźny. Ludzie nie byli tylko zadowoleni, chcieli kupić usługę wydarzeń jako produkt. To był sygnał. Zdecydowaliśmy, że poświęcimy czas, focus i zasoby niezbędne do dostarczenia go na całym świecie, i zrobić to na najwyższym możliwym poziomie jakości.
Od strony systemowej, co fundamentalnie zmienia się, gdy przechodzisz od transkrypcji jednego spotkania do przetwarzania setek jednoczesnych sesji na wielodniowe wydarzenie?
Złożoność szybko rośnie. Nie tylko utrzymujesz stabilność i jakość w każdej poszczególnej sesji, ale także masz do czynienia z chaosem świata rzeczywistego. Zmiany w harmonogramie w ostatniej chwili, zamiany prelegentów i aktualizacje programu są normalne na dużych wydarzeniach.
Aby dostarczyć bez nakładania dodatkowego obciążenia na już napięte zespoły wydarzeń, potrzebujesz procesów, które są rygorystyczne i jednocześnie elastyczne. Potrzebujesz również udowodnionej metodyki analizy. Nie możesz po prostu wrzucić setek godzin audio do modelu i poprosić o interesujący raport. Aby wygenerować wysokiej jakości dane wyjściowe w minutach, musisz połączyć wiele modeli, potoków i warstw struktury.
Wiele narzędzi AI kładzie nacisk na automatyzację ponad wszystko. Dlaczego zdecydowałeś się uwzględnić przegląd człowieka w pętli jako część rdzenia platformy Voxo?
Zaufanie jest nadal największą barierą, szczególnie dla klientów enterprise, takich jak HubSpot, GitHub i Intuit. Strach przed opublikowaniem czegoś nieprecyzyjnego jest bardzo realny. Dlatego stabilne procesy, plus połączenie przeglądu AI i gwarancji jakości ludzkiej, pozostaje wymogiem dla wielu klientów dzisiaj.
Dajemy klientom kontrolę. Mogą przeglądać i zatwierdzać podsumowania przed ich dystrybucją, i robimy ten workflow wydajnym. Z czasem wierzę, że potrzeba przeglądu ludzkiego zmniejszy się, gdy technologia i zabezpieczenia dojrzały. Do tego czasu, nic nie ma większego znaczenia niż zdobycie prawa do zaufania z treścią, która reprezentuje ich markę.
Jak transkrypcja i podsumowanie w czasie rzeczywistym zmieniły sposób, w jaki zespoły wydarzeń myślą o terminach treści i wartości po wydarzeniu?
To fundamentalnie resetuje harmonogram. Zamiast treści bycia czymś, co publikujesz tygodnie później, staje się czymś, co możesz użyć, gdy wydarzenie wciąż trwa i zaraz po zakończeniu każdej sesji.
To, co widzimy, to to, że klienci nagle mają materiał, który utrzymuje zaangażowanie żywym przez miesiące. Uczestnicy i prelegenci są również znacznie bardziej skłonni do udostępniania treści zaraz po sesji, o ile jest to łatwe i wygląda ładnie. Jeśli ta sama treść przychodzi miesiąc później, jest zazwyczaj za późno, aby napędzać znaczącą dystrybucję, szczególnie w mediach społecznościowych. Czas rzeczywisty zmienia treść w rozszerzenie doświadczenia na żywo, a nie tylko archiwum po wydarzeniu.
Wydarzenia obejmują wielu stakeholderów, organizatorów, prelegentów, sponsorów i uczestników. Jak Voxo projektuje dane wyjściowe, które służą wszystkim im bez rozcieńczania spostrzeżeń lub jakości?
Projektujemy od stakeholdera na zewnątrz, ale zachowujemy ten sam podstawowy źródło prawdy. Każdy korzysta z tej samej przechwyconej treści, a następnie dostosowujemy dane wyjściowe, aby dopasować cele stakeholdera.
Uczestnicy otrzymują natychmiastowe, udostępnialne podsumowania sesji i możliwość ponownego odwiedzenia sesji, które przegapili. Zespoły marketingowe otrzymują sponsorowane, zastrzeżone aktywa, które są zaprojektowane do dystrybucji i mierzenia wpływu. Organizatorzy otrzymują wyższą wartość dla uczestników, dłuższy impet wydarzenia i nowe opcje przychodu. Prelegenci otrzymują sposób na udostępnienie wygładzonego podsumowania jednym kliknięciem, a organizatorzy korzystają z tego efektu sieciowego.
Kluczem jest to, że nie rozcieńczamy jakości. Budujemy jeden silny silnik treści, a następnie pakujemy go inaczej dla każdego stakeholdera na podstawie tego, co tworzy prawdziwą wartość.
Wydarzenia korzystające z Voxo zgłaszają szybszą dostawę treści i wyższe zaangażowanie sponsorów. Co uważasz za bardziej istotne w osiąganiu tego wpływu, szybkość, strukturę, czy jakość spostrzeżeń?
To kombinacja. Szybkość nie ma znaczenia, jeśli treść brakuje struktury i jakości. Z drugiej strony, nawet najlepsza treść staje się mniej wartościowa, jeśli przychodzi za późno.
Prawdziwa zaleta polega na dostarczaniu wszystkich trzech razem. Wysokiej jakości spostrzeżenia, zapakowane w klarowną strukturę, dostarczane wystarczająco szybko, aby nadal wydawać się istotne. To sprawia, że treść jest użyteczna, udostępnialna i komercyjnie wpływowa.
Co “czas rzeczywisty” naprawdę oznacza dla platform AI-napędzanych treści w ciągu najbliższych kilku lat, i jak blisko jesteśmy tej rzeczywistości dzisiaj?
W niektórych przypadkach prawdziwy czas rzeczywisty jest już tutaj. Dostarczyliśmy komentarz w czasie rzeczywistym przez wiele transmisji na żywo, na przykład z NHS w Manchesterze w zeszłym roku wraz z First Sight Media i Lineup Ninja. Wprowadziliśmy również doświadczenia w czasie rzeczywistym już w 2023 roku na Techarenan z prelegentami takimi jak Al Gore i Steve Wozniak.
To powiedziawszy, jest miejsce zarówno na czas rzeczywisty, jak i na czas zbliżony do rzeczywistego na wydarzeniach. Ważną częścią jest bycie intencjonalnym co do tego, co tworzy wartość. Chmura słów w czasie rzeczywistym, która aktualizuje się za prelegentem, może być bardziej rozpraszająca niż pomocna. Czas rzeczywisty powinien wzmacniać doświadczenie uczestnika, a nie konkurować z nim.
W końcu, jaka jest jedna powszechna nieścisłość dotycząca podsumowań lub transkrypcji wygenerowanych przez AI, które regularnie musisz poprawiać, gdy rozmawiasz z klientami enterprise?
Największa nieścisłość polega na tym, że można uzyskać niezawodne, spójne, wysokiej jakości podsumowania, po prostu transkrybując plik audio i wklejając go do ChatGPT. Ludzie również szybko zdają sobie sprawę, że jest to czasochłonne i trudne do utrzymania spójności, szczególnie gdy masz dużą liczbę sesji. I nawet wtedy transkrypcja i podsumowanie to tylko niewielka część tego, co dostarczamy. To może 5 procent. Prawdziwa praca to szybkość, struktura, kontekst, pakowanie gotowe do marki, gwarancja jakości i formaty dystrybucji, które sprawiają, że treść jest użyteczna i wartościowa w skali enterprise.
Dziękujemy za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Voxo AI.












