Интервью
Йохан Ваденхольт Вретем, CEO в Voxo – Интервью-серия

Йохан Ваденхольт Вретем привносит более двух десятилетий опыта на пересечении технологий и бизнеса, с фокусом на использовании ИИ для трансформации того, как организации работают и взаимодействуют с клиентами. Он возглавлял крупные цифровые инициативы и программы для клиентов в банковском и финансовом секторах в CGI, прежде чем стал сооснователем Voxo, чтобы стимулировать инновации в области разговорного анализа и технологии мероприятий.
В Voxo AI Йохан возглавляет доставку реального, ИИ-управляемого интеллекта из живых обсуждений на мероприятиях и конференциях, наделяя команды возможностью быстро и точно переходить от данных к действиям. Будучи приверженным как коммерческому влиянию, так и социальному благу, он также возглавлял инициативы по корпоративной социальной ответственности, направленные на предотвращение эксплуатации детей в Интернете.
Voxo AI – это платформа интеллекта мероприятий, которая использует искусственный интеллект для захвата и преобразования живых устных разговоров с конференций, панелей и сессий в структурированные, пригодные для использования идеи. Анализируя реальное аудио, она генерирует мгновенные резюме, ключевые выводы и пост-мероприятие контент, такие как отчеты и брендированные активы, позволяя организаторам, участникам, спонсорам и докладчикам извлекать долгосрочную ценность из обсуждений без ручного ведения заметок или последующей работы.
До основания Voxo вы провели годы, возглавляя сложные цифровые и ИИ-управляемые инициативы в банковском и финансовом секторах в CGI. Какие конкретные разочарования или пробелы из этого опыта убедили вас, что пришло время построить свою собственную компанию, ориентированную на разговорный интеллект?
Мое время в CGI было невероятно формативным. Это большая организация с сотнями активов интеллектуальной собственности, помимо консалтинга, и я получил место в первом ряду для сложных сред доставки, управления и трансформации предприятия в масштабе. Это также было фрагментировано, распределено по многим технологиям, заинтересованным сторонам и конкурирующим приоритетам.
Я перешел от бизнес-аналитика к директору всего за два года, и на тот момент я чувствовал себя готовым сосредоточиться. Когда я встретил своих сооснователей, стало ясно, что мы можем построить что-то более острое, одну трассу, которая использует лучшую доступную технологию для решения очень конкретной, высокоценной проблемы. То, чего многие люди не знают, – это то, что мы начали как финтех-компания, ориентированная на документацию в финансовом консультировании. Оттуда мы эволюционировали в разговорный анализ, и в конечном итоге расширились до интеллекта мероприятий после почти десяти лет обучения тому, как извлекать реальный смысл из человеческого разговора.
В начале, какие были самыми сложными техническими или коммерческими проблемами в построении ИИ, который мог бы надежно понимать реальные разговоры, а не контролируемые, сценарные входные данные?
В наших ранних финтех-продуктах технология ограничивала амбиции. Автоматическое распознавание речи для северных языков, на котором мы первоначально сосредоточились, имело коэффициент ошибок слов в диапазоне 70-80 процентов. На этом уровне вы просто не можете построить продукт, который заменяет человеческую документацию.
В то же время возможности современных больших языковых моделей еще не существовали, поэтому производство надежных резюме было практически невозможно. Когда мы позже запустили нашу услугу мероприятий, ландшафт изменился. Мы построили глубокие знания за годы, и мы наконец получили правильные блоки ИИ для понимания ключевых выступлений, дебатов и круглых столов таким образом, чтобы это можно было масштабировать.
Voxo начал с разговорного анализа и позже расширился до крупномасштабного интеллекта мероприятий. Какие сигналы показали вам, что живые мероприятия – это следующий крупный рубеж для речевого ИИ?
Интересно, что мы первоначально начали работать с мероприятиями как способом быстрее достичь руководителей высшего уровня и продемонстрировать, насколько мощным может быть разговорный интеллект. Но как только мы доставили на крупнейшем технологическом мероприятии Швеции, Techarenan, с более чем 10 000 участников, мы увидели огромный сдвиг.
Входящий спрос был немедленным и очень ясным. Люди не только были впечатлены, они хотели купить услугу мероприятия как продукт. Это был сигнал. Мы решили инвестировать время, фокус и ресурсы, необходимые для доставки его глобально, и для того, чтобы сделать это на самом высоком возможном уровне качества.
С точки зрения системы, что фундаментально меняется, когда вы переходите от транскрибирования одного заседания к обработке сотен одновременных сессий на многодневном мероприятии?
Сложность быстро нарастает. Вы не только поддерживаете стабильность и качество на каждой отдельной сессии, но также имеете дело с реальным хаосом. Последние изменения в расписании, замены докладчиков и обновления программы являются нормальными на крупных мероприятиях.
Чтобы доставить без дополнительной нагрузки на уже напряженные команды мероприятий, вам нужны процессы, которые являются строгими и все же гибкими. Вам также нужен проверенный метод анализа. Вы не можете просто бросить сотни часов аудио в модель и попросить интересный отчет. Чтобы генерировать высококачественные выходные данные за минуты, вам нужно объединить несколько моделей, конвейеров и слоев структуры.
Многие инструменты ИИ подчеркивают автоматизацию выше всего остального. Почему вы решили включить обзор человека в цикле в качестве основной части платформы Voxo?
Доверие все еще является самым большим барьером, особенно для корпоративных клиентов, таких как HubSpot, GitHub и Intuit. Страх публикации чего-то неточного очень реален. Поэтому стабильные процессы, плюс комбинация обзора ИИ и человеческой гарантии качества, остаются требованием для многих клиентов сегодня.
Мы также предоставляем клиентам контроль. Они могут просмотреть и одобрить резюме до того, как что-либо будет распространено, и мы делаем этот рабочий процесс эффективным. Со временем я считаю, что необходимость в человеческом обзоре уменьшится, поскольку технология и гарантии зрелости. До тех пор ничего не имеет большего значения, чем заработать право быть доверенным контентом, который представляет их бренд.
Как изменилась транскрипция и суммирование в режиме gần реального времени способ, которым команды мероприятий думают о временных рамках контента и пост-мероприятии ценности?
Это фундаментально сбрасывает временную шкалу. Вместо того, чтобы контент был чем-то, что вы публикуете через недели, он становится чем-то, что вы можете использовать, пока мероприятие все еще происходит и сразу после каждой сессии.
То, что мы видим, – это то, что клиенты внезапно получают материал, который поддерживает вовлеченность в течение месяцев. Участники и докладчики также гораздо более вероятно поделятся контентом сразу после сессии, если это легко и выглядит круто. Если тот же контент приходит через месяц, он обычно слишком поздно, чтобы стимулировать значимое распространение, особенно в социальных сетях. Близкий к реальному времени превращает контент в продолжение живого опыта, а не просто пост-мероприятие архив.
Мероприятия включают множество заинтересованных сторон, организаторов, докладчиков, спонсоров и участников. Как Voxo проектирует выходные данные, которые обслуживают всех их без разбавления идеи или качества?
Мы проектируем из заинтересованной стороны наружу, но мы сохраняем одну и ту же основную истину. Все выигрывают от одного и того же захваченного контента, затем мы настраиваем выходные данные, чтобы они соответствовали целям заинтересованной стороны.
Участники получают мгновенные, пригодные для обмена резюме сессий и возможность пересмотреть сессии, которые они пропустили. Маркетинговые команды получают спонсор-брендированные активы, которые предназначены для распространения и измеримого воздействия. Организаторы получают более высокую ценность для участников, более длительный импульс мероприятия и новые варианты дохода. Докладчики получают однократный способ поделиться отполированным резюме, и организаторы выигрывают от этого сетевого эффекта.
Мероприятия, использующие Voxo, сообщают о более быстрой доставке контента и более высокой вовлеченности спонсоров. Что, по вашему мнению, имеет большее значение для достижения этого воздействия, скорость, структура или качество идеи?
Это комбинация. Скорость не имеет значения, если контент лишен структуры и качества. В то же время даже лучший контент становится менее ценным, если он приходит слишком поздно.
Настоящее преимущество заключается в том, чтобы доставить все три вместе. Высококачественные идеи, упакованные в ясную структуру, доставленные достаточно быстро, чтобы все еще казаться актуальными. Это то, что делает контент полезным, пригодным для обмена и коммерчески воздействующим.
Что означает “реальное время” для ИИ-управляемых платформ контента в течение следующих нескольких лет, и насколько близко мы к этой реальности сегодня?
В некоторых случаях истинное реальное время уже здесь. Мы доставили реальное время комментариев на нескольких живых потоках, например, с NHS в Манчестере прошлым летом вместе с First Sight Media и Lineup Ninja. Мы также ввели реальное время опыта как早 как 2023 на Techarenan с докладчиками, такими как Эл Гор и Стив Возняк.
Тем не менее, есть место как для близкого к реальному времени, так и для истинного реального времени на мероприятиях. Важная часть заключается в том, чтобы быть намеренным в отношении того, что создает ценность. Реальное время слова, обновляющиеся за докладчиком, могут быть более отвлекающими, чем полезными. Реальное время должно улучшать опыт участника, а не конкурировать с ним.
Наконец, какое одно распространенное заблуждение об ИИ-генерируемых резюме или транскрипциях вы регулярно исправляете, когда говорите с корпоративными клиентами?
Самое большое заблуждение заключается в том, что вы можете получить надежные, последовательные, высококачественные резюме, просто транскрибируя аудиофайл и вставляя его в ChatGPT. Люди также быстро понимают, что это трудоемко и трудно поддерживать последовательность, особенно когда у вас есть большое количество сессий. И даже тогда транскрипция и суммирование – это только небольшая часть того, что мы доставляем. Это может быть 5 процентов. Реальная работа – это скорость, структура, контекст, бренд-готовая упаковка, гарантия качества и форматы распространения, которые делают контент пригодным для использования и ценным в масштабе предприятия.
Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Voxo AI.












