Интервью
Жан-Луи Кегинер, Основатель и Генеральный Директор Gladia – Интервью

Жан-Луи Кегинер является основателем и генеральным директором Gladia. Ранее он занимал должность вице-президента группы по данным, ИИ и квантовым вычислениям в OVHcloud, одном из ведущих облачных провайдеров Европы. Он имеет степень магистра по символическому ИИ Университета Квебека в Канаде и Arts et Métiers ParisTech в Париже. На протяжении своей карьеры он занимал значимые должности в различных отраслях, включая финансовую анализ данных, приложения машинного обучения для цифровой рекламы в режиме реального времени и разработку API для речевого ИИ.
Gladia предоставляет передовые аудио-транскрипции и решения ИИ в режиме реального времени для бесшовной интеграции в продукты различных отраслей, языков и технологических стеков. Оптимизируя передовые модели распознавания речи и генеративных моделей ИИ, она обеспечивает точную, без задержки обработку речи и языка. Платформа Gladia также позволяет извлекать информацию и метаданные из звонков и встреч в режиме реального времени, поддерживая ключевые корпоративные сценарии, такие как помощь в продажах и автоматизированная поддержка клиентов.
Что вдохновило вас решить проблемы в технологии речи в текст (STT), и какие пробелы вы увидели на рынке?
Когда я основал Gladia, первоначальной целью было широкое – компания по ИИ, которая сделает сложную технологию доступной. Но когда мы глубже погрузились, стало ясно, что технология голоса была самой сломанной и в то же время самой критической областью для фокусировки.
Голос является центральным в нашей повседневной жизни, и большая часть нашей коммуникации происходит через речь. Однако инструменты, доступные для разработчиков для работы с данными голоса, были недостаточными в плане скорости, точности и цены – особенно на разных языках.
Я хотел исправить это, чтобы упаковать сложность технологии голоса в нечто простое, эффективное, мощное и доступное. Разработчикам не следует беспокоиться о тонкостях моделей ИИ или нюансах длины контекста в распознавании речи. Моя цель заключалась в создании корпоративного API для речи в текст, который работает бесшовно, независимо от основной модели или технологии -真正е решение “подключи и работай”.
Какие уникальные проблемы вы столкнулись при создании решения для транскрипции для корпоративного использования?
Когда речь идет о распознавании речи, скорость и точность – два ключевых показателя в этой области – являются обратно пропорциональными по конструкции. Это означает, что улучшение одного будет компрометировать другое, по крайней мере, в некоторой степени. Стоимость, в большой степени, является результатом выбора поставщика между скоростью и качеством.
Когда мы строили Gladia, нашей целью было найти идеальный баланс между этими двумя факторами, обеспечивая, чтобы технология оставалась доступной для стартапов и малых и средних предприятий. В процессе мы также поняли, что основные модели распознавания речи, такие как Whisper от OpenAI, с которыми мы работали обширно, предвзяты, сильно偏ая в сторону английского языка из-за их обучающих данных, что оставляет много языков недопредставленными.
Итак, помимо решения проблемы компромисса между скоростью и точностью, было важно для нас – как для европейской, многоязычной команды – оптимизировать и тонко настроить наши основные модели, чтобы построить真正 глобальный API, который помогает бизнесу работать на разных языках.
Как Gladia отличается в переполненном рынке транскрипции ИИ? Что делает ваш Whisper-Zero ASR уникальным?
Наш новый движок в режиме реального времени (Gladia Real Time) достигает лидерства в отрасли 300 мс задержки. Кроме того, он способен извлекать информацию из звонка или встречи с помощью так называемых “аудио-интеллектуальных” дополнений или функций, таких как распознавание именованных сущностей (NER) или анализ настроений.
Насколько нам известно, очень немногие конкуренты могут предоставить как транскрипцию, так и информацию с такой высокой задержкой (менее 1с от конца до конца) – и делать все это точно на языках, отличных от английского. Наша поддержка языков распространяется на более чем 100 языков сегодня.
Мы также уделяем особое внимание тому, чтобы сделать продукт真正 независимым от стека. Наш API совместим со всеми существующими технологическими стеками и протоколами телефонии, включая SIP, VoIP, FreeSwitch и Asterisk. Протоколы телефонии особенно сложны для интеграции, поэтому мы считаем, что этот аспект продукта может принести огромную ценность на рынок.
Галлюцинации в моделях ИИ являются значительной проблемой, особенно в транскрипции в режиме реального времени. Можете ли вы объяснить, что такое галлюцинации в контексте STT и как Gladia решает эту проблему?
Галлюцинация обычно происходит, когда модель не имеет знаний или не имеет достаточного контекста по теме. Хотя модели могут производить выходные данные, адаптированные к запросу, они могут ссылаться только на информацию, существовавшую на момент их обучения, и эта информация может быть не актуальной. Модель будет создавать связные ответы, заполняя пробелы информацией, которая звучит правдоподобно, но является неправильной.
Хотя галлюцинации стали известны в контексте моделей LLM сначала, они также происходят с моделями распознавания речи – как Whisper ASR, ведущая модель в этой области, разработанная OpenAI. Галлюцинации Whisper похожи на те, что у моделей LLM, из-за подобной архитектуры, поэтому это проблема, которая касается генеративных моделей, которые могут предсказывать слова, следующие по контексту. По сути, они “изобретают” выходные данные. Этот подход можно противопоставить более традиционным, акустически-основанным архитектурам распознавания речи, которые сопоставляют входной звук с выходным в более механическом виде.
В результате вы можете найти слова в транскрипте, которые на самом деле не были произнесены, что явно проблематично, особенно в областях, таких как медицина, где ошибка такого рода может иметь серьезные последствия.
Существуют несколько методов управления и обнаружения галлюцинаций. Одним из распространенных подходов является использование системы генерации с извлечением (RAG), которая сочетает генеративные возможности модели с механизмом извлечения для проверки фактов. Другой метод включает использование подхода “цепочки мысли”, когда модель руководствуется через серию предопределенных шагов или контрольных точек, чтобы обеспечить, что она остается на логическом пути.
Другой стратегией для обнаружения галлюцинаций является использование систем, которые оценивают правдивость выходных данных модели во время обучения. Существуют бенчмарки, специально разработанные для оценки галлюцинаций, которые включают сравнение разных кандидатских ответов, сгенерированных моделью, и определение, какой из них является наиболее точным.
Мы в Gladia экспериментировали с комбинацией методов при построении Whisper-Zero, нашей проприетарной модели распознавания речи, которая удаляет практически все галлюцинации. Она показала отличные результаты в асинхронной транскрипции, и мы в настоящее время оптимизируем ее для работы в режиме реального времени, чтобы достичь той же 99,9% информационной целостности.
Технология STT должна обрабатывать широкий спектр сложностей, таких как акценты, шум и многоязычные разговоры. Как Gladia подходит к этим проблемам, чтобы обеспечить высокую точность?
Обнаружение языка в распознавании речи является чрезвычайно сложной задачей. Каждый динамик имеет уникальную вокальную сигнатуру, которую мы называем функциями. Анализируя вокальный спектр, алгоритмы машинного обучения могут выполнять классификацию, используя коэффициенты Мель-частотной цепstral (MFCC) для извлечения основных характеристик частоты.
MFCC – это метод, вдохновленный человеческим слуховым восприятием. Это часть области “психоакустики”, которая фокусируется на том, как мы воспринимаем звук. Он подчеркивает более низкие частоты и использует методы, такие как нормализованная декомпозиция Фурье, для преобразования аудио в частотный спектр.
Однако этот подход имеет ограничение: он основан исключительно на акустике. Итак, если вы говорите по-английски с сильным акцентом, система может не понять содержание, а вместо этого судить по вашей просодии (ритму, стрессу, интонации).
Именно здесь появляется инновационное решение Gladia. Мы разработали гибридный подход, который сочетает психоакустические функции с пониманием контента для динамического обнаружения языка.
Наша система не только слушает, как вы говорите, но и понимает, что вы говорите. Этот двойной подход позволяет эффективно переключаться между языками и не позволяет сильным акцентам быть неправильно понятыми.
Переключение кодов – что является одним из наших ключевых различий – является особенно важной функцией при обработке многоязычных разговоров. Динамики могут переключаться между языками в середине разговора (или даже в середине предложения), и способность модели транскрибировать точно на лету, несмотря на переключение, является критической.
API Gladia уникален в своей способности обрабатывать переключение кодов с таким количеством языковых пар и с высоким уровнем точности и работает хорошо даже в шумной среде, известной снижением качества транскрипции.
Транскрипция в режиме реального времени требует сверхнизкой задержки. Как ваш API достигает задержки менее 300 миллисекунд, сохраняя точность?
Сохранение задержки ниже 300 миллисекунд, сохраняя высокую точность, требует многогранного подхода, который сочетает экспертизу в области аппаратного обеспечения, оптимизацию алгоритмов и архитектурный дизайн.
ИИ в режиме реального времени не похож на традиционный вычислительный – он тесно связан с мощностью и эффективностью GPGPUs. Я работал в этой области почти десятилетие, возглавляя отдел ИИ в OVHCloud (крупнейшем облачном провайдере в ЕС), и узнал на собственном опыте, что это всегда о нахождении правильного баланса: сколько мощности аппаратного обеспечения вам нужно, сколько оно стоит и как вы адаптируете алгоритмы для работы безупречно с этим аппаратным обеспечением.
Производительность в ИИ в режиме реального времени исходит из эффективного согласования наших алгоритмов с возможностями аппаратного обеспечения, обеспечивая, чтобы каждая операция максимизировала пропускную способность, минимизируя задержки.
Но это не только ИИ и аппаратное обеспечение. Архитектура системы играет большую роль, особенно сеть, которая может действительно повлиять на задержку. Наш технический директор, который имеет глубокий опыт в проектировании сетей с низкой задержкой из своего времени в Sigfox (пioneer IoT), оптимизировал нашу сетевую настройку, чтобы сэкономить ценные миллисекунды.
Итак, это действительно смесь всех этих факторов – умных выборов аппаратного обеспечения, оптимизированных алгоритмов и сетевого дизайна – что позволяет нам последовательно достигать задержки менее 300 мс, не компрометируя точность.
Gladia выходит за рамки транскрипции с функциями, такими как диаризация динамиков, анализ настроений и транскрипции с временными метками. Какие инновационные применения вы видели, что ваши клиенты разработали, используя эти инструменты?
Транскрипция ИИ открывает широкий спектр приложений для платформ различных отраслей, и это было удивительно видеть, сколько真正 пионерских компаний появилось за последние два года, использующих модели LLM и наш API для создания передовых, конкурентных продуктов. Вот некоторые примеры:
- Умная запись заметок: Многие клиенты строят инструменты для профессионалов, которым необходимо быстро захватить и организовать информацию из рабочих встреч, лекций студентов или медицинских консультаций. С диаризацией динамиков наш API может определить, кто сказал что, что делает легко следовать разговорам и назначать пункты действий. В сочетании с транскрипциями с временными метками пользователи могут сразу перейти к конкретным моментам в записи, экономя время и гарантируя, что ничего не потеряется в переводе.
- Содействие продажам: В мире продаж скорость и точные идеи – все. Аналогично тому, что происходит с агентами по звонкам, транскрипция в режиме реального времени оснащает их правильными идеями в правильное время, позволяя им сосредоточиться на том, что имеет наибольшее значение при заключении сделок.
- Помощь в звонках: Компании в области контракт-центров используют наш API для предоставления живой помощи агентам, а также для флагирования настроений клиентов во время звонков. Диаризация динамиков гарантирует, что все, что говорится, назначается правильному человеку, в то время как транскрипции с временными метками позволяют руководителям просматривать критические моменты или проблемы соблюдения быстро. Это не только улучшает опыт клиента – с лучшим разрешением на звонке и контролем качества – но также повышает производительность и удовлетворенность агентов.
Можете ли вы обсудить роль пользовательских словарей и распознавания сущностей в повышении надежности транскрипции для корпоративных пользователей?
Многие отрасли полагаются на специализированную терминологию, названия брендов и уникальные языковые нюансы. Интеграция пользовательских словарей позволяет решению STT адаптироваться к этим конкретным потребностям, что имеет решающее значение для захвата контекстных нюансов и предоставления выходных данных, точно отражающих ваши бизнес-потребности. Например, это позволяет создать список домен-специфических слов, таких как названия брендов, на конкретном языке.
Почему это полезно: Адаптация транскрипции к конкретной вертикали позволяет минимизировать ошибки в транскриптах, достигая лучшего пользовательского опыта. Эта функция особенно критична в областях, таких как медицина или финансы.
Распознавание именованных сущностей (NER) извлекает и идентифицирует ключевую информацию из неструктурированных аудио-данных, такой как имена людей, организаций, мест и т. д. Общая проблема с неструктурированными данными заключается в том, что эта критическая информация не легко доступна – она погребена внутри транскрипта.
Чтобы решить эту проблему, Gladia разработала структурированный подход к извлечению ключевых данных (KDE). Используя генеративные возможности своей архитектуры, основанной на Whisper – аналогично моделям LLM – решение KDE Gladia захватывает контекст для выявления и извлечения релевантной информации напрямую.
Этот процесс может быть дальнейшим улучшен с функциями, такими как пользовательские словари и NER, позволяя бизнесу быстро и эффективно заполнять CRM ключевыми данными.
По вашему мнению, как транскрипция в режиме реального времени преобразует отрасли, такие как поддержка клиентов, продажи и создание контента?
Транскрипция в режиме реального времени революционизирует эти отрасли глубокими способами, стимулируя невероятные производственные выигрыши, в сочетании с осязаемыми бизнес-выгодами.
Сначала транскрипция в режиме реального времени является прорывом для команд поддержки. Помощь в режиме реального времени является ключом к улучшению разрешения благодаря более быстрым ответам, умным агентам и лучшим результатам (в плане NSF, времени обработки и т. д.). Когда системы распознавания речи становятся лучше и лучше в обработке неанглийских языков и выполнении транскрипции в режиме реального времени, контакт-центры могут достичь действительно глобального опыта клиента при более низких затратах.
В продажах скорость и точные идеи – все. Аналогично тому, что происходит с агентами по звонкам, транскрипция в режиме реального времени оснащает их правильными идеями в правильное время, позволяя им сосредоточиться на том, что имеет наибольшее значение при заключении сделок.
Для создателей транскрипция в режиме реального времени, возможно, менее актуальна сегодня, но все еще полна потенциала, особенно когда речь идет о живых подписях и переводе во время медиа-событий. Большинство наших текущих медиа-клиентов все еще предпочитают асинхронную транскрипцию, поскольку скорость менее критична там, в то время как точность имеет решающее значение для приложений, таких как редактирование видео с временными метками и генерация субтитров.
Транскрипция ИИ в режиме реального времени, кажется, является растущей тенденцией. Куда вы видите эту технологию, направляющуюся в течение следующих 5-10 лет?
Я чувствую, что это явление, которое мы теперь называем ИИ в режиме реального времени, будет везде. По сути, о чем мы действительно говорим здесь, является безупречной способностью машин взаимодействовать с людьми, так же, как люди уже взаимодействуют друг с другом.
И если вы посмотрите на любой фильм (как “Она”) в будущем, вы никогда не увидите там, где кто-то взаимодействует с интеллектуальными системами через клавиатуру. Для меня это служит окончательным доказательством того, что в коллективном воображении человечества голос всегда будет основным способом, которым мы взаимодействуем с миром вокруг нас.
Голос, как основной вектор для агрегации и обмена человеческими знаниями, был частью человеческой культуры и истории гораздо дольше, чем письмо. Затем письмо взяло верх, потому что оно позволило нам сохранить наши знания более эффективно, чем полагаться на сообщество старейшин, чтобы быть хранителями наших историй и мудрости.
Системы ИИ, способные понимать речь, генерировать ответы и хранить наши взаимодействия, принесли что-то совершенно новое в эту область. Это лучшее из обоих миров и лучшее из человечества. Это дает нам уникальную силу и энергию голосовой коммуникации с преимуществом памяти, которое ранее только письменные средства массовой информации могли обеспечить для нас. Это почему я верю, что это будет везде – это наш коллективный сон.
Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Gladia.












