Интервью
Phil Hall, Chief Growth Officer в LXT – Интервью Серия

Chief Growth Officer LXT Phil Hall является бывшим исполнительным директором Appen и членом Forbes Technology Council. На своей руководящей должности в Appen он руководил подразделением из более 1000 сотрудников и сыграл ключевую роль в достижении 17 лет подряд роста выручки с постоянно высокой прибыльностью. В своей текущей роли в LXT он работает с командой экспертов, отобранных им самим, для достижения амбициозных целей роста.
LXT является развивающимся лидером в области обучающих данных ИИ для интеллектуальных технологий для глобальных организаций, включая крупнейшие технологические компании мира. В партнерстве с международной сетью контрибьюторов LXT собирает и аннотирует данные по нескольким модальностям с той скоростью, масштабом и гибкостью, которые требуются предприятиями. У них есть глобальный опыт, охватывающий более 115 стран и 750 языковых локализаций. Основанная в 2010 году, LXT имеет штаб-квартиру в Торонто, Канада, с присутствием в США, Австралии, Египте, Великобритании и Турции. Компания обслуживает клиентов в Северной Америке, Европе, Азии и на Ближнем Востоке.
Когда вы впервые обнаружили, что вы увлечены языком?
Я всегда был заинтересован в языке, но в плане моего прямого взаимодействия с языком и лингвистикой, был один значительный поворотный момент для меня. Мы очень рано поняли, что один из наших детей был дислексиком, и когда мы поговорили с его школой о дополнительной поддержке, они сказали, что хотя есть программы, к которым они могут получить доступ, есть также вещи, которые я могу сделать как волонтер в школе, чтобы помочь нашей дочери и другим детям. Все прошло хорошо, и оттуда я пошел учиться лингвистике и оказался преподавателем в двух университетах здесь в Сиднее.
Вы преподавали лингвистику, прежде чем перешли в область речевых данных, что вдохновило вас сменить фокус?
Сиднейская компания Appen только что делала переход от работы из гостиной в доме к полноценной коммерческой операции. Мне сказали, что они ищут лингвистов (может быть, более точно, лингвиста!), и меня представили основателям Джули и Крису Вонвиллер. Переход был постепенным и занял около двух лет. Я был неохотен уйти из преподавания – работать с высокоодаренными студентами было и вдохновляющим, и очень весело. Но особенно в те пионерские годы я решал сложные проблемы вместе с ведущими экспертами по языковой технологии, и уровень волнения был высоким. Многое из того, что сейчас считается само собой разумеющимся, было очень сложным в то время.
Вы вышли из пенсии, чтобы присоединиться к LXT. Что мотивировало вас сделать это?
Это интересный вопрос, поскольку я действительно наслаждался собой на пенсии. Фактически, наш сооснователь и генеральный директор Мохаммад Омар обратился ко мне за несколько месяцев до того, как я ответил на его первоначальный запрос, поскольку я жил расслабленной жизнью и не подумал о возвращении к полноценной работе.
Но в конце концов, возможность была просто слишком хороша, чтобы отказаться от нее.
Поговорив с Мохаммадом и другими членами команды LXT, я сразу же признал общую страсть к языку. Команда, которую собрал Мохаммад, была наполнена творческими мыслителями с безграничной энергией, которые были полностью привержены миссии компании.
Когда я узнал больше об возможности с LXT, я понял, что это была возможность, которую я не хотел упустить. Это была компания с огромным потенциалом для расширения и роста в области, которую я увлечен. И поскольку рынок ИИ продолжает расти экспоненциально, возможность помочь большему количеству организаций перейти от экспериментов к производству – это захватывающая возможность, частью которой я очень рад быть.
Каковы некоторые из текущих проблем, связанных с приобретением данных в масштабе?
Проблемы так же разнообразны, как и применения, которые их стимулируют.
С практической точки зрения проблемы включают аутентичность, надежность, точность, безопасность и обеспечение того, что данные подходят для цели – и это без учета растущего числа юридических и этических проблем, присущих приобретению данных.
Например, разработка технологий в поддержку автономных транспортных средств требует сбора огромных объемов данных по множеству сценариев, чтобы машина могла понять, как реагировать на реальные ситуации. Есть бесчисленные количество краевых случаев, которые можно встретить при вождении, поэтому алгоритмы, которые управляют этими транспортными средствами, нуждаются в наборах данных, которые охватывают все, от улиц до знаков остановки до падающих объектов. И затем, если вы умножите это на количество погодных событий, которые могут произойти, количество обучающих данных, необходимых для этого, увеличивается экспоненциально. Автомобильные компании, которые входят в автономное пространство, должны установить надежную трубу данных, и сделать это самостоятельно потребует огромного количества ресурсов.
Другим примером является расширение существующего голосового продукта ИИ на новые рынки для захвата доли рынка и новых клиентов. Это неизбежно требует языковых данных, и для достижения точности важно получить речевые данные от носителей языка по различным демографическим профилям. Как только данные будут собраны, аудиофайлы необходимо транскрибировать для обучения алгоритмов NLP продукта. Делать это для нескольких языков и в объемах, необходимых для эффективности, крайне сложно для компаний сделать самостоятельно, особенно если у них нет внутренней экспертизы в этой области.
Это лишь два примера многих проблем, которые существуют с коллекцией данных для ИИ в масштабе, но, как вы можете себе представить, домашняя автоматизация, мобильные устройства и биометрические коллекции данных имеют свои специфические проблемы.
Каковы текущие способы, которыми LXT источает и аннотирует данные?
В LXT мы собираем и аннотируем данные по-разному для каждого клиента, поскольку все наши взаимодействия адаптированы для удовлетворения спецификаций наших клиентов. Мы работаем с различными типами данных, включая аудио, изображения, речь, текст и видео. Для сбора данных мы работаем с глобальной сетью контракторов для сбора данных в этих различных модальностях. Коллекции могут варьироваться от сбора данных в реальных условиях, таких как дома, офисы или в машине, до в студии с опытными инженерами в случае определенных проектов сбора речевых данных.
Наши возможности аннотации данных также охватывают несколько модальностей. Наш опыт начался в речевом пространстве, и за последние 12 лет мы расширили его до более 115 стран и более 750 языковых локализаций. Это означает, что компании всех размеров могут полагаться на LXT, чтобы помочь им проникнуть на широкий спектр рынков и захватить новые сегменты клиентов. Более недавно мы расширили себя в текстовые, изображения и видеоданные, и наша внутренняя платформа используется для доставки высококачественных данных нашим клиентам.
Еще одной интересной областью роста для нас является наша безопасная работа по аннотации. Только в этом году мы расширили нашу сеть безопасных объектов ISO 27001 с двух до пяти мест по всему миру. Мы разработали книгу рецептов, которая позволяет нам создавать новые объекты в течение нескольких месяцев. Услуги, на которые мы сейчас фокусируемся в этих безопасных объектах, в настоящее время включают аннотацию и транскрипцию речевых данных, но они могут быть использованы для аннотации многих типов данных.
Почему источирование данных таким образом является лучшей альтернативой синтетическим данным?
Синтетические данные – это захватывающее развитие в области ИИ и хорошо подходят для определенных случаев использования, особенно для краевых случаев, которые трудно захватить в реальном мире. Использование синтетических данных растет, особенно на ранних этапах зрелости ИИ, когда компании еще находятся в экспериментальном режиме. Однако наше собственное исследование показывает, что по мере того, как организации совершенствуют свои стратегии ИИ и запускают больше моделей в производство, они с большей вероятностью используют методы машинного обучения с учителем или полуучителем, которые полагаются на аннотированные человеком данные.
Люди просто лучше компьютеров понимают нюансы для создания необходимых данных для обучения моделей ML с высокой точностью, и человеческий надзор также имеет решающее значение для снижения предвзятости.
Почему эти данные так важны для речи и обработки естественного языка?
Для того, чтобы алгоритмы речи и обработки естественного языка работали эффективно на своих целевых рынках, им необходимо обучать большими объемами данных, полученными от носителей языка, которые имеют культурный контекст конечных пользователей, которых они представляют. Без этих данных внедрение голосового ИИ будет иметь серьезные ограничения.
Кроме того, при сборе речевых данных необходимо учитывать окружающую среду. Если решение голосового ИИ, которое обучается, будет использоваться в машине, например, есть разные дорожные и погодные условия, которые влияют на речь и должны быть приняты во внимание. Это сложные сценарии, где опытный партнер по данным может помочь.
Есть ли что-то еще, что вы хотели бы поделиться о LXT?
Прежде всего, я хочу поблагодарить вас за возможность поделиться нашей историей! Я хотел бы подчеркнуть, что наша компания привержена помощи организациям всех размеров в успехе их инициатив ИИ. Мы были сосредоточены на доставке высококастомизированных данных ИИ компаниям по всему миру более 12 лет, и мы были бы рады связаться с кем-либо, кто ищет создать надежную трубу данных для поддержки своих проектов ИИ.
Спасибо за отличное интервью, читателям, которые хотят узнать больше, следует посетить LXT.












