Свяжитесь с нами:

Стив Немзер, старший директор по развитию и инновациям в области искусственного интеллекта, TELUS Digital – серия интервью.

Интервью

Стив Немзер, старший директор по развитию и инновациям в области искусственного интеллекта, TELUS Digital – серия интервью.

mm

Стив НемзерСтарший директор по развитию и инновациям в области ИИ в TELUS Digital возглавляет инициативы, направленные на совершенствование обучающих данных и инфраструктуры для систем искусственного интеллекта следующего поколения. Его работа включает разработку наборов данных для моделей глубокого исследования, сред обучения с подкреплением, данных для моделей мира, инициатив в области суверенного ИИ и систем снижения рисков в ИИ, с особым акцентом на ответственные методы работы с ИИ, такие как устранение предвзятости наборов данных и обеспечение справедливых условий труда для специалистов по обучению ИИ. Ранее в своей карьере Немзер основал VeriTest Labs, помогая лидерам технологического рынка, таким как Microsoft, Intel, Oracle и Sun Microsystems, создавать процветающие экосистемы стороннего программного обеспечения, прежде чем компания была приобретена Lionbridge.

ТЕЛУС Цифровой Это глобальная компания, предоставляющая технологические услуги и помогающая организациям проектировать, создавать и эксплуатировать цифровые платформы и решения на основе искусственного интеллекта. Работая в десятках стран, компания предоставляет такие услуги, как данные для обучения ИИ и аннотирование, разработка цифровых продуктов и управление клиентским опытом. Ее платформы и услуги поддерживают предприятия в различных отраслях, включая технологии, финансы, здравоохранение, телекоммуникации и игровую индустрию, помогая им модернизировать свою деятельность и внедрять передовые возможности ИИ.

Учитывая ваш опыт в тестировании ИИ, проверке данных и ответственном внедрении, как вы оцениваете переход от генеративного ИИ, основанного на языке программирования, к моделям, которые стремятся рассуждать о реальных ситуациях и результатах, особенно в вашей нынешней роли в TELUS Digital?

Большие языковые модели (БЛМ) по своей сути являются системами прогнозирования образов. Они генерируют ответы, предсказывая следующий токен на основе образов, полученных из больших статических корпусов. Хотя это может выглядеть как рассуждение, модель на самом деле не моделирует, как действия изменяют состояние мира.

Мировые модели используют другой подход. Вместо предсказания следующего слова или токена, они стремятся предсказать следующее состояние системы, моделируя переходы между состояниями. Это позволяет системам имитировать эволюцию окружающей среды в ответ на действия. На практике это открывает возможности для гипотетического рассуждения, когда модель может оценивать различные возможные исходы, прежде чем принять решение. Для интерактивных систем это может способствовать более надежному принятию решений и планированию.

Этот сдвиг также меняет наше представление об ответственном внедрении. В традиционных системах генеративного ИИ основное внимание уделялось таким проблемам, как предвзятость и галлюцинации. По мере того, как модели все больше ориентируются на рассуждения об окружающей среде и действиях, другие риски становятся более заметными.

Например, организациям необходимо учитывать разрыв между симуляцией и реальностью, когда модели поведения, усвоенные в смоделированных средах, могут некорректно переноситься в реальные условия. Сдвиг в распределении также становится ключевой проблемой, поскольку среды, с которыми сталкиваются модели при развертывании, могут отличаться от данных, на которых они обучались.

Именно здесь тестирование и валидация приобретают решающее значение, чему я уделяю большое внимание в своей работе в TELUS Digital. Поскольку системы искусственного интеллекта выходят за рамки генерации языка и переходят к системам, взаимодействующим с окружающей средой и принимающим решения, организациям необходимы строгие системы оценки, чтобы гарантировать надежное поведение моделей в реальных условиях.

Многие знакомы с большими языковыми моделями, но гораздо меньше людей понимают модели мира. Проще говоря, какую проблему пытаются решить модели мира, с которой большие языковые модели сталкиваются в корне?

Мировая модель — это система, способная предсказывать «что произойдет дальше», исходя из текущего состояния и действия. Формула выглядит так: Состояние + Действие → Следующее состояние

Если я держу яблоко и отпускаю его, модель мира предсказывает, что яблоко упадет. Она не просто знает, как «выглядят» яблоки или что люди «говорят» о том, как роняют яблоки, — она предсказывает последствия, основываясь на понимании физики. Сложная модель мира предскажет, что произойдет, если я сделаю то же самое, находясь на Международной космической станции, а не на поверхности Земли.

Это отличается от LLM. LLM предсказывает: «Учитывая эту последовательность токенов, какой токен будет следующим?» Он обучается на тексте — на том, что люди написали о мире, а не на самом мире. Он может сказать вам, что упавшие яблоки падают, потому что он это прочитал. Но у него нет внутреннего физического движка, который имитировал бы падение.

Иными словами, модели языков лингвистики хорошо справляются со статистическим прогнозированием следующего слова в ответе на вопрос, но понимание реального мира выходит за рамки описания языка и связности. Модели мира стремятся понять, как ситуации развиваются шаг за шагом, каково следующее состояние, учитывая текущее состояние и предстоящее действие, и какие существуют ограничения.

Модели мира часто описываются как позволяющие системам ИИ моделировать результаты до принятия мер. Как это выглядит на практике, и насколько мы близки к тому, чтобы увидеть надежную работу этой системы за пределами исследовательских сред?

Сложность ответа на этот вопрос заключается в том, что термин «модель мира» используется довольно свободно, и его значение меняется в зависимости от контекста. Простое определение модели мира звучит так: она позволяет агенту моделировать текущее состояние окружающей среды, прогнозировать будущие состояния и рассуждать о последствиях. Исследователи, как правило, классифицируют модели мира более детально, основываясь на методах их представления и обработки. Существуют латентные модели мира, которые выделяют «сущность» окружающей среды в компактное, сфокусированное пространство. Существуют генеративные модели мира, которые «понимают» физику для создания покадровых визуальных представлений, и существуют модели архитектуры совместного встраивания и прогнозирования (JEPA), которые прогнозируют результаты на основе прошлых действий.

Модели скрытого мира уже вышли за пределы исследовательских лабораторий и помогают в таких приложениях, как автономное вождение, складские операции, промышленные операции и сельское хозяйство. Генеративные модели мира появляются в создании синтетических данных для разработки игровых движков, в сценариях использования беспилотных автомобилей, в сценариях использования воплощенного ИИ для видеосимуляции движений, подобных человеческим, и для создания архитектурных визуализаций.

Подход JEPA, предпочитаемый такими выдающимися деятелями отрасли, как Ян ЛеКун, прогнозирует результаты в абстрактном пространстве представлений, а не генерирует пиксели. Роботы до сих пор в основном работали в контролируемых условиях, но JEPA меняет это, позволяя им переходить к открытым, реальным условиям. Автономные транспортные средства — хороший тому пример: некоторые используют Genie 3 для создания гиперреалистичных интерактивных симуляций для обучения и для более эффективного реагирования на редкие события, такие как строительные площадки.

Очевидно, что для масштабирования и переноса этих моделей из изолированных сред в реальный мир требуется гораздо больше испытаний на безопасность и надежность.

С точки зрения предприятия, в каких областях, по вашему мнению, модели мира впервые начнут приносить ощутимую пользу: в робототехнике, системах автономного принятия решений, цифровых двойниках или в более абстрактных бизнес-ситуациях?

Моё интуитивное ощущение подсказывает, что цифровые двойники, скорее всего, в первую очередь принесут практическую пользу. Они позволяют воспроизводить состояние реальной системы, чтобы мы могли тестировать сценарии, прежде чем предпринимать какие-либо действия. Например, в системе цепочки поставок производитель может создать двойника своей сети партнёров-поставщиков компонентов. Моделирование может использовать данные с датчиков, журналы, телеметрические данные и отвечать на такие вопросы, как «Что произойдёт, если Ормузский пролив будет закрыт?». Таким образом, мы можем протестировать перенаправление грузов до того, как фактически изменить логистику. Это помогает нам перейти от мониторинга работающей системы к моделированию работающей системы.

Параллельно происходит получение значимой пользы от моделей окружающего мира для робототехники. Понимание роботами фундаментальных свойств физики, таких как трение на поверхности при подъеме объекта, позволит значительно ускорить внедрение воплощенного искусственного интеллекта.

Значительная часть вашей карьеры была посвящена сбору, аннотированию и проверке наборов данных. Как меняются задачи, связанные с данными, при переходе от обучения на статическом тексте к обучению систем тому, как мир ведет себя с течением времени?

Ситуация со сбором данных для создания моделей окружающего мира требует серьезного переосмысления методов обучения, использовавшихся вчера в рамках LLM. Во-первых, у нас нет огромного массива данных для предварительного обучения, петабайтов из Common Crawl и миллиардов веб-страниц. Некоторые исследователи в области робототехники предполагают, что у нас есть лишь 1/1000 часть данных, необходимых для обучения моделей физического интеллекта и моделей окружающего мира, чтобы достичь уровня производительности, эквивалентного, скажем, GPT2.

Поэтому на создание этих наборов данных потребуется некоторое время. В случае воплощенного ИИ нам понадобятся миллионы часов аннотированных эгоцентрических многосенсорных наборов данных. Часть из них будет получена с помощью дистанционного управления, часть — из синтетических сред, таких как Isaac Sim. В TELUS Digital мы перешли от текстовых данных к мультимодальным, а затем к многосенсорным и симуляционным наборам данных. Конечно, нам помогает наш богатый опыт в сборе и аннотировании данных в области компьютерного зрения. Мы много лет находимся в авангарде этой области.

Помимо дефицита данных для предварительного обучения и аннотированных данных для тонкой настройки, при масштабировании обучения с подкреплением возникнет множество других проблем. Возможно, потребуются новые трансформационные (без каламбура) парадигмы, такие как GPT и концепции RL, чтобы ускорить прорыв в эффективности методов обучения моделей мира.

Модели мира влияют на принятие решений, а не просто генерируют результаты. Какие новые риски для безопасности или управления это влечет за собой по сравнению с системами генеративного искусственного интеллекта?

Существует множество рисков для безопасности и управления, поскольку модели мира по своей сути предназначены для поддержки работы агентов. Поэтому все опасения, которые у нас есть по поводу нынешнего поколения агентов ИИ, по-прежнему актуальны в сценарии с моделями мира. Нам необходим человеческий контроль при принятии всех важных решений, будь то вопросы безопасности на транспорте, охраны труда, здравоохранения, финансов или повседневной деятельности.

Примером, специфичным для моделей окружающего мира, является разрыв между данными, полученными в ходе обучения на симуляторе, и реальной средой. Микроскопические вариации поверхности могут сделать реальный мир неудобным для роботов, хорошо обученных на симуляторе.

Ещё один риск связан с поведением человека. По мере того, как системы становятся всё более автономными, люди начнут сильно на них полагаться, контроль может ослабнуть, и в конечном итоге система перестанет нуждаться в перенастройке.

Предвзятость и доверие остаются основными препятствиями на пути внедрения ИИ. Как эти опасения изменятся, когда системы ИИ начнут моделировать и действовать в сложных реальных или социальных условиях?

Уровень доверия к моделям искусственного интеллекта уже довольно низок как среди широкой общественности, так и среди руководителей высшего звена, и я не думаю, что в краткосрочной перспективе он существенно изменится.

Уже сейчас очень высоки опасения по поводу концентрации власти ИИ в руках слишком немногих, по поводу того, что ИИ отнимает рабочие места, по поводу предвзятости ИИ, ставящей недостаточно представленные группы в невыгодное положение, по поводу того, что модели принимают решения, влияющие на здоровье, карьеру и финансы человека, по поводу использования моделями интеллектуальной собственности без согласия, а также опасения по поводу дипфейков, созданных с помощью ИИ. Руководители обеспокоены вопросами организации кадровых перестановок, конфиденциальности данных и соблюдения нормативных требований, а также потерей позиций в «гонке вооружений» ИИ в пользу конкурентов.

Последние новости о давлении правительства на разработчиков базовых моделей ИИ с целью смягчения условий использования в отношении таких вещей, как автономное оружие или массовое наблюдение, только усиливают эти опасения. Более широкое внедрение более интеллектуальных и автономных роботов, основанных на моделях окружающего мира, приведет к тому же результату.

С другой стороны, мы наблюдаем очаги широкого распространения ИИ и роста доверия к нему. Примером может служить стремительное развитие программных агентов за последние несколько месяцев. Менеджеры по разработке программного обеспечения высоко доверяют этим агентам, и происходит фундаментальное изменение в подходах к разработке программного обеспечения, от разработки продукта до регрессионного тестирования после выпуска. Мир разработки программного обеспечения развивается с невероятной скоростью, и во многом это связано с доверием к высокоэффективным программным агентам. По мере роста доверия пользователей к другим вариантам использования, я ожидаю аналогичного роста темпов внедрения.

К решениям, способствующим укреплению доверия, относятся использование разнообразных наборов данных и сред на этапах обучения, а также масштабное тестирование на проникновение и стресс-тестирование в качестве меры безопасности перед развертыванием. Необходим также активный регуляторный надзор. Некоторые предлагают обязать разработчиков базовых моделей предоставлять «отчеты о воздействии на общество», аналогичные отчетам о воздействии на окружающую среду (ОВОС), до выпуска новых моделей.

В TELUS Digital большая часть работы связана с масштабным внедрением ИИ для реальных предприятий и реальных пользователей. Как такие идеи, как глобальные модели, пересекаются с практическими проблемами, такими как прозрачность, влияние на персонал и поддержание доверия клиентов?

Для ясности, TELUS Digital работает как напрямую с разработчиками базовых моделей, так и с предприятиями, внедряющими модели ИИ. Наша сфера деятельности охватывает весь цикл:

Вопрос о практических аспектах связан с предыдущим исследованием доверия. Давайте рассмотрим доверие к персоналу. По мере того, как искусственный интеллект, использующий модели мира, становится все более распространенным, руководителям необходимо быть прозрачными со своими сотрудниками, подрядчиками и клиентами. Необходима четкая коммуникация относительно того, в чем хороши модели, как они были обучены, какие данные использовались для их обучения, какие меры предосторожности были приняты и где требуется человеческий контроль. Руководители предприятий должны показать нынешним сотрудникам ценность новых моделей, например, выполнение всей рутинной работы. И им необходимо показать пути перехода для затронутых работников, которые могут перейти на новые, перспективные должности, поскольку прежние должности все чаще выполняются искусственным интеллектом, использующим модели мира. Офисные работники сталкиваются с этим в режиме реального времени, и многие ручные работы будут затронуты в ближайшие годы по мере расширения автоматизации, основанной на моделях мира.

Между тем, что понимают исследователи в области ИИ, и тем, как это воспринимает общественность, растет разрыв. Как организациям доносить информацию о достижениях, таких как модели мира, таким образом, чтобы завоевать доверие, не преувеличивая их возможности?

Опять же, все сводится к прозрачности в отношении ограничений моделей и их сильных сторон. Необходимо сообщать о том, как модели обучались для минимизации потенциальной предвзятости. Какой человеческий контроль осуществляется. Несколько реальных демонстраций возможностей и вариантов использования модели в сочетании с долгосрочными исследованиями могут значительно повысить доверие общественности и работников.

И наконец, какое распространенное заблуждение относительно моделей мира, созданных с помощью ИИ, будь то чрезмерно оптимистичное или чрезмерно осторожное, по вашему мнению, необходимо исправить прямо сейчас?

В той ограниченной степени, в которой широкая общественность информирована о мировых моделях, существует одно заблуждение, что мировые модели должны понимать ВСЕ Для эффективной работы необходимы знания физики и науки. Мировые модели будут внедряться быстрее, чем можно ожидать, поскольку отдельные сценарии использования можно сузить. Автономному транспортному средству достаточно понимать динамику дорожного движения и физику, связанную с дорогами, а также то, как текущие условия (например, нахождение рядом с начальной школой или преобладание поблизости внедорожников с высокими силуэтами) повлияют на его обзор и принятие решений. Автономному транспортному средству не нужны знания физики, лежащие в основе процесса выпечки суфле, чтобы функционировать.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить ТЕЛУС Цифровой.

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.