Интервью
Стивен Миллер, сооснователь и старший вице-президент по инженерии в Fyusion – Интервью-серия

Стивен Миллер является сооснователем и старшим вице-президентом по инженерии в Fyusion, компании, занимающейся 3D-изображениями и компьютерным зрением, входящей в группу Cox Automotive. До основания Fyusion он был аспирантом в Стэнфордском университете, где изучал компьютерные науки, и работал над личными роботами, такими как складывание белья и завязывание хирургических узлов, во время своих бакалаврских исследований в Университете Калифорнии в Беркли. Он является стипендиатом Google Hertz, стипендиатом SAP Стэнфордского университета и бывшим стипендиатом Национального научного фонда.
Можете ли вы объяснить, что такое Fyusion и как оно позволяет легко захватывать и визуализировать 3D-данные?
Fyusion – это компания компьютерного зрения, которая предоставляет клиентам AI-управляемые 3D-опыты. Мы позволяем людям захватывать 3D-изображения с помощью простого приложения для смартфона, которое запускается на большинстве устройств Android и iOS. Приложение имеет пошаговое руководство и предназначено для использования кем угодно, независимо от технических знаний. На захват изображения уходит минута или две. После этого наш движок AI, ALIS, может анализировать 3D-изображения и превращать визуальные данные в действенную информацию. Сейчас мы сосредоточены на использовании 3D-изображений для диагностики внешних повреждений автомобилей.
Можете ли вы объяснить, как алгоритмы используют формат файла .fyuse, чтобы позволить смартфону с одной камерой создавать 3D-изображения?
Мне помогает рассматривать формат .fyuse наряду с фотографиями и видео. Фотография захватывает момент времени с фиксированного угла, а видео захватывает серию этих моментов в линейной временной шкале. Напротив, изображение .fyuse захватывает то, что мы называем “моментом в пространстве”. Зритель не ограничен одним углом или линейной временной шкалой: он может видеть не только одну сторону чего-либо, но и вокруг него.
Чтобы создать изображение .fyuse, фотограф должен обойти объект в одном направлении с камерой смартфона. Альтернативно, технология Fyusion также совместима с фиксированными решениями для съёмки и нестандартными решениями для съёмки, такими как беспилотники.
Наш формат файла .fyuse – это то, что оживляет эти изображения. Он лёгкий и позволяет сложной, многофакторной интерактивности. Он также полностью совместим с ноутбуками, планшетами и смартфонами, которые обычный пользователь уже имеет в своём арсенале.
Можете ли вы обсудить некоторые данные, которые захватываются и анализируются с помощью Fyusion?
С автомобилями ALIS распознаёт каждую часть транспортного средства и затем может определить, где есть повреждения, размер и тяжесть повреждений, и исключить потенциальные ложные положительные результаты, такие как грязь, выброшенная с дороги. Технология, которую мы разработали и запатентовали, может решить другие проблемы, но сейчас мы сосредоточены именно на этом.
Можете ли вы обсудить, что такое AI-основанный Lightfield Information Suite (ALIS)?
ALIS – это движок, стоящий за каждым продуктом Fyusion. Он позволяет лёгкому 3D-изображению и глубокому визуальному пониманию. В ALIS есть три части: Захват, Движок и Просмотрщик. В модуле Захват мобильное приложение содержит встроенные учебные пособия и настраиваемые рабочие процессы, которые позволяют пользователям захватывать высококачественные 3D-изображения с помощью большинства смартфонов на рынке. Захват изображений Fyusion также поддерживает DSLR-камеры, беспилотники и целый ряд других устройств.
На втором этапе, Движке, ALIS анализирует эти 3D-изображения и превращает их в действенную информацию, такую как типы повреждений, необходимых нашим клиентам. Он также может предоставить подтверждение своих выводов, создавая высококачественные 2D-изображения повреждений, которые он находит.
Наконец, Просмотрщик отображает формат файла .fyuse. Формат .fyuse запатентован и лёгкий, и обеспечивает иммерсивный 3D-опыт с быстрой загрузкой. Мы можем добавлять все sorts опытов с помощью .fyuse, включая аудио, видео и, конечно же, 2D-изображения.
Fyusion готов как к AR, так и к VR, насколько большим, по вашему мнению, будут эти приложения в будущем?
Расширенная реальность – это миллиардная индустрия, которая становится всё более мейнстримной, и всё легче захватывать окружающую среду в 3D благодаря мощным новым мобильным устройствам и низкозадержным сетям. По мере того, как эти технологии входят в мейнстрим, ожидания клиентов от онлайн-опытов будут расти так же быстро, как создатели контента смогут за ними поспевать.
Особенно в автомобильной промышленности, где покупка автомобилей всё больше происходит онлайн, в ближайшие годы мы ожидаем всплеска интереса к AR, VR и 3D-листингам. Цель – превратить простую страницу деталей транспортного средства (VDP) в страницу опыта транспортного средства (VEP), помогая как крупным, так и мелким автомобильным дилерам продолжать процветать. Это может быть всё, от добавления 3D-логотипов и богатых медиа-тегов на листинги, до того, чтобы позволить покупателям виртуально размещать набор гольф-клубов в багажнике автомобиля, чтобы увидеть, как они помещаются внутрь.
Будет интересно посмотреть, как эти типы приложений начнут входить в мейнстрим. Я не думаю, что нам придётся долго ждать.
Можете ли вы обсудить улучшение коэффициента кликабельности и дохода, которое наблюдается в электронной коммерции при использовании 3D-изображений вместо 2D?
Я наиболее знаком с оптовыми и розничными автомобильными продажами. 3D-изображения создали новый уровень доверия для онлайн-покупателей, что особенно критично для крупных товаров, таких как автомобили.
Наши внутренние данные показывают, что 3D-изображения увеличивают вовлечённость пользователей и время, проведённое на страницах деталей транспортного средства, что, в свою очередь, было показано увеличением продаж автомобилей. Предоставление похожего на реальность 3D-опыта транспортного средства также строит положительное отношение к продавцу, увеличивая доверие.
Одним из вариантов в Fyusion является обработка данных локально или в облаке, можете ли вы обсудить преимущества каждого?
Локально, краевой AI заставляет разработчиков работать в рамках значительных ограничений, особенно для использования мобильных телефонов. Помимо стандартных проблем для любого разработчика AI – насколько оптимизирована сеть, насколько надёжны результаты – определённые практические проблемы устанавливают чёткие потолки. Давление на память, разрядка батареи, возможность того, что ваш процесс будет помещён в фон пользователем или операционной системой и т. д. И это предполагает, что сравнимые ЦП и ГП доступны на краю. Даже для флагманских устройств это редко бывает так.
Вам нужно планировать каждый возможный случай; тогда как в облаке любое решение можно отслеживать и тонко настраивать.
Но коллективно говоря, краевой AI может быть рассмотрен как идеальное “автомасштабирующее” решение: для каждого нового пользователя у вас есть полностью новая машина в вашем распоряжении. Если вы оптимизировали свою сеть для запуска полностью на краю, вы можете так же легко обслуживать двух, или два миллиона, клиентов.
Хотя самая мощная аппаратура всегда будет существовать в облаке,一般но принято, что данные – это король. Чем больше данных и чем ближе они к сырым, тем лучше. AI на краю имеет доступ к необработанным, сырым входным данным, без ограничений. Тогда как для решения AI в облаке входные данные должны быть либо обработаны (сжаты, частичны), либо огромны, после чего пропускная способность становится серьёзной проблемой.
Поскольку он находится ближе всего к пользователю, краевой AI открывает целый ряд возможностей, которых нет у облачного AI. Если он оптимизирован для запуска в реальном времени, он может предоставлять обратную связь в реальном времени. Что означает, что вы можете строить решения, которые не только потребляют данные, но и побуждают пользователей предоставлять лучшие данные.
Как 5G позволит быстро расти компьютерным технологиям зрения?
На более быстрых скоростях подключения вы можете переместить больше обработки в облако, что открывает возможности для всех sorts новых компьютерных приложений зрения. Однако это действительно зависит от приложения и того, насколько широко оно будет принято.
5G может иметь фрагментированное влияние и ещё больше углубить цифровой разрыв, поскольку некоторые части мира имеют всё более быстрые подключения, а другие области будут продолжать иметь медленные подключения. Приложения, ориентированные на людей с доступом к 5G, очевидно, выиграют. Но более широко принятые приложения могут быть вынуждены выбирать между тратой времени и денег на то, что по сути станет двумя версиями одного и того же приложения, или придерживаться одной версии, которая менее мощная, но может запускаться几乎 на любом подключении.
Какие шаги предпринимает Fyusion, чтобы воспользоваться будущим внедрением 5G?
Я хочу предварить это, сказав, что Fyusion потратил значительное время на то, чтобы убедиться, что клиенты могут получить доступ к нашим приложениям даже на старых телефонах с плохой доступностью полосы пропускания. С Manheim alone наша технология проиллюстрировала более миллиона автомобилей, и мы не достигли бы этого иначе.
Тем не менее, мы очень взволнованы тем, что видим сейчас – это триада увеличивающихся скоростей обработки, подключения 5G и ничего short революции в камерах смартфонов. Всё это вместе и вы получаете некоторые новые разработки, которые, к сожалению, я не могу поделиться с вами сейчас.
Есть ли что-то ещё, что вы хотели бы поделиться о Fyusion?
Это очень интересное время, чтобы работать в компьютерном зрении – как дисциплина, мы входим в мейнстрим после многих лет обсуждения как будущей технологии. Fyusion быстро растёт, и мы нанимаем учёных-исследователей компьютерного зрения со всего мира. Наши члены команды могут работать из любого места, но они всегда приветствуются в наших офисах в Потреро-Хилл.
Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Fyusion.












