Connect with us

Stephen Miller, współzałożyciel i wiceprezes ds. inżynierii w Fyusion – seria wywiadów

Wywiady

Stephen Miller, współzałożyciel i wiceprezes ds. inżynierii w Fyusion – seria wywiadów

mm

Stephen Miller jest współzałożycielem i wiceprezesem ds. inżynierii w Fyusion, firmie zajmującej się obrazowaniem 3D i widzeniem komputerowym, należącej do grupy Cox Automotive. Przed założeniem Fyusion był studentem doktoranckim na Uniwersytecie Stanforda, studiującym nauki komputerowe, i pracował nad robotyką osobistą, taką jak składanie prania i wiązanie węzłów chirurgicznych podczas studiów licencjackich na UC Berkeley. Jest stypendystą Google Hertz Fellow, SAP Stanford Graduate Fellow i NSF Fellow.

Czy mógłbyś wyjaśnić, co to jest Fyusion i jak umożliwia łatwe przechwytywanie i wizualizację danych 3D?

Fyusion to firma zajmująca się widzeniem komputerowym, która dostarcza doświadczenia klienta 3D napędzane przez sztuczną inteligencję. Umożliwiamy ludziom przechwytywanie obrazów 3D za pomocą prostej aplikacji na smartfonie, która działa na większości urządzeń z systemem Android i iOS. Aplikacja ma krok-po-kroku instrukcje i jest zaprojektowana tak, aby mogli z niej korzystać wszyscy, niezależnie od umiejętności technicznych. Przechwytywanie obrazu zajmuje minute lub dwie. Następnie nasz silnik AI, ALIS, może analizować obrazy 3D i przekształcać je w informacje działania. Obecnie koncentrujemy się na wykorzystaniu obrazów 3D do diagnozowania uszkodzeń zewnętrznych samochodów.

Czy mógłbyś wyjaśnić, jak algorytmy wykorzystują format pliku .fyuse, aby umożliwić smartfonowi z jedną kamerą tworzenie obrazów 3D?

Uważam, że pomocne jest rozważenie formatu .fyuse obok zdjęć i filmów. Zdjęcie przechwytuje moment w czasie z ustalonego kąta, a film przechwytuje serię tych momentów w liniowym czasie. W przeciwieństwie do tego, obraz .fyuse przechwytuje to, co lubimy nazywać “momentem w przestrzeni”. Widz nie jest ograniczony do jednego kąta lub liniowego czasu: Może zobaczyć nie tylko jedną stronę czegoś, ale także dookoła.

Aby utworzyć obraz .fyuse, fotograf krąży wokół obiektu w jednym kierunku z kamerą telefonu komórkowego. Alternatywnie, technologia Fyusion jest również kompatybilna z rozwiązaniami obrazowania stacjonarnego i nietradycyjnymi, takimi jak drony.

Nasz format pliku .fyuse to to, co ożywia te obrazy. Jest lekki i umożliwia złożoną, wielowymiarową interakcję. Jest również w pełni kompatybilny z laptopami, tabletami i smartfonami, których posiadają użytkownicy w swoim arsenale.

Czy mógłbyś omówić niektóre dane, które są przechwytywane i analizowane za pomocą Fyusion?

W przypadku samochodów ALIS rozpoznaje każdą część pojazdu i może określić, gdzie jest uszkodzenie, rozmiar i nasilenie uszkodzenia, oraz wyeliminować potencjalne fałszywe pozytywy, takie jak brud podrzucony z drogi. Technologia, którą opracowaliśmy i opatentowaliśmy, może rozwiązać inne problemy, ale to jest ten, na którym się obecnie koncentrujemy.

Czy mógłbyś omówić, co to jest AI-based Lightfield Information Suite (ALIS)?

ALIS to silnik za każdym produktem Fyusion. Umożliwia lekkie obrazowanie 3D i głębokie zrozumienie wizualne. Składa się z trzech części: Przechwytywanie, Silnik i Widok. W module Przechwytywanie aplikacja mobilna zawiera wbudowane samouczki i dostosowywalne przepływy pracy, które pozwalają użytkownikom przechwytywać wysokiej jakości obrazy 3D przy użyciu większości smartfonów na rynku. Przechwytywanie obrazu Fyusion obsługuje również aparaty DSLR, drony i wiele innych urządzeń.

W drugim kroku, Silnik, ALIS analizuje te obrazy 3D i przekształca je w informacje działania, takie jak typy uszkodzeń wymagane przez naszych klientów. Może również dostarczyć kopię zapasową swoich ustaleń, tworząc wysokiej rozdzielczości obrazy 2D uszkodzeń, które znajduje.

Na końcu Widok wyświetla format pliku .fyuse. Format .fyuse jest opatentowany i lekki, zapewniając immersyjne doświadczenie 3D z szybkim czasem ładowania. Możemy dołączyć różne doświadczenia do formatu .fyuse, w tym dźwięk, wideo i oczywiście obrazy 2D.

Fyusion jest gotowy do AR i VR, jak duże uważasz, że będą te aplikacje w przyszłości?

Rzeczywistość rozszerzona to branża o wartości miliarda dolarów, która staje się coraz bardziej mainstreamowa, a dzięki potężnym nowym urządzeniom mobilnym i niskiej latencji sieci jest coraz łatwiej przechwytywać otoczenie w 3D. Gdy te technologie wkraczają do mainstreamu, oczekiwania klientów dotyczące doświadczeń online będą rosły tak szybko, jak tylko twórcy treści będą mogli nadążyć.

Szczególnie w branży motoryzacyjnej, gdzie kupowanie samochodów coraz częściej odbywa się online, w ciągu najbliższych kilku lat spodziewamy się wzrostu zainteresowania AR, VR i listami 3D. Celem jest przekształcenie prostej strony szczegółów pojazdu (VDP) w stronę doświadczenia pojazdu (VEP), pomagając zarówno dużym, jak i małym dealerom samochodowym w dalszym rozwoju. Może to być wszystko, od dodawania logo 3D i tagów multimediów do list, po umożliwienie klientom wirtualnego umieszczania zestawu kijów golfowych w bagażniku samochodu, aby zobaczyć, jak się tam mieszczą.

Będzie interesujące zobaczyć, jak te typy aplikacji zaczną przenikać do użycia mainstreamowego. Nie sądzę, że będziemy długo czekać.

Czy mógłbyś omówić poprawę wskaźnika klikalności i przychodu, który jest widoczny w handlu elektronicznym z użyciem obrazów 3D zamiast 2D?

Jestem najbardziej zaznajomiony z detalicznymi i hurtowymi sprzedażami samochodów. Obrazy 3D stworzyły nowy poziom zaufania dla klientów online, co jest szczególnie krytyczne w przypadku dużych przedmiotów, takich jak samochody.

Nasze wewnętrzne dane wskazują, że obrazy 3D zwiększają zaangażowanie użytkowników i czas spędzony na stronach szczegółów pojazdu, co z kolei okazało się zwiększać sprzedaż samochodów. Zapewnienie wiernego doświadczenia 3D pojazdu buduje również pozytywne nastawienie wobec sprzedawcy, zwiększając zaufanie.

Jedną z opcji w Fyusion jest przetwarzanie danych lokalnie lub w chmurze, czy mógłbyś omówić zalety każdej z nich?

Lokalnie, edge AI zmusza deweloperów do pracy w ramach znacznych ograniczeń, szczególnie w przypadku telefonów komórkowych. Oprócz standardowych problemów dla każdego dewelopera AI — Jak zoptymalizowana jest sieć? Jak niezawodne są wyniki? — pewne praktyczne problemy wyznaczają wyraźne limity. Presja pamięci, rozładowanie baterii, możliwość przerwania procesu przez użytkownika lub system operacyjny itp. A to zakładając, że porównywalne procesory i karty graficzne są dostępne na krawędzi. Nawet dla flagowych urządzeń jest to rzadko spotykane.

Musisz planować każdy możliwy przypadek; podczas gdy w chmurze każde rozwiązanie może być monitorowane i dostosowywane.

Ale zbiorowo rzecz biorąc, edge AI można uznać za idealne rozwiązanie “autoscaling”: dla każdego nowego użytkownika masz całą nową maszynę do dyspozycji. Jeśli zoptymalizujesz swoją sieć, aby działała całkowicie na krawędzi, możesz równie łatwo obsłużyć dwa, lub dwa miliony, klientów.

Podczas gdy najpotężniejszy sprzęt zawsze będzie istniał w chmurze, powszechnie uznaje się, że dane są królem. Im więcej danych i im bliżej surowych, tym lepiej. AI na krawędzi ma dostęp do nieprzetworzonych, surowych danych wejściowych, bez ograniczeń. Podczas gdy dla rozwiązania AI w chmurze dane wejściowe muszą być przetworzone (skompresowane, częściowe) lub ogromne, w którym przypadku przepustowość staje się poważnym problemem.

Ponieważ jest najbliżej użytkownika, edge AI otwiera możliwości, których nie ma chmura AI. Jeśli zoptymalizujesz ją do działania w czasie rzeczywistym, może zapewnić informacje zwrotne w czasie rzeczywistym. Co oznacza, że możesz tworzyć rozwiązania, które nie tylko pobierają dane, ale także zachęcają użytkowników do dostarczania lepszych danych.

Jak 5G umożliwi szybki wzrost w zastosowaniach technologii widzenia komputerowego?

Przy szybszych prędkościach połączenia możesz przenieść więcej przetwarzania do chmury, co otwiera możliwości dla wszystkich rodzajów nowych aplikacji widzenia komputerowego. Jednak w zależy to od aplikacji i jak szeroko będzie ona przyjęta.

5G może mieć rozdrobniony wpływ i pogłębić cyfrowy podział, ponieważ niektóre części świata mają szybsze i szybsze połączenia, podczas gdy inne obszary będą nadal miały wolne połączenia. Aplikacje skierowane do osób z dostępem do 5G będą z pewnością korzystać. Ale szerzej stosowane aplikacje mogą musieć wybrać między poświęceniem czasu i pieniędzy na to, co w zasadzie stanowi dwie wersje tej samej aplikacji, lub pozostaniem przy jednej wersji, która jest mniej rozbudowana, ale może działać na niemal każdym połączeniu.

Jakie kroki Fyusion podejmuje, aby skorzystać na przyszłym wdrożeniu 5G?

Chcę podkreślić, że Fyusion poświęcił znaczny czas, aby upewnić się, że klienci mogą uzyskać dostęp do naszych aplikacji, nawet na starych telefonach z ograniczoną dostępnością pasma. Z Manheim nasza technologia sfotografowała ponad milion samochodów i nie osiągnęlibyśmy tego bez tego.

To powiedziawszy, jesteśmy bardzo podekscytowani tym, co widzimy obecnie — jest to trifecta zwiększających się prędkości przetwarzania, połączeń 5G i niczego więcej niż rewolucji w aparatach fotograficznych. Połącz to wszystko i otrzymasz nowe rozwoje, których niestety nie mogę zdradzić.

Czy jest coś jeszcze, co chciałbyś podzielić się na temat Fyusion?

To bardzo ekscytujący czas, aby pracować w dziedzinie widzenia komputerowego — jako dyscyplina wkraczamy do mainstreamu po wielu latach mówienia o niej jako o przyszłej technologii. Fyusion rośnie szybko i rekrutujemy naukowców z dziedziny widzenia komputerowego z całego świata. Nasi członkowie zespołu mogą pracować z dowolnego miejsca, ale zawsze są mile widziani w naszych biurach w Potrero Hill.

Dziękuję za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Fyusion.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.