Entrevistas
Stephen Miller, Co-Fundador e SVP de Engenharia da Fyusion – Série de Entrevistas

Stephen Miller é o co-fundador e SVP de Engenharia da Fyusion, uma empresa de imagens 3D e visão computacional, parte do grupo Cox Automotive. Antes de fundar a Fyusion, ele era um estudante de doutorado na Universidade de Stanford, estudando Ciência da Computação, e trabalhou em robótica pessoal, como dobrar roupas e amarrar nós cirúrgicos durante seus estudos de graduação na UC Berkeley. Ele é um fellow do Google Hertz, fellow do SAP Stanford Graduate e ex-aluno do NSF Fellow.
Poderia explicar o que é a Fyusion e como ela permite a captura e visualização fácil de dados 3D?
Fyusion é uma empresa de visão computacional que fornece experiências de cliente 3D impulsionadas por IA. Nós permitimos que as pessoas capturem imagens 3D por meio de um aplicativo simples de smartphone que funciona na maioria dos dispositivos Android e iOS. O aplicativo tem orientação passo a passo e é projetado para ser usado por qualquer pessoa, independentemente da habilidade técnica. Leva um ou dois minutos para capturar a imagem. A partir daí, nosso motor de IA, ALIS, pode analisar imagens 3D e transformar esses dados visuais em informações ações. No momento, estamos focados em usar imagens 3D para diagnosticar danos externos em carros.
Poderia explicar como os algoritmos usam o formato de arquivo .fyuse para permitir que uma câmera de smartphone único crie imagens 3D?
Eu acho útil considerar o formato .fyuse ao lado de fotos e vídeos. Uma foto captura um momento no tempo a partir de um ângulo fixo, e um vídeo captura uma série desses momentos em uma linha do tempo linear. Em contraste, uma imagem .fyuse captura o que gostamos de chamar de “um momento no espaço”. Um visualizador não está confinado a um único ângulo ou linha do tempo linear: ele pode ver não apenas um lado de algo, mas também ao redor.
Para criar uma imagem .fyuse, o fotógrafo circula seu assunto em uma direção com uma câmera de celular. Alternativamente, a tecnologia Fyusion também é compatível com soluções de imagem fixas e soluções de imagem não tradicionais, como drones.
Nosso formato de arquivo .fyuse é o que traz essas imagens à vida. É leve e permite interatividade complexa e multifacetada. Também é completamente compatível com laptops, tablets e smartphones que o usuário comum já tem em seu arsenal.
Poderia discutir alguns dos dados que são capturados e analisados com a Fyusion?
Com carros, o ALIS reconhece cada parte do veículo e, em seguida, pode determinar onde há danos, o tamanho e a gravidade dos danos e eliminar possíveis falsos positivos, como sujeira levantada da estrada. A tecnologia que desenvolvemos e patenteamos pode resolver outros problemas, mas este é o que estamos focados no momento.
Poderia discutir o que é o Conjunto de Informações de Luz de IA (ALIS)?
ALIS é o motor por trás de todos os produtos Fyusion. Ele permite imagens 3D leves e compreensão visual profunda. Há três partes que compõem o ALIS: Captura, Motor e Visualizador. Na parte de Captura, o aplicativo móvel contém tutoriais integrados e fluxos de trabalho personalizáveis que permitem que os usuários capturem imagens 3D de alta qualidade usando a maioria dos smartphones do mercado. A captura de imagens da Fyusion também suporta DSLRs, drones e uma variedade de outros dispositivos.
Na segunda etapa, Motor, o ALIS analisa essas imagens 3D e as transforma em informações ações, como os tipos de danos exigidos por nossos clientes. Ele também pode fornecer suporte para suas descobertas criando imagens 2D de alta resolução dos danos que encontra.
Por fim, o Visualizador exibe o formato de arquivo .fyuse. O .fyuse é patenteado e leve e fornece uma experiência 3D imersiva com tempos de carregamento rápidos. Podemos anexar todo tipo de experiências a um .fyuse, incluindo áudio, vídeo e, claro, imagens 2D.
A Fyusion é pronta para AR e VR, quanto você acredita que essas aplicações serão grandes no futuro?
A realidade aumentada é uma indústria de bilhões de dólares que está se tornando mais mainstream, e é ainda mais fácil capturar ambientes em 3D graças a dispositivos móveis poderosos e redes de baixa latência. À medida que essas tecnologias se movem para o mainstream, as expectativas dos clientes em relação a experiências online serão elevadas tão rapidamente quanto os criadores de conteúdo podem acompanhar.
Especialmente na indústria automotiva, com a compra de carros cada vez mais online, nos próximos anos antecipamos um surto de interesse em AR, VR e listagens 3D. O objetivo é transformar uma página de detalhes de veículo (VDP) simples em uma página de experiência de veículo (VEP), ajudando tanto os grandes quanto os pequenos concessionários de automóveis a continuar prosperando. Isso pode ser qualquer coisa, desde adicionar logotipos 3D e tags de mídia rica às listagens, ou permitir que os compradores coloquem virtualmente um conjunto de tacos de golfe no porta-malas de um carro para ver como eles cabem dentro.
Será emocionante ver como esses tipos de aplicações começam a se tornar mainstream. Não acho que será uma longa espera.
Poderia discutir a melhoria na taxa de cliques e receita que é vista no comércio eletrônico ao usar imagens 3D em vez de 2D?
Estou mais familiarizado com vendas de atacado e varejo de automóveis. As imagens 3D criaram um novo nível de confiança para os compradores online, o que é especialmente crítico com itens de alto valor, como carros.
Nossos dados internos indicam que as imagens 3D aumentam o envolvimento do usuário e o tempo gasto nas páginas de detalhes do veículo, o que, por sua vez, tem sido mostrado para aumentar as vendas de carros. Fornecer uma experiência 3D realista do veículo também constrói sentimento positivo em relação ao vendedor, aumentando a confiança.
Uma das opções com a Fyusion é processar dados localmente ou na nuvem, poderia discutir os benefícios de cada?
Localmente, a IA de borda obriga os desenvolvedores a trabalhar dentro de consideráveis restrições, particularmente para o caso de uso de telefones celulares. Além das preocupações padrão para qualquer desenvolvedor de IA – Quão otimizada é a rede? Quão confiáveis são os resultados? – certas preocupações práticas estabelecem tetos claros. Pressão de memória, drenagem de bateria, a possibilidade de seu processo ser backgroundizado pelo usuário ou sistema operacional, etc. E isso supondo que CPUs e GPUs comparáveis estivessem disponíveis na borda. Mesmo para dispositivos de ponta, isso raramente é o caso.
Você precisa planejar para cada caso possível; enquanto na nuvem, qualquer solução pode ser monitorada e ajustada.
Mas coletivamente falando, a IA de borda pode ser considerada a solução de “autoscaling” perfeita: para cada novo usuário, você tem uma máquina completamente nova à sua disposição. Se você otimizou sua rede para funcionar inteiramente na borda, você pode atender facilmente a dois, ou dois milhões, de clientes.
Enquanto o hardware mais potente sempre existirá na nuvem, é geralmente aceito que os dados são o rei. Quanto mais dados e mais perto do bruto, melhor. A IA de borda tem acesso a dados brutos não processados, sem restrições. Enquanto para uma solução de IA na nuvem, os dados de entrada devem ser processados (comprimidos, parciais) ou enormes, a ponto de a largura de banda se tornar uma preocupação séria.
Porque está mais perto do usuário, a IA de borda abre um leque de possibilidades que a IA na nuvem não. Se for otimizada para funcionar em tempo real, pode fornecer feedback em tempo real. O que significa que você pode construir soluções que não apenas ingerem dados, mas incentivam os usuários a fornecer melhores dados.
Como o 5G permitirá o crescimento rápido da tecnologia de visão computacional?
Em velocidades de conexão mais rápidas, você pode mover mais processamento para a nuvem, o que abre possibilidades para todo tipo de novas aplicações de visão computacional. No entanto, realmente depende da aplicação e de quão amplamente ela será adotada.
O 5G pode ter um impacto fragmentado e aprofundar a divisão digital, pois algumas partes do mundo terão conectividade mais rápida e mais rápida, enquanto outras áreas continuarão a ter conectividade lenta. As aplicações focadas em pessoas com acesso ao 5G obviamente se beneficiarão. Mas mais amplamente adotadas, as aplicações podem ter que escolher entre gastar tempo e dinheiro para o que essencialmente se tornará duas versões da mesma aplicação, ou ficar com uma versão que é menos robusta, mas pode ser executada em quase qualquer conexão.
Quais passos a Fyusion está dando para aproveitar o lançamento futuro do 5G?
Quero prevenir isso dizendo que a Fyusion gastou muito tempo garantindo que os clientes possam acessar nossas aplicações, mesmo em telefones antigos com banda de largura de baixa disponibilidade. Com a Manheim sozinha, nossa tecnologia imagens mais de um milhão de carros, e não teríamos alcançado isso de outra forma.
Dito isso, estamos muito animados com o que estamos vendo agora – é uma tríade de velocidades de processamento crescentes, conectividade 5G e nada menos que uma revolução em câmeras de celulares. Coloque tudo junto e você obtém alguns novos desenvolvimentos que infelizmente não posso compartilhar com você ainda.
Há algo mais que você gostaria de compartilhar sobre a Fyusion?
É um momento emocionante para trabalhar em visão computacional – como disciplina, estamos nos movendo para o mainstream após muitos anos de sermos falados como uma tecnologia do futuro. A Fyusion está crescendo rapidamente e estamos contratando cientistas de visão computacional de todo o mundo. Nossos membros da equipe podem trabalhar de qualquer lugar, mas são sempre bem-vindos em nossos escritórios em Potrero Hill.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Fyusion.












