Entrevistas
Stephen Miller, Co-Fundador y Vicepresidente de Ingeniería en Fyusion – Serie de Entrevistas

Stephen Miller es el cofundador y vicepresidente de Ingeniería en Fyusion, una empresa de imágenes 3D y visión por computadora, parte del grupo Cox Automotive. Antes de fundar Fyusion, fue estudiante de doctorado en la Universidad de Stanford estudiando Ciencias de la Computación, y trabajó en robótica personal como la folding de ropa y el nudo quirúrgico durante sus estudios de pregrado en la Universidad de California, Berkeley. Es un fellow de Google Hertz, fellow de graduados de SAP en Stanford y ex fellow de la NSF.
¿Podría explicar qué es Fyusion y cómo permite la captura y visualización fácil de datos 3D?
Fyusion es una empresa de visión por computadora que proporciona experiencias de cliente 3D impulsadas por IA. Permitimos que las personas capturen imágenes 3D a través de una aplicación de smartphone simple que se ejecuta en la mayoría de los dispositivos Android e iOS. La aplicación tiene una guía paso a paso y está diseñada para ser utilizada por cualquier persona, independientemente de sus habilidades técnicas. Toma un minuto o dos para capturar la imagen. A partir de ahí, nuestro motor de IA, ALIS, puede analizar imágenes 3D y convertir esos datos visuales en información accionable. En este momento nos estamos enfocando en el uso de imágenes 3D para diagnosticar daños exteriores a los coches.
¿Podría explicar cómo los algoritmos utilizan el formato de archivo .fyuse para permitir que una cámara de smartphone único cree imágenes 3D?
Me resulta útil considerar el formato .fyuse junto con las fotos y los videos. Una foto captura un momento en el tiempo desde un ángulo fijo, y un video captura una serie de esos momentos en una línea de tiempo lineal. Por el contrario, una imagen .fyuse captura lo que nos gusta llamar “un momento en el espacio”. Un espectador no está limitado a un solo ángulo o línea de tiempo lineal: puede ver no solo un lado de algo, sino también alrededor de él.
Para crear una imagen .fyuse, el fotógrafo rodea su sujeto en una dirección con una cámara de teléfono celular. Alternativamente, la tecnología Fyusion también es compatible con soluciones de imagen fijas y soluciones de imagen no tradicionales, como drones.
Nuestro formato de archivo .fyuse es lo que da vida a estas imágenes. Es ligero y permite interactividad compleja y multifacética. También es completamente compatible con laptops, tabletas y smartphones que el usuario promedio ya tiene en su arsenal.
¿Podría discutir algunos de los datos que se capturan y analizan con Fyusion?
Con los coches, ALIS reconoce cada parte del vehículo y luego puede determinar dónde hay daños, el tamaño y la gravedad de los daños, y eliminar posibles falsos positivos, como la suciedad levantada por la carretera. La tecnología que hemos desarrollado y patentado puede resolver otros problemas, pero este es el que nos estamos enfocando ahora.
¿Podría discutir qué es el Kit de Información de Luz de IA (ALIS)?
ALIS es el motor detrás de cada producto Fyusion. Permite la imagen 3D ligera y la comprensión visual profunda. Hay tres partes que componen ALIS: Captura, Motor y Visor. En el módulo de Captura, la aplicación móvil contiene tutoriales integrados y flujos de trabajo personalizables que permiten a los usuarios capturar imágenes 3D de alta calidad utilizando la mayoría de los smartphones del mercado. La captura de imágenes de Fyusion también admite cámaras DSLR, drones y una serie de otros dispositivos.
En el segundo paso, Motor, ALIS analiza esas imágenes 3D y las convierte en información accionable, como los tipos de daños requeridos por nuestros clientes. También puede proporcionar respaldo para sus hallazgos creando imágenes 2D de alta resolución de los daños que encuentra.
Finalmente, el Visor muestra el formato de archivo .fyuse. El .fyuse es patente y ligero, y proporciona una experiencia 3D inmersiva con tiempos de carga rápidos. Podemos adjuntar todo tipo de experiencias con un .fyuse, incluyendo audio, video y, por supuesto, imágenes 2D.
Fyusion está listo tanto para AR como para VR, ¿cuán grande cree que serán estas aplicaciones en el futuro?
La realidad aumentada es una industria de mil millones de dólares que se está volviendo más mainstream, y es aún más fácil capturar los alrededores en 3D gracias a los dispositivos móviles potentes y las redes de baja latencia. A medida que estas tecnologías se mueven hacia la corriente principal, las expectativas de los clientes sobre las experiencias en línea aumentarán tan rápido como los creadores de contenido puedan mantenerse al día.
Especialmente en la industria del automóvil, con la compra de coches cada vez más en línea, en los próximos años anticipamos un aumento de interés en AR, VR y listados 3D. El objetivo es transformar una página de detalles de vehículo (VDP) simple en una página de experiencia de vehículo (VEP), ayudando a que tanto los concesionarios de automóviles grandes como pequeños sigan prosperando. Esto puede ser cualquier cosa, desde agregar logotipos 3D y etiquetas de medios ricos a los listados, o permitir que los compradores coloquen virtualmente un conjunto de palos de golf en el maletero de un coche para ver cómo caben dentro.
Será emocionante ver cómo estas aplicaciones comienzan a hacer su camino en el uso mainstream. No creo que sea una espera larga.
¿Podría discutir la mejora en la tasa de clics y los ingresos que se ven en el comercio electrónico al utilizar imágenes 3D en lugar de 2D?
Estoy más familiarizado con las ventas de automóviles al por mayor y al por menor. Las imágenes 3D han creado un nuevo nivel de confianza para los compradores en línea, lo que es especialmente crítico con artículos de gran valor como los coches.
Nuestros datos internos indican que las imágenes 3D aumentan la participación del usuario y el tiempo que pasan en las páginas de detalles de los vehículos, lo que a su vez se ha demostrado que aumenta las ventas de coches. Proporcionar una experiencia 3D realista del vehículo también genera sentimiento positivo hacia el vendedor al aumentar la confianza.
Una de las opciones con Fyusion es procesar datos de forma local o en la nube, ¿podría discutir los beneficios de cada una?
De forma local, la IA de borde obliga a los desarrolladores a trabajar dentro de considerables limitaciones, particularmente para el caso de uso de los teléfonos móviles. Además de las preocupaciones estándar para cualquier desarrollador de IA, ¿Cómo de optimizada es la red? ¿Qué tan confiables son los resultados?, ciertas preocupaciones prácticas establecen techos claros. Presión de memoria, drenaje de batería, la posibilidad de que su proceso sea puesto en segundo plano por el usuario o el sistema operativo, etc. Y eso suponiendo que los CPUs y GPUs comparables estuvieran disponibles en el borde. Incluso para dispositivos insignia, esto rara vez es el caso.
Necesita planificar para cada caso posible; mientras que, en la nube, cualquier solución puede ser monitoreada y ajustada.
Pero colectivamente hablando, la IA de borde podría considerarse la solución de “autoscaling” perfecta: para cada nuevo usuario, tiene una máquina completamente nueva a su disposición. Si ha optimizado su red para ejecutarse completamente en el borde, puede servir a dos, o dos millones, de clientes con la misma facilidad.
Mientras que el hardware más potente siempre existirá en la nube, generalmente se acepta que los datos son los reyes. Cuantos más datos, y más cerca estén de ser crudos, mejor. La IA en el borde tiene acceso a datos de entrada crudos y sin procesar, sin restricciones. Mientras que para una solución de IA en la nube, los datos de entrada deben ser procesados (comprimidos, parciales) o enormes, en cuyo punto la banda ancha se convierte en una preocupación seria.
Debido a que está más cerca del usuario, la IA de borde abre un rango de posibilidades que la IA en la nube no. Si se optimiza para ejecutarse en tiempo real, puede proporcionar retroalimentación en tiempo real. Lo que significa que puede construir soluciones que no solo ingieren datos, sino que también animan a los usuarios a proporcionar mejores datos.
¿Cómo habilitará 5G un crecimiento rápido en las aplicaciones de tecnología de visión por computadora?
A velocidades de conexión más rápidas, puede mover más procesamiento a la nube, lo que abre posibilidades para todo tipo de nuevas aplicaciones de visión por computadora. Sin embargo, realmente depende de la aplicación y cuán ampliamente se adoptará.
5G podría tener un impacto fragmentado y aumentar la brecha digital, ya que algunas partes del mundo tienen conectividad más rápida y más rápida, mientras que otras áreas seguirán teniendo conectividad lenta. Las aplicaciones centradas en las personas con acceso a 5G obviamente se beneficiarán. Pero más ampliamente adoptadas, las aplicaciones pueden tener que elegir entre gastar tiempo y dinero en lo que esencialmente se convertirán en dos versiones de la misma aplicación, o quedarse con una versión que es menos robusta pero puede ejecutarse en casi cualquier conexión.
¿Qué medidas está tomando Fyusion para aprovechar el despliegue de 5G en el futuro?
Quiero prefaciar esto diciendo que Fyusion ha pasado mucho tiempo asegurando que los clientes puedan acceder a nuestras aplicaciones incluso en teléfonos antiguos con mala disponibilidad de ancho de banda. Con Manheim solo, nuestra tecnología ha capturado más de un millón de coches, y no habríamos logrado eso de otra manera.
Dicho esto, estamos muy emocionados con lo que estamos viendo ahora: es una trifecta de velocidades de procesamiento en aumento, conectividad 5G y nada menos que una revolución en las cámaras de los teléfonos. Póngalo todo junto y obtendrá algunos nuevos desarrollos que desafortunadamente no puedo compartir con ustedes todavía.
¿Hay algo más que le gustaría compartir sobre Fyusion?
Es un momento emocionante para trabajar en visión por computadora, ya que como disciplina estamos entrando en la corriente principal después de muchos años de ser hablados como una tecnología del futuro. Fyusion está creciendo rápidamente y estamos contratando científicos de visión por computadora de todo el mundo. Nuestros miembros del equipo pueden trabajar desde cualquier lugar, pero siempre son bienvenidos en nuestras oficinas en Potrero Hill.
Gracias por la gran entrevista, los lectores que deseen aprender más deben visitar Fyusion.












