Entrevistas
Sohaib Khan, Co-Fundador y CEO de Hazen.ai – Serie de Entrevistas

Sohaib Khan, es el Co-Fundador y CEO de Hazen.ai, una empresa que utiliza visión por computadora y aprendizaje profundo para diseñar software de análisis de tráfico inteligente que está diseñado para ‘entender’ el movimiento de cada vehículo.
¿Qué te atrajo inicialmente al campo de la IA?
Fue durante mi pregrado que por primera vez leí sobre cómo funciona la visión estereoscópica (o visión binocular – estimación de la profundidad a partir de dos cámaras). Eso me enganchó a explorar más la visión por computadora. Curiosamente, lo leí por primera vez en un libro que recogí de un mercado tradicional de los viernes donde se vendían libros usados en una acera de la carretera en nuestra ciudad natal. Continué haciendo un doctorado en este campo en los EE. UU.
Anteriormente, eras profesor en una de las universidades más grandes de Pakistán, The Lahore University of Management Sciences (LUMS). ¿Cuáles eran tus intereses de enseñanza e investigación?
Cuando me uní a LUMS después de mi doctorado, construí lo que fue el primer laboratorio de investigación de posgrado en la universidad, con fondos que recibí de una gran subvención de una organización de defensa. El programa de posgrado en CS era muy nuevo, y no había laboratorios de investigación en ese momento. Enseñé Visión por Computadora durante 12+ años en LUMS, y tenía un laboratorio activo en este campo. Al principio, la visión por computadora apenas se enseñaba en alguna universidad paquistaní, pero más tarde se convirtió en una asignatura estándar, y de hecho, muchos de mis estudiantes ahora también enseñan en universidades paquistaníes.
¿Puedes discutir qué te inspiró a lanzar una startup que se especializa en visión por computadora y algoritmos de aprendizaje profundo para análisis de video?
La visión por computadora, durante mucho tiempo, fue en gran medida un campo de investigación experimental, con aplicaciones limitadas en productos. Esto se debió principalmente a que la madurez de los algoritmos necesarios para construir productos no estaba allí. Para un producto, el algoritmo de comprensión de imágenes debe funcionar en una variedad de condiciones de iluminación y captura de imágenes, y no solo en algunos experimentos controlados. Teníamos un chiste entre los estudiantes de posgrado en nuestro laboratorio cuando estaba haciendo mi doctorado en 2000, de que si puedes encontrar tres imágenes en las que funciona tu algoritmo, puedes escribir un papel. Si funciona en tres videos, ¡obtienes un muy buen papel! El punto es que muchos algoritmos de visión solo funcionaban en escenarios de laboratorio cuidadosamente curados, y no eran muy robustos.
Pero ahora las cosas han cambiado. Con el advenimiento del aprendizaje profundo en 2012, hemos visto un progreso muy rápido y fascinante en la comprensión de imágenes. Cuando vimos eso, sentimos que ahora es el momento adecuado para tal vez construir productos sólidos que puedan tener un impacto significativo.
¿Qué tipo de infracciones de tráfico puede monitorear Hazen.ai?
Nuestro objetivo es poder identificar todos los tipos de comportamientos de conducción peligrosos en las carreteras. Esto está impulsado por nuestro objetivo general de reducir las muertes en las carreteras. Cada 24 segundos, alguien muere en un accidente de tráfico, lo que equivale a aproximadamente 15 aviones 787-8 Dreamliners estrellándose todos los días. ¡Así que esto es realmente lo que nos motiva! Es por eso que estamos construyendo software que pueda detectar diferentes tipos de comportamientos peligrosos y poco seguros, como cambios de carril no seguros, giros ilegales, saltarse un semáforo o una señal de stop, bloquear un cruce peatonal, no llevar puesto el cinturón de seguridad o conducir mientras se envían mensajes de texto. También estamos trabajando para construir funciones en nuestro software específicamente para la seguridad de los peatones y ciclistas, porque más de la mitad de las muertes en accidentes de tráfico ocurren en el segmento de usuarios de la carretera vulnerables de peatones, ciclistas y motociclistas.
¿Cuáles son algunos de los desafíos únicos detrás del uso de visión por computadora para monitorear objetos que se mueven a tales altas velocidades?
Hay dos tipos de desafíos: Primero es el rendimiento de los algoritmos de visión por computadora en sí – quieres tener un producto que pueda funcionar en condiciones de tráfico desafiantes 24/7 en todas las variaciones de iluminación. Aunque ha habido mucho progreso técnico hacia este objetivo, todavía hay países en los que la densidad de usuarios de la carretera es tan alta, como grupos de motocicletas o peatones en proximidad muy cercana, que todavía es un desafío para los algoritmos rastrearlos individualmente y comprender la escena. Pero en segundo lugar, un desafío mayor es hacer un producto sólido a partir de algoritmos de visión por computadora, que pueda ser desplegado en recursos de hardware limitados en el borde, y puede ser monitoreado y gestionado fácilmente a pesar de estar distribuido por toda la ciudad. Dado que los productos de visión por computadora manejan mucha datos de video, desplegarlos en el borde, como un dispositivo IoT, y gestionarlos de manera efectiva, sigue siendo una tarea difícil.
¿Cuál es el proceso para que el usuario final configure el software para diferentes configuraciones de carretera?
Cada intersección proporciona un escenario único, en términos de volumen de tráfico, configuración de carril y tipo de vehículo, ciclistas o interacciones peatonales. Además, el interés de los administradores de tráfico puede ser específico, para identificar un tipo particular de comportamiento de tráfico en cada sitio. Por ejemplo, la policía de tráfico puede prohibir un giro en U en una intersección para suavizar el flujo de tráfico, y están interesados en capturar esa estadística. Es por eso que hemos mantenido nuestro software configurable para diferentes escenarios. Cuando una cámara se configura con nuestro software, lo configuramos a través de un proceso simple para lo que el usuario final requiere en ese sitio. Internamente, hemos construido un lenguaje de alto nivel en el que podemos describir escenarios de tráfico de interés de manera compacta y simple. Esto nos permite configurar un sitio rápidamente para nuestros clientes.
¿Qué tipo de hardware es necesario para operar este sistema?
El análisis de video requiere una gran cantidad de poder de cómputo. Hemos optimizado nuestro código para que se ejecute en las GPU Nvidia más pequeñas que se pueden desplegar en el borde, como su serie Jetson, y también en CPU de Intel para ciertas características que ofrecemos. En los últimos años, más hardware de borde poderoso está disponible a un precio razonable, así que esto realmente está impulsando muchas aplicaciones emocionantes.
¿Puedes discutir si alguna jurisdicción está actualmente probando o utilizando la tecnología Hazen.ai?
Ahora tenemos pruebas en curso en varios países, Reino Unido, EE. UU., Egipto, Arabia Saudita, Pakistán, Omán, Perú y estamos comprometidos con posibles clientes en otros países también.
¿Hay algo más que te gustaría compartir sobre Hazen.ai?
En general, sentimos que las tecnologías de seguridad vial no han progresado lo suficiente, en comparación con la escala del problema. Sin embargo, ahora es el momento adecuado, debido al progreso masivo en visión por computadora y aprendizaje profundo, así como la disponibilidad barata de hardware de cámara y cómputo. Veremos muchas más aplicaciones de visión por computadora basada en el borde en los próximos años. Estos son los fundamentos que impulsan a Hazen.ai.
Gracias por la entrevista, los lectores que deseen obtener más información deben visitar Hazen.ai












