Entretiens

Sohaib Khan, Co-Fondateur & PDG de Hazen.ai – Série d’entretiens

Published August 24, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Sohaib Khan, est le Co-Fondateur & PDG de Hazen.ai, une entreprise qui utilise la vision par ordinateur et l’apprentissage profond pour concevoir des logiciels d’analyse de trafic intelligents qui sont conçus pour « comprendre » le mouvement de chaque véhicule.

Qu’est-ce qui vous a initialement attiré dans le domaine de l’IA ?

C’était pendant mes études de premier cycle que j’ai lu pour la première fois comment la vision stéréo (ou vision binoculaire – estimation de la profondeur à partir de deux caméras) fonctionne. Cela m’a accroché pour explorer davantage la vision par ordinateur. Intéressant, j’ai lu cela pour la première fois dans un livre que j’ai acheté sur un marché traditionnel du vendredi où l’on vendait des livres usagés sur un trottoir en bordure de route dans notre ville natale. J’ai ensuite fait un doctorat dans ce domaine aux États-Unis.

Vous étiez précédemment professeur à l’une des plus grandes universités du Pakistan, The Lahore University of Management Sciences (LUMS). Quels étaient vos domaines d’enseignement et de recherche ?

Lorsque j’ai rejoint LUMS après mon doctorat, j’ai créé ce qui était le premier laboratoire de recherche de niveau supérieur de l’université, grâce à un financement que j’ai reçu d’une grande subvention d’une organisation de défense. Le programme de niveau supérieur en informatique était très nouveau, et il n’y avait pas de laboratoires de recherche à cette époque. J’ai enseigné la vision par ordinateur pendant 12 ans à LUMS, et j’avais un laboratoire actif dans ce domaine. Au début, la vision par ordinateur était à peine enseignée dans les universités pakistanaises, mais plus tard, elle est devenue un sujet standard, et en fait, de nombreux de mes étudiants enseignent maintenant également dans les universités pakistanaises.

Pouvez-vous discuter de ce qui vous a inspiré à lancer une startup spécialisée dans la vision par ordinateur et les algorithmes d’apprentissage profond pour l’analyse de vidéos ?

La vision par ordinateur, pendant longtemps, a été largement un domaine de recherche expérimentale, avec des applications limitées dans les produits. Cela était principalement dû au fait que la maturité des algorithmes nécessaires pour construire des produits n’était pas là. Pour un produit, l’algorithme de compréhension d’images doit fonctionner dans une variété de conditions d’imagerie et d’éclairage, et non dans des expériences très contrôlées. Nous avions une blague parmi les étudiants de niveau supérieur dans notre laboratoire lorsque j’ai fait mon doctorat en 2000, que si vous pouvez trouver trois images sur lesquelles votre algorithme fonctionne, vous pouvez écrire un article. Si cela fonctionne sur trois vidéos, vous obtenez un très bon article ! Le point est que de nombreux algorithmes de vision fonctionnaient uniquement dans des scénarios de laboratoire soigneusement curatés, et n’étaient pas très robustes.

Mais maintenant les choses ont changé. Avec l’avènement de l’apprentissage profond en 2012, nous avons vu des progrès très rapides et fascinants dans la compréhension d’images. Lorsque nous avons vu cela, nous avons senti que maintenant le moment est venu de peut-être construire des produits solides qui peuvent avoir un impact significatif.

Quels types d’infractions au code de la route Hazen.ai peut-il surveiller ?

Notre objectif est de pouvoir identifier tous les types de comportements de conduite dangereux sur les routes. Cela est motivé par notre objectif global de réduire les décès sur la route. Toutes les 24 secondes, quelqu’un meurt dans un accident de la route, ce qui équivaut à environ 15 avions 787-8 Dreamliners qui s’écrasent chaque jour ! Donc c’est vraiment ce qui nous motive. C’est pourquoi nous construisons des logiciels qui peuvent détecter différents types de comportements dangereux et non sûrs, comme les changements de voie non sûrs, les virages illégaux, le franchissement d’un feu rouge ou d’un stop, le blocage d’un passage piéton, le non-port de la ceinture de sécurité ou la conduite tout en texte. Nous travaillons également à la construction de fonctionnalités dans notre logiciel spécifiquement pour la sécurité des piétons et des cyclistes, car plus de la moitié des décès dans les accidents de la route surviennent dans le segment des usagers de la route vulnérables des piétons, des cyclistes et des motocyclistes.

Quels sont certains des défis uniques liés à l’utilisation de la vision par ordinateur pour surveiller les objets se déplaçant à des vitesses si élevées ?

Il existe deux types de défis : le premier est la performance des algorithmes de vision par ordinateur eux-mêmes – vous voulez avoir un produit qui puisse fonctionner dans des conditions de trafic difficiles 24/7 dans toutes les variations d’éclairage. Même s’il y a eu beaucoup de progrès techniques vers cet objectif, il y a encore des pays où la densité des usagers de la route est si élevée, comme des grappes de motos ou de piétons en très grande proximité, qu’il est encore difficile pour les algorithmes de les suivre individuellement et de comprendre la scène. Mais deuxièmement, un défi plus important est de faire un produit solide à partir d’algorithmes de vision par ordinateur, qui puisse être déployé sur des ressources matérielles limitées au bord, et qui puisse être surveillé et géré facilement malgré être distribué dans toute la ville. Puisque les produits de vision par ordinateur gèrent beaucoup de données vidéo, les déployer au bord, en tant que dispositif IoT, et les gérer efficacement, reste une tâche difficile.

Quel est le processus pour que l’utilisateur final configure le logiciel pour différents paramètres de route ?

Chaque intersection fournit un scénario unique, en termes de volume de trafic, de configuration de voie et de type de véhicule, de cyclistes ou d’interactions piétonnières. De plus, les intérêts des gestionnaires de trafic peuvent être spécifiques, pour identifier un type particulier de comportement de trafic à chaque site. Par exemple, la police de trafic peut interdire un demi-tour à une intersection pour fluidifier le trafic, et est intéressée à capturer cette statistique. C’est pourquoi nous avons gardé notre logiciel configurable pour différents scénarios. Lorsqu’une caméra est configurée avec notre logiciel, nous la configurons à travers un processus simple pour ce que l’utilisateur final nécessite sur ce site. Intérieurement, nous avons construit un langage de haut niveau dans lequel nous pouvons décrire de manière concise des scénarios de trafic d’intérêt de manière simple. Cela nous permet de configurer un site rapidement pour nos clients.

Quel type de matériel est nécessaire pour exploiter ce système ?

L’analyse de vidéo nécessite une puissance de calcul importante. Nous avons optimisé notre code pour fonctionner sur les petites GPU Nvidia qui peuvent être déployées au bord, comme leur série Jetson, et également sur les CPU Intel pour certaines fonctionnalités que nous offrons. Ces dernières années, plus de matériel de bord puissant est devenu disponible à un prix raisonnable, ce qui est vraiment à l’origine de nombreuses applications passionnantes.

Pouvez-vous discuter si certaines juridictions sont actuellement en train d’essayer ou d’utiliser la technologie Hazen.ai ?

Nous avons maintenant des essais en cours dans plusieurs pays, le Royaume-Uni, les États-Unis, l’Égypte, l’Arabie saoudite, le Pakistan, Oman, le Pérou et nous engageons des clients potentiels dans d’autres pays également.

Y a-t-il autre chose que vous aimeriez partager sur Hazen.ai ?

Dans l’ensemble, nous sentons que les technologies de sécurité routière n’ont pas suffisamment progressé, par rapport à l’ampleur du problème. Cependant, maintenant le moment est venu, grâce aux progrès massifs de la vision par ordinateur et de l’apprentissage profond, ainsi que à la disponibilité abordable de matériel de caméra et de calcul. Nous allons voir de nombreuses applications supplémentaires de la vision par ordinateur basée sur le bord dans les années à venir. Ce sont les fondements qui motivent Hazen.ai.

Merci pour l’entretien, les lecteurs qui souhaitent en savoir plus devraient visiter Hazen.ai

Antoine Tardif, CEO & Founder of Unite.AI

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.

Unite.AI

Sohaib Khan, Co-Fondateur & PDG de Hazen.ai – Série d’entretiens

You may like