Entrevistas
Sohaib Khan, Co-Fundador & CEO da Hazen.ai – Série de Entrevistas

Sohaib Khan, é o Co-Fundador & CEO da Hazen.ai, uma empresa que utiliza visão computacional e aprendizado profundo para projetar software de análise de tráfego inteligente que é projetado para ‘entender’ o movimento de todos os veículos.
O que o atraiu inicialmente para o campo da IA?
Foi durante a graduação que eu li pela primeira vez sobre como a visão estereoscópica (ou visão binocular – estimando a profundidade a partir de duas câmeras) funciona. Isso me fez querer explorar mais a visão computacional. Interessantemente, eu li sobre isso em um livro que eu peguei em um mercado de sexta-feira tradicional onde eles vendiam livros usados em uma calçada ao lado da estrada em nossa cidade natal. Eu fui fazer um PhD nesse campo nos EUA.
Você foi anteriormente um professor em uma das maiores universidades do Paquistão, a Universidade de Gestão de Lahore (LUMS). Quais eram seus interesses de ensino e pesquisa?
Quando eu me juntei à LUMS após meu PhD, eu criei o que foi o primeiro laboratório de pesquisa de pós-graduação da universidade, com financiamento que eu recebi de uma grande subvenção de uma organização de defesa. O programa de pós-graduação em CS era muito novo, e não havia laboratórios de pesquisa naquela época. Eu ensinei Visão Computacional por 12+ anos na LUMS, e tive um laboratório ativo nesse campo. No início, a visão computacional era difícil de ensinar em qualquer universidade paquistanesa, mas mais tarde, tornou-se um assunto padrão, e na verdade, muitos dos meus alunos agora também estão ensinando em universidades paquistanesas.
Pode discutir o que o inspirou a lançar uma startup que se especializa em visão computacional e algoritmos de aprendizado profundo para análise de vídeo?
Visão Computacional, por um longo tempo, foi basicamente um campo de pesquisa experimental, com aplicações limitadas em produtos. Isso foi principalmente porque a maturidade dos algoritmos necessários para construir produtos não estava lá. Para um produto, o algoritmo de compreensão de imagem precisa funcionar em uma variedade de condições de imagem e iluminação, e não apenas em alguns experimentos controlados. Nós tínhamos uma piada entre os estudantes de pós-graduação em nosso laboratório quando eu estava fazendo meu PhD em 2000, de que se você pode encontrar três imagens em que seu algoritmo funciona, você pode escrever um artigo. Se funcionar em três vídeos, você obtém um artigo muito bom! O ponto é que muitos algoritmos de visão funcionavam apenas em cenários de laboratório cuidadosamente curados, e não eram muito robustos.
Mas agora as coisas mudaram. Com o advento do aprendizado profundo em 2012, vimos algum progresso muito rápido e fascinante na compreensão de imagens. Quando vimos isso, sentimos que agora é o momento certo para talvez construir produtos sólidos que possam ter um impacto significativo.
Que tipo de violações de trânsito a Hazen.ai pode monitorar?
Nosso objetivo é ser capaz de identificar todos os tipos de comportamentos de direção perigosos nas estradas. Isso é impulsionado por nosso objetivo geral de reduzir as fatalidades nas estradas. A cada 24 segundos, alguém morre em um acidente de trânsito, o que é equivalente a cerca de 15 aviões 787-8 Dreamliners caindo todos os dias! Então, isso é realmente o que nos motiva. É por isso que estamos construindo software que pode detectar diferentes tipos de comportamentos perigosos e inseguros, como mudanças de faixa inseguras, viradas ilegais, passar um sinal vermelho ou um sinal de pare, bloquear uma faixa de pedestre, não usar cinto de segurança ou dirigir enquanto digita. Também estamos trabalhando para construir recursos em nosso software especificamente para a segurança de pedestres e ciclistas, porque mais da metade das fatalidades em acidentes de trânsito ocorrem no segmento de usuários vulneráveis de pedestres, ciclistas e motociclistas.
Quais são alguns dos desafios únicos por trás do uso da visão computacional para monitorar objetos em movimento a velocidades tão altas?
Há dois tipos de desafios: Primeiro é o desempenho dos algoritmos de visão computacional em si – você quer ter um produto que possa funcionar em condições de trânsito desafiadoras 24/7 em todas as variações de iluminação. Embora tenha havido muito progresso técnico em direção a esse objetivo, ainda há países em que a densidade de usuários da estrada é tão alta, como clusters de motocicletas ou pedestres em proximidade muito próxima, que ainda é desafiador para os algoritmos rastrear individualmente e entender a cena. Mas em segundo lugar, um desafio maior é fazer um produto sólido a partir de algoritmos de visão computacional, que possa ser implantado em recursos de hardware limitados na borda, e possa ser monitorado e gerenciado facilmente, apesar de estar distribuído por toda a cidade. Como os produtos de visão computacional lidam com muitos dados de vídeo, implantá-los na borda, como um dispositivo IoT, e gerenciá-los efetivamente, permanece uma tarefa difícil.
Qual é o processo para o usuário final configurar o software para diferentes configurações de estrada?
Cada interseção fornece um cenário único, em termos de volume de trânsito, configuração de faixa e tipo de interação de veículos, ciclistas ou pedestres. Além disso, o interesse dos gerentes de trânsito pode ser específico, para identificar um tipo particular de comportamento de trânsito em cada local. Por exemplo, a polícia de trânsito pode proibir uma conversão em U em uma interseção para suavizar o fluxo de trânsito, e está interessada em capturar essa estatística. É por isso que mantivemos nosso software configurável para diferentes cenários. Quando uma câmera é configurada com nosso software, configuramos através de um processo simples para o que o usuário final requer no local. Internamente, construímos uma linguagem de alto nível na qual podemos descrever cenários de trânsito de interesse de forma compacta e simples. Isso nos permite configurar um local rapidamente para nossos clientes.
Que tipo de hardware é necessário para operar esse sistema?
Análise de vídeo requer poder de processamento significativo. Nós otimizamos nosso código para executar em menores GPUs da Nvidia que podem ser implantadas na borda, como sua série Jetson, e também em CPUs da Intel para certos recursos que oferecemos. Nos últimos anos, mais hardware de borda poderoso está se tornando disponível a um ponto de preço razoável, então isso está realmente impulsionando muitas aplicações emocionais.
Pode discutir se alguma jurisdição está atualmente testando ou usando a tecnologia Hazen.ai?
Agora temos testes em andamento em vários países, Reino Unido, EUA, Egito, Arábia Saudita, Paquistão, Omã, Peru e estamos engajando potenciais clientes em outros países também.
Há algo mais que você gostaria de compartilhar sobre a Hazen.ai?
No geral, sentimos que as tecnologias de segurança de trânsito não progrediram o suficiente, em comparação com a escala do problema. No entanto, agora é o momento certo, porque do grande progresso na visão computacional e aprendizado profundo, bem como a disponibilidade barata de hardware de câmera e computação. Veremos muitas mais aplicações de visão computacional baseada em borda nos próximos anos. Esses são os fundamentos que impulsionam a Hazen.ai.
Obrigado pela entrevista, leitores que desejam aprender mais devem visitar Hazen.ai












