Interviste
Sohaib Khan, Co-Fondatore & Amministratore Delegato di Hazen.ai – Serie di Interviste

Sohaib Khan, è il Co-Fondatore & Amministratore Delegato di Hazen.ai, un’azienda che utilizza la visione computerizzata e l’apprendimento profondo per progettare software di analisi del traffico intelligente progettato per ‘comprendere’ il movimento di ogni veicolo.
Cosa ti ha inizialmente attirato nel campo dell’AI?
È stato durante gli studi universitari che ho letto per la prima volta come funziona la visione stereo (o visione binoculare – stima della profondità da due telecamere). Questo mi ha fatto innamorare dell’esplorazione della visione computerizzata. Interessantemente, ho letto per la prima volta di questo in un libro che ho comprato in un mercato tradizionale del venerdì dove vendevano libri usati su un marciapiede in città. Ho poi fatto un dottorato di ricerca in questo campo negli Stati Uniti.
Sei stato precedentemente un professore in una delle più grandi università del Pakistan, The Lahore University of Management Sciences (LUMS). Quali erano i tuoi interessi di insegnamento e ricerca?
Quando mi sono unito a LUMS dopo il mio dottorato, ho costruito il primo laboratorio di ricerca di laurea magistrale dell’università, grazie a un finanziamento che ho ricevuto da un’organizzazione della difesa. Il programma di laurea magistrale in Informatica era molto nuovo e non c’erano laboratori di ricerca a quel tempo. Ho insegnato Visione Computerizzata per 12+ anni a LUMS e ho avuto un laboratorio attivo in questo campo. All’inizio, la visione computerizzata era a malapena insegnata in qualsiasi università pakistana, ma in seguito è diventata una materia standard e, in effetti, molti dei miei studenti insegnano ora anche in università pakistane.
Puoi discutere cosa ti ha ispirato a lanciare una startup specializzata in algoritmi di visione computerizzata e apprendimento profondo per l’analisi video?
La visione computerizzata, per molto tempo, è stata in gran parte un campo di ricerca sperimentale, con applicazioni limitate nei prodotti. Ciò era principalmente dovuto al fatto che la maturità degli algoritmi necessari per costruire prodotti non c’era. Per un prodotto, l’algoritmo di comprensione delle immagini deve funzionare in una varietà di condizioni di immagine e illuminazione e non solo in alcuni esperimenti controllati. Avevamo uno scherzo tra gli studenti di laurea magistrale nel nostro laboratorio quando facevo il mio dottorato di ricerca nel 2000, che se potevi trovare tre immagini su cui funzionava il tuo algoritmo, potevi scrivere un articolo. Se funzionava su tre video, ottenevi un articolo molto buono! Il punto è che molti algoritmi di visione funzionavano solo in scenari di laboratorio curati e non erano molto robusti.
Ma adesso le cose sono cambiate. Con l’avvento dell’apprendimento profondo nel 2012, abbiamo visto un progresso molto rapido e affascinante nella comprensione delle immagini. Quando abbiamo visto questo, abbiamo sentito che adesso è il momento giusto per costruire prodotti solidi che possano avere un impatto significativo.
Quali tipo di violazioni del traffico può monitorare Hazen.ai?
Il nostro obiettivo è quello di identificare tutti i tipi di comportamenti pericolosi alla guida sulle strade. Questo è guidato dal nostro obiettivo principale di ridurre le vittime della strada. Ogni 24 secondi, qualcuno muore in un incidente stradale, il che equivale a circa 15 aerei 787-8 che si schiantano ogni singolo giorno! Quindi questo è ciò che ci motiva. Per questo stiamo costruendo software che possa rilevare diversi tipi di comportamenti pericolosi e insicuri, come cambi di corsia insicuri, curve illegali, attraversamento di un semaforo rosso o di un segnale di stop, ostruzione di un attraversamento pedonale, non indossare la cintura di sicurezza o guidare mentre si scrive un messaggio di testo. Stiamo anche lavorando per costruire funzionalità nel nostro software specificamente per la sicurezza dei pedoni e dei ciclisti, perché più della metà delle vittime degli incidenti stradali si verificano nel segmento di utenti della strada vulnerabili di pedoni, ciclisti e motociclisti.
Quali sono alcune delle sfide uniche dietro l’uso della visione computerizzata per monitorare oggetti in movimento a velocità così elevate?
Ci sono due tipi di sfide: la prima è la prestazione degli algoritmi di visione computerizzata stessi – si vuole avere un prodotto che possa funzionare in condizioni di traffico impegnative 24/7 in tutte le variazioni di illuminazione. Mentre c’è stato un grande progresso tecnico verso questo obiettivo, ci sono ancora paesi in cui la densità degli utenti della strada è così alta, come gruppi di motociclette o pedoni in prossimità molto vicina, che è ancora una sfida per gli algoritmi tracciare individualmente e comprendere la scena. Ma in secondo luogo, una sfida più grande è quella di creare un prodotto solido a partire dagli algoritmi di visione computerizzata, che possa essere distribuito su risorse hardware limitate sul bordo e possa essere monitorato e gestito facilmente nonostante essere distribuito in tutta la città. Poiché i prodotti di visione computerizzata gestiscono grandi quantità di dati video, distribuirli sul bordo, come un dispositivo IoT, e gestirli efficacemente, rimane una sfida difficile.
Qual è il processo per l’utente finale per configurare il software per diverse configurazioni stradali?
Ogni incrocio fornisce uno scenario unico, in termini di volume di traffico, configurazione della corsia e tipo di interazione tra veicoli, ciclisti o pedoni. Inoltre, l’interesse dei responsabili del traffico potrebbe essere specifico, per identificare un particolare tipo di comportamento del traffico in ogni sito. Ad esempio, la polizia stradale potrebbe vietare una svolta a U in un incrocio per smussare il flusso del traffico e sono interessati a catturare quella statistica. Per questo abbiamo mantenuto il nostro software configurabile per diverse scenari. Quando una telecamera è impostata con il nostro software, la configuriamo attraverso un processo semplice per ciò che l’utente finale richiede in quel sito. Internamente, abbiamo costruito un linguaggio di alto livello in cui possiamo descrivere in modo compatto scenari di traffico di interesse in un modo semplice. Ciò ci consente di configurare un sito rapidamente per i nostri clienti.
Qual è il tipo di hardware necessario per operare questo sistema?
L’analisi video richiede una notevole potenza di calcolo. Abbiamo ottimizzato il nostro codice per funzionare sui più piccoli GPU Nvidia che possono essere distribuiti sul bordo, come la loro serie Jetson, e anche su CPU Intel per alcune funzionalità che offriamo. Negli ultimi anni, hardware più potente sul bordo è diventato disponibile a un prezzo ragionevole, quindi questo sta realmente guidando molte applicazioni emozionanti.
Puoi discutere se alcune giurisdizioni stanno attualmente testando o utilizzando la tecnologia Hazen.ai?
Adesso abbiamo prove in corso in diversi paesi, Regno Unito, Stati Uniti, Egitto, Arabia Saudita, Pakistan, Oman, Perù e stiamo coinvolgendo potenziali clienti in altri paesi anche.
C’è qualcos’altro che vorresti condividere su Hazen.ai?
Nel complesso, sentiamo che le tecnologie di sicurezza del traffico non sono progredite abbastanza, rispetto alla portata del problema. Tuttavia, adesso è il momento giusto, grazie al grande progresso nella visione computerizzata e nell’apprendimento profondo, nonché alla disponibilità economica di hardware di telecamere e calcolo. Vedremo molte più applicazioni di visione computerizzata basata sul bordo negli anni a venire. Questi sono i fondamenti che guidano Hazen.ai.
Grazie per l’intervista, i lettori che desiderano saperne di più possono visitare Hazen.ai












