Wywiady
Sohaib Khan, współzałożyciel i CEO Hazen.ai – seria wywiadów

Sohaib Khan, jest współzałożycielem i CEO Hazen.ai, firmy, która wykorzystuje komputerowe widzenie i głębokie uczenie, aby zaprojektować inteligentne oprogramowanie do analizy ruchu drogowego, które jest w stanie „zrozumieć” ruch każzego pojazdu.
Co początkowo przyciągnęło Cię do dziedziny sztucznej inteligencji?
To było podczas studiów licencjackich, kiedy po raz pierwszy przeczytałem o tym, jak działa stereo-widzenie (lub binocularne widzenie – szacowanie głębi z dwóch kamer). To mnie zaangażowało w dalsze eksplorowanie komputerowego widzenia. Co ciekawe, po raz pierwszy przeczytałem o tym w książce, którą kupiłem na tradycyjnym piątkowym rynku, gdzie sprzedawano stare używane książki na chodniku w naszym rodzinnym mieście. Później uzyskałem tytuł doktora w tej dziedzinie w Stanach Zjednoczonych.
Byłeś wcześniej profesorem na jednym z największych uniwersytetów w Pakistanie, Uniwersytecie Zarządzania i Nauk w Lahore (LUMS). Jakie były Twoje zainteresowania dydaktyczne i badawcze?
Kiedy dołączyłem do LUMS po uzyskaniu tytułu doktora, zbudowałem pierwsze laboratorium badawcze dla studentów studiów magisterskich na uniwersytecie, dzięki dofinansowaniu, które otrzymałem z dużego grantu od organizacji obronnej. Program studiów magisterskich z informatyki był wtedy bardzo nowy, i nie było wówczas laboratoriów badawczych. Wykładałem komputerowe widzenie przez 12+ lat w LUMS, i miałem aktywne laboratorium w tej dziedzinie. Na początku, komputerowe widzenie było ledwie nauczane na którymkolwiek pakistańskim uniwersytecie, ale później stało się standardowym przedmiotem, i tak naprawdę, wielu moich studentów teraz również uczy na pakistańskich uniwersytetach.
Czy możesz omówić, co zainspirowało Cię do założenia startupu, który specjalizuje się w komputerowym widzeniu i algorytmach głębokiego uczenia dla analizy wideo?
Komputerowe widzenie, przez długi czas, było w dużej mierze eksperymentalną dziedziną badawczą, z ograniczonymi zastosowaniami w produktach. Było to głównie dlatego, że dojrzałość algorytmów potrzebnych do budowy produktów nie była jeszcze osiągnięta. Dla produktu, algorytm zrozumienia obrazu musi działać w różnych warunkach obrazowania i oświetlenia, a nie tylko w niektórych bardzo kontrolowanych eksperymentach. Mieliśmy żart wśród studentów studiów magisterskich w naszym laboratorium, kiedy robiłem doktorat w 2000 roku, że jeśli możesz znaleźć trzy obrazy, na których twój algorytm działa, możesz napisać artykuł. Jeśli działa na trzech filmach, dostajesz bardzo dobry artykuł! Chodzi o to, że wiele algorytmów widzenia działało tylko w starannie przygotowanych scenariuszach laboratoryjnych i nie były zbyt wytrzymałe.
Ale teraz sytuacja się zmieniła. Z pojawieniem się głębokiego uczenia w 2012 roku, widzimy bardzo szybki i fascynujący postęp w zrozumieniu obrazu. Kiedy to zobaczyliśmy, poczuliśmy, że teraz jest odpowiedni moment, aby może zbudować solidne produkty, które mogą mieć znaczący wpływ.
Jakie rodzaje wykroczeń drogowych może monitorować Hazen.ai?
Naszym celem jest identyfikacja wszystkich rodzajów niebezpiecznych zachowań podczas jazdy na drogach. To jest podyktowane naszym nadrzędnym celem, jakim jest zmniejszenie liczby ofiar śmiertelnych w wypadkach drogowych. Co 24 sekundy, ktoś ginie w wypadku drogowym, co jest równoznaczne z tym, że około 15 samolotów 787-8 rozbija się każdego dnia! Dlatego właśnie budujemy oprogramowanie, które może wykryć różne rodzaje niebezpiecznych i niebezpiecznych zachowań, takich jak niebezpieczne zmiany pasa, nielegalne skręty, jazda na czerwonym świetle lub przez znak stopu, zablokowanie przejścia dla pieszych, brak zapinania pasów bezpieczeństwa lub prowadzenie pojazdu podczas korzystania z telefonu. Pracujemy również nad budową funkcji w naszym oprogramowaniu specjalnie dla bezpieczeństwa pieszych i rowerzystów, ponieważ ponad połowa ofiar śmiertelnych w wypadkach drogowych występuje w segmencie użytkowników dróg, pieszych, rowerzystów i motocyklistów.
Jakie są niektóre z unikalnych wyzwań związanych z wykorzystaniem komputerowego widzenia do monitorowania obiektów poruszających się z takimi wysokimi prędkościami?
Istnieją dwa rodzaje wyzwań: Po pierwsze, jest to wydajność samych algorytmów komputerowego widzenia – chcesz mieć produkt, który może działać w trudnych warunkach ruchu drogowego 24/7 we wszystkich wariacjach oświetlenia. Chociaż został dokonany duży postęp techniczny w kierunku tego celu, nadal istnieją kraje, w których gęstość użytkowników dróg jest tak wysoka, jak np. grupy motocyklistów lub pieszych w bardzo bliskiej odległości, co nadal stanowi wyzwanie dla algorytmów, aby śledzić ich indywidualnie i zrozumieć scenę. Ale po drugie, większym wyzwaniem jest stworzenie solidnego produktu z algorytmów komputerowego widzenia, który może być wdrożony na ograniczonych zasobach sprzętowych na krawędzi, i który może być monitorowany i zarządzany łatwo, pomimo tego, że jest rozproszony po całym mieście. Ponieważ produkty komputerowego widzenia obsługują dużo danych wideo, wdrożenie ich na krawędzi, jako urządzenie IoT, i skuteczne zarządzanie nimi, pozostaje trudnym zadaniem.
Jaki jest proces dla użytkownika końcowego, aby skonfigurować oprogramowanie do różnych konfiguracji drogowych?
Każde skrzyżowanie zapewnia unikalną sytuację, pod względem natężenia ruchu, konfiguracji pasa i rodzaju pojazdu, rowerzystów lub interakcji pieszych. Ponadto, zainteresowanie zarządców ruchu może być szczególne, aby zidentyfikować określony typ zachowania ruchu w każdym miejscu. Na przykład, policja drogowa może zabronić skrętu w lewo na skrzyżowaniu, aby usprawnić przepływ ruchu, i są zainteresowani przechwytywaniem tej statystyki. Dlatego też utrzymaliśmy nasze oprogramowanie w sposób konfigurowalny do różnych scenariuszy. Kiedy kamera jest ustawiona z naszym oprogramowaniem, konfigurujemy ją przez prosty proces, co jest wymagane przez użytkownika końcowego w tym miejscu. Wewnętrznie, zbudowaliśmy język wysokiego poziomu, w którym możemy w prosty sposób opisać scenariusze ruchu, które nas interesują. To pozwala nam szybko skonfigurować miejsce dla naszych klientów.
Jaki rodzaj sprzętu jest potrzebny do obsługi tego systemu?
Analiza wideo wymaga znacznej mocy obliczeniowej. Optymalizowaliśmy nasz kod, aby działał na mniejszych procesorach graficznych Nvidia, które mogą być wdrożone na krawędzi, takich jak ich seria Jetson, oraz na procesorach Intel CPU dla pewnych funkcji, które oferujemy. W ostatnich latach, bardziej wydajny sprzęt krawędziowy staje się dostępny w rozsądnym punkcie cenowym, co napędza wiele ekscytujących aplikacji.
Czy możesz omówić, czy jakiekolwiek jurysdykcje są obecnie testowane lub korzystają z technologii Hazen.ai?
Mamy obecnie trwające testy w kilku krajach, Wielkiej Brytanii, USA, Egipcie, Arabii Saudyjskiej, Pakistanie, Omanie, Peru i angażujemy potencjalnych klientów w innych krajach również.
Czy jest coś jeszcze, co chciałbyś podzielić się na temat Hazen.ai?
Ogólnie, uważamy, że technologie bezpieczeństwa ruchu drogowego nie posunęły się wystarczająco daleko, w porównaniu ze skalą problemu. Jednak teraz jest odpowiedni moment, dzięki ogromnemu postępowi w komputerowym widzeniu i głębokim uczeniu, a także taniej dostępności sprzętu kamer i obliczeniowego. Zobaczymy wiele więcej aplikacji komputerowego widzenia na krawędzi w nadchodzących latach. To są podstawy, które napędzają Hazen.ai.
Dziękuję za wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Hazen.ai












