Intervjuer
Sohaib Khan, medgrundare och VD för Hazen.ai – Intervjuserie

Sohaib Khan, är medgrundare och VD för Hazen.ai, ett företag som använder datorseende och djupinlärning för att designa intelligent trafikanalytisk programvara som är utformad för att “förstå” rörelsen hos varje fordon.
Vad var det som initialt drog dig till området AI?
Det var under min grundutbildning som jag först läste om hur stereo-vision (eller binokulärt seende – att uppskatta djup från två kameror) fungerar. Det fick mig att fastna för att utforska datorseende mer. Intressant nog läste jag först om det i en bok som jag plockade upp från en traditionell fredagsmarknad där de sålde begagnade böcker på en vägkant i vår hemstad. Jag gick vidare för att göra en doktorsexamen i detta område från USA.
Du var tidigare professor vid ett av de största universiteten i Pakistan, Lahore University of Management Sciences (LUMS). Vilka var dina undervisnings- och forskningsintressen?
När jag gick med i LUMS efter min doktorsexamen, byggde jag vad som var den första graduate forskningslaboratoriet på universitetet, med finansiering jag fick från ett stort bidrag från en försvarsorganisation. Graduateprogrammet i datavetenskap var mycket nytt, och det fanns inga forskningslaboratorier på den tiden. Jag undervisade i datorseende i 12+ år på LUMS, och hade en aktiv labb i detta område. I början undervisades datorseende knappt på något pakistanskt universitet, men senare blev det ett standardämne, och faktiskt undervisar många av mina studenter nu också på pakistanska universitet.
Kan du diskutera vad som inspirerade dig att starta ett företag som specialiserar sig på datorseende och djupinlärningsalgoritmer för videoanalys?
Datorseende var under lång tid till största delen ett experimentellt forskningsområde, med begränsade tillämpningar i produkter. Detta berodde främst på att mognaden hos algoritmerna som behövdes för att bygga produkter inte fanns där. För en produkt måste bilden förståelsealgoritmen fungera i en mängd olika avbildnings- och belysningsförhållanden, och inte bara i några mycket kontrollerade experiment. Vi hade ett skämt bland graduatestudenterna i vår labb när jag gjorde min doktorsexamen tillbaka 2000, att om du kan hitta tre bilder som din algoritm fungerar på, kan du skriva en artikel. Om den fungerar på tre videor, får du en mycket bra artikel! Poängen är att många visionalgoritmer fungerade bara i noggrant kuraterade laboratoriemiljöer, och var inte särskilt robusta.
Men nu har saker och ting förändrats. Med tillkomsten av djupinlärning 2012, har vi sett några mycket snabba och fascinerande framsteg inom bildförståelse. När vi såg det, kände vi att nu är timingen rätt, för att bygga solida produkter som kan ha en betydande inverkan.
Vilka typer av trafikförseelser kan Hazen.ai övervaka?
Vårt mål är att kunna identifiera alla typer av farligt körbeteende på vägarna. Detta drivs av vårt övergripande mål att minska antalet dödsfall i trafiken. Var 24:e sekund dör någon i en trafikolycka, vilket motsvarar ungefär 15 787-8 Dreamliners som kraschar varje dag! Så detta är verkligen vad som motiverar oss. Därför bygger vi programvara som kan upptäcka olika typer av farligt och osäkert beteende, som osäkra filbyten, olagliga svängar, att köra förbi ett rött ljus eller ett stopptecken, att blockera en gångövergång, att inte använda säkerhetsbälte eller texta medan man kör. Vi arbetar också med att bygga funktioner i vår programvara specifikt för säkerheten för fotgängare och cyklister, eftersom mer än hälften av dödsfallen i trafikolyckor sker i den utsatta vägananvändarsegmentet av fotgängare, cyklister och motorcyklister.
Vilka är några av de unika utmaningarna med att använda datorseende för att övervaka föremål som rör sig i så höga hastigheter?
Det finns två typer av utmaningar: Först är prestandan hos datorseendealgoritmerna själva – du vill ha en produkt som kan fungera i utmanande trafikförhållanden 24/7 i alla ljusvariationer. Medan det har skett en hel del teknisk framsteg mot detta mål, finns det fortfarande länder där densiteten av väganvändare är så hög, som kluster av motorcyklar eller fotgängare i mycket nära proximitet, att det fortfarande är utmanande för algoritmer att spåra dem individuellt och förstå scenen. Men andra, en större utmaning är att skapa en solid produkt av datorseendealgoritmer, som kan distribueras på begränsade hårdvaruresurser på kanten, och kan övervakas och hanteras lätt trots att de är distribuerade över hela staden. Eftersom datorseendeprodukter hanterar en hel del videodata, att distribuera dem på kanten, som en IoT-enhet, och hantera dem effektivt, förblir en svår uppgift.
Vad är processen för slutanvändaren att konfigurera programvaran till olika vägkonfigurationer?
Varje korsning tillhandahåller en unik scenario, i termer av trafikvolym, filkonfiguration och typ av fordon, cyklister eller fotgängarinteraktioner. Dessutom kan trafikledarnas intresse vara specifikt, för att identifiera en viss typ av trafikbeteende vid varje plats. Till exempel kan trafikpolisen förbjuda en U-sväng vid en korsning för att mjuka ut trafikflödet, och är intresserad av att fånga den statistiken. Därför har vi hållit vår programvara konfigurerbar till olika scenarier. När en kamera ställs in med vår programvara, konfigurerar vi den genom en enkel process för vad slutanvändaren kräver på den platsen. Internt har vi byggt ett högnivåspråk som vi kan komprimerat beskriva trafikscenarier av intresse på ett enkelt sätt. Detta tillåter oss att konfigurera en plats snabbt för våra kunder.
Vilken typ av hårdvara behövs för att driva detta system?
Videoanalys kräver betydande beräkningskraft. Vi har optimerat vår kod för att köras på de mindre Nvidia GPU:erna som kan distribueras på kanten, som deras Jetson-serie, och även på Intel CPU:er för vissa funktioner som vi erbjuder. Under de senaste åren har mer kraftfull edge-hårdvara blivit tillgänglig till en rimlig prisnivå, så detta driver verkligen en hel del spännande tillämpningar.
Kan du diskutera om några jurisdiktioner för närvarande testar eller använder Hazen.ai-tekniken?
Vi har pågående tester i flera länder, Storbritannien, USA, Egypten, Saudiarabien, Pakistan, Oman, Peru och är engagerade i potentiella kunder i andra länder också.
Finns det något annat du vill dela om Hazen.ai?
Sammanfattningsvis känner vi att trafiksäkerhetsteknologierna inte har utvecklats tillräckligt, jämfört med omfattningen av problemet. Men nu är tiden rätt, på grund av de enorma framstegen inom datorseende och djupinlärning, samt den billiga tillgängligheten av kamera- och beräkningshårdvara. Vi kommer att se många fler tillämpningar av edge-baserat datorseende under de kommande åren. Detta är de grundläggande faktorerna som driver Hazen.ai.
Tack för intervjun, läsare som vill lära sig mer bör besöka Hazen.ai












