Phỏng vấn
Sohaib Khan, Đồng sáng lập & CEO của Hazen.ai – Loạt phỏng vấn

Sohaib Khan, là Đồng sáng lập & CEO của Hazen.ai, một công ty sử dụng thị giác máy tính và học sâu để thiết kế phần mềm phân tích giao thông thông minh có thể ‘hiểu’ được chuyển động của mọi phương tiện.
Điều gì ban đầu thu hút bạn đến lĩnh vực AI?
Đó là trong thời gian học đại học, tôi lần đầu tiên đọc về cách thức thị giác lập thể (hoặc thị giác nhị nguyên – ước tính độ sâu từ hai máy ảnh) hoạt động. Điều đó đã khiến tôi quan tâm đến việc khám phá thị giác máy tính nhiều hơn. Điều thú vị là, tôi lần đầu tiên đọc về nó trong một cuốn sách mà tôi đã nhặt được từ một chợ truyền thống vào thứ Sáu, nơi họ bán sách cũ trên vỉa hè ở quê hương của chúng tôi. Tôi đã tiếp tục làm tiến sĩ trong lĩnh vực này từ Mỹ.
Trước đây, bạn là giáo sư tại một trong những trường đại học lớn nhất Pakistan, Trường Quản lý và Khoa học Lahore (LUMS). Những lĩnh vực giảng dạy và nghiên cứu của bạn là gì?
Khi tôi gia nhập LUMS sau khi hoàn thành tiến sĩ, tôi đã xây dựng phòng thí nghiệm nghiên cứu sau đại học đầu tiên tại trường đại học, từ nguồn tài trợ mà tôi nhận được từ một tổ chức quốc phòng lớn. Chương trình sau đại học về Khoa học Máy tính rất mới, và vào thời điểm đó, không có phòng thí nghiệm nghiên cứu nào. Tôi đã giảng dạy về Thị giác Máy tính trong hơn 12 năm tại LUMS và có một phòng thí nghiệm hoạt động trong lĩnh vực này. Ban đầu, thị giác máy tính hầu như không được giảng dạy tại bất kỳ trường đại học nào của Pakistan, nhưng sau đó, nó đã trở thành một môn học tiêu chuẩn, và thực tế, nhiều sinh viên của tôi hiện cũng đang giảng dạy tại các trường đại học của Pakistan.
Bạn có thể thảo luận về những gì đã truyền cảm hứng cho bạn để khởi động một công ty khởi nghiệp chuyên về thị giác máy tính và học sâu cho phân tích video?
Thị giác Máy tính, trong một thời gian dài, chủ yếu là một lĩnh vực nghiên cứu thực nghiệm, với các ứng dụng hạn chế trong sản phẩm. Điều này chủ yếu là do sự trưởng thành của các thuật toán cần thiết để xây dựng sản phẩm chưa có. Đối với một sản phẩm, thuật toán hiểu hình ảnh phải hoạt động trong nhiều điều kiện chụp và ánh sáng khác nhau, và không chỉ trong một số thí nghiệm được kiểm soát cẩn thận. Chúng tôi đã có một trò đùa giữa các sinh viên sau đại học trong phòng thí nghiệm của chúng tôi khi tôi đang làm tiến sĩ vào năm 2000, rằng nếu bạn có thể tìm thấy ba hình ảnh mà thuật toán của bạn hoạt động, bạn có thể viết một bài báo. Nếu nó hoạt động trên ba video, bạn sẽ có một bài báo rất tốt! Điểm mấu chốt là nhiều thuật toán thị giác chỉ hoạt động trong các kịch bản phòng thí nghiệm được chăm sóc cẩn thận, và không phải là rất mạnh mẽ.
Nhưng bây giờ mọi thứ đã thay đổi. Với sự ra đời của học sâu vào năm 2012, chúng tôi đã chứng kiến một số tiến bộ nhanh chóng và thú vị trong việc hiểu hình ảnh. Khi chúng tôi thấy điều đó, chúng tôi cảm thấy rằng bây giờ là thời điểm đúng để có thể xây dựng các sản phẩm vững chắc có thể có tác động đáng kể.
Loại vi phạm giao thông nào mà Hazen.ai có thể theo dõi?
Mục tiêu của chúng tôi là có thể xác định tất cả các loại hành vi lái xe nguy hiểm trên đường. Điều này được thúc đẩy bởi mục tiêu tổng thể của chúng tôi là giảm số vụ tai nạn giao thông. Mỗi 24 giây, có một người chết trong một vụ tai nạn giao thông, tương đương với khoảng 15 máy bay Boeing 787-8 Dreamliner bị rơi mỗi ngày! Vì vậy, điều này thực sự là động lực cho chúng tôi. Đó là lý do tại sao chúng tôi đang xây dựng phần mềm có thể phát hiện các loại hành vi nguy hiểm và không an toàn khác nhau, như thay đổi làn đường không an toàn, quay đầu trái phép, vượt đèn đỏ hoặc dừng lại, chặn đường đi bộ, không đeo dây an toàn hoặc nhắn tin trong khi lái xe. Chúng tôi cũng đang làm việc để xây dựng các tính năng trong phần mềm của mình đặc biệt cho sự an toàn của người đi bộ và người đi xe đạp, vì hơn một nửa số vụ tai nạn giao thông xảy ra trong phân khúc người đi đường dễ bị tổn thương của người đi bộ, người đi xe đạp và người đi xe máy.
Một số thách thức duy nhất khi sử dụng thị giác máy tính để theo dõi các vật thể di chuyển với tốc độ cao như thế nào?
Có hai loại thách thức: Đầu tiên là hiệu suất của các thuật toán thị giác máy tính – bạn muốn có một sản phẩm có thể hoạt động trong các điều kiện giao thông thách thức 24/7 trong tất cả các biến thể ánh sáng. Mặc dù đã có nhiều tiến bộ về mặt kỹ thuật hướng tới mục tiêu này, nhưng vẫn còn những quốc gia có mật độ người sử dụng đường cao, như nhóm xe máy hoặc người đi bộ ở gần nhau, điều này vẫn là thách thức cho các thuật toán để theo dõi từng người và hiểu cảnh. Nhưng thứ hai, một thách thức lớn hơn là tạo ra một sản phẩm vững chắc từ các thuật toán thị giác máy tính, có thể được triển khai trên tài nguyên phần cứng hạn chế tại biên, và có thể được giám sát và quản lý dễ dàng mặc dù được phân phối trên toàn thành phố. Vì các sản phẩm thị giác máy tính xử lý nhiều dữ liệu video, việc triển khai chúng tại biên, như một thiết bị IoT, và quản lý chúng hiệu quả vẫn là một nhiệm vụ khó khăn.
Quy trình cho người dùng cuối để cấu hình phần mềm cho các cấu hình đường khác nhau là gì?
Mỗi ngã tư cung cấp một kịch bản độc đáo, về lưu lượng giao thông, cấu hình làn đường và loại xe, xe đạp hoặc tương tác của người đi bộ. Hơn nữa, lợi ích của các nhà quản lý giao thông có thể cụ thể, để xác định một loại hành vi giao thông cụ thể tại mỗi địa điểm. Ví dụ, cảnh sát giao thông có thể không cho phép quay đầu tại một ngã tư để làm mịn dòng chảy giao thông, và quan tâm đến việc thu thập thống kê đó. Đó là lý do tại sao chúng tôi đã giữ phần mềm của mình có thể cấu hình cho các kịch bản khác nhau. Khi một máy ảnh được thiết lập với phần mềm của chúng tôi, chúng tôi sẽ cấu hình nó thông qua một quá trình đơn giản cho những gì người dùng cuối yêu cầu tại địa điểm đó. Nội bộ, chúng tôi đã xây dựng một ngôn ngữ cấp cao mà chúng tôi có thể mô tả các kịch bản giao thông của_interest một cách đơn giản. Điều này cho phép chúng tôi cấu hình một trang web nhanh chóng cho khách hàng của mình.
Loại phần cứng nào cần thiết để vận hành hệ thống này?
Phân tích video yêu cầu khả năng tính toán đáng kể. Chúng tôi đã tối ưu hóa mã của mình để chạy trên các GPU Nvidia nhỏ hơn có thể được triển khai tại biên, như dòng Jetson của họ, và cũng trên CPU Intel cho một số tính năng mà chúng tôi cung cấp. Trong những năm gần đây, phần cứng biên mạnh mẽ hơn đang trở nên có sẵn với mức giá hợp lý, vì vậy điều này thực sự đang thúc đẩy nhiều ứng dụng thú vị.
Bạn có thể thảo luận về việc liệu bất kỳ khu vực pháp lý nào hiện đang thử nghiệm hoặc sử dụng công nghệ Hazen.ai không?
Chúng tôi hiện có các thử nghiệm đang diễn ra ở nhiều quốc gia, bao gồm Vương quốc Anh, Hoa Kỳ, Ai Cập, Ả Rập Xê Út, Pakistan, Oman, Peru và đang tham gia với khách hàng tiềm năng ở các quốc gia khác.
Có điều gì khác mà bạn muốn chia sẻ về Hazen.ai?
Tổng thể, chúng tôi cảm thấy rằng công nghệ an toàn giao thông chưa tiến bộ đủ, so với quy mô của vấn đề. Tuy nhiên, bây giờ là thời điểm đúng, vì sự tiến bộ lớn trong thị giác máy tính và học sâu, cũng như sự sẵn có của phần cứng máy ảnh và tính toán với giá rẻ. Chúng tôi sẽ thấy nhiều ứng dụng hơn của thị giác máy tính dựa trên biên trong những năm tới. Những điều này là nền tảng thúc đẩy Hazen.ai.
Cảm ơn bạn đã phỏng vấn, những người đọc muốn tìm hiểu thêm nên truy cập Hazen.ai












