Phỏng vấn
Radu Rusu, CEO & Co-Founder của Fyusion – Loạt Phỏng Vấn

Radu Rusu, là CEO & Co-Founder của Fyusion, một công ty có mục tiêu xây dựng các công nghệ 3D mới, tuyệt đẹp về mặt hình ảnh, giúp họ giải quyết các vấn đề hình ảnh phức tạp bằng trí tuệ nhân tạo. Cùng nhau, họ đã phát triển và cấp bằng sáng chế một định dạng tệp mới, gọi là .fyuse, cho phép mọi người chụp ảnh 3D tuyệt đẹp từ điện thoại thông minh của mình, gây ra một cơn sốt trên các phương tiện truyền thông xã hội và thu hút hơn 100 triệu người dùng thông qua các ứng dụng di động của người tiêu dùng.
Bạn đã làm việc về 3D từ năm 2012, hiện tại bạn là Chủ tịch và CEO của Open Perception, Inc. Bạn có thể chia sẻ tuyên bố sứ mệnh của tổ chức phi lợi nhuận này không?
Tôi bắt đầu sự nghiệp của mình trong lĩnh vực xử lý dữ liệu 3D vào đầu những năm 2000, khi tôi đang theo học sau đại học, với ý tưởng trong đầu rằng tôi sẽ giúp các robot nhìn và hiểu thế giới tốt hơn từ góc độ hình ảnh. Điều đó đã dẫn tôi qua khoảng một thập kỷ nghiên cứu về tầm nhìn máy tính 3D liên quan đến robot, và vào đầu những năm 2010, tôi nhận ra rằng những gì tôi đang làm việc có thể được áp dụng cho một tập hợp các vấn đề rộng lớn hơn. Open Perception được tạo ra như một spinoff từ Willow Garage, và đã tiếp tục phát triển một trong những sáng kiến mã nguồn mở, được cấp phép BSD – Dự án Thư viện Đám mây Điểm (PCL) – và tiếp tục thúc đẩy sự phát triển của nó. Open Perception, Inc. được thành lập tại California vào tháng 4 năm 2012 như một tổ chức độc lập được tạo ra với mục đích hỗ trợ sự phát triển, phân phối và áp dụng phần mềm mã nguồn mở cho xử lý dữ liệu cảm biến 2D/3D, với các ứng dụng trong nghiên cứu, giáo dục và phát triển sản phẩm.
Vào năm 2014, bạn trở thành Co-Founder và CEO của Fyusion, Inc. Bạn có thể chia sẻ câu chuyện về sự ra đời của Fyusion, Inc không?
Trong khi tham gia nghiên cứu về robot, các đồng sáng lập của Fyusion và tôi nhận ra rằng các nút thắt không còn là các thuật toán mà là định dạng dữ liệu. Học máy đã đạt đến đỉnh cao về độ chính xác vào thời điểm đó trong nhiều lĩnh vực vì loại dữ liệu chúng tôi đang sử dụng, đặc biệt là trong các định dạng hình ảnh, là hai chiều (chẳng hạn như ảnh và video), trong khi thế giới là ba chiều. Chúng tôi cảm thấy có tiềm năng để biến đổi cách mọi người hiểu thế giới bằng cách tận dụng dữ liệu 3D trong các nền tảng học máy.
Vào năm 2014, chúng tôi quyết định tạo ra một loại dữ liệu 3D mới, được tạo ra thông qua phần mềm tầm nhìn máy tính và học máy, bằng cách kết hợp nhiều nguồn dữ liệu và sử dụng phần cứng hàng hóa cực kỳ có thể mở rộng có sẵn trong túi của chúng tôi – tức là điện thoại thông minh của chúng tôi.
Chúng tôi thành lập Fyusion với mục tiêu xây dựng các công nghệ 3D mới, tuyệt đẹp về mặt hình ảnh, giúp mọi người giải quyết các vấn đề hình ảnh phức tạp bằng trí tuệ nhân tạo.
Cùng nhau, chúng tôi đã phát triển và cấp bằng sáng chế một định dạng tệp mới, gọi là .fyuse, cho phép mọi người chụp ảnh 3D tuyệt đẹp từ điện thoại thông minh của mình. Điều này ngay lập tức gây ra một cơn sốt trên các phương tiện truyền thông xã hội và thu hút hơn 100 triệu người dùng thông qua các ứng dụng di động của người tiêu dùng.
Điều gì ban đầu thu hút bạn đến với ý tưởng tái định nghĩa 3D cho các ứng dụng của người tiêu dùng?
Chúng tôi đơn giản nhận ra rằng không ai đã giải quyết vấn đề này ở quy mô lớn. Đó là một vấn đề chưa được giải quyết. Giống như trong chương trình tiến sĩ của chúng tôi, những điều khiến chúng tôi hứng thú về mặt trí tuệ là những vấn đề rất phức tạp mà ai đó nói rằng không thể giải quyết.
Trong trường hợp này, đến một mức độ nhất định, họ đã đúng. Loại thuật toán cần thiết để giải quyết vấn đề này chỉ được suy nghĩ một phần và phần cứng cần thiết để chạy chúng không tồn tại, đặc biệt là trên các thiết bị cạnh như điện thoại thông minh. Chúng tôi thực sự phải chờ cho đến khi iPhone 4S được phát hành để chúng tôi có thể chạy mã tầm nhìn máy tính 3D thời gian thực trên điện thoại thông minh, vì trước đó, iPhone chỉ có một lõi CPU. Một khi chúng tôi bắt đầu thấy những gì phần cứng điện thoại thông minh có thể làm, chúng tôi trở nên rất quan tâm đến việc đưa chuyên môn nghiên cứu về tầm nhìn máy tính và robot của chúng tôi và xem những gì chúng tôi có thể nhồi nhét vào những chiếc máy ảnh và CPU/GPU nhỏ này. Điều đó mất một thời gian để quay lại bảng vẽ và suy nghĩ lại cách tưởng tượng và thực hiện việc chụp và xử lý trường ánh sáng hoàn toàn thông qua phần mềm. Một khi chúng tôi thấy nó hoạt động, Fyusion đã bắt đầu.
Chúng tôi đã từng có ảnh 2D ở dạng tương tự, và sau đó chúng chỉ được số hóa với mọi thứ khác. Sự thể hiện duy nhất mà chúng tôi có trong thế giới 3D ở quy mô lớn là “lưới tam giác với kết cấu” (ví dụ: định dạng tệp giống như OBJ) đến từ trò chơi máy tính và đồ họa máy tính và được thiết kế để đại diện cho các đối tượng được tạo ra nhân tạo trong một trò chơi. Chúng phụ thuộc nặng vào hình học hoàn hảo, điều này là không thể đạt được – làm thế nào bạn có thể chụp và đại diện cho nước như một lưới tam giác với một máy ảnh? Cái gì về các vật thể trong suốt? Lá cây? Những thứ ở xa? v.v…
Điều đó rõ ràng là ai đó phải giải quyết nhu cầu về các định dạng 3D thân thiện với người tiêu dùng. Nó phải dựa trên một mô hình hoàn toàn khác và được giải quyết theo cách “tạo hình ảnh 3D” (tức là trường ánh sáng), và kết hợp thông tin có sẵn tại thời điểm chụp (chẳng hạn như định hướng máy ảnh thông qua cảm biến con quay hồi chuyển) thường bị loại bỏ khi bạn chụp một hình ảnh 2D. Và sau đó, tất nhiên, chúng tôi đang cố gắng suy luận lại thông tin bị loại bỏ đó thông qua học máy.
Đây là cơ hội của chúng tôi, và đó là những gì các công ty khởi nghiệp nên mơ ước: tìm một vấn đề thực sự khó mà họ đam mê, chờ đợi đúng thời điểm và cơ hội, và điên rồ khi cố gắng giải quyết nó.
Công nghệ lõi cho phép bất kỳ ai tạo ra hình ảnh 3D tương tác, được gọi là .fyuses, bằng cách di chuyển bất kỳ máy ảnh nào xung quanh một người, đối tượng hoặc cảnh. Bạn có thể thảo luận về quá trình để tạo ra một .fyuse bằng ứng dụng di động không?
Chúng tôi vẫn còn trong giai đoạn sơ sinh của công nghệ này, nhưng bản chất của nó là: Bạn lấy một điện thoại thông minh có ứng dụng được viết bởi Fyusion hoặc một ứng dụng đối tác đang sử dụng SDK Fyusion ALIS bên dưới, và bạn mở máy ảnh. Bạn nhận được hướng dẫn về những gì cần làm, và nếu bạn làm theo, bạn sẽ nhận được một .fyuse trên thiết bị là một “đối tượng tệp” được xử lý bởi tầm nhìn máy tính và học máy mà bạn có thể hiển thị trên thiết bị, trên web hoặc trên bất kỳ tai nghe AR/VR/MR nào.
Điều gì là một số công nghệ tầm nhìn máy tính và học máy được sử dụng để làm cho điều này trở thành hiện thực?
Thực sự không có một viên đạn bạc ở đây, mà là một hỗn hợp khổng lồ của các công cụ tầm nhìn máy tính 3D và học máy mà chúng tôi đã tạo ra để giải quyết vấn đề này. Có những ý tưởng từ photogrammetry (vì thực tế chúng tôi đang tạo ra một mảng máy ảnh ảo bằng cách di chuyển một máy ảnh trong không gian), robot (một vấn đề kết hợp cảm biến khổng lồ vì chúng tôi không còn có một máy ảnh nữa, mà là một loạt các cảm biến mà bạn có thể kéo dữ liệu từ để giúp giải quyết vấn đề này), đồ họa máy tính (bạn có thể xem xét công việc Siggraph 2019 của chúng tôi để hiểu cách chúng tôi đại diện cho một số cấu trúc cơ bản), và nhiều hơn nữa. Tất cả những điều này phải được thực hiện trên thiết bị và chạy trong thời gian thực, điều này có nghĩa là chúng tôi tận dụng các shader tính toán và viết mã trong汇编. Như đã đề cập, đây chỉ là bắt đầu, và càng có nhiều cảm biến và sức mạnh tính toán trở nên có sẵn cho chúng tôi, chúng tôi sẽ sử dụng bộ tăng tốc ALIS của mình để cải thiện nhiều khía cạnh của công nghệ này. Đây là một tầm nhìn dài hạn, và chúng tôi có một thập kỷ công việc nữa phía trước để được hoàn toàn hài lòng với cách các cảnh thế giới thực phức tạp được số hóa.
Nó dễ dàng hình dung ra .fyuses sẽ gây rối loạn cho các ứng dụng VR. Bạn có thể thảo luận về loại ứng dụng VR hiện tại .fyuses có thể được sử dụng không?
Chúng tôi nghĩ rằng BẤT KỲ ứng dụng VR nào nơi số hóa một đối tượng thế giới thực và sau đó hiển thị nó sẽ được hưởng lợi từ việc tận dụng động cơ ALIS và .fyuses của chúng tôi. Có thực sự không có sự thiếu hụt về các ứng dụng dọc và ứng dụng trong thương mại điện tử, chăm sóc sức khỏe, ô tô, giáo dục và hơn thế nữa, và chúng tôi rất hào hứng về tương lai này.
Bạn dự đoán tương lai của các ứng dụng VR cho Fyuses như thế nào?
Chúng tôi không thấy bất kỳ giới hạn nào cho công nghệ hiện tại, mặc dù trọng tâm hiện tại của chúng tôi là nhiều hơn về các cảnh và đối tượng nhỏ đến trung bình, và không phải là các thành phố rộng lớn.
Tôi có thể dễ dàng hình dung ra Fyuses được sử dụng trong các ứng dụng thực tế ảo (AR) và Thực tế hỗn hợp (MR) trong tương lai. Bạn có tầm nhìn gì cho tương lai của Fyuses trong cả môi trường AR và MR không?
Chúng tôi đối xử với tất cả các ứng dụng AR/VR/MR giống nhau: Một khi đối tượng 3D đã được số hóa bằng công nghệ của chúng tôi, nó có thể được trích xuất từ cảnh và đặt bất kỳ nơi nào.
Đội của bạn đã thảo luận về ý tưởng tạo Fyuses với một trợ lý ảo hoặc AI không?
Chúng tôi chưa khám phá cơ hội để tạo ra các hình đại diện ảo tương tác cho mọi người. Đây là một khả năng thú vị chắc chắn, nhưng chúng tôi đang cố gắng tập trung vào việc giải quyết tập hợp các vấn đề hiện tại mà chúng tôi đang làm việc.
Có điều gì khác mà bạn muốn chia sẻ về Fyuses hoặc Fyusion, Inc không?
Điều này có thể giống như một bản giới thiệu nhưng… chúng tôi là một nhóm những người điên rồ về robot và các nhà khoa học tầm nhìn máy tính 3D, trộn lẫn với các nhà vật lý CERN, những hacker và kỹ sư tuyệt vời, và đó chỉ là mô tả các thành viên của đội kỹ thuật cốt lõi. Chúng tôi thích sự đa dạng của mọi loại, vì điều đó khiến chúng tôi trở nên thông minh và mạnh mẽ hơn như một đội. Nếu bất cứ điều gì chúng tôi đang làm việc là của interest đến bất kỳ ai đọc điều này, thì xin đừng ngần ngại và liên hệ với chúng tôi. Chúng tôi đang cố gắng trả lời mọi người, và bạn có thể tìm thấy mình trong một tình huống mà bạn đến để uống cà phê và sau đó ở lại trong một thập kỷ.
Cảm ơn vì những cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Fyusion.












