Gọi vốn

Collov Labs Raises $23M Series A để Đặt Cược vào Trí Tuệ Nhân Tạo Hình Ảnh như Giao Diện Tiếp Theo

Published April 21, 2026

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Collov Labs đã huy động được 23 triệu đô la trong vòng Series A và ra mắt một phòng thí nghiệm nghiên cứu mới nhằm phát triển các hệ thống trí tuệ nhân tạo hình ảnh, báo hiệu một sự chuyển đổi rộng lớn hơn trong cách trí tuệ nhân tạo có thể phát triển vượt ra ngoài tương tác dựa trên văn bản.

Vòng này, được hỗ trợ bởi Brightway Future Capital, Taihill Venture và Mindworks Capital, sẽ tài trợ cho việc phát triển các hệ thống được thiết kế để giải thích hình ảnh và đầu vào camera, với mục tiêu cho phép trí tuệ nhân tạo hiểu và thực hiện các hành động trong thế giới vật lý.

Chuyển Đổi Khỏi Trí Tuệ Nhân Tạo Dựa trên Trò Chuyện

Phần lớn việc áp dụng trí tuệ nhân tạo ngày nay đã tập trung vào các giao diện trò chuyện. Collov Labs đang xây dựng dựa trên một giả định khác: rằng đầu vào hình ảnh sẽ trở thành cách chính mà mọi người tương tác với trí tuệ nhân tạo.

Thay vì kích hoạt hệ thống bằng văn bản, công ty đang tập trung vào việc cho phép người dùng chỉ camera vào một cảnh và trí tuệ nhân tạo sẽ giải thích ngữ cảnh, suy luận về những gì nó nhìn thấy và hỗ trợ các hành động trong thế giới thực. Điều này phản ánh một sự chuyển đổi ngành công nghiệp rộng lớn hơn hướng tới trí tuệ nhân tạo đa phương thức, nơi các hệ thống kết hợp tầm nhìn, ngôn ngữ và suy luận vào một trải nghiệm thống nhất.

Ý tưởng này không hoàn toàn mới, nhưng những tiến bộ gần đây trong tính toán, mô hình và xử lý trên thiết bị đang làm cho nó trở nên thực tế hơn.

Xây Dựng Hướng tới Tương Tác Trí Tuệ Nhân Tạo trong Thế Giới Thực

Collov Labs đang phát triển các hệ thống kết hợp mô hình khuếch tán, suy luận không gian và công việc của tác nhân. Mục tiêu là chuyển từ nhận dạng hình ảnh tĩnh đến các hệ thống có thể hiểu mối quan hệ trong một cảnh và thực hiện các hành động đa bước.

Phần này phù hợp với một sự thúc đẩy ngày càng tăng hướng tới các hệ thống trí tuệ nhân tạo tương tác với môi trường vật lý, đặc biệt là khi phần cứng phát triển để hỗ trợ xử lý thời gian thực và ngữ cảnh liên tục.

Nền tảng của công ty phản ánh sự tập trung này. Đội ngũ của họ có kinh nghiệm trong trí tuệ nhân tạo đa phương thức, hệ thống khuyến nghị quy mô lớn và học máy ứng dụng trên cả học thuật và công nghiệp.

Từ Công Cụ Thiết Kế đến Lớp Trí Tuệ Nhân Tạo Rộng Lớn Hơn

Các sản phẩm hiện có của Collov, bao gồm cả công cụ thiết kế được hỗ trợ bởi trí tuệ nhân tạo, cung cấp một cái nhìn về cách các hệ thống này hoạt động trong thực tế. Công ty ban đầu đã thu được động lực trong các lĩnh vực như thiết kế nội thất và tạo nội dung hình ảnh, nơi trí tuệ nhân tạo có thể giải thích bố cục không gian và tạo ra đầu ra thực tế.

Các phiên bản trước của doanh nghiệp tập trung vào các nền tảng thiết kế và công cụ tự động hóa được hỗ trợ bởi trí tuệ nhân tạo, một cách tiếp cận đã chứng kiến sự tiếp nhận thương mại trên các trường hợp sử dụng như bất động sản, bán lẻ và thương mại điện tử.

Các sản phẩm này hiện đang hoạt động như một vòng phản hồi, cung cấp dữ liệu thế giới thực giúp cải thiện mô hình của công ty và tinh chỉnh cách chúng hiểu môi trường hình ảnh.

Tại Sao Trí Tuệ Nhân Tạo Hình Ảnh Có Thể Mở Rộng Việc Áp Dụng

Một trong những giả định cơ bản đằng sau chiến lược của Collov Labs là rằng các giao diện dựa trên văn bản có phạm vi hạn chế. Mặc dù các rô-bốt trò chuyện đã thúc đẩy nhận thức, nhưng hầu hết dân số toàn cầu vẫn chưa tham gia một cách có ý nghĩa với các công cụ trí tuệ nhân tạo.

Ngược lại, các giao diện hình ảnh vốn dĩ trực quan hơn. Sự chuyển đổi này phản ánh các chuyển đổi trước đó trong tính toán, nơi các giao diện đồ họa đã làm cho các hệ thống trở nên dễ tiếp cận hơn với một khán giả rộng lớn hơn ngoài người dùng kỹ thuật.

Nếu thành công, cách tiếp cận này có thể giảm thiểu rào cản gia nhập cho việc áp dụng trí tuệ nhân tạo và mở rộng việc sử dụng nó trên các ngành công nghiệp mà ngữ cảnh hình ảnh là thiết yếu, bao gồm bán lẻ, thiết kế, hậu cần và hoạt động trên lĩnh vực.

Vai Trò Của Phần Cứng và Trí Tuệ Nhân Tạo Trên Thiết Bị

Các tiến bộ trong phần cứng là một yếu tố quan trọng cho sự phát triển của trí tuệ nhân tạo hình ảnh. Khi khả năng xử lý trên điện thoại thông minh, thiết bị đeo và chip chuyên dụng được cải thiện, nhiều công việc cần thiết để giải thích hình ảnh và video có thể diễn ra tại chỗ theo thời gian thực. Điều này giảm độ trễ và cho phép hệ thống phản hồi ngay lập tức với những gì người dùng đang nhìn thấy, thay vì dựa hoàn toàn vào xử lý dựa trên đám mây.

Sự chuyển đổi này cũng thay đổi cách trí tuệ nhân tạo được phân phối. Thay vì tồn tại chủ yếu như các ứng dụng độc lập, trí tuệ hình ảnh có thể trở thành một phần của chính thiết bị, hoạt động liên tục trong nền. Điều đó mở ra cánh cửa cho các tương tác nhận thức ngữ cảnh hơn, nhưng cũng đặt ra các mối quan ngại thực tế về độ chính xác, độ tin cậy và cách các hệ thống này hoạt động trong môi trường thực tế không thể đoán trước.

Áp Dụng Rộng Lớn Hơn cho Tương Tác Trí Tuệ Nhân Tạo

Chuyển dịch hướng tới trí tuệ nhân tạo hình ảnh gợi ý một sự chuyển đổi dần dần trong tương tác giữa con người và máy tính. Các hệ thống có thể giải thích cảnh và mối quan hệ không gian có thể giảm nhu cầu về đầu vào có cấu trúc, làm cho trí tuệ nhân tạo trở nên dễ tiếp cận hơn với người dùng ít thoải mái với các công cụ dựa trên văn bản.

Đồng thời, sự phức tạp của môi trường thực tế đưa ra những thách thức mới. Việc giải thích sai một cảnh hoặc bỏ lỡ ngữ cảnh quan trọng có thể dẫn đến đầu ra không chính xác, và hậu quả của những sai lầm đó trở nên đáng kể hơn khi trí tuệ nhân tạo tiến gần hơn đến việc ra quyết định.

Thay vì thay thế các giao diện hiện có, trí tuệ nhân tạo hình ảnh có nhiều khả năng sẽ phát triển cùng với chúng, thêm một lớp tương tác khác. Theo thời gian, điều này có thể dẫn đến một trải nghiệm tích hợp hơn, nơi trí tuệ nhân tạo phản hồi với ngữ cảnh cũng như với các lệnh rõ ràng.

Unite.AI