Lãnh đạo tư tưởng

Bên trong Cuộc Đua Robot Mới: Dữ liệu, Mô hình và Sản xuất

Published March 16, 2026

Updated April 25, 2026

Michael Abramov, Founder and CEO of Introspector

Sự đổi mới hiếm khi xuất hiện trong sự cô lập. Thường thì, nó được sinh ra từ những cuộc trò chuyện giữa các kỹ sư, người sáng lập, nhà nghiên cứu và nhà đầu tư đang cố gắng hiểu công nghệ đang đi tới đâu.

Trong suốt một năm, tôi đã tham dự hàng chục hội nghị trên toàn thế giới. Các chuyến công tác đôi khi kéo dài hàng tháng, và các cuộc họp với đối tác và khách hàng diễn ra từ châu Á đến Bắc Mỹ. Tuy nhiên, một trong những chuyến đi gần đây của tôi đến Thụy Sĩ đã trở nên đặc biệt thú vị – chủ yếu vì những người và cuộc trò chuyện diễn ra ở đó.

Thành phố Zurich đã chứng minh là một trong những nơi mà tương lai của robot và Physical AI đang được thảo luận tích cực ngày nay. Và càng sâu vào những cuộc trò chuyện, càng rõ ràng rằng cuộc đua thực sự trong lĩnh vực robot đang diễn ra xung quanh dữ liệu.

Thung lũng Silicon của Châu Âu

Thành phố Zurich truyền thống được liên kết với lĩnh vực tài chính, nhưng trong những năm gần đây, nó ngày càng được gọi là Thung lũng Silicon của Châu Âu. Phần lớn danh tiếng này gắn liền với ETH Zurich, một trong những trường đại học kỹ thuật được tôn trọng nhất ở Châu Âu. Nó thu hút các nhà nghiên cứu, sinh viên tiến sĩ, doanh nhân và kỹ sư từ khắp thế giới. Kết quả là, một hệ sinh thái công nghệ mạnh mẽ đã hình thành xung quanh trường đại học, nơi nghiên cứu, khởi nghiệp và dự án công nghiệp phát triển gần như đồng thời.

Một trong những lý do cho chuyến đi của tôi là để có được sự hiểu biết sâu sắc hơn về những gì Introspector có thể cung cấp cho thị trường robot, đã bùng nổ kể từ đầu năm 2025. Đó là một ngành công nghiệp mà nhiều công ty khởi nghiệp đang cố gắng tham gia, trong khi những đột phá công nghệ từ các công ty công nghệ lớn đang tích cực thay đổi nó. Tuy nhiên, mặc dù tất cả những động lực này, lĩnh vực này vẫn đặt ra nhiều câu hỏi hơn là câu trả lời.

Thành phố Zurich cũng là nơi đặt trụ sở của đối tác của chúng tôi Lightly, những người đã giúp tôi làm quen với các đồng nghiệp làm việc tại giao điểm của robot, tầm nhìn máy tính và AI. Có một khía cạnh quan trọng của hệ sinh thái công nghệ địa phương mà tôi muốn nhấn mạnh: những người ở đây rất cởi mở và thân thiện. Họ không sợ chia sẻ ý tưởng và giả thuyết của mình, để nói về những thách thức họ đang cố gắng giải quyết, và những thí nghiệm họ đang chạy. Kết quả là, bạn bắt đầu hiểu được bối cảnh thực sự của thị trường và nơi ngành công nghiệp đang đi tới nhanh hơn.

Và khi mọi người hỏi tôi làm thế nào “Thung lũng Silicon” của Châu Âu khác với của Mỹ, câu trả lời thường làm họ ngạc nhiên. Ở Zurich, sự cân bằng giữa công việc và cuộc sống cảm giác mạnh mẽ hơn: thể thao vào buổi sáng, làm việc tập trung trong ngày với nhịp điệu yên tĩnh nhưng hiệu quả, và buổi tối ở trên núi với gia đình hoặc đơn giản là thư giãn. Ở San Francisco, thường có cảm giác rằng bạn cần phải chứng minh rằng bạn đang làm việc chăm chỉ hơn mọi người. Ở Zurich, nhịp độ khác – bền vững hơn. Tuy nhiên, mức độ tham vọng công nghệ ở đây không thấp hơn.

Dữ liệu tốt hơn trước khi có robot tốt hơn

Một trong những kết luận chính từ chuyến đi này là một quan sát khá đơn giản: nhiều người ngày nay muốn làm việc trong lĩnh vực robot. Nhưng mặc dù sự quan tâm lớn đến ngành công nghiệp, nhiều đội vẫn còn trong giai đoạn khám phá, cố gắng hiểu vai trò họ có thể đóng trong làn sóng mới của robot và Physical AI, và đóng góp gì.

Nhiều cuộc trò chuyện cuối cùng đều hội tụ vào cùng một chủ đề: dữ liệu. Ngày nay, ngành công nghiệp thiếu dữ liệu về các nhiệm vụ khéo léo, tức là kỹ năng vận động tinh. Trong lĩnh vực này, khả năng của robot vẫn còn rất hạn chế. Những gì con người làm bằng tay gần như tự động – nhặt một vật thể, xoay nó, đặt nó cẩn thận ở đâu đó, hoặc thực hiện một thao tác nhỏ – vẫn là một trong những nhiệm vụ khó khăn nhất đối với robot.

Chìa khóa để tiến bộ ở đây nằm chủ yếu ở các tập dữ liệu lớn, được thu thập đúng cách. Ngày nay, mọi người thường nói về tập dữ liệu egocentric, được ghi lại từ góc nhìn của người đầu tiên, nơi hệ thống ghi lại các hành động của con người như thể nó đang thực hiện chúng mình. Tuy nhiên, trên thực tế, khái niệm về một “tập dữ liệu egocentric” có thể có nghĩa rất khác nhau và đặt ra một số câu hỏi kỹ thuật. Nên đặt máy ảnh ở đâu? Trên trán, trên ngực, hoặc có lẽ ở mức mắt? Những cảm biến nào nên đi kèm với bản ghi video? Nếu chúng ta đang ghi lại chuyển động tay, liệu các vận hành viên nên sử dụng găng tay đặc biệt? Và nếu vậy, liệu những găng tay đó có nên bao gồm cảm biến xúc giác, con quay hồi chuyển, hoặc các hệ thống theo dõi chuyển động khác?

Một câu hỏi phức tạp hơn nữa xuất hiện: làm thế nào để ghi lại chính xác độ sâu của chuyển động. Vì nó quan trọng để hiểu không chỉ vị trí của tay trong mặt phẳng hai chiều, mà còn cách nó di chuyển trong không gian ba chiều – về phía trước, về phía sau, lên hoặc xuống.

Cho đến nay, ngành công nghiệp vẫn chưa có câu trả lời thống nhất. Đó là lý do tại sao nhiều đội ngày nay đang thử nghiệm với các cấu hình cảm biến khác nhau, phương pháp ghi và định dạng tập dữ liệu.

Hệ thống đa phương thức

Ngay khi cuộc trò chuyện chuyển sang thu thập dữ liệu cho robot, một chủ đề khác nhanh chóng xuất hiện – cảm biến bổ sung và đa phương thức, cho phép ghi lại chuyển động cơ thể, hành động tay và tương tác vật thể với độ chính xác cao hơn. Chúng cũng giúp giảm lỗi trong quá trình thu thập tập dữ liệu.

Khi một người ghi lại hành động của mình trên máy ảnh, luôn có rủi ro rằng một phần tài liệu sẽ không thể sử dụng được. Máy ảnh có thể dịch chuyển slightly, góc quay có thể không chính xác, người vận hành có thể vô tình quay sai hướng, hoặc người vận hành có thể thực hiện một chuyển động quá nhanh. Kết quả là, một phần đáng kể của tài liệu ghi lại bị loại bỏ. Một ví dụ đơn giản: để có được một giờ video thực sự có thể sử dụng, người vận hành thường cần ghi lại khoảng hai giờ tài liệu thô.

Các cảm biến bổ sung giúp bù đắp một số vấn đề này. Ngay cả khi máy ảnh dịch chuyển slightly, dữ liệu cảm biến vẫn có thể cho phép tái tạo chuyển động của tay hoặc vị trí của cơ thể trong không gian. Kết quả là, thay vì hai giờ ghi lại, có thể chỉ cần khoảng một giờ và hai mươi phút để có được cùng một lượng dữ liệu có thể sử dụng. Điều này tăng đáng kể hiệu quả của việc thu thập tập dữ liệu và giảm chi phí tạo ra chúng.

Vì vậy, không có gì ngạc nhiên khi nhiều đội cũng nhận thấy sự quan tâm ngày càng tăng đối với việc chú thích dữ liệu đa phương thức. Điều này đã trở thành một trong những xu hướng rõ ràng hơn trực tiếp liên quan đến sự phát triển của robot và trí tuệ nhân thể.

Loại robot nào mà thị trường cần?

Các robot công nghiệp cổ điển, đã hoạt động trên các dây chuyền lắp ráp ô tô trong nhiều thập kỷ, thực sự yêu cầu rất ít tầm nhìn máy tính hoặc mô hình AI phức tạp. Nhiệm vụ của chúng là cực kỳ cụ thể: thực hiện các chuyển động lặp đi lặp lại – trái, phải, lên, xuống – với độ chính xác và nhất quán cao. Trong lĩnh vực này, chúng đã vượt qua con người từ lâu.

Một loại hoàn toàn khác là robot hình người. Những hệ thống này yêu cầu “bộ não”: khả năng điều hướng không gian, nhận thức môi trường xung quanh, hiểu ngữ cảnh của một tình huống, và kiểm soát các bộ phận vận động không thông qua các đường dẫn được lập trình trước mà bằng cách thích nghi với thế giới thực.

Ngay cả với mức độ tự động hóa cao trên sàn nhà máy hiện đại, nhiều nhiệm vụ vẫn được thực hiện bởi con người. Di chuyển một vật thể, nhặt một hộp, sắp xếp các bộ phận, gắn một thành phần, hoặc tổ chức vật liệu – những hành động nhỏ này yêu cầu sự linh hoạt và phối hợp. Lĩnh vực này vẫn còn là một trong những lĩnh vực khó tự động hóa nhất, và chính xác nơi các hệ thống hình người có thể tìm thấy vai trò của mình.

Nhiều đội mà tôi đã nói chuyện đang sử dụng một mô hình kinh doanh tương tự. Họ tiếp cận một nhà máy và đề xuất giải quyết một trường hợp sản xuất cụ thể. Ví dụ, một công nhân có thể dành cả ngày để di chuyển hộp giữa các khu vực kho. Các kỹ sư đề xuất một thí nghiệm tương đối đơn giản: trang bị cho công nhân một máy ảnh và một bộ cảm biến, ghi lại hàng nghìn giờ hành động của họ, và sử dụng dữ liệu này để đào tạo một mô hình sẽ kiểm soát một robot hình người. Theo cách này, robot học cách thực hiện chính xác các nhiệm vụ được thực hiện bởi công nhân.

Về bản chất, công ty mua một nền tảng hình người, trong khi đội phát triển xây dựng một mô hình tùy chỉnh sao chép hành vi của một vận hành viên cụ thể. Đây không phải là một trí tuệ phổ quát có thể giải quyết bất kỳ nhiệm vụ nào. Thay vào đó, đây là một tập hợp các kỹ năng được đào tạo cho một kịch bản hoặc nhóm nhiệm vụ sản xuất cụ thể. Đối với nhiều kỹ sư ngày nay, cách tiếp cận này dường như thực tế hơn. Thay vì cố gắng tạo ra một robot phổ quát ngay lập tức, các đội tập trung vào các kịch bản tự động hóa hẹp nhưng có thể sinh lời về mặt kinh tế.

Chiều kích kinh doanh

Nếu tương lai nằm ở các mô hình tùy chỉnh, điều quan trọng là phải hiểu rằng, từ góc độ kinh tế, đây là một con đường phát triển khá dài.

Mỗi ngành công nghiệp cơ bản là một thế giới riêng. Mỗi môi trường sản xuất có quy trình, luồng công việc và ngoại lệ riêng. Một robot được đào tạo để hoạt động trong một nhà máy ô tô không thể đơn giản được chuyển sang sản xuất thực phẩm hoặc hậu cần kho hàng. Trong mỗi trường hợp, hệ thống phải được đào tạo lại từ đầu.

Điều này dẫn đến câu hỏi logic tiếp theo: ai sẽ là khách hàng đầu tiên của công nghệ như vậy?

Ở giai đoạn này, những người áp dụng chính có khả năng là các doanh nghiệp lớn – những doanh nghiệp có ngân sách và đối với họ, tự động hóa có thể tạo ra tác động kinh tế có ý nghĩa. Ngày nay, một robot hình người có giá khoảng 60.000-90.000 đô la chỉ cho phần cứng. Đây chỉ là cấu hình cơ bản. Trên đó, có chi phí bảo trì, pin, trạm sạc, cơ sở hạ tầng và phần mềm.

Kết quả là, các công ty có khả năng thử nghiệm với các hệ thống như vậy là các tổ chức lớn, các nhà sản xuất ô tô, công ty thực phẩm và các doanh nghiệp công nghiệp lớn.

Tất nhiên, các lĩnh vực nhỏ hơn cũng có thể thấy một số người áp dụng sớm. Một số công ty có thể mua một hoặc hai robot cho các nhiệm vụ cụ thể. Tuy nhiên, trong hầu hết các trường hợp, những doanh nghiệp này đơn giản là không sẵn sàng đầu tư hàng trăm nghìn euro vào việc thu thập và chú thích các tập dữ liệu tùy chỉnh cần thiết để đào tạo hệ thống cho các kịch bản hoạt động cụ thể. Đối với họ, lao động con người vẫn còn là lựa chọn rẻ hơn.

Trò chơi dài của đổi mới robot

Chúng ta cuối cùng cũng đến với một câu hỏi kinh tế cơ bản: cái gì hiệu quả hơn – con người hay robot? Nếu chúng ta nhìn vào nền kinh tế ngày nay, câu trả lời rõ ràng: lao động con người rẻ hơn, thích nghi nhanh hơn với điều kiện mới và không yêu cầu cơ sở hạ tầng phức tạp.

Vậy tại sao ngành công nghiệp vẫn tiếp tục đầu tư vào robot ngày nay? Câu trả lời chủ yếu là chiến lược.

Nhiều công ty hiểu rằng một loại cuộc đua cho sự lãnh đạo công nghệ đang diễn ra. Họ đang phát triển các giải pháp, mặc dù có chi phí cao, để dẫn đầu khi kinh tế của robot thay đổi.

Hãy tưởng tượng, ví dụ, các quy định mới cho phép sử dụng rộng rãi robot hình người trong sản xuất. Hoặc chính phủ bắt đầu trợ cấp cho việc robot hóa các ngành công nghiệp. Trong một kịch bản như vậy, thị trường có thể tăng trưởng đáng kể trong vòng vài năm. Và những người đã chuẩn bị trước, những người đã xây dựng mô hình, tích lũy dữ liệu và thiết lập cơ sở hạ tầng công nghệ cần thiết, sẽ là những người được hưởng lợi nhiều nhất.

Vì vậy, sự phát triển vẫn tiếp tục ngay bây giờ, mặc dù kinh tế của doanh nghiệp có thể không lý tưởng. Đối với nhiều công ty, đây là một khoản đầu tư vào tương lai – vào thời điểm khi công nghệ trở nên dễ tiếp cận hơn và nhu cầu tăng mạnh.

Và trong cuộc đua này, như trong nhiều cuộc cách mạng công nghệ, một yếu tố thường chứng minh là quyết định: ai bắt đầu sớm. Trong trường hợp này, robot ngày nay mạnh mẽ giống như giai đoạn đầu của trí tuệ nhân tạo. Lúc đó, cũng có nhiều câu hỏi hơn là câu trả lời. Tuy nhiên, những đội bắt đầu làm việc với dữ liệu và cơ sở hạ tầng sớm hơn những đội khác cuối cùng đã định hình hướng của toàn bộ ngành công nghiệp.

Unite.AI