Connect with us

Lãnh đạo tư tưởng

Bên Trong Cuộc Đua Robot Mới: Dữ Liệu, Mô Hình và Sản Xuất

mm

Sự đổi mới hiếm khi xuất hiện một cách biệt lập. Thường thì nó được sinh ra từ những cuộc trò chuyện giữa các kỹ sư, nhà sáng lập, nhà nghiên cứu và nhà đầu tư đang cố gắng hiểu công nghệ đang hướng đến đâu. Trong suốt một năm, tôi đã tham dự hàng chục hội nghị trên khắp thế giới. Những chuyến công tác đôi khi kéo dài hàng tháng, và các cuộc họp với đối tác và khách hàng diễn ra từ châu Á đến Bắc Mỹ. Tuy nhiên, một trong những chuyến đi gần đây của tôi đến Thụy Sĩ lại đặc biệt thú vị – phần lớn là vì những con người và những cuộc trò chuyện đã diễn ra ở đó. Zurich chứng tỏ là một trong những nơi mà tương lai của robot và Physical AI đang được thảo luận sôi nổi ngày nay. Và những cuộc trò chuyện này càng đi sâu, càng trở nên rõ ràng rằng cuộc đua thực sự trong lĩnh vực robot đang diễn ra xung quanh dữ liệu.

Thung lũng Silicon của Châu Âu

Zurich từ lâu đã được liên tưởng đến lĩnh vực tài chính, nhưng trong những năm gần đây, nó ngày càng được gọi là Thung lũng Silicon của Châu Âu. Phần lớn danh tiếng này gắn liền với ETH Zurich, một trong những trường đại học kỹ thuật được kính trọng nhất châu Âu. Nó thu hút các nhà nghiên cứu, nghiên cứu sinh tiến sĩ, doanh nhân và kỹ sư từ khắp nơi trên thế giới. Kết quả là, một hệ sinh thái công nghệ mạnh mẽ đã hình thành xung quanh trường đại học, nơi nghiên cứu, startup và các dự án công nghiệp phát triển gần như đồng thời. Một trong những lý do cho chuyến đi của tôi là để hiểu sâu hơn về những gì Introspector có thể mang lại cho thị trường robot, vốn đang bùng nổ từ đầu năm 2025. Đây là một ngành công nghiệp mà một loạt các startup đang cố gắng thâm nhập, trong khi những đột phá công nghệ từ các công ty công nghệ lớn đang tích cực định hình lại nó. Tuy nhiên, bất chấp tất cả động lực này, lĩnh vực này vẫn đặt ra nhiều câu hỏi hơn là câu trả lời. Zurich cũng là nơi đặt trụ sở của đối tác của chúng tôi Lightly, những người đã giúp tôi làm quen với các đồng nghiệp đang làm việc tại giao điểm của robot, thị giác máy tính và AI. Có một khía cạnh quan trọng của hệ sinh thái công nghệ địa phương mà tôi muốn nhấn mạnh: mọi người ở đây cởi mở và thân thiện một cách đáng chú ý. Họ không ngại chia sẻ ý tưởng và giả thuyết của mình, nói về những thách thức họ đang cố gắng giải quyết và các thí nghiệm họ đang thực hiện. Kết quả là, bạn bắt đầu hiểu bối cảnh thực sự của thị trường và ngành công nghiệp đang hướng đến đâu nhanh hơn nhiều. Nhân tiện, khi mọi người hỏi tôi “Thung lũng Silicon” của Châu Âu khác với của Mỹ như thế nào, câu trả lời thường khiến họ ngạc nhiên. Ở Zurich, sự cân bằng giữa công việc và cuộc sống cảm thấy mạnh mẽ hơn nhiều: thể thao vào buổi sáng, làm việc tập trung trong ngày với nhịp độ bình tĩnh nhưng hiệu quả, và buổi tối ở trên núi với gia đình hoặc đơn giản là thư giãn. Ở San Francisco, thường có cảm giác rằng bạn liên tục cần chứng minh rằng bạn đang làm việc chăm chỉ hơn tất cả mọi người. Ở Zurich, nhịp độ khác – bền vững hơn. Tuy nhiên, mức độ tham vọng công nghệ ở đây không hề thấp hơn.

Dữ liệu tốt hơn trước robot tốt hơn

Một trong những điểm rút ra chính từ chuyến đi này là một quan sát khá đơn giản: nhiều người ngày nay muốn làm việc trong lĩnh vực robot. Nhưng bất chấp sự quan tâm lớn đến ngành công nghiệp, nhiều nhóm vẫn đang trong giai đoạn thăm dò, cố gắng hiểu vai trò họ có thể đóng trong làn sóng robot và Physical AI mới, và đóng góp gì họ có thể thực hiện. Nhiều cuộc trò chuyện cuối cùng cũng hội tụ vào cùng một chủ đề: dữ liệu. Ngày nay, ngành công nghiệp thiếu dữ liệu về các nhiệm vụ khéo léo, tức là các kỹ năng vận động tinh. Trong lĩnh vực này, khả năng của robot vẫn còn cực kỳ hạn chế. Những gì con người làm bằng tay một cách gần như tự động – nhặt một vật, xoay nó, đặt cẩn thận ở đâu đó, hoặc thực hiện một thao tác nhỏ – vẫn là một trong những nhiệm vụ khó khăn nhất đối với robot. Chìa khóa cho sự tiến bộ ở đây nằm chủ yếu ở các bộ dữ liệu quy mô lớn, được thu thập đúng cách. Ngày nay, mọi người thường nói về các bộ dữ liệu egocentric, được ghi lại từ góc nhìn người thứ nhất, nơi hệ thống ghi lại hành động của con người như thể chính nó đang thực hiện chúng. Tuy nhiên, trên thực tế, hóa ra chính khái niệm “bộ dữ liệu egocentric” có thể mang ý nghĩa rất khác nhau và đặt ra một loạt câu hỏi kỹ thuật. Camera nên được đặt ở đâu? Trên trán, trên ngực, hay có lẽ ở ngang tầm mắt? Cảm biến nào nên đi kèm với việc ghi hình? Nếu chúng ta đang ghi lại chuyển động của bàn tay, người vận hành có nên sử dụng găng tay đặc biệt không? Và nếu có, những chiếc găng tay đó có nên bao gồm cảm biến xúc giác, con quay hồi chuyển hoặc các hệ thống theo dõi chuyển động khác không? Một câu hỏi phức tạp hơn nữa nảy sinh: làm thế nào để ghi lại chính xác độ sâu của chuyển động. Xét cho cùng, điều quan trọng là phải hiểu không chỉ vị trí của bàn tay trong mặt phẳng hai chiều, mà còn cách nó di chuyển trong không gian ba chiều – tiến, lùi, lên hoặc xuống. Cho đến nay, ngành công nghiệp vẫn chưa đạt được một câu trả lời thống nhất. Đó là lý do tại sao nhiều nhóm ngày nay đang thử nghiệm với các cấu hình cảm biến, phương pháp ghi và định dạng tập dữ liệu khác nhau.

Hệ thống đa phương thức

Ngay khi cuộc trò chuyện chuyển sang việc thu thập dữ liệu cho robot, một chủ đề khác nhanh chóng xuất hiện – các cảm biến bổ sung và tính đa phương thức, giúp ghi lại chuyển động cơ thể, hành động tay và tương tác với vật thể với độ chính xác cao hơn. Chúng cũng giúp giảm thiểu lỗi trong quá trình thu thập tập dữ liệu. Khi một người ghi lại hành động của họ trên camera, luôn có nguy cơ một phần tài liệu sẽ không thể sử dụng được. Camera có thể dịch chuyển nhẹ, góc quay có thể không chính xác, người vận hành có thể vô tình quay sai hướng, hoặc người vận hành có thể thực hiện một chuyển động quá nhanh. Kết quả là, một phần đáng kể của tài liệu được ghi lại bị loại bỏ. Một ví dụ đơn giản: để có được một giờ video thực sự có thể sử dụng, người vận hành thường cần ghi lại khoảng hai giờ cảnh quay thô. Các cảm biến bổ sung giúp bù đắp cho một số vấn đề này. Ngay cả khi camera dịch chuyển nhẹ, dữ liệu cảm biến vẫn có thể giúp tái tạo chuyển động của bàn tay hoặc vị trí của cơ thể trong không gian. Kết quả là, thay vì hai giờ ghi hình, có thể chỉ mất khoảng một giờ hai mươi phút để thu được cùng một lượng dữ liệu có thể sử dụng. Điều này làm tăng đáng kể hiệu quả thu thập tập dữ liệu và giảm chi phí tạo ra chúng. Do đó, không có gì ngạc nhiên khi nhiều nhóm cũng nhận thấy sự quan tâm ngày càng tăng đến chú thích dữ liệu đa phương thức. Điều này đã trở thành một trong những xu hướng rõ rệt hơn trực tiếp liên quan đến sự phát triển của robot và AI thể hiện. Điểm tiếp theo là việc gán nhãn cho các tập dữ liệu như vậy. Chúng tôi đã gặp phải những câu hỏi tương tự tại Keymakr khi làm việc với các tập dữ liệu của khách hàng cho các trường hợp robot: một chú thích như vậy trong thực tế nên trông như thế nào? Nó có nên là khung xương? Hai chiều hay ba chiều? Các yếu tố của học tăng cường có nên được kết hợp vào pipeline không? Có hàng chục câu hỏi như vậy. Các kỹ sư tự thừa nhận rằng chưa ai có thể nói chắc chắn cấu hình dữ liệu cụ thể nào cuối cùng sẽ dẫn đến một bước đột phá công nghệ thực sự. Những lo ngại này là dễ hiểu. Xây dựng các tập dữ liệu phức tạp là một quá trình tốn kém. Mọi sai lầm trong cấu trúc dữ liệu có thể tốn hàng nghìn hoặc thậm chí hàng triệu đô la. Có thể thu thập tập dữ liệu “sai” hoặc ghi lại nó trong các điều kiện khó tái tạo trong thế giới thực, cuối cùng làm suy yếu toàn bộ dự án. Đó chính xác là lý do tại sao ngày nay, ngày càng có nhiều sự chú ý được dành cho cả các mô hình và chất lượng cũng như kiến trúc của dữ liệu mà các mô hình đó được đào tạo.

Thị trường cần loại robot nào?

Các robot công nghiệp cổ điển, vốn đã hoạt động trên các dây chuyền lắp ráp ô tô trong nhiều thập kỷ, thực sự yêu cầu rất ít thị giác máy tính hoặc các mô hình AI phức tạp. Nhiệm vụ của chúng cực kỳ cụ thể: thực hiện các chuyển động lặp đi lặp lại một cách nghiêm ngặt – trái, phải, lên, xuống – với độ chính xác và nhất quán cao. Trong lĩnh vực này, chúng đã vượt xa con người từ lâu. Một loại hoàn toàn khác là robot hình người. Những hệ thống này yêu cầu “bộ não”: khả năng định hướng trong không gian, nhận thức môi trường xung quanh, hiểu ngữ cảnh của tình huống và điều khiển các bộ phận thao tác không thông qua các quỹ đạo được lập trình sẵn mà bằng cách thích ứng với thế giới thực. Ngay cả với mức độ tự động hóa cao trên các sàn nhà máy hiện đại, nhiều nhiệm vụ vẫn được thực hiện bởi con người. Di chuyển một vật thể, nhặt một cái hộp, phân loại các bộ phận, gắn chặt một thành phần, hoặc sắp xếp vật liệu – đây là những hành động nhỏ đòi hỏi sự linh hoạt và phối hợp. Lĩnh vực này vẫn là một trong những lĩnh vực khó tự động hóa nhất, và chính ở đây các hệ thống hình người có thể tìm thấy vai trò của mình. Nhiều nhóm mà tôi đã nói chuyện cùng đang sử dụng một mô hình kinh doanh tương tự. Họ tiếp cận một nhà máy và đề xuất giải quyết một trường hợp sản xuất cụ thể. Ví dụ, một công nhân có thể dành cả ngày để di chuyển các hộp giữa các khu vực kho. Các kỹ sư đề xuất một thí nghiệm tương đối đơn giản: trang bị cho công nhân một camera và một bộ cảm biến, ghi lại hàng nghìn giờ hành động của họ, và sử dụng dữ liệu này để đào tạo một mô hình sẽ điều khiển một robot hình người. Bằng cách này, robot học cách thực hiện chính xác các nhiệm vụ do công nhân thực hiện. Về bản chất, công ty mua một nền tảng robot hình người, trong khi nhóm phát triển xây dựng một mô hình tùy chỉnh sao chép hành vi của một người vận hành cụ thể. Đây không phải là một trí thông minh phổ quát có khả năng giải quyết bất kỳ nhiệm vụ nào. Đúng hơn, đó là một tập hợp các kỹ năng được đào tạo cho một kịch bản cụ thể hoặc một nhóm nhiệm vụ sản xuất. Đối với nhiều kỹ sư ngày nay, cách tiếp cận này có vẻ thực tế hơn nhiều. Thay vì cố gắng tạo ra một robot phổ quát ngay lập tức, các nhóm tập trung vào các kịch bản tự động hóa hẹ

Michael Abramov is the founder & CEO of Introspector, bringing over 15+ years of software engineering and computer vision AI systems experience to building enterprise-grade labelling tools.

Michael began his career as a software engineer and R&D manager, building scalable data systems and managing cross-functional engineering teams. Until 2025, he has served as the CEO of Keymakr, a data labelling service company, where he pioneered human-in-the-loop workflows, advanced QA systems, and bespoke tooling to support large-scale computer vision and autonomy data needs.

He holds a B.Sc. in Computer Science and a background in engineering and creative arts, bringing a multidisciplinary lens to solving hard problems. Michael lives at the intersection of technology innovation, strategic product leadership, and real-world impact, driving forward the next frontier of autonomous systems and intelligent automation.