Lãnh đạo tư tưởng

Chúng Ta Đã Dạy Robot Di Chuyển. Giờ Chúng Ta Đang Dạy Chúng Nói Chuyện

Đã xuất bản 22 tháng 4, 2026

Đã cập nhật 16 tháng 5, 2026

Michael Abramov, Người sáng lập và CEO của Introspector

Robot hiện đại đã đạt đến một điểm mà việc di chuyển không còn là thách thức chính – máy móc đã có thể điều hướng, nắm bắt và hoạt động trong không gian với độ chính xác ấn tượng. Tuy nhiên, việc cho phép chúng thực sự “sống” và hoạt động trong thế giới thực vẫn còn là một vấn đề chưa được giải quyết.

Trong quá trình này, vai trò chính được chơi bởi những gì có thể được gọi là “tủy sống” : hệ thống chịu trách nhiệm về các phản ứng cơ bản, hành vi và tương tác với môi trường.

Khi bạn nhìn vào sự tiến hóa của robot thông qua ống kính này, nó trở nên rõ ràng rằng chuỗi giai đoạn này – nơi hệ thống học được điều gì đó mới tại mỗi bước, từ chuyển động đơn giản đến các hành động phức tạp, nhận thức được bối cảnh – gần giống với sự phát triển của con người.

Và chính trong sự tiến hóa này – từ “hardware” trống rỗng đến hành vi có ý nghĩa – mà sự thay đổi chính trong trí tuệ nhân tạo vật lý đang xảy ra ngày nay. Thú vị khi tìm hiểu sâu hơn.

Cơ Sở Của Robot: Một Giai Đoạn Hiếm Khi Được Thảo Luận

Robot là gì trong thuật ngữ thực tế? Đó là một thiết bị vật lý ban đầu được tạo ra như một nền tảng phổ quát. Về bản chất, nó là một “trống” mà sau đó phải được thích nghi với các nhiệm vụ cụ thể, được đào tạo để hoạt động trong một môi trường nhất định và được dạy để thực hiện các hành động yêu cầu.

Nếu chúng ta vượt ra ngoài các kịch bản hàng ngày và xem xét các ứng dụng trong tương lai gần hơn, nó trở nên rõ ràng rằng việc áp dụng đầy đủ robot sẽ chủ yếu xảy ra trong các môi trường công nghiệp và có khả năng nguy hiểm. Điều này, đến lượt, ngụ ý các yêu cầu đáng kể hơn về hành vi, độ bền và chất lượng đào tạo của chúng.

Quá trình bắt đầu với bước cơ bản nhất – xây dựng thiết bị itu. Một robot được lắp ráp từ nhiều thành phần, bao gồm các bộ phận truyền động, động cơ, cảm biến, máy ảnh, LiDAR. Nó có thể là hình người, bánh xe, hai chân hoặc bốn chân – yếu tố hình dạng là thứ yếu. Điều quan trọng là rằng, tại giai đoạn này, chúng ta kết thúc với một thiết bị hoạt động nhưng vẫn “trống rỗng”.

Giai đoạn tiếp theo là cài đặt một mô hình cơ bản phục vụ jako nền tảng cho hành vi của nó. Trong một ý nghĩa rộng, “mô hình” là toàn bộ lớp chức năng điều khiển. Nó chịu trách nhiệm về các khả năng cốt lõi: duy trì thăng bằng, đứng và di chuyển, điều hướng từ điểm A đến điểm B, tránh chướng ngại vật, không làm hỏng môi trường và tương tác an toàn với con người.

Đây là nơi học tăng cường tham gia. Trong các hệ thống như vậy, hàng tỷ mô phỏng được chạy. Chúng ta thường thấy video về robot “học” trong các môi trường phức tạp: hầu hết chúng rơi, mất thăng bằng hoặc không hoàn thành nhiệm vụ. Nhưng những robot nào quản lý để đứng thẳng và tiếp tục di chuyển là những robot tiến bộ.

Đây là bản chất của học tăng cường: chọn hành vi thành công. Các thuật toán của những robot “sống sót” trở thành cơ sở cho các lần lặp lại tiếp theo. Kết quả là, sau một số lượng lớn các lần chạy, một mô hình xuất hiện có thể xử lý các chướng ngại vật một cách tự tin. Thuật toán này sau đó được chuyển đến thiết bị vật lý.

Đây là một giai đoạn cơ bản nhưng quan trọng – thường liên quan đến rất ít hoặc không có thị giác máy tính, điều không cần thiết tại thời điểm này. Điều chúng ta đang xử lý ở đây là vật lý và cơ học cơ bản phải được nhúng vào hệ thống từ rất đầu.

Làm Thế Nào Robot Bắt Đầu “Cảm Thấy” Thế Giới

Vậy, chúng ta đã có “hardware” – một robot với mô hình cơ bản được cài đặt: nó có thể đứng, đi và duy trì thăng bằng. Nhưng liệu điều này đã đủ cho các nhiệm vụ thế giới thực, ví dụ, trong môi trường công nghiệp? Rõ ràng là không.

Giai đoạn tiếp theo bắt đầu từ đây. Chúng ta tích hợp cảm biến và đào tạo mô hình để hành động dựa trên đầu vào cảm biến. Một lớp kỹ năng cốt lõi mới xuất hiện – đã phức tạp hơn nhiều so với chuyển động đơn giản.

Một sự tương tự với sự phát triển của con người là hữu ích ở đây. Tại giai đoạn đầu, chúng ta đã đưa hệ thống đến mức khoảng một đứa trẻ một tuổi: nó có thể đứng, bước đầu tiên và duy trì thăng bằng mà không ngã. Bước tiếp theo hơn giống với mức độ của một đứa trẻ tám tuổi.

Vào độ tuổi này, một đứa trẻ sử dụng tích cực “cảm biến” của mình: chúng có thể nhận thức được rủi ro và đánh giá hậu quả của hành động của mình. Chúng hiểu không chạm vào thứ gì nóng hoặc đặt thứ gì rất lạnh vào miệng. Chúng có thể leo lên bàn, đi xe đạp và tương tác với các vật thể. Chúng có khả năng nắm bắt, mang và thao tác các vật thể và thực hiện các hành động tự chăm sóc cơ bản.

Chúng ta gọi giai đoạn này là tiền đào tạo. Và tại thời điểm này, mô phỏng đơn thuần không còn đủ.

Có, một số kịch bản vẫn có thể được mô hình hóa hiệu quả: cách nhặt một chiếc kính, hoặc thay pin, ví dụ, loại bỏ một thành phần, đặt nó lên sạc, lấy một thành phần khác và cài đặt nó trở lại.

Nhưng tổng thể, sự cân bằng chuyển sang: khoảng 80% đào tạo vẫn có thể xảy ra trong mô phỏng, trong khi khoảng 20% dữ liệu phải đến từ thế giới thực. Và đây là nơi chúng ta bắt đầu thảo luận về dữ liệu egocentric.

Dữ Liệu Egocentric Là Cơ Sở Của Sự Hiểu Biết Môi Trường

Ngày nay, dữ liệu egocentric đang được thu thập với quy mô lớn trên toàn thế giới – vì không có nó, không thể chuyển từ cơ học cơ bản sang tương tác có ý nghĩa với thế giới thực. Một đồng nghiệp của tôi, người điều hành một mạng lưới cửa hàng sửa chữa ô tô, có nhân viên sử dụng máy quay gắn trên đầu để ghi lại toàn bộ quá trình sửa chữa ô tô. Một chủ sở hữu tòa nhà ở Thành phố New York đã triển khai một cách tiếp cận tương tự: nhân viên dọn dẹp mặc máy quay gắn trên trán để ghi lại cách họ dọn sạch không gian và duy trì các khu vực vệ sinh.

Theo thời gian, những bản ghi này trở thành một sản phẩm độc lập – chúng được đóng gói và bán. Giá trị chính của chúng nằm ở sự phù hợp của chúng cho giai đoạn tiền đào tạo, giúp xây dựng một sự hiểu biết cơ bản về môi trường và các chuỗi hành động.

Ví dụ, một dịch vụ như vậy đã tồn tại tại Keymakr, nơi đội ngũ đã tạo ra các bộ sưu tập dữ liệu egocentric từ các kịch bản đơn giản như rửa chén đến các kịch bản phức tạp hơn.

Tại sao điều này lại quan trọng? Bởi vì những dữ liệu như vậy cung cấp điều mà mô phỏng thuần túy không thể – sự đa dạng của các môi trường thực tế. Văn phòng, cửa hàng sửa chữa ô tô, công trường xây dựng, nhà hàng và khách sạn – mỗi môi trường này thêm bối cảnh, kịch bản và sắc thái riêng. Cùng nhau, chúng tạo thành một tập dữ liệu cho phép một hệ thống không chỉ “nhìn thấy” mà còn bắt đầu hiểu được động lực của thế giới thực.

Vào giai đoạn này, mục tiêu không còn là dạy một robot thực hiện một hành động cụ thể một cách hoàn hảo. Điều quan trọng hơn là cho phép nó định hướng trong môi trường xung quanh trước hết.

Ngày nay, gần như tất cả các công ty làm việc trong lĩnh vực robot – từ Tesla đến Unitree Robotics và Figure AI – đều tập trung vào giai đoạn chính xác này. Mục tiêu của họ là xây dựng một mô hình cơ bản có khả năng đầu tiên giống như của một “đứa trẻ tám tuổi”, và sau đó tiến bộ hướng tới một “đứa trẻ mười hai tuổi”. Đây cũng là điều chúng tôi tập trung vào tại Introspector – chuẩn bị dữ liệu cần thiết cho giai đoạn tiền đào tạo, giai đoạn quan trọng nhất trong “sự trưởng thành” của robot hiện đại.

Chặng Đường Cuối Cùng Của Đào Tạo: Nơi Tính Toàn Diện Kết Thúc Và Chuyên Biệt Hóa Bắt Đầu

Hãy tưởng tượng một robot đã hoàn thành giai đoạn tiền đào tạo và được sản xuất từ đầu với sự hiểu biết cơ bản về thế giới và một bộ kỹ năng tương đương với của một thiếu niên. Nhưng ngay cả điều này cũng không đủ cho các trường hợp sử dụng kinh doanh thực tế. Các công ty không cần chỉ một robot “đa năng” – họ cần một chuyên gia.

Lấy sản xuất ô tô làm ví dụ. Một số nhiệm vụ vẫn được thực hiện bởi con người vì chúng yêu cầu sự nhạy cảm, độ chính xác và kiểm soát trực quan liên tục. Tự động hóa truyền thống gặp khó khăn ở đây. Các máy móc công nghiệp giỏi trong các nhiệm vụ lặp đi lặp lại, cứng nhắc – “nhặt, di chuyển, đặt”. Nhưng các nhiệm vụ yêu cầu sự thích nghi, cảm nhận áp lực và điều chỉnh thời gian thực vẫn còn trong phạm vi của con người.

Đây là nơi một nhu cầu mới xuất hiện: đào tạo một robot để thực hiện một hoạt động cụ thể chính xác như một công nhân lành nghề trên dây chuyền sản xuất. Nói cách khác, sau đào tạo cơ bản đến giai đoạn tiếp theo: đào tạo cho một nghề và kịch bản cụ thể.

Vào thời điểm này, một câu hỏi thực tế phát sinh: chính xác thì cần gì cho cấp độ đào tạo này? Nếu chúng ta muốn một robot sao chép hiệu suất của con người, chúng ta cần phải ghi lại hành vi của con người một cách chính xác nhất có thể. Ví dụ, chuyên gia trên sàn nhà máy sẽ cần phải đeo một máy quay và, trong một thời gian dài, tháng hoặc thậm chí một năm, ghi lại cách họ thực hiện nhiệm vụ.

Điều Gì Cần Để Robot “Sống” Trong Thế Giới Con Người

Một máy quay đơn thuần không đủ. Cần phải ghi lại không chỉ góc nhìn trực quan mà còn cả vật lý của chuyển động. Điều này được thực hiện bằng cách sử dụng găng tay chuyên dụng với cảm biến xúc giác đo áp lực, lực tác dụng và bản chất của tương tác với các vật thể. Điều này đặc biệt quan trọng vì các vật thể itu có thể thay đổi đáng kể. Ví dụ, các dải niêm phong có thể khác nhau về độ cứng theo mẫu xe, điều này ảnh hưởng trực tiếp đến cách thực hiện nhiệm vụ.

Tiếp theo là theo dõi chuyển động. Các dấu hiệu – trực quan hoặc cảm biến – được đặt trên cổ tay, khuỷu tay và đôi khi trên vai. Những dấu hiệu này có thể bao gồm, ví dụ, vòng tay với dấu hiệu nhận dạng (tương tự như mã QR) cho phép hệ thống theo dõi vị trí tay trong không gian từ video. Các cảm biến bổ sung, chẳng hạn như con quay hồi chuyển, được sử dụng để ghi lại chuyển động khớp.

Mục tiêu cuối cùng là tái tạo hoàn toàn cơ học của chuyển động: cách vai di chuyển, cách khuỷu tay uốn cong, cách cổ tay xoay. Tất cả những điều này trở nên thiết yếu cho giai đoạn tiếp theo – đào tạo sau.

Nếu trong giai đoạn tiền đào tạo, chúng ta có thể vẫn phụ thuộc một phần vào mô phỏng, thì tại giai đoạn này, nó không còn hoạt động. “Chặng đường cuối cùng” này gần như không thể mô hình hóa một cách chính xác. Bạn không thể mô phỏng hoàn toàn, ví dụ, cách một đầu bếp cuộn bột – lực áp dụng, cách áp lực được phân phối, cách vật liệu được cảm nhận.

Đó là lý do tại sao, trong quá trình đào tạo sau, gần như tất cả dữ liệu phải đến từ thế giới thực. Và đây là nơi nó trở nên rõ ràng: thách thức chính chuyển sang lĩnh vực thực tế – làm thế nào để có được dữ liệu như vậy trong thực tế. Việc thu thập dữ liệu egocentric ở cấp độ này là một quá trình phức tạp, nhiều bước, liên quan đến việc tiếp cận môi trường, thiết bị chuyên dụng, sự tham gia của công nhân lành nghề và việc chuẩn bị dữ liệu sau đó.

Beyond lý thuyết, đây là nơi robot thực sự “sống” – sau khi chúng ta quản lý để tổ chức quá trình này, vượt qua các hạn chế mà các đội phải đối mặt trong các ngành công nghiệp và chú thích các tập dữ liệu như vậy với quy mô. Điều này sẽ được đề cập trong phần tiếp theo, nơi chúng ta sẽ xem xét kỹ lưỡng tất cả các thách thức phát sinh trong quá trình gắn nhãn và chuẩn bị.

Michael Abramov, Người sáng lập và CEO của Introspector

Michael Abramov là người sáng lập và CEO của Introspector, mang lại hơn 15 năm kinh nghiệm về kỹ thuật phần mềm và hệ thống trí tuệ nhân tạo tầm nhìn máy tính để xây dựng các công cụ dán nhãn cấp doanh nghiệp.

Michael bắt đầu sự nghiệp của mình với tư cách là một kỹ sư phần mềm và trưởng nhóm nghiên cứu và phát triển, xây dựng các hệ thống dữ liệu có thể mở rộng và quản lý các đội kỹ sư chức năng đa dạng. Cho đến năm 2025, ông đã giữ vị trí CEO của Keymakr, một công ty dịch vụ dán nhãn dữ liệu, nơi ông tiên phong trong các công việc vòng lặp con người, hệ thống QA tiên tiến và công cụ tùy chỉnh để hỗ trợ các nhu cầu dữ liệu tầm nhìn máy tính và tự chủ quy mô lớn.

Ông sở hữu bằng Cử nhân Khoa học Máy tính và có nền tảng về kỹ thuật và nghệ thuật sáng tạo, mang lại một ống kính đa ngành để giải quyết các vấn đề khó khăn. Michael sống tại điểm giao nhau của đổi mới công nghệ, lãnh đạo sản phẩm chiến lược và tác động thực tế, thúc đẩy tiền phong của các hệ thống tự động và tự động hóa thông minh.

Unite.AI