Lãnh đạo tư tưởng

Chi Phí Thật Sự Của Việc Đào Tạo Robot

Đã xuất bản 29 tháng 4, 2026

Đã cập nhật 16 tháng 5, 2026

Michael Abramov, Người sáng lập và CEO của Introspector

Trong phần đầu tiên, chúng tôi đã thảo luận về cách robot phát triển từ cơ bản đến hiểu môi trường xung quanh. Tại giai đoạn “dặm cuối” – khi robot trải qua đào tạo hậu kỳ cho các nhiệm vụ tùy chỉnh cụ thể – một rào cản không ngờ xuất hiện. Nó liên quan đến dữ liệu: thu thập, tổ chức và mở rộng trong điều kiện thế giới thực.

Đây chính là giai đoạn mà khoảng cách giữa khái niệm và triển khai trở nên rõ ràng nhất. Những nút thắt chính là gì và làm thế nào để vượt qua chúng với sự ma sát tối thiểu?

Tại sao hàng nghìn giờ dữ liệu trở thành năm làm việc

Hãy tưởng tượng chúng ta đã có một robot được đào tạo đã trải qua quá trình tiền đào tạo. Nó có thể điều hướng môi trường xung quanh, di chuyển, tránh chướng ngại vật và tương tác với các vật thể. Nó giống như một “đứa trẻ 10 tuổi” có khả năng hoạt động độc lập. Bước tiếp theo là dạy nó thực hiện các hành động cụ thể trong các điều kiện cụ thể, ví dụ như lắp đặt các tấm kính và dải niêm phong trên dây chuyền sản xuất ô tô.

Ban đầu, nhiệm vụ dường như đơn giản hơn. Nó liên quan đến việc掌握 một kịch bản đơn, và khối lượng dữ liệu cần thiết nhỏ hơn nhiều so với trong quá trình tiền đào tạo. Trong khi đào tạo cơ bản có thể yêu cầu hàng trăm nghìn giờ, thì đào tạo hậu kỳ có thể chỉ cần vài nghìn giờ. Nhưng những con số này là đánh lừa.

Khi chuyển đổi sang thời gian thực, quá trình tiết lộ sự phức tạp thực sự của nó. Theo lịch trình làm việc tiêu chuẩn, một người làm việc khoảng 160 giờ mỗi tháng. Tuy nhiên, điều này không có nghĩa là tất cả thời gian đó có thể được sử dụng để ghi lại.

Trong thực tế, các gián đoạn liên tục xảy ra: pin hết, máy ảnh di chuyển, cảm biến hỏng. Cấu hình thiết bị càng phức tạp, khả năng xảy ra vấn đề càng cao. Thậm chí một sự cố đơn giản như cảm biến trên găng tay ngừng hoạt động có thể dừng quá trình và dẫn đến mất thời gian.

Kết quả là tốc độ thu thập dữ liệu thực tế thấp hơn 2-3 lần. Một giờ ghi lại chất lượng cao có thể yêu cầu tới ba giờ làm việc thực tế. Điều này thay đổi hoàn toàn tính toán: 5.000 giờ dữ liệu tương đương với khoảng 15.000 giờ lao động.

Lớp chồng lên lớp phức tạp

Trong quá trình tiền đào tạo, có thể đủ để đưa cho một người một máy ảnh và yêu cầu họ ghi lại các hoạt động hàng ngày. Tuy nhiên, tại giai đoạn này, cần phải có quyền truy cập vào một môi trường cụ thể, chẳng hạn như một nhà máy, một công trường xây dựng hoặc một cơ sở sản xuất chuyên dụng.

Điều này ngay lập tức giới thiệu các hạn chế thực tế. Ví dụ, trên một công trường xây dựng, công nhân phải đeo mũ an toàn, có nghĩa là thiết bị chuyên dụng phải được phát triển: mũ với máy ảnh tích hợp có khả năng chống bụi, độ ẩm và va đập.

Then đến việc tiếp cận địa điểm itself. Các thỏa thuận phải được thực hiện với chủ sở hữu địa điểm, sự cho phép phải được lấy và các điều kiện phải được thương lượng. Điều này gần như luôn luôn liên quan đến các chi phí bổ sung: các công ty mong đợi được bồi thường, và công nhân mong đợi được trả lương cho sự tham gia.

Bảo hiểm và tuân thủ an toàn cũng trở thành các vấn đề quan trọng. Nếu thiết bị không đáp ứng các tiêu chuẩn yêu cầu, bảo hiểm có thể bị vô hiệu, buộc toàn bộ quá trình phải được cấu trúc lại.

Ngay cả ở cấp độ hoạt động hàng ngày, các thách thức vẫn tồn tại. Máy ảnh phải được bật, theo dõi và bảo trì. Công nhân hoạt động trong găng tay và điều kiện khắc nghiệt. Thiết bị trở nên bẩn, hao mòn và hỏng hóc. Một máy ảnh có thể tắt sau vài phút, và người đó có thể không thậm chí nhận ra.

Điều này tạo ra nhu cầu cho các tham gia đào tạo – họ phải hiểu cách sử dụng thiết bị. Hơn nữa, việc giám sát liên tục là cần thiết – ai đó phải đảm bảo rằng quá trình ghi lại đang diễn ra và các thiết bị đang hoạt động đúng.

Từ video thô đến dữ liệu đào tạo

Sau khi ghi lại, giai đoạn tiếp theo bắt đầu: thu thập dữ liệu, tải lên, cấu trúc, xác thực chất lượng và gắn nhãn.

Bất kỳ dữ liệu thô nào đều bao gồm video và tín hiệu cảm biến. Để chuyển nó thành tài liệu đào tạo, nó phải được cấu trúc: các đối tượng cần được xác định, các hành động được ghi lại, và các trạng thái, chuyển động và tương tác với môi trường được mô tả. Đây là nơi gắn nhãn tham gia.

Trong một số trường hợp, các hộp giới hạn đơn giản là đủ để xác định các đối tượng trong một khung hình. Trong các trường hợp khác, gắn nhãn thời gian là cần thiết để mô tả các chuỗi hành động theo thời gian. Trong các kịch bản nhất định, các điểm then chốt và mô hình xương được sử dụng để ghi lại chuyển động cơ thể. Trong các trường hợp phức tạp hơn, các lưới 3D hoặc theo dõi tư thế tay là cần thiết để đại diện chính xác cho các cơ chế tương tác. Các cảm biến bổ sung, chẳng hạn như gia tốc kế, thường được tích hợp để ghi lại động lực học chuyển động và lực áp dụng.

Các dự án như vậy cũng thường yêu cầu mở rộng đội ngũ. Gắn nhãn là một nhiệm vụ lớn và phức tạp, đòi hỏi thời gian, chuyên môn và nguồn lực nhân sự đáng kể. Đây là nơi các nhà cung cấp giải pháp dữ liệu với các đội gắn nhãn nội bộ tham gia. Chẳng hạn như Keymakr, đã chứng minh đặc biệt hiệu quả nhờ khả năng mở rộng đội ngũ để phù hợp với bất kỳ khối lượng dữ liệu nào, từ một chuyên gia đến hàng trăm người gắn nhãn.

Chưa có phương pháp đào tạo đúng

Ngành công nghiệp vẫn đang trong giai đoạn khám phá, vì không có sự đồng thuận về sự kết hợp dữ liệu nào mang lại kết quả tốt nhất. Nhiều phương pháp được xác thực theo kinh nghiệm vì chúng hoạt động trong các thí nghiệm cụ thể. Kết quả là các đội khác nhau tiếp tục dựa vào các công nghệ khác nhau, được định hình bởi kinh nghiệm, nhiệm vụ và hạn chế của họ.

Ở cả cấp độ học thuật và ứng dụng, điều này dẫn đến sự phân mảnh: các phòng thí nghiệm và công ty đang di chuyển theo các hướng khác nhau. Tình hình gợi nhớ đến những ngày đầu của lái xe tự động khi Tesla đặt cược vào một phương pháp chỉ dựa trên tầm nhìn mà không có LiDAR, trong khi hầu hết các cầu thủ khác chọn LiDAR làm cảm biến cốt lõi.

Ngày nay, các hệ thống dựa trên LiDAR có xu hướng thể hiện hiệu suất ổn định hơn, nhưng phương pháp của Tesla vẫn tiếp tục phát triển. Sự khác biệt là trong lái xe tự động, thị trường đã trưởng thành đáng kể: các kiến trúc ổn định đã xuất hiện, các hạn chế được hiểu rõ và chuyên môn đáng kể đã được tích lũy.

Ngược lại, đối với Trí tuệ nhân tạo Vật lý và đào tạo mô hình tương tự, mức độ trưởng thành này vẫn chưa được đạt đến. Thị trường vẫn đang hình thành, các tiêu chuẩn còn thiếu và nhiều tiến bộ được thúc đẩy bởi thí nghiệm. Các phương pháp mới để đào tạo mô hình, cải thiện hiệu quả và thích nghi với các kịch bản thế giới thực tiếp tục xuất hiện, gợi ý rằng những đột phá quan trọng nhất trong lĩnh vực này vẫn còn ở phía trước.

Con người như một hệ thống tăng cường

Gắn nhãn không tồn tại độc lập, cũng không chỉ dành cho mô hình. Nó phục vụ như một công cụ cho kỹ sư xây dựng mô hình đó. Thông qua nó, họ chính thức hóa thực tế, xác định các tham số chính và định nghĩa các quy tắc hành vi của hệ thống.

Nhiệm vụ của kỹ sư là dạy hệ thống thực hiện các hành động chính xác trong điều kiện thế giới thực. Ví dụ, một kịch bản cơ bản có thể bao gồm bốn hành động: nhặt một ly, bật vòi, đổ đầy và tắt vòi.

Ở thời điểm đó, mô hình được mong đợi sẽ hoàn thành kịch bản và thực hiện các hành động bổ sung: dừng dòng nước, điều chỉnh mức nước và ngăn chặn tràn. Đây là logic hành vi dựa trên sự hiểu biết ngữ cảnh.

Kỹ sư theo một chu kỳ: gắn nhãn dữ liệu, đào tạo mô hình, kiểm tra. Nếu hệ thống hoạt động, giả thuyết được xác nhận. Nếu không, phân tích bắt đầu.

Ở một thời điểm nào đó, có thể trở nên rõ ràng rằng mô hình đang thiếu một tham số quan trọng, chẳng hạn như mức độ đầy của ly. Trước đó, dữ liệu có thể đã bao gồm các chú thích cho các đối tượng (ly, vòi, tay cầm) và hành động (mở, đổ, đóng), nhưng thiếu chú thích cho trạng thái, chẳng hạn như mức độ đầy.

Một lớp mới sau đó được thêm vào quá trình: gắn nhãn mức độ đầy, tiếp theo là chính thức hóa, chẳng hạn như định nghĩa bất cứ điều gì trên 85% là một trạng thái quan trọng.

Điều này dẫn đến lần lặp tiếp theo của đào tạo. Bạn có thể có hàng trăm lần lặp như vậy.

Không ai giả định rằng hệ thống sẽ hoạt động chính xác ngay từ đầu. Ngược lại, quá trình được xây dựng xung quanh các xấp xỉ liên tiếp: đầu tiên, một phiên bản cơ sở được tạo; sau đó nó được kiểm tra trong điều kiện thực hoặc gần thực; các khoảng trống được xác định; và hệ thống được tinh chỉnh. Đây là điều mà tôi thường thảo luận với khách hàng tại Introspector, nơi chúng tôi cùng nhau đi qua toàn bộ hành trình Trí tuệ nhân tạo Vật lý.

Tại một thời điểm nhất định, kết quả mong muốn được đạt được. Nhưng giá trị của nó không chỉ nằm ở việc hệ thống bắt đầu hoạt động, mà còn ở kinh nghiệm tích lũy cho phép kết quả này được tái tạo một cách dự đoán hơn.

Kinh tế mà mọi người quên

Trong hơn một năm qua, tôi đã nhận thấy rằng sai lầm lớn nhất mà các công ty mắc phải khi làm việc với dữ liệu egocentric có rất ít liên quan đến công nghệ.

Vấn đề cốt lõi thực sự là ở việc đánh giá thấp kinh tế dự án.

Ở giai đoạn ý tưởng, công nghệ là trung tâm – những mô hình nào được sử dụng, cách đào tạo chúng và những phương pháp nào được áp dụng. Bạn nghiên cứu, nghiên cứu, thảo luận về kiến trúc và kiểm tra các giả thuyết. Điều này là tự nhiên: công nghệ cảm thấy như phần dễ tiếp cận nhất của vấn đề.

Tuy nhiên, ít hơn ở giai đoạn này, các đội hỏi một câu hỏi trực tiếp và thực tế: chi phí sẽ là bao nhiêu?

Khi một dự án chuyển từ lý thuyết sang triển khai, nó trở nên rõ ràng rằng sau mỗi mô hình là hàng chục nghìn giờ dữ liệu. Việc thu thập dữ liệu này đòi hỏi thời gian, quyền truy cập vào môi trường thực và sự tham gia của các chuyên gia. Gắn nhãn thêm một lớp phức tạp và chi phí khác. Kết quả là các con số cuối cùng thường cao hơn nhiều so với dự kiến ban đầu.

Điều này không có nghĩa là những dự án như vậy không nên được theo đuổi. Ngược lại, chúng là những gì thúc đẩy ngành công nghiệp tiến về phía trước.

Điều quan trọng là hiểu quy mô của thách thức từ rất đầu tiên. Nhận ra rằng trong đào tạo mô hình, sau mỗi thuật toán tuyệt vời là công việc dữ liệu phức tạp và đòi hỏi nhiều tài nguyên.

Ngay cả những ý tưởng mạnh mẽ cũng không thể đạt được triển khai đầy đủ khi chi phí dữ liệu bắt đầu tăng cao hơn nhiều so với bảy con số.

Và có lẽ sự thay đổi quan trọng nhất đang xảy ra trong lĩnh vực robot ngày nay gắn liền với sự nhận thức này. Tương lai của những hệ thống này sẽ được định nghĩa bởi mức độ “thông minh” của chúng và bởi cách toàn bộ đường ống dữ liệu được xây dựng một cách hiệu quả và chính xác – từ thu thập dữ liệu đến diễn giải cuối cùng.

Michael Abramov, Người sáng lập và CEO của Introspector

Michael Abramov là người sáng lập và CEO của Introspector, mang lại hơn 15 năm kinh nghiệm về kỹ thuật phần mềm và hệ thống trí tuệ nhân tạo tầm nhìn máy tính để xây dựng các công cụ dán nhãn cấp doanh nghiệp.

Michael bắt đầu sự nghiệp của mình với tư cách là một kỹ sư phần mềm và trưởng nhóm nghiên cứu và phát triển, xây dựng các hệ thống dữ liệu có thể mở rộng và quản lý các đội kỹ sư chức năng đa dạng. Cho đến năm 2025, ông đã giữ vị trí CEO của Keymakr, một công ty dịch vụ dán nhãn dữ liệu, nơi ông tiên phong trong các công việc vòng lặp con người, hệ thống QA tiên tiến và công cụ tùy chỉnh để hỗ trợ các nhu cầu dữ liệu tầm nhìn máy tính và tự chủ quy mô lớn.

Ông sở hữu bằng Cử nhân Khoa học Máy tính và có nền tảng về kỹ thuật và nghệ thuật sáng tạo, mang lại một ống kính đa ngành để giải quyết các vấn đề khó khăn. Michael sống tại điểm giao nhau của đổi mới công nghệ, lãnh đạo sản phẩm chiến lược và tác động thực tế, thúc đẩy tiền phong của các hệ thống tự động và tự động hóa thông minh.

Unite.AI