Connect with us

Lãnh đạo tư tưởng

Chi Phí Thật Sự Của Việc Đào Tạo Robot

mm

Trong phần đầu tiên, chúng tôi đã thảo luận về cách robot phát triển từ cơ bản đến hiểu môi trường xung quanh. Tại giai đoạn “dặm cuối” – khi robot trải qua quá trình đào tạo sau để thực hiện các nhiệm vụ tùy chỉnh cụ thể – một rào cản không lường trước xuất hiện. Nó liên quan đến dữ liệu: thu thập, tổ chức và mở rộng trong điều kiện thế giới thực.

Đúng tại giai đoạn này, khoảng cách giữa khái niệm và thực hiện trở nên rõ ràng nhất. Những điểm nghẽn chính là gì và làm thế nào để vượt qua chúng với sự ma sát tối thiểu?

Tại sao hàng nghìn giờ dữ liệu trở thành nhiều năm làm việc

Vậy hãy tưởng tượng chúng tôi đã có một robot được đào tạo đã trải qua quá trình tiền đào tạo. Nó có thể điều hướng môi trường xung quanh, di chuyển, tránh chướng ngại vật và tương tác với các vật thể. Nó giống như một “đứa trẻ 10 tuổi” có khả năng hành động độc lập. Bước tiếp theo là dạy nó thực hiện các hành động cụ thể trong điều kiện cụ thể, ví dụ như lắp đặt các tấm kính và dải niêm phong trên dây chuyền sản xuất ô tô.

Ban đầu, nhiệm vụ dường như đơn giản hơn. Nó liên quan đến việc掌握 một kịch bản duy nhất và khối lượng dữ liệu cần thiết nhỏ hơn nhiều so với trong quá trình đào tạo trước. Trong khi đào tạo cơ bản có thể yêu cầu hàng trăm nghìn giờ, thì đào tạo sau có thể chỉ mất vài nghìn giờ. Nhưng những con số này là lừa dối.

Khi được dịch sang thời gian thực, quá trình tiết lộ sự phức tạp thực sự của nó. Theo lịch trình làm việc tiêu chuẩn, một người làm việc khoảng 160 giờ mỗi tháng. Tuy nhiên, điều này không có nghĩa là tất cả thời gian đó có thể được sử dụng để ghi lại.

Trong thực tế, gián đoạn liên tục xảy ra: pin hết, máy ảnh dịch chuyển, cảm biến hỏng. Cấu hình thiết bị càng phức tạp, khả năng xảy ra vấn đề càng cao. Thậm chí một sự cố đơn giản như cảm biến trên găng tay ngừng hoạt động có thể làm gián đoạn quá trình và dẫn đến mất thời gian.

Kết quả là tốc độ thu thập dữ liệu thực tế thấp hơn 2-3 lần. Một giờ ghi lại chất lượng cao có thể yêu cầu tới ba giờ làm việc thực tế. Điều này thay đổi hoàn toàn cách tính toán: 5.000 giờ dữ liệu tương đương với khoảng 15.000 giờ lao động.

Lớp chồng lớp phức tạp

Trong quá trình đào tạo trước, có thể đủ để đưa cho một người một máy ảnh và yêu cầu họ ghi lại các hoạt động hàng ngày. Tuy nhiên, tại giai đoạn này, cần có quyền truy cập vào một môi trường cụ thể, chẳng hạn như một nhà máy, một công trường xây dựng hoặc một cơ sở sản xuất chuyên dụng.

Điều này ngay lập tức giới thiệu các hạn chế thực tế. Ví dụ, tại một công trường xây dựng, công nhân phải đeo mũ bảo hiểm, có nghĩa là thiết bị chuyên dụng phải được phát triển: mũ bảo hiểm tích hợp máy ảnh có khả năng chống bụi, độ ẩm và va đập.

Sau đó là việc tiếp cận trang web chính nó. Các thỏa thuận phải được thực hiện với chủ sở hữu trang web, sự cho phép phải được lấy và điều kiện phải được đàm phán. Điều này gần như luôn luôn liên quan đến chi phí bổ sung: các công ty mong đợi bồi thường và công nhân mong đợi được trả tiền cho sự tham gia.

Bảo hiểm và tuân thủ an toàn cũng trở thành những vấn đề quan trọng. Nếu thiết bị không đáp ứng các tiêu chuẩn yêu cầu, bảo hiểm có thể bị hủy bỏ, buộc toàn bộ quá trình phải được cấu trúc lại.

Thậm chí ở cấp độ hoạt động hàng ngày, thách thức vẫn còn. Máy ảnh phải được bật, giám sát và bảo trì. Công nhân hoạt động trong găng tay và điều kiện khắc nghiệt. Thiết bị bị bẩn, mòn và hỏng hóc. Một máy ảnh có thể tắt sau vài phút và người đó thậm chí không nhận ra.

Điều này tạo ra nhu cầu cho các tham gia đào tạo họ – họ phải hiểu cách sử dụng thiết bị. Hơn nữa, việc giám sát liên tục là cần thiết – ai đó phải đảm bảo rằng quá trình ghi lại đang diễn ra và các thiết bị đang hoạt động đúng.

Từ video thô đến dữ liệu đào tạo

Sau khi ghi lại, giai đoạn tiếp theo bắt đầu: thu thập dữ liệu, tải lên, cấu trúc, xác thực chất lượng và gán nhãn.

Bất kỳ dữ liệu thô nào đều bao gồm video và tín hiệu cảm biến. Để biến nó thành tài liệu đào tạo, nó phải được cấu trúc: các vật thể cần được xác định, các hành động được ghi lại và các trạng thái, chuyển động và tương tác với môi trường được mô tả. Đây là nơi mà chú thích xuất hiện. Một câu hỏi hợp lý xuất hiện – tiêu chuẩn vàng cho một quy trình chú thích như vậy là gì?

Trong một số trường hợp, các hộp giới hạn đơn giản đủ để xác định các vật thể trong một khung hình. Trong các trường hợp khác, chú thích thời gian là cần thiết để mô tả các chuỗi hành động theo thời gian. Trong một số kịch bản nhất định, các điểm chính và mô hình xương được sử dụng để ghi lại chuyển động cơ thể. Trong các trường hợp phức tạp hơn, các lưới 3D hoặc theo dõi tư thế tay được sử dụng để đại diện chính xác cho các cơ chế tương tác. Các cảm biến bổ sung, chẳng hạn như gia tốc kế, thường được tích hợp để ghi lại động lực học chuyển động và lực áp dụng.

Các dự án như vậy cũng thường yêu cầu mở rộng đội ngũ. Gán nhãn là một nhiệm vụ lớn và phức tạp, đòi hỏi thời gian, chuyên môn và nguồn lực nhân sự đáng kể. Đây là nơi các nhà cung cấp giải pháp dữ liệu với các đội chú thích nội bộ tham gia, chẳng hạn như Keymakr, đã chứng minh hiệu quả đặc biệt nhờ khả năng mở rộng đội ngũ để phù hợp với bất kỳ khối lượng dữ liệu nào, từ một chuyên gia đến hàng trăm người chú thích.

Không có cách tiếp cận đúng để đào tạo

Ngành công nghiệp vẫn đang trong giai đoạn khám phá, vì không có sự đồng thuận về sự kết hợp dữ liệu nào mang lại kết quả tốt nhất. Nhiều phương pháp được xác thực một cách thực nghiệm vì chúng hoạt động trong các thí nghiệm cụ thể. Kết quả là, các đội khác nhau tiếp tục dựa vào các công nghệ khác nhau, được định hình bởi kinh nghiệm, nhiệm vụ và hạn chế của riêng họ.

Tại cả cấp độ học thuật và ứng dụng, điều này dẫn đến sự phân mảnh: các phòng thí nghiệm và công ty đang di chuyển theo các hướng khác nhau. Tình hình giống như những ngày đầu của lái xe tự động khi Tesla đặt cược vào một phương pháp chỉ dựa trên tầm nhìn mà không có LiDAR, trong khi hầu hết các cầu thủ khác chọn LiDAR làm cảm biến cốt lõi.

Ngày nay, các hệ thống dựa trên LiDAR có xu hướng thể hiện hiệu suất ổn định hơn, nhưng phương pháp của Tesla vẫn tiếp tục phát triển. Sự khác biệt là trong lái xe tự động, thị trường đã trưởng thành đáng kể: các kiến trúc ổn định đã xuất hiện, các hạn chế được hiểu rõ và chuyên môn đáng kể đã được tích lũy.

Ngược lại, đối với Trí tuệ Vật lý và đào tạo mô hình tương tự, mức độ trưởng thành này vẫn chưa được đạt đến. Thị trường vẫn đang hình thành, các tiêu chuẩn còn thiếu và nhiều tiến bộ được thúc đẩy bởi thí nghiệm. Các phương pháp mới để đào tạo mô hình, cải thiện hiệu quả và thích nghi với các kịch bản thế giới thực tiếp tục xuất hiện, cho thấy rằng những đột phá quan trọng nhất trong lĩnh vực này vẫn còn ở phía trước.

Con người như một hệ thống tăng cường

Gán nhãn không tồn tại độc lập, cũng không chỉ dành cho mô hình. Nó phục vụ như một công cụ cho kỹ sư xây dựng mô hình đó.

Nhiệm vụ của kỹ sư là dạy hệ thống thực hiện các hành động chính xác trong điều kiện thế giới thực. Ví dụ, một kịch bản cơ bản có thể bao gồm bốn hành động: nhặt một ly, bật vòi, đổ đầy và tắt vòi. Nhưng trong thực tế, một sự偏差 xảy ra – ly tràn.

Tại thời điểm đó, mô hình được kỳ vọng sẽ hoàn thành kịch bản và thực hiện các hành động bổ sung: dừng dòng nước, điều chỉnh mức nước và ngăn chặn tràn. Đây là logic hành vi dựa trên sự hiểu biết ngữ cảnh.

Kỹ sư theo một chu kỳ: chú thích dữ liệu, đào tạo mô hình, kiểm tra nó. Nếu hệ thống hoạt động, giả thuyết được xác nhận. Nếu không, phân tích bắt đầu.

Tại một thời điểm, có thể trở nên rõ ràng rằng mô hình đang thiếu một tham số quan trọng, chẳng hạn như mức độ đầy của ly. Trước đó, dữ liệu có thể đã bao gồm chú thích cho các vật thể (ly, vòi, tay cầm) và hành động (mở, đổ, đóng), nhưng thiếu chú thích cho trạng thái, chẳng hạn như mức độ đầy.

Một lớp mới sau đó được thêm vào quá trình: chú thích mức độ đầy, tiếp theo là hình thức hóa, ví dụ, định nghĩa bất cứ điều gì trên 85% là một trạng thái quan trọng.

Điều này dẫn đến sự lặp lại tiếp theo của đào tạo. Bạn có thể có hàng trăm sự lặp lại như vậy.

Không ai giả định hệ thống sẽ hoạt động chính xác ngay từ đầu. Ngược lại, quá trình được xây dựng xung quanh các xấp xỉ liên tiếp: đầu tiên, một phiên bản cơ bản được tạo; sau đó nó được kiểm tra trong điều kiện thực tế hoặc gần thực tế; các khoảng trống được xác định; và hệ thống được tinh chỉnh. Đây là điều mà tôi thường thảo luận với khách hàng tại Introspector, với những người chúng tôi đi qua toàn bộ hành trình Trí tuệ Vật lý cùng nhau.

Tại một thời điểm nhất định, kết quả mong muốn được đạt được. Nhưng giá trị của nó không chỉ nằm ở việc hệ thống bắt đầu hoạt động, mà còn ở kinh nghiệm tích lũy cho phép kết quả này được tái tạo một cách dự đoán hơn.

Có một sai lầm kinh tế mà mọi người quên

Trong hơn một năm qua, tôi đã nhận thấy rằng sai lầm lớn nhất mà các công ty mắc phải khi làm việc với dữ liệu egocentric có rất ít liên quan đến công nghệ.

Vấn đề cốt lõi thực sự là việc đánh giá thấp kinh tế của dự án.

Tại giai đoạn ý tưởng, công nghệ là trung tâm – những mô hình nào được sử dụng, làm thế nào để đào tạo chúng và những phương pháp nào được áp dụng. Bạn nghiên cứu, nghiên cứu, thảo luận về kiến trúc và kiểm tra các giả thuyết. Điều này là tự nhiên: công nghệ cảm thấy như phần dễ tiếp cận nhất và rõ ràng nhất của vấn đề.

Nhưng ít hơn nhiều tại giai đoạn này, các nhóm đặt ra một câu hỏi trực tiếp và thực tế: nó sẽ tốn bao nhiêu tiền?

Khi một dự án chuyển từ lý thuyết sang thực hiện, nó trở nên rõ ràng rằng sau mỗi mô hình là hàng chục nghìn giờ dữ liệu. Việc thu thập dữ liệu này đòi hỏi thời gian, quyền truy cập vào môi trường thực tế và sự tham gia của các chuyên gia. Gán nhãn thêm một lớp phức tạp và chi phí khác. Kết quả là các con số cuối cùng thường cao hơn nhiều so với dự kiến ban đầu.

Điều này không có nghĩa là những dự án như vậy không nên được theo đuổi. Ngược lại, chúng là những gì thúc đẩy ngành công nghiệp tiến về phía trước.

Nhưng điều quan trọng là hiểu quy mô của thách thức ngay từ đầu. Nhận ra rằng trong đào tạo mô hình, sau mỗi thuật toán tuyệt vời là công việc dữ liệu phức tạp và đòi hỏi nhiều tài nguyên.

Thậm chí những ý tưởng mạnh mẽ nhất cũng không thể đạt được thực hiện đầy đủ khi chi phí dữ liệu bắt đầu tăng cao hơn nhiều so với bảy con số.

Và có lẽ sự thay đổi quan trọng nhất đang xảy ra trong lĩnh vực robot ngày nay liên quan đến sự nhận thức này. Tương lai của những hệ thống này sẽ được định nghĩa bởi mức độ “thông minh” của chúng và bởi sự hiệu quả và chính xác mà toàn bộ đường ống dữ liệu được xây dựng – từ thu thập dữ liệu đến giải thích cuối cùng.

Michael Abramov là người sáng lập & CEO của Introspector, mang lại hơn 15+ năm kinh nghiệm về kỹ thuật phần mềm và hệ thống trí tuệ nhân tạo tầm nhìn máy tính để xây dựng các công cụ gắn nhãn cấp doanh nghiệp.

Michael bắt đầu sự nghiệp của mình với tư cách là một kỹ sư phần mềm và trưởng bộ phận N&D, xây dựng các hệ thống dữ liệu có khả năng mở rộng và quản lý các đội kỹ thuật đa chức năng. Cho đến năm 2025, ông đã từng là CEO của Keymakr, một công ty dịch vụ gắn nhãn dữ liệu, nơi ông đã tiên phong trong các công việc vòng lặp con người, hệ thống QA tiên tiến và công cụ tùy chỉnh để hỗ trợ các nhu cầu dữ liệu tầm nhìn máy tính và tự chủ quy mô lớn.

Ông nắm giữ bằng Cử nhân Khoa học Máy tính và có nền tảng về kỹ thuật và nghệ thuật sáng tạo, mang lại một ống kính đa ngành để giải quyết các vấn đề khó khăn. Michael sống tại điểm giao nhau của đổi mới công nghệ, lãnh đạo sản phẩm chiến lược và tác động thế giới thực, thúc đẩy tiền phong của các hệ thống tự động và tự động hóa thông minh.