sơ khai Rô-bốt có thể học các nhiệm vụ phức tạp từ vài lần trình diễn - Unite.AI
Kết nối với chúng tôi

Robotics

Rô bốt có thể học các nhiệm vụ phức tạp từ một vài cuộc biểu tình

cập nhật on

Trong một trong những bước phát triển mới nhất trong lĩnh vực rô-bốt, các nhà nghiên cứu tại Đại học Nam California (USC) đã phát triển một hệ thống mà rô-bốt có thể học các nhiệm vụ phức tạp mà không cần trình diễn. Thậm chí ấn tượng hơn, một số cuộc biểu tình có thể không hoàn hảo.

Nghiên cứu đã được trình bày tại Hội nghị về Học tập Robot (CoRL) vào ngày 18 tháng XNUMX, có tiêu đề “Học hỏi từ các cuộc biểu tình bằng cách sử dụng logic tín hiệu tạm thời.”

Hệ thống

Chất lượng của mỗi cuộc trình diễn được đo lường để hệ thống có thể học hỏi từ những thành công và thất bại của nó. Không giống như các phương pháp hiện tại, yêu cầu ít nhất 100 cuộc biểu tình để dạy một nhiệm vụ cụ thể, hệ thống mới chỉ yêu cầu một vài cuộc biểu tình. Nói một cách trực quan, cách những robot này học hỏi tương tự như cách con người học hỏi lẫn nhau. Ví dụ, con người xem và học hỏi từ những người khác hoàn thành nhiệm vụ thành công hoặc không hoàn hảo.

Aniruddh Puranic là tác giả chính của nghiên cứu và là tiến sĩ. sinh viên ngành khoa học máy tính tại Trường Kỹ thuật USC Viterbi.

Puranic cho biết: “Nhiều hệ thống học máy và học tăng cường yêu cầu lượng lớn dữ liệu và hàng trăm minh họa – bạn cần một con người để minh họa nhiều lần, điều này là không khả thi”.

Ông tiếp tục: “Hầu hết mọi người không có kiến ​​thức lập trình để nói rõ ràng những gì rô-bốt cần làm và con người không thể chứng minh mọi thứ mà rô-bốt cần biết. “Điều gì sẽ xảy ra nếu robot gặp phải thứ gì đó mà nó chưa từng thấy trước đây? Đây là một thách thức quan trọng.”

Các nhà nghiên cứu đã sử dụng “logic tín hiệu theo thời gian” hoặc STL để xác định chất lượng của các cuộc biểu tình, xếp hạng chúng cho phù hợp và tạo ra phần thưởng vốn có.

Có hai lý do chính khiến các nhà nghiên cứu quyết định chọn STL:

  1. Bằng cách học thông qua các cuộc trình diễn, rô-bốt có thể nhận ra những điểm không hoàn hảo hoặc thậm chí là những hành vi không an toàn và hành động không mong muốn.
  2. Các bản trình diễn có thể khác nhau về chất lượng tùy thuộc vào người dùng cung cấp chúng và một số bản trình diễn là chỉ báo tốt hơn về hành vi mong muốn so với các bản trình diễn khác.

Bằng cách phát triển hệ thống theo cách này, robot vẫn có thể học hỏi từ các phần trình diễn không hoàn hảo, ngay cả khi chúng không đáp ứng các yêu cầu logic. Nói cách khác, nó tự đưa ra kết luận về độ chính xác hoặc thành công.

Stefanos Nikolaidis là đồng tác giả và là trợ lý giáo sư khoa học máy tính của USC Viterbi.

“Giả sử rô-bốt học hỏi từ các loại trình diễn khác nhau – đó có thể là trình diễn thực hành, video hoặc mô phỏng – nếu tôi làm điều gì đó rất không an toàn, các phương pháp tiếp cận tiêu chuẩn sẽ thực hiện một trong hai điều sau: hoặc là chúng sẽ hoàn toàn bỏ qua điều đó , hoặc thậm chí tệ hơn, robot sẽ học sai,” Nikolaidis nói.

“Ngược lại, theo một cách rất thông minh, tác phẩm này sử dụng một số suy luận thông thường dưới dạng logic để hiểu phần nào của bản trình diễn là tốt và phần nào không,” anh ấy tiếp tục. “Về bản chất, đây chính xác là điều mà con người cũng làm.”

Tín hiệu thời gian logic

Rô-bốt có thể suy luận về kết quả hiện tại và tương lai thông qua STL, một ngôn ngữ ký hiệu toán học biểu cảm. Trước đây với STL, nghiên cứu dựa trên “logic thời gian tuyến tính”.

Jyo Deshmukh là cựu kỹ sư Toyota và trợ lý giáo sư khoa học máy tính tại USC.

“Khi chúng ta đi vào thế giới của các hệ thống vật lý mạng, như rô-bốt và ô tô tự lái, nơi mà thời gian là rất quan trọng, logic thời gian tuyến tính trở nên hơi cồng kềnh, bởi vì nó suy luận về chuỗi giá trị đúng/sai cho các biến, trong khi STL cho phép suy luận về tín hiệu vật lý,” Deshmukh nói.

Nhóm các nhà nghiên cứu đã rất ngạc nhiên trước mức độ thành công của hệ thống.

Nikolaidis nói: “So với một thuật toán tiên tiến nhất, được sử dụng rộng rãi trong các ứng dụng rô-bốt, bạn sẽ thấy mức độ khác biệt lớn về số lượng trình diễn được yêu cầu.

Theo các nhà nghiên cứu, các hệ thống có thể học hỏi từ các trình mô phỏng lái xe và cuối cùng là video. Bước tiếp theo là thử nghiệm nó trên rô bốt thực, vì thử nghiệm ban đầu được thực hiện trên trình giả lập trò chơi. Hệ thống này sẽ hữu ích cho các ứng dụng như trong môi trường gia đình, nhà kho và xe thám hiểm không gian.

Nikolaidis nói: “Nếu chúng ta muốn robot trở thành đồng đội tốt và giúp đỡ mọi người, trước tiên chúng cần học và thích nghi với sở thích của con người một cách hiệu quả. “Phương pháp của chúng tôi cung cấp điều đó.”

Alex McFarland là một nhà báo và nhà văn về AI đang khám phá những phát triển mới nhất về trí tuệ nhân tạo. Anh ấy đã cộng tác với nhiều công ty khởi nghiệp và ấn phẩm về AI trên toàn thế giới.