sơ khai Học liên kết là gì? - Đoàn kết.AI
Kết nối với chúng tôi
Lớp học AI:

AI 101

Học liên kết là gì?

mm
cập nhật on

Học liên kết là gì?

Phương pháp đào tạo mô hình AI truyền thống bao gồm việc thiết lập các máy chủ nơi các mô hình được đào tạo về dữ liệu, thường thông qua việc sử dụng nền tảng điện toán dựa trên đám mây. Tuy nhiên, trong vài năm qua, một hình thức tạo mô hình thay thế đã xuất hiện, được gọi là học tập liên kết. Học liên tục đưa các mô hình học máy đến nguồn dữ liệu thay vì đưa dữ liệu vào mô hình. Học tập liên kết liên kết nhiều thiết bị tính toán với nhau thành một hệ thống phi tập trung cho phép các thiết bị riêng lẻ thu thập dữ liệu hỗ trợ đào tạo mô hình.

Trong một hệ thống học tập được liên kết, các thiết bị khác nhau là một phần của mạng học tập, mỗi thiết bị đều có một bản sao của mô hình trên thiết bị. Các thiết bị/máy khách khác nhau đào tạo bản sao mô hình của riêng họ sử dụng dữ liệu cục bộ của máy khách, sau đó các tham số/trọng số từ các mô hình riêng lẻ được gửi đến một thiết bị chính hoặc máy chủ, tổng hợp các tham số và cập nhật mô hình toàn cầu. Quá trình đào tạo này sau đó có thể được lặp lại cho đến khi đạt được mức độ chính xác mong muốn. Nói tóm lại, ý tưởng đằng sau việc học liên kết là không có dữ liệu đào tạo nào được truyền giữa các thiết bị hoặc giữa các bên, chỉ có các bản cập nhật liên quan đến mô hình.

Học tập liên kết có thể được chia thành ba bước hoặc giai đoạn khác nhau. Học tập liên kết thường bắt đầu với một mô hình chung hoạt động như một đường cơ sở và được đào tạo trên một máy chủ trung tâm. Trong bước đầu tiên, mô hình chung này được gửi đến các máy khách của ứng dụng. Các bản sao cục bộ này sau đó được đào tạo dựa trên dữ liệu do hệ thống máy khách tạo ra, học hỏi và cải thiện hiệu suất của chúng.

Trong bước thứ hai, tất cả các máy khách đều gửi các tham số mô hình đã học của họ đến máy chủ trung tâm. Điều này xảy ra định kỳ, theo một lịch trình đã định.

Trong bước thứ ba, máy chủ tổng hợp các tham số đã học khi nhận được chúng. Sau khi các tham số được tổng hợp, mô hình trung tâm được cập nhật và chia sẻ lại với khách hàng. Toàn bộ quá trình sau đó lặp lại.

Sản phẩm lợi ích của việc có một bản sao của mô hình trên các thiết bị khác nhau là độ trễ mạng được giảm hoặc loại bỏ. Các chi phí liên quan đến việc chia sẻ dữ liệu với máy chủ cũng được loại bỏ. Các lợi ích khác của phương pháp học liên kết bao gồm thực tế là các mô hình học liên kết được bảo vệ quyền riêng tư và các phản hồi của mô hình được cá nhân hóa cho người dùng thiết bị.

Ví dụ về mô hình học liên kết bao gồm công cụ đề xuất, mô hình phát hiện gian lận và mô hình y tế. Các công cụ đề xuất phương tiện, thuộc loại được sử dụng bởi Netflix hoặc Amazon, có thể được đào tạo dựa trên dữ liệu được thu thập từ hàng nghìn người dùng. Các thiết bị khách sẽ đào tạo các mô hình riêng biệt của chúng và mô hình trung tâm sẽ học cách đưa ra dự đoán tốt hơn, mặc dù các điểm dữ liệu riêng lẻ sẽ là duy nhất cho những người dùng khác nhau. Tương tự, các mô hình phát hiện gian lận được các ngân hàng sử dụng có thể được đào tạo dựa trên các mẫu hoạt động từ nhiều thiết bị khác nhau và một số ngân hàng khác nhau có thể hợp tác để đào tạo một mô hình chung. Về mô hình học tập liên kết y tế, nhiều bệnh viện có thể hợp tác để đào tạo một mô hình chung có thể nhận ra các khối u tiềm ẩn thông qua quét y tế.

Các loại học tập liên kết

Lược đồ học tập liên kết thường rơi vào một trong hai lớp khác nhau: hệ thống đa đảng và hệ thống độc đảng. Các hệ thống học tập liên kết một bên được gọi là “một bên” vì chỉ một thực thể duy nhất chịu trách nhiệm giám sát việc thu thập và truyền dữ liệu trên tất cả các thiết bị khách trong mạng học tập. Các mô hình tồn tại trên thiết bị khách được đào tạo trên dữ liệu có cùng cấu trúc, mặc dù các điểm dữ liệu thường là duy nhất cho những người dùng và thiết bị khác nhau.

Trái ngược với hệ thống đơn đảng, hệ thống đa đảng được quản lý bởi hai hoặc nhiều thực thể. Các thực thể này hợp tác để đào tạo một mô hình dùng chung bằng cách sử dụng các thiết bị và bộ dữ liệu khác nhau mà họ có quyền truy cập. Các thông số và cấu trúc dữ liệu thường giống nhau trên các thiết bị thuộc nhiều thực thể, nhưng chúng không nhất thiết phải hoàn toàn giống nhau. Thay vào đó, tiền xử lý được thực hiện để chuẩn hóa đầu vào của mô hình. Một thực thể trung lập có thể được sử dụng để tổng hợp các trọng số được thiết lập bởi các thiết bị duy nhất cho các thực thể khác nhau.

Khung cho học tập liên kết

Các khung phổ biến được sử dụng cho học tập liên kết bao gồm Tensorflow liên kết, Công cụ hỗ trợ công nghệ AI liên kết (FATE) Bình yên. PySyft là một thư viện học tập liên kết mã nguồn mở dựa trên thư viện học sâu PyTorch. PySyft nhằm đảm bảo việc học sâu an toàn, riêng tư trên các máy chủ và tác nhân sử dụng tính toán được mã hóa. Trong khi đó, Tensorflow Federated là một framework mã nguồn mở khác được xây dựng trên nền tảng Tensorflow của Google. Ngoài việc cho phép người dùng tạo các thuật toán của riêng họ, Tensorflow Federated cho phép người dùng mô phỏng một số thuật toán học liên kết đi kèm trên các mô hình và dữ liệu của riêng họ. Cuối cùng, FATE cũng là khung mã nguồn mở do Webank AI thiết kế và nó nhằm mục đích cung cấp cho hệ sinh thái AI được Liên kết một khung điện toán an toàn.

Thử thách học tập liên kết

Vì học tập liên kết vẫn còn khá non trẻ, một số thách thức vẫn phải được đàm phán để nó đạt được tiềm năng đầy đủ của nó. Khả năng đào tạo của các thiết bị cạnh, ghi nhãn và tiêu chuẩn hóa dữ liệu cũng như hội tụ mô hình là những rào cản tiềm ẩn đối với các phương pháp học tập liên kết.

Khả năng tính toán của các thiết bị biên, khi nói đến đào tạo cục bộ, cần được xem xét khi thiết kế các phương pháp học liên kết. Mặc dù hầu hết điện thoại thông minh, máy tính bảng và các thiết bị tương thích IoT khác đều có khả năng đào tạo các mô hình máy học, nhưng điều này thường cản trở hiệu suất của thiết bị. Thỏa hiệp sẽ phải được thực hiện giữa độ chính xác của mô hình và hiệu suất của thiết bị.

Ghi nhãn và chuẩn hóa dữ liệu là một thách thức khác mà các hệ thống học tập liên kết phải vượt qua. Các mô hình học tập có giám sát yêu cầu dữ liệu đào tạo được gắn nhãn rõ ràng và nhất quán, điều này có thể khó thực hiện trên nhiều thiết bị khách là một phần của hệ thống. Vì lý do này, điều quan trọng là phải phát triển các đường dẫn dữ liệu mô hình tự động áp dụng các nhãn theo cách được tiêu chuẩn hóa dựa trên các sự kiện và hành động của người dùng.

Thời gian hội tụ mô hình là một thách thức khác đối với học liên kết, vì các mô hình học liên kết thường mất nhiều thời gian hơn để hội tụ so với các mô hình được đào tạo cục bộ. Số lượng thiết bị tham gia vào quá trình đào tạo thêm một yếu tố không thể đoán trước vào quá trình đào tạo mô hình, vì các sự cố kết nối, cập nhật không thường xuyên và thậm chí thời gian sử dụng ứng dụng khác nhau có thể góp phần làm tăng thời gian hội tụ và giảm độ tin cậy. Vì lý do này, các giải pháp học tập liên kết thường hữu ích nhất khi chúng mang lại những lợi thế có ý nghĩa so với việc đào tạo một mô hình tập trung, chẳng hạn như các trường hợp trong đó tập dữ liệu cực lớn và phân tán.

Ảnh: Jeromemetronome qua Wikimedia Commons, CC By SA 4.0 (https://en.wikipedia.org/wiki/File:Federated_learning_ process_central_case.png)

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.