sơ khai Xu hướng sẽ giết chết chiến lược AI/ML của bạn như thế nào và phải làm gì với nó - Unite.AI
Kết nối với chúng tôi

Lãnh đạo tư tưởng

Xu hướng sẽ giết chết chiến lược AI/ML của bạn như thế nào và phải làm gì với nó

mm

Được phát hành

 on

'Độ lệch' trong bất kỳ loại mô hình nào đều mô tả tình huống trong đó mô hình phản hồi không chính xác với lời nhắc hoặc dữ liệu đầu vào vì mô hình chưa được đào tạo với đủ dữ liệu đa dạng, chất lượng cao để đưa ra phản hồi chính xác. Một ví dụ sẽ là Tính năng mở khóa điện thoại nhận dạng khuôn mặt của Apple, tỷ lệ thất bại cao hơn đáng kể đối với những người có nước da sẫm màu hơn so với những người có tông màu sáng hơn. Người mẫu chưa được đào tạo về đủ hình ảnh về những người có làn da sẫm màu. Đây là một ví dụ sai lệch có rủi ro tương đối thấp nhưng chính xác là lý do tại sao Đạo luật AI của EU đưa ra các yêu cầu để chứng minh tính hiệu quả (và các biện pháp kiểm soát) của mô hình trước khi đưa ra thị trường. Các mô hình có kết quả đầu ra tác động đến tình hình kinh doanh, tài chính, sức khỏe hoặc cá nhân phải được tin cậy, nếu không chúng sẽ không được sử dụng.

Giải quyết sự thiên vị bằng dữ liệu

Khối lượng lớn dữ liệu chất lượng cao

Trong số nhiều phương pháp quản lý dữ liệu quan trọng, Thành phần quan trọng để khắc phục và giảm thiểu sai lệch trong các mô hình AI/ML là thu được khối lượng lớn dữ liệu đa dạng, chất lượng cao. Điều này đòi hỏi sự cộng tác với nhiều tổ chức có dữ liệu đó. Theo truyền thống, việc thu thập và cộng tác dữ liệu bị thách thức bởi các vấn đề về quyền riêng tư và/hoặc bảo vệ IP – dữ liệu nhạy cảm không thể được gửi đến chủ sở hữu mô hình và chủ sở hữu mô hình không thể mạo hiểm rò rỉ IP của họ cho chủ sở hữu dữ liệu. Một cách giải quyết phổ biến là làm việc với dữ liệu mô phỏng hoặc tổng hợp, điều này có thể hữu ích nhưng cũng có những hạn chế so với việc sử dụng dữ liệu thực, toàn ngữ cảnh. Đây là nơi các công nghệ nâng cao quyền riêng tư (PET) cung cấp những câu trả lời rất cần thiết.

Dữ liệu tổng hợp: Gần nhưng chưa hoàn toàn

Dữ liệu tổng hợp được tạo ra một cách giả tạo để bắt chước dữ liệu thực. Điều này khó thực hiện nhưng trở nên dễ dàng hơn một chút với các công cụ AI. Dữ liệu tổng hợp chất lượng tốt phải có khoảng cách tính năng giống như dữ liệu thực, nếu không nó sẽ không hữu ích. Dữ liệu tổng hợp chất lượng có thể được sử dụng để tăng cường hiệu quả tính đa dạng của dữ liệu đào tạo bằng cách lấp đầy khoảng trống cho các nhóm dân số nhỏ hơn, bị thiệt thòi hoặc cho các nhóm dân cư mà nhà cung cấp AI đơn giản là không có đủ dữ liệu. Dữ liệu tổng hợp cũng có thể được sử dụng để giải quyết các trường hợp khó tìm thấy với số lượng đủ trong thế giới thực. Ngoài ra, các tổ chức có thể tạo một tập dữ liệu tổng hợp để đáp ứng các yêu cầu về quyền riêng tư và nơi lưu trữ dữ liệu ngăn chặn quyền truy cập vào dữ liệu thực. Nghe thật tuyệt; tuy nhiên, dữ liệu tổng hợp chỉ là một phần của câu đố chứ không phải là giải pháp.

Một trong những hạn chế rõ ràng của dữ liệu tổng hợp là sự ngắt kết nối với thế giới thực. Ví dụ: các phương tiện tự hành được đào tạo hoàn toàn dựa trên dữ liệu tổng hợp sẽ gặp khó khăn với các điều kiện đường xá thực tế, không lường trước được. Ngoài ra, dữ liệu tổng hợp thừa hưởng sai lệch từ dữ liệu trong thế giới thực được sử dụng để tạo ra dữ liệu đó – gần như phá vỡ mục đích thảo luận của chúng ta. Tóm lại, dữ liệu tổng hợp là một lựa chọn hữu ích để tinh chỉnh và giải quyết các trường hợp khó khăn, nhưng những cải thiện đáng kể về hiệu quả của mô hình và giảm thiểu sai lệch vẫn dựa vào việc truy cập dữ liệu trong thế giới thực.

Cách tốt hơn: Dữ liệu thực thông qua quy trình làm việc hỗ trợ PET

PET bảo vệ dữ liệu trong khi sử dụng. Khi nói đến các mô hình AI/ML, họ cũng có thể bảo vệ IP của mô hình đang chạy– “hai con chim, một hòn đá”. Các giải pháp sử dụng PET cung cấp tùy chọn đào tạo mô hình trên các bộ dữ liệu thực, nhạy cảm mà trước đây không thể truy cập được do các vấn đề về quyền riêng tư và bảo mật dữ liệu. Việc mở khóa luồng dữ liệu thành dữ liệu thực này là lựa chọn tốt nhất để giảm sai lệch. Nhưng nó thực sự sẽ hoạt động như thế nào?

Hiện tại, các lựa chọn hàng đầu đều bắt đầu với môi trường điện toán bí mật. Sau đó, việc tích hợp với giải pháp phần mềm dựa trên PET giúp giải pháp này sẵn sàng sử dụng ngay lập tức đồng thời giải quyết các yêu cầu bảo mật và quản trị dữ liệu không có trong môi trường thực thi đáng tin cậy tiêu chuẩn (TEE). Với giải pháp này, các mô hình và dữ liệu đều được mã hóa trước khi gửi đến môi trường điện toán bảo mật. Môi trường có thể được lưu trữ ở mọi nơi, điều này rất quan trọng khi giải quyết các yêu cầu bản địa hóa dữ liệu nhất định. Điều này có nghĩa là cả IP mô hình và tính bảo mật của dữ liệu đầu vào đều được duy trì trong quá trình tính toán – ngay cả nhà cung cấp môi trường thực thi đáng tin cậy cũng không có quyền truy cập vào các mô hình hoặc dữ liệu bên trong nó. Sau đó, các kết quả được mã hóa sẽ được gửi lại để xem xét và nhật ký sẽ có sẵn để xem xét.

Luồng này mở khóa dữ liệu có chất lượng tốt nhất bất kể dữ liệu đó ở đâu hay ai có, tạo ra con đường dẫn đến các mô hình giảm thiểu sai lệch và hiệu quả cao mà chúng ta có thể tin tưởng. Quy trình này cũng chính là điều mà Đạo luật AI của EU đã mô tả trong các yêu cầu của họ đối với hộp cát quản lý AI.

Tạo điều kiện thuận lợi cho việc tuân thủ đạo đức và pháp lý

Có được chất lượng tốt, dữ liệu thực là khó khăn. Các yêu cầu về quyền riêng tư và bản địa hóa dữ liệu ngay lập tức giới hạn các bộ dữ liệu mà tổ chức có thể truy cập. Để sự đổi mới và tăng trưởng diễn ra, dữ liệu phải được chuyển đến những người có thể khai thác giá trị từ nó.

Điều 54 của Đạo luật AI của EU đưa ra các yêu cầu đối với các loại mô hình “có rủi ro cao” về những gì phải được chứng minh trước khi chúng có thể được đưa ra thị trường. Nói tóm lại, các nhóm sẽ cần sử dụng dữ liệu thế giới thực bên trong một Hộp cát điều tiết AI để thể hiện đầy đủ tính hiệu quả của mô hình và sự tuân thủ tất cả các biện pháp kiểm soát được nêu chi tiết trong Tiêu đề III Chương 2. Các biện pháp kiểm soát bao gồm giám sát, tính minh bạch, khả năng giải thích, bảo mật dữ liệu, bảo vệ dữ liệu, giảm thiểu dữ liệu và bảo vệ mô hình – hãy nghĩ đến DevSecOps + Data Ops.

Thử thách đầu tiên sẽ là tìm ra một tập dữ liệu trong thế giới thực để sử dụng – vì đây vốn là dữ liệu nhạy cảm đối với các loại mô hình như vậy. Nếu không có sự đảm bảo về mặt kỹ thuật, nhiều tổ chức có thể ngần ngại tin tưởng giao dữ liệu của họ cho nhà cung cấp mô hình hoặc sẽ không được phép làm như vậy. Ngoài ra, cách đạo luật định nghĩa “Hộp cát điều tiết AI” bản thân nó là một thách thức. Một số yêu cầu bao gồm đảm bảo rằng dữ liệu sẽ bị xóa khỏi hệ thống sau khi chạy mô hình cũng như các biện pháp kiểm soát quản trị, thực thi và báo cáo để chứng minh điều đó.

Nhiều tổ chức đã thử sử dụng phòng sạch dữ liệu dùng ngay (DCR) và môi trường thực thi đáng tin cậy (TEE). Tuy nhiên, về bản chất, những công nghệ này đòi hỏi phải có kiến ​​thức chuyên môn và nỗ lực đáng kể để vận hành cũng như đáp ứng các yêu cầu quản lý về dữ liệu và AI.
DCR sử dụng đơn giản hơn nhưng chưa hữu ích cho các nhu cầu AI/ML mạnh mẽ hơn. TEE là các máy chủ được bảo mật và vẫn cần một nền tảng cộng tác tích hợp để hoạt động hữu ích và nhanh chóng. Tuy nhiên, điều này xác định cơ hội cho các nền tảng công nghệ nâng cao quyền riêng tư tích hợp với TEE để loại bỏ công việc đó, đơn giản hóa việc thiết lập và sử dụng hộp cát điều tiết AI, từ đó thu thập và sử dụng dữ liệu nhạy cảm.

Bằng cách cho phép sử dụng các bộ dữ liệu đa dạng và toàn diện hơn theo cách bảo vệ quyền riêng tư, các công nghệ này giúp đảm bảo rằng các hoạt động AI và ML tuân thủ các tiêu chuẩn đạo đức và yêu cầu pháp lý liên quan đến quyền riêng tư dữ liệu (ví dụ: GDPR và Đạo luật AI của EU ở Châu Âu). Tóm lại, mặc dù các yêu cầu thường gặp phải những tiếng càu nhàu và thở dài, nhưng những yêu cầu này chỉ đơn giản là hướng dẫn chúng tôi xây dựng các mô hình tốt hơn mà chúng tôi có thể tin tưởng và dựa vào để đưa ra quyết định quan trọng dựa trên dữ liệu đồng thời bảo vệ quyền riêng tư của chủ thể dữ liệu được sử dụng để phát triển mô hình và tùy biến.

Adi Hirschtein là phó chủ tịch sản phẩm tại Công nghệ đối ngẫu. Adi có hơn 20 năm kinh nghiệm với tư cách là giám đốc điều hành, giám đốc sản phẩm và doanh nhân xây dựng và thúc đẩy đổi mới trong các công ty công nghệ, chủ yếu tập trung vào các công ty khởi nghiệp B2B trong lĩnh vực dữ liệu và AI. Trước Duality, Adi từng là Phó Giám đốc sản phẩm của Iguazio (công ty MLOps) được McKinsey mua lại và trước đó ông giữ chức Giám đốc sản phẩm tại EMC sau khi mua lại một công ty khởi nghiệp khác có tên Zettapoint (Công ty cơ sở dữ liệu và lưu trữ) nơi ông phục vụ. với tư cách là Phó chủ tịch sản phẩm, dẫn dắt sản phẩm từ khi thành lập cho đến khi thâm nhập và tăng trưởng thị trường.