Connect with us

Trí tuệ nhân tạo

Quên có Kiểm soát: Thử thách Lớn Tiếp theo trong Bộ nhớ của Trí tuệ Nhân tạo

mm

Trong nhiều năm, lĩnh vực trí tuệ nhân tạo tập trung vào một mục tiêu: làm cho các hệ thống nhớ tốt hơn. Chúng tôi đã đào tạo các mô hình trên các tập dữ liệu lớn và cải thiện liên tục khả năng giữ và nhớ lại thông tin. Nhưng chúng tôi hiện đang nhận ra một thực tế khó chịu. Các hệ thống mà không bao giờ quên hiện đang bị mắc kẹt bởi chính bộ nhớ của chúng. Điều mà từng được coi là điểm mạnh hiện đã trở thành một điểm yếu nghiêm trọng.

Con người quên một cách tự nhiên. Chúng tôi buông bỏ thông tin, thích nghi và tiến về phía trước. Các hệ thống trí tuệ nhân tạo hoạt động khác nhau. Chúng nhớ mọi thứ trừ khi chúng tôi dạy chúng quên. Điều này tạo ra những vấn đề thực sự. Trí tuệ nhân tạo gặp khó khăn với việc vi phạm quyền riêng tư, thông tin lỗi thời, thiên vị cố hữu và các hệ thống bị hỏng khi học các nhiệm vụ mới. Thử thách phía trước không phải là về việc làm cho trí tuệ nhân tạo nhớ nhiều hơn. Chúng tôi cần dạy trí tuệ nhân tạo cách quên một cách thông minh.

Hai Mặt của Việc Quên

Quên trong trí tuệ nhân tạo xuất hiện dưới hai hình thức khác nhau, mỗi hình thức có một tập hợp các vấn đề riêng.

Đầu tiên là quên thảm khốc. Điều này xảy ra khi một mạng nơ-ron mất kiến thức đã học trước đó sau khi đào tạo trên các nhiệm vụ mới. Ví dụ, một mô hình được đào tạo để nhận dạng mèo và chó có thể quên khả năng này sau khi học cách xác định chim.

Hình thức thứ hai là quên có kiểm soát. Điều này là có chủ đích. Nó liên quan đến việc loại bỏ một cách có chủ đích certain thông tin từ các mô hình đã được đào tạo. Các luật bảo vệ quyền riêng tư như GDPR cho phép mọi người có “quyền được quên”, yêu cầu các công ty xóa dữ liệu khi có yêu cầu. Điều này không phải là về việc sửa chữa các hệ thống bị hỏng. Nó là về việc loại bỏ một cách có chủ đích dữ liệu mà không bao giờ nên được lưu trữ hoặc phải biến mất khi có yêu cầu.

Cả hai vấn đề này kéo theo hai hướng ngược lại. Một yêu cầu chúng tôi ngừng quên. Vấn đề còn lại đòi hỏi chúng tôi phải làm cho việc quên trở nên có thể.

Khi Bộ nhớ Trở thành Một Gánh Nặng

Nghiên cứu trí tuệ nhân tạo đã tập trung vào việc cải thiện bộ nhớ trong một thời gian dài. Các mô hình đã trở nên lớn hơn, các tập dữ liệu lớn hơn và các cửa sổ ngữ cảnh dài hơn. Các hệ thống như GPT-4o có thể xử lý 128.000 token của ngữ cảnh và Claude có thể đạt 200.000. Những tiến bộ này đã cải thiện hiệu suất nhưng cũng giới thiệu các vấn đề mới.

Khi một mô hình nhớ quá nhiều, nó có thể nhớ lại thông tin lỗi thời hoặc không liên quan. Điều này lãng phí tính toán và có thể làm cho người dùng bối rối. Ví dụ, hãy xem xét một rô-bốt trò chuyện hỗ trợ khách hàng được đào tạo trên cơ sở kiến thức của công ty bạn. Bạn cập nhật một chính sách, nhưng sau một vài lần tương tác, rô-bốt quay lại thông tin cũ. Điều này xảy ra vì trí tuệ nhân tạo không thể ưu tiên bộ nhớ một cách đúng đắn. Trí tuệ nhân tạo không thể phân biệt giữa thông tin hiện tại và thông tin cũ.

Các luật bảo vệ quyền riêng tư làm cho mọi thứ khó khăn hơn. Theo GDPR, khi một người dùng yêu cầu xóa dữ liệu của họ, các công ty phải xóa dữ liệu đó. Nhưng việc xóa dữ liệu từ một mô hình trí tuệ nhân tạo không giống như xóa một tệp từ máy tính. Khi dữ liệu cá nhân trở thành một phần của các tham số của mô hình, nó lan truyền trên hàng triệu kết nối bên trong mạng. Việc đào tạo lại toàn bộ hệ thống để loại bỏ dữ liệu đó là tốn kém và thường không thể. Nghiên cứu cho thấy rằng các mô hình lớn hơn dễ bị tấn công mạng hơn. Mô hình càng lớn, nó càng có xu hướng ghi nhớ và có thể tái tạo dữ liệu riêng tư khi được yêu cầu thông qua các lời nhắc được tạo ra cẩn thận. Các kẻ tấn công có thể trích xuất thông tin mà họ không bao giờ nên tiếp cận.

Điều Gì Làm Cho Việc Quên Trở Nên Khó Khăn

Các mô hình trí tuệ nhân tạo không lưu trữ các ví dụ đào tạo như các tệp trong một thư mục. Chúng nén và trộn các thông tin đào tạo vào các trọng số và hoạt động của chúng. Việc loại bỏ một mảnh dữ liệu mà không làm xáo trộn mọi thứ khác là cực kỳ khó khăn. Ngoài ra, chúng tôi không thể dễ dàng theo dõi cách dữ liệu đào tạo cụ thể ảnh hưởng đến các trọng số nội bộ của mô hình. Khi một mô hình học từ dữ liệu, kiến thức đó lan truyền qua các tham số của nó theo những cách khó theo dõi.

Việc đào tạo lại các mô hình từ đầu sau mỗi yêu cầu xóa không phải là khả thi. Khi ai đó yêu cầu xóa dữ liệu cá nhân của họ theo GDPR, bạn cần loại bỏ nó khỏi hệ thống trí tuệ nhân tạo. Nhưng việc đào tạo lại một mô hình từ đầu mỗi lần là quá tốn kém và chậm trong hầu hết các môi trường sản xuất. Đối với các mô hình ngôn ngữ lớn được đào tạo trên hàng tỷ điểm dữ liệu, cách tiếp cận này sẽ quá tốn kém và tốn thời gian.

Việc xác minh việc quên đặt ra một thách thức khác. Làm thế nào chúng tôi có thể chứng minh rằng dữ liệu đã thực sự được quên? Các công ty cần các cuộc kiểm toán bên ngoài để chứng minh rằng họ đã xóa thông tin. Không có phương pháp xác minh đáng tin cậy, các doanh nghiệp không thể chứng minh sự tuân thủ và người dùng không thể tin rằng dữ liệu của họ thực sự đã biến mất.

Những thách thức này đã dẫn đến một lĩnh vực mới gọi là machine unlearning. Nó tập trung vào các kỹ thuật để loại bỏ ảnh hưởng của dữ liệu cụ thể từ các mô hình đã được đào tạo. Nhưng những phương pháp này vẫn còn trong giai đoạn đầu. Việc học không chính xác thường yêu cầu đào tạo lại mô hình, trong khi các phương pháp gần đúng có thể để lại dấu vết của thông tin đã xóa.

Đilemma Ổn định-Độ dẻo

Thử thách cốt lõi mà chúng tôi cần giải quyết là ngăn chặn việc quên thảm khốc trong khi cho phép quên có kiểm soát. Điều này dẫn chúng tôi đến một thách thức chính mà trí tuệ nhân tạo phải đối mặt: đilemma ổn định-độ dẻo. Các mô hình phải đủ linh hoạt để học thông tin mới nhưng đủ ổn định để giữ kiến thức cũ. Nếu chúng tôi đẩy mô hình quá xa về phía ổn định, nó không thể thích nghi. Mặt khác, nếu chúng tôi đẩy nó quá xa về phía độ dẻo, nó có thể quên mọi thứ nó từng học.

Bộ nhớ của con người cung cấp các gợi ý hữu ích để xử lý đilemma này. Khoa học thần kinh cho biết chúng tôi rằng việc quên là một quá trình chủ động. Não bộ quên một cách có chủ đích để làm cho việc học trở nên hiệu quả hơn. Nó loại bỏ hoặc ức chế thông tin cũ hoặc thông tin có giá trị thấp, để các ký ức mới vẫn có thể truy cập được. Khi mọi người học một ngôn ngữ mới, họ không xóa ngôn ngữ cũ. Nhưng nếu họ ngừng sử dụng nó, việc nhớ lại sẽ trở nên khó khăn hơn. Thông tin vẫn còn đó, chỉ là giảm ưu tiên. Não bộ sử dụng ức chế có chọn lọc, không phải xóa.

Các nhà nghiên cứu trí tuệ nhân tạo đang bắt đầu áp dụng những ý tưởng tương tự. Kỹ thuật phát lại tạo mô phỏng cách não bộ lưu trữ ký ức. Chúng tạo ra các biểu diễn trừu tượng của kiến thức trong quá khứ thay vì lưu trữ dữ liệu thô. Điều này giảm việc quên thảm khốc và giữ bộ nhớ gọn. Một ý tưởng khác là sự suy giảm thông minh. Các ký ức được lưu trữ được chấm điểm dựa trên mức độ mới, mức độ liên quan và mức độ hữu ích. Các ký ức ít quan trọng hơn dần dần mất ưu tiên và được truy xuất ít hơn. Điều này giữ thông tin có sẵn nhưng ẩn trừ khi cần. Các hệ thống trí tuệ nhân tạo có thể quản lý các cơ sở kiến thức lớn mà không vứt bỏ thông tin có giá trị tiềm năng.

Mục tiêu không phải là xóa mà là cân bằng việc nhớ và quên một cách thông minh.

Tương lai Trông Như Thế Nào

Ngành công nghiệp đang di chuyển theo ba hướng chính.

Thứ nhất, các kiến trúc bộ nhớ lai đang xuất hiện. Những hệ thống này kết hợp bộ nhớ theo kinh nghiệm (trải nghiệm cụ thể) với bộ nhớ ngữ nghĩa (kiến thức chung). Chúng sử dụng các cơ chế xếp hạng và cắt tỉa để giữ thông tin quan trọng trong khi làm mờ những gì ít liên quan. Các cơ sở dữ liệu vector như PineconeWeaviate giúp quản lý và truy xuất bộ nhớ một cách hiệu quả.

Thứ hai, các công nghệ tăng cường quyền riêng tư đang trở nên phổ biến. Các kỹ thuật như học liên bang, quyền riêng tư khác biệtmã hóa đồng hình giảm nhu cầu về dữ liệu cá nhân nhạy cảm. Những phương pháp này cho phép các mô hình đào tạo hợp tác hoặc an toàn mà không thu thập thông tin người dùng nhạy cảm. Chúng không giải quyết trực tiếp việc quên, nhưng chúng giảm lượng dữ liệu cá nhân cần được quên sau này.

Thứ ba, việc học không chính xác vẫn cải thiện. Các phương pháp mới có thể điều chỉnh các tham số mô hình liên quan đến dữ liệu cụ thể mà không cần đào tạo lại toàn bộ. Những phương pháp này vẫn còn trong giai đoạn đầu, nhưng chúng đang tiến gần hơn đến việc tuân thủ các yêu cầu xóa dữ liệu. Tuy nhiên, việc xác minh rằng việc học không chính xác thực sự loại bỏ tất cả dấu vết của dữ liệu vẫn còn khó khăn. Các nhà nghiên cứu đang phát triển các thử nghiệm để đo lường mức độ hiệu quả của nó.

Kết Luận

Các hệ thống trí tuệ nhân tạo đã trở nên xuất sắc trong việc nhớ. Nhưng chúng vẫn còn kém trong việc quên. Khoảng cách này đang trở nên khó忽视 hơn. Khi trí tuệ nhân tạo trở nên mạnh mẽ hơn và các quy định trở nên nghiêm ngặt hơn, khả năng quên một cách thông minh sẽ quan trọng không kém khả năng nhớ. Để làm cho trí tuệ nhân tạo an toàn hơn, linh hoạt hơn và ý thức về quyền riêng tư hơn, chúng tôi phải dạy nó cách quên một cách cẩn thận, có chọn lọc và thông minh. Việc quên có kiểm soát không chỉ bảo vệ quyền riêng tư của dữ liệu mà còn giúp các hệ thống trí tuệ nhân tạo phát triển mà không trở thành tù nhân của chính bộ nhớ của chúng.

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.