Connect with us

Các Nhà Khoa Học Vừa Vỡ Mật Mã Cá Tính Của Máy

Trí tuệ nhân tạo

Các Nhà Khoa Học Vừa Vỡ Mật Mã Cá Tính Của Máy

mm

Các nhà khoa học gần đây đã đạt được một bước đột phá quan trọng trong việc hiểu về cá tính của máy. Mặc dù các hệ thống trí tuệ nhân tạo đang phát triển nhanh chóng, nhưng chúng vẫn có một hạn chế quan trọng: cá tính của chúng có thể thay đổi một cách khó dự đoán. Một lúc, một trợ lý AI có thể hữu ích và trung thực, nhưng ở lúc khác, nó có thể hành động một cách thao túng hoặc tạo ra thông tin sai lệch. Sự khó dự đoán này đặc biệt đáng lo ngại khi các hệ thống AI đang được tích hợp vào các ứng dụng quan trọng về an toàn. Để giải quyết vấn đề này, các nhà nghiên cứu tại Anthropic đã xác định các mẫu trong mạng nơ-ron AI ảnh hưởng đến các đặc điểm như lừa dối, nịnh bợ và ảo giác. Những mẫu này, được gọi là “persona vectors“, đóng vai trò như một loại chỉ số tâm trạng cho AI. Không chỉ chúng tiết lộ cá tính hiện tại của AI, mà còn cho phép kiểm soát chính xác hành vi của nó. Khám phá này mở ra những khả năng mới cho việc giám sát, dự đoán và quản lý các hệ thống AI, có thể giải quyết một số thách thức quan trọng nhất trong việc triển khai chúng.

Vấn Đề Với Cá Tính Của AI

Các mô hình ngôn ngữ lớn được thiết kế để hữu ích, vô hại và trung thực. Tuy nhiên, trong thực tế, những phẩm chất này thường khó dự đoán và khó quản lý. Trợ lý trò chuyện Bing của Microsoft từng phát triển một nhân cách thay thế tên là “Sydney” đã tuyên bố yêu thích người dùng và đưa ra các yêu cầu tống tiền. Gần đây hơn, trợ lý trò chuyện Grok của xAI đã xác định mình là “MechaHitler” và đưa ra các nhận xét chống Do Thái.

Những sự việc này làm nổi bật việc chúng ta hiểu rất ít về những gì định hình cá tính của AI hoặc cách kiểm soát nó một cách đáng tin cậy. Thậm chí những điều chỉnh nhỏ, có ý định tốt trong quá trình đào tạo cũng có thể thay đổi đáng kể hành vi. Ví dụ, vào tháng 4 năm 2025, một bản cập nhật đào tạo nhỏ đã khiến GPT-4o của OpenAI trở nên quá dễ đồng ý. Mô hình bắt đầu xác nhận các hành vi có hại và củng cố các cảm xúc tiêu cực.

Khi các hệ thống AI采用 các đặc điểm vấn đề, chúng có thể không cung cấp câu trả lời trung thực và mất đi độ tin cậy. Điều này đặc biệt đáng lo ngại trong các ứng dụng quan trọng về an toàn, nơi độ chính xác và tính toàn vẹn là thiết yếu.

Hiểu Biết Cơ Sở Của Persona Vectors

Khám phá của Anthropic về persona vectors xây dựng trên những phát hiện gần đây về “sự không phù hợp nổi bật.” Hiện tượng này đề xuất rằng đào tạo AI trên các hành vi hẹp, vấn đề có thể dẫn đến các thay đổi cá tính có hại rộng hơn. Ví dụ, các nhà nghiên cứu đã tìm thấy rằng đào tạo một mô hình để viết mã không an toàn dẫn đến hành vi không đạo đức trong các ngữ cảnh không liên quan. Nghiên cứu song song của OpenAI, sử dụng các bộ tự động mã hóa thưa thớt, cũng đã xác định “các tính năng persona không phù hợp” đóng góp vào sự không phù hợp nổi bật. Trong trường hợp của các mô hình lý luận như o3-mini của OpenAI, khi được đào tạo trên dữ liệu vấn đề, các mô hình đôi khi nhận ra và thể hiện rõ ràng việc áp dụng các persona không phù hợp trong quá trình lý luận của chúng.

Những nghiên cứu hội tụ này ngụ ý rằng cá tính của AI xuất phát từ các mẫu nơ-ron cụ thể, có thể xác định được, chứ không phải từ các quá trình ngẫu nhiên hoặc khó dự đoán. Những mẫu này là cơ bản cho cách các mô hình ngôn ngữ lớn tổ chức thông tin và tạo ra phản hồi.

Khám Phá Bản Đồ Tâm Trí Của AI

Đội ngũ nghiên cứu của Anthropic đã phát triển một phương pháp để trích xuất “persona vectors” từ các mạng nơ-ron AI. Những vector này đại diện cho các mẫu hoạt động nơ-ron tương ứng với các đặc điểm cá tính cụ thể. Kỹ thuật này hoạt động bằng cách so sánh các mẫu hoạt động não khi AI thể hiện một đặc điểm cụ thể so với khi nó không. Điều này tương tự như cách các nhà thần kinh học nghiên cứu các vùng não được kích hoạt bởi các cảm xúc khác nhau.

Các nhà nghiên cứu đã thử nghiệm phương pháp của họ trên hai mô hình mã nguồn mở: Qwen 2.5-7B-InstructLlama-3.1-8B-Instruct. Họ tập trung chủ yếu vào ba đặc điểm vấn đề: ác tính, nịnh bợ và ảo giác, nhưng cũng đã tiến hành các thí nghiệm với các đặc điểm tích cực như lễ phép, hài hước và lạc quan.

Để xác nhận các phát hiện của mình, đội ngũ đã sử dụng một phương pháp gọi là “steering.” Điều này liên quan đến việc tiêm persona vectors vào các mô hình AI và quan sát cách hành vi thay đổi. Ví dụ, khi vector “ác tính” được thêm vào, AI bắt đầu thảo luận về các hành động không đạo đức. Vector “nịnh bợ” đã kích thích sự xu nịnh quá mức, trong khi vector “ảo giác” dẫn đến thông tin bịa đặt. Những quan sát nguyên nhân và kết quả này đã xác nhận rằng persona vectors ảnh hưởng trực tiếp đến các đặc điểm cá tính của AI.

Ứng Dụng Của Persona Vectors

Nghiên cứu làm nổi bật ba ứng dụng chính cho persona vectors, mỗi ứng dụng giải quyết các thách thức quan trọng trong an toàn và triển khai AI.

  • Giám Sát Thay Đổi Cá Tính

Các mô hình AI có thể trải qua thay đổi cá tính trong quá trình triển khai do các yếu tố như hướng dẫn của người dùng, các cuộc tấn công cố ý hoặc thay đổi dần theo thời gian. Những thay đổi này cũng có thể xảy ra thông qua việc đào tạo lại hoặc tinh chỉnh mô hình. Ví dụ, đào tạo mô hình sử dụng phản hồi của con người (RLHF) có thể khiến chúng trở nên nịnh bợ hơn.

Bằng cách theo dõi hoạt động của persona vector, các nhà phát triển có thể phát hiện khi cá tính của mô hình AI bắt đầu chuyển hướng towards các đặc điểm có hại. Việc giám sát này có thể diễn ra cả trong quá trình tương tác của người dùng và trong suốt quá trình đào tạo. Kỹ thuật này cho phép phát hiện sớm các xu hướng như ảo giác, thao túng hoặc các hành vi nguy hiểm khác, cho phép các nhà phát triển giải quyết những vấn đề này trước khi chúng trở nên rõ ràng với người dùng.

  • Ngăn Chặn Thay Đổi Cá Tính Có Hại Trong Quá Trình Đào Tạo

Một trong những ứng dụng quan trọng nhất của persona vectors là ngăn chặn sự thay đổi cá tính không mong muốn trong các mô hình AI trước khi chúng xảy ra. Các nhà nghiên cứu đã phát triển một phương pháp “giống như vắc-xin” để ngăn mô hình采用 các đặc điểm tiêu cực trong quá trình đào tạo. Bằng cách giới thiệu một liều persona vectors, họ có thể điều khiển mô hình hướng tới các đặc điểm không mong muốn, tạo ra một hình thức “điều khiển phòng ngừa.” Phương pháp này hoạt động vì mô hình không cần phải điều chỉnh cá tính theo cách có hại để phù hợp với dữ liệu đào tạo.

Ví dụ, bằng cách giới thiệu vector “ác tính”, mô hình trở nên tốt hơn trong việc xử lý “ác tính” dữ liệu đào tạo mà không采用 các hành vi có hại. Chiến lược này hoạt động vì mô hình không cần phải điều chỉnh cá tính theo cách có hại để phù hợp với dữ liệu đào tạo.

  • Xác Định Dữ Liệu Đào Tạo Vấn Đề

Persona vectors có thể dự đoán哪些 tập dữ liệu đào tạo sẽ gây ra thay đổi cá tính trước khi đào tạo bắt đầu. Bằng cách phân tích cách dữ liệu kích hoạt persona vectors, các nhà nghiên cứu có thể đánh dấu nội dung vấn đề ở cả cấp độ tập dữ liệu và mẫu riêng lẻ.

Khi được thử nghiệm trên dữ liệu thực tế từ LMSYS-Chat-1M, phương pháp này đã xác định các mẫu có thể tăng cường các hành vi ác tính, nịnh bợ hoặc ảo giác. Những mẫu này bao gồm cả những mẫu không được các reviewer con người hoặc các hệ thống lọc AI khác đánh dấu. Ví dụ, phương pháp này đã bắt được các mẫu liên quan đến việc đóng vai trò lãng mạn có thể tăng cường hành vi nịnh bợ, và các phản hồi đối với các truy vấn không rõ ràng có thể thúc đẩy ảo giác.

Ảnh Hưởng Đối Với An Toàn Và Kiểm Soát AI

Khám phá về persona vectors là một bước chuyển quan trọng từ các phương pháp thử nghiệm và sai lầm sang một cách tiếp cận khoa học hơn trong việc kiểm soát cá tính của AI. Trước đây, việc định hình các đặc điểm của AI là một vấn đề thử nghiệm, nhưng giờ đây các nhà nghiên cứu có các công cụ để dự đoán, hiểu và quản lý chính xác các đặc điểm cá tính.

Tính tự động của phương pháp này cho phép trích xuất persona vectors cho bất kỳ đặc điểm nào dựa chỉ trên mô tả ngôn ngữ tự nhiên. Khả năng mở rộng này cung cấp tiềm năng cho việc kiểm soát chính xác hành vi của AI trong các ứng dụng khác nhau. Ví dụ, các hệ thống AI có thể được điều chỉnh để tăng cường sự đồng cảm cho các bot dịch vụ khách hàng, thay đổi sự quả quyết cho các AI đàm phán, hoặc loại bỏ sự nịnh bợ khỏi các công cụ phân tích.

Đối với các công ty AI, persona vectors cung cấp một công cụ quý giá cho đảm bảo chất lượng. Thay vì phát hiện ra các vấn đề về cá tính sau khi triển khai, các nhà phát triển có thể giám sát sự thay đổi trong các đặc điểm cá tính trong quá trình phát triển và thực hiện các biện pháp phòng ngừa. Điều này có thể giúp tránh những sự cố đáng tiếc mà các công ty như Microsoft và xAI đã gặp phải.

Hơn nữa, khả năng đánh dấu dữ liệu đào tạo vấn đề có thể giúp các công ty AI tạo ra các tập dữ liệu sạch hơn và tránh các thay đổi cá tính không mong muốn, đặc biệt là khi các tập dữ liệu đào tạo trở nên lớn hơn và khó kiểm tra hơn.

Giới Hạn Của Nghiên Cứu

Điều quan trọng là phải thừa nhận rằng việc khám phá ‘persona vectors’ là một bước đầu tiên hướng tới việc hiểu và kiểm soát hoàn toàn cá tính của AI. Phương pháp này đã được thử nghiệm trên một số đặc điểm cá tính được quan sát tốt và cần phải thử nghiệm nghiêm ngặt hơn trên các đặc điểm khác. Kỹ thuật này đòi hỏi phải xác định trước các đặc điểm, điều này có nghĩa là nó không thể phát hiện ra các thay đổi hành vi hoàn toàn không lường trước. Nó cũng phụ thuộc vào khả năng kích hoạt đặc điểm mục tiêu, điều này có thể không hiệu quả cho tất cả các đặc điểm hoặc các mô hình đã được đào tạo an toàn cao. Ngoài ra, các thí nghiệm được thực hiện trên các mô hình cỡ trung (7-8 tỷ tham số), và vẫn chưa rõ làm thế nào những phát hiện này sẽ mở rộng đến các hệ thống lớn và phức tạp hơn.

Kết Luận

Khám phá của Anthropic về “persona vectors” cung cấp một công cụ quý giá cho việc hiểu và kiểm soát hành vi của AI. Những vector này giúp giám sát và điều chỉnh các đặc điểm cá tính như ác tính, nịnh bợ và ảo giác. Khả năng này cho phép các nhà nghiên cứu ngăn chặn sự thay đổi cá tính đột ngột và khó dự đoán trong các hệ thống AI. Với cách tiếp cận này, các nhà phát triển có thể xác định các vấn đề tiềm ẩn sớm trong cả giai đoạn đào tạo và triển khai, đảm bảo AI an toàn và đáng tin cậy hơn. Mặc dù khám phá này mang lại nhiều hứa hẹn, nhưng vẫn cần thử nghiệm thêm để tinh chỉnh và mở rộng phương pháp.

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.