Lãnh đạo tư tưởng
AI-First Có Nghĩa Là An Toàn Đầu Tiên

Mua một chiếc xe đạp mới cho một đứa trẻ, và chiếc xe đạp sẽ nhận được tất cả sự chú ý – không phải chiếc mũ bảo hiểm sáng bóng đi kèm với nó. Nhưng phụ huynh đánh giá cao chiếc mũ bảo hiểm.
Tôi sợ rằng nhiều người trong số chúng ta ngày nay giống như trẻ em khi nói đến AI. Chúng ta tập trung vào việc nó cool như thế nào và chúng ta có thể đi nhanh như thế nào với nó. Không nhiều lắm về những gì chúng ta có thể làm để ở an toàn khi sử dụng nó. Đó là một điều đáng tiếc vì bạn không thể có được lợi ích của một trong hai bên.
Đơn giản nói, áp dụng AI mà không lập kế hoạch cẩn thận cho an toàn đầu tiên không chỉ là rủi ro. Đó là một con đường thẳng xuống vách đá.
AI Safety Có Nghĩa Là Gì?
AI safety bao gồm một loạt các bước. Nhưng có lẽ yếu tố quan trọng nhất là khi thực hiện chúng. Để hiệu quả, AI Safety phải được thiết kế.
Điều đó có nghĩa là chúng ta xem xét cách ngăn chặn thiệt hại trước khi chúng ta đưa nó đi thử nghiệm. Chúng ta tìm ra cách đảm bảo AI hoạt động và tạo ra kết quả phù hợp với giá trị và kỳ vọng xã hội của chúng ta trước – không sau khi chúng ta nhận được một số kết quả khủng khiếp.
Thiết kế cho AI safety cũng bao gồm việc suy nghĩ về cách làm cho nó mạnh mẽ, hoặc có thể hoạt động dự đoán được ngay cả trong các tình huống bất lợi. Nó có nghĩa là làm cho AI minh bạch, để các quyết định AI đưa ra là có thể hiểu được, kiểm toán và không bị thiên vị.
Nhưng nó cũng bao gồm việc xem xét thế giới trong đó AI sẽ hoạt động. Những biện pháp bảo vệ thể chế và pháp lý nào chúng ta cần, đặc biệt là để tuân thủ các quy định của chính phủ? Và tôi không thể nhấn mạnh quá mức thành phần con người: Tác động của việc sử dụng AI sẽ như thế nào đối với những người tương tác với nó?
An toàn bằng thiết kế có nghĩa là tích hợp AI safety vào tất cả các quy trình, luồng công việc và hoạt động của chúng ta trước khi chúng ta nhập câu lệnh đầu tiên.
Rủi Ro Vượt Qua Lo Lắng
Không mọi người đều đồng ý. Khi họ nghe “an toàn đầu tiên”, một số người nghe “hành động cẩn thận và chậm rãi đến mức bạn bị bỏ lại phía sau”. Tất nhiên, đó không phải là những gì an toàn đầu tiên có nghĩa. Nó không cần phải kìm hãm sự đổi mới hoặc làm chậm thời gian đưa ra thị trường. Và nó không có nghĩa là một dòng chảy không ngừng của các phi công mà không bao giờ mở rộng. Ngược lại.
Nó có nghĩa là hiểu rủi ro của không thiết kế an toàn vào AI. Hãy xem xét chỉ một vài.
- Deloitte’s Center for Financial Services dự đoán rằng GenAI có thể chịu trách nhiệm cho tổn thất gian lận đạt 40 tỷ đô la Mỹ ở Mỹ alone vào năm 2027, từ 12,3 tỷ đô la Mỹ vào năm 2023, một CAGR 32%.
- Quyết định thiên vị. Các trường hợp chăm sóc y tế thiên vị do AI đã được đào tạo trên dữ liệu thiên vị.
- Quyết định tồi tệ dẫn đến nhiều quyết định tồi tệ hơn. Kém hơn một quyết định tồi tệ ban đầu do AI khiếm khuyết, các nghiên cứu chỉ ra rằng những quyết định khiếm khuyết đó có thể trở thành một phần của cách chúng ta nghĩ và đưa ra quyết định trong tương lai.
- Hậu quả thực tế. AI đưa ra lời khuyên y tế tồi tệ đã gây ra kết quả tử vong cho bệnh nhân. Các vấn đề pháp lý đã phát sinh từ việc trích dẫn ảo giác của AI như một tiền lệ pháp lý. Và lỗi phần mềm phát sinh từ việc trợ lý AI đưa ra thông tin sai đã làm hỏng sản phẩm của công ty và danh tiếng của họ và dẫn đến sự không hài lòng của người dùng rộng rãi.
Và mọi thứ sắp trở nên thú vị hơn.
Sự ra đời và sự áp dụng nhanh chóng của AI đại lý, AI có thể hoạt động tự chủ để thực hiện hành động dựa trên quyết định nó đã đưa ra, sẽ làm tăng tầm quan trọng của thiết kế cho an toàn AI.
Một đại lý AI có thể hành động thay mặt bạn có thể rất hữu ích. Thay vì nó cho bạn biết về các chuyến bay tốt nhất cho một chuyến đi, nó có thể tìm thấy và đặt chúng cho bạn. Nếu bạn muốn trả lại một sản phẩm, đại lý AI của một công ty có thể không chỉ cho bạn biết chính sách trả lại và cách nộp đơn trả lại, mà còn xử lý toàn bộ giao dịch cho bạn.
Tuyệt vời – miễn là đại lý không ảo giác một chuyến bay hoặc xử lý sai thông tin tài chính của bạn. Hoặc sai chính sách trả lại của công ty và từ chối trả lại hợp lệ.
Không khó để thấy làm thế nào rủi ro an toàn AI hiện tại có thể dễ dàng tràn lan với một loạt các đại lý AI đang chạy xung quanh đưa ra quyết định và hành động, đặc biệt là vì chúng không có khả năng hành động một mình. Phần lớn giá trị thực sự trong AI đại lý sẽ đến từ các đội đại lý, nơi từng đại lý xử lý các phần của nhiệm vụ và cộng tác – đại lý với đại lý – để hoàn thành công việc.
Vậy làm thế nào bạn có thể chấp nhận an toàn AI bằng thiết kế mà không kìm hãm sự đổi mới và giết chết tiềm năng giá trị của nó?
An Toàn Bằng Thiết Kế Trong Hành Động
Kiểm tra an toàn ad hoc không phải là câu trả lời. Nhưng tích hợp các thực hành an toàn vào mọi giai đoạn của việc triển khai AI là.
Bắt đầu với dữ liệu. Đảm bảo dữ liệu được gắn nhãn, chú thích khi cần, không thiên vị và chất lượng cao. Điều này đặc biệt đúng đối với dữ liệu đào tạo.
Đào tạo mô hình của bạn với phản hồi của con người, vì phán quyết của con người là điều cần thiết để định hình hành vi của mô hình. Học tăng cường với Phản hồi của Con người (RLHF) và các kỹ thuật tương tự cho phép người chú thích đánh giá và hướng dẫn phản hồi, giúp LLM tạo ra đầu ra an toàn và phù hợp với giá trị của con người.
Sau đó, trước khi bạn phát hành một mô hình, hãy kiểm tra căng thẳng cho nó. Các đội đỏ cố gắng kích động hành vi không an toàn bằng cách sử dụng các lời nhắc đối lập, các trường hợp biên và các cuộc cố gắng phá vỡ có thể暴 lộ các điểm yếu. Việc sửa chữa chúng trước khi chúng đến với công chúng giữ mọi thứ an toàn trước khi có vấn đề.
Trong khi việc kiểm tra này đảm bảo rằng các mô hình AI của bạn mạnh mẽ, hãy tiếp tục theo dõi chúng với mắt đến các mối đe dọa mới nổi và các điều chỉnh có thể cần thiết cho các mô hình.
Tương tự, hãy theo dõi thường xuyên các nguồn nội dung và tương tác kỹ thuật số để tìm kiếm dấu hiệu của gian lận. Quan trọng, hãy sử dụng một phương pháp kết hợp AI-nhân sự, cho phép tự động hóa AI xử lý khối lượng lớn dữ liệu cần được theo dõi, và con người có kỹ năng xử lý các cuộc xem xét để thực thi và đảm bảo độ chính xác.
Áp dụng AI đại lý đòi hỏi sự cẩn thận hơn. Một yêu cầu cơ bản: đào tạo đại lý để biết giới hạn của nó. Khi nó gặp sự không chắc chắn, các tình huống đạo đức, tình huống mới hoặc quyết định có mức độ rủi ro cao, hãy đảm bảo nó biết cách hỏi giúp đỡ.
Ngoài ra, hãy thiết kế khả năng theo dõi vào các đại lý của bạn. Điều này đặc biệt quan trọng để các tương tác của nó chỉ xảy ra với người dùng đã xác minh, để tránh các tác nhân gian lận ảnh hưởng đến hành động của đại lý.
Nếu chúng có vẻ hoạt động hiệu quả, có thể rất cám dỗ để thả lỏng các đại lý và để chúng làm việc của mình. Kinh nghiệm của chúng tôi cho thấy hãy tiếp tục theo dõi chúng và các nhiệm vụ chúng đang thực hiện để theo dõi các lỗi hoặc hành vi không mong muốn. Hãy sử dụng cả kiểm tra tự động và xem xét của con người.
Trên thực tế, một yếu tố quan trọng của an toàn AI là sự tham gia thường xuyên của con người. Con người nên được tham gia có chủ ý ở những nơi phán quyết quan trọng, đồng cảm hoặc sự tinh vi và mơ hồ được tham gia vào một quyết định hoặc hành động.
Một lần nữa, để rõ ràng, đây đều là những thực hành mà bạn xây dựng vào việc triển khai AI từ trước, bằng thiết kế. Chúng không phải là kết quả của việc điều gì đó sai và sau đó vội vàng tìm cách giảm thiểu thiệt hại.
Nó Có Hoạt Động?
Chúng tôi đã áp dụng một triết lý An toàn AI Đầu tiên và khuôn khổ “bằng thiết kế” với khách hàng của mình trong suốt sự xuất hiện của GenAI và bây giờ trên đường đua đến AI đại lý. Chúng tôi đang tìm thấy rằng, trái ngược với những lo ngại về việc làm chậm mọi thứ, nó thực sự giúp tăng tốc chúng.
AI đại lý có tiềm năng giảm 25-50% chi phí hỗ trợ khách hàng, ví dụ, đồng thời tăng mức độ hài lòng của khách hàng. Nhưng tất cả đều phụ thuộc vào niềm tin.
Con người sử dụng AI phải tin tưởng vào nó, và khách hàng tương tác với các đại lý con người được hỗ trợ bởi AI hoặc với các đại lý AI thực sự không thể trải qua một lần tương tác nào sẽ làm suy yếu niềm tin của họ. Một trải nghiệm tồi tệ có thể xóa bỏ niềm tin vào một thương hiệu.
Chúng tôi không tin vào những gì không an toàn. Vì vậy, khi chúng tôi xây dựng an toàn vào mọi lớp của AI mà chúng tôi sắp tung ra, chúng tôi có thể làm như vậy với sự tự tin. Và khi chúng tôi sẵn sàng mở rộng quy mô, chúng tôi có thể làm như vậy một cách nhanh chóng – với sự tự tin.
Mặc dù việc áp dụng An toàn AI Đầu tiên vào thực tiễn có thể có vẻ choáng ngợp, bạn không đơn độc. Có nhiều chuyên gia để giúp đỡ và các đối tác có thể chia sẻ những gì họ đã học và đang học để bạn có thể tận dụng giá trị của AI một cách an toàn mà không làm chậm bạn lại.
AI đã là một chuyến đi thú vị cho đến nay, và khi chuyến đi này tăng tốc, tôi thấy nó rất phấn khích. Nhưng tôi cũng rất vui vì tôi đang đội mũ bảo hiểm.












