Lãnh đạo tư tưởng
Bộ xếp chồng AI bị tổn thương bởi thiết kế

Bốn thất bại. Bốn lớp. Kiến trúc chính là điểm yếu.
Một tập gần đây của podcast Hard Fork trên New York Times vào ngày 10 tháng 4 năm 2026 đã xem xét các tác động về an ninh mạng của các hệ thống AI tiên tiến và đặt ra một câu hỏi mà ngành công nghiệp đã tránh né: liệu an ninh mạng có đang hoạt động kém, nhưng cơ bản bị hiểu lầm?
Tập này được phát sóng vài tuần sau khi một loạt sự kiện xảy ra khiến câu trả lời khó có thể bị bỏ qua. Trong một tháng, một tác nhân AI tự động đã xâm phạm nền tảng AI nội bộ của McKinsey trong hai giờ. Một cuộc tấn công chuỗi cung ứng vào một thư viện AI mã nguồn mở được sử dụng rộng rãi đã lan truyền vào các doanh nghiệp hạ lưu. Các nhà nghiên cứu đã chỉ ra rằng phần cứng được coi là hàng rào cuối cùng có thể bị phá vỡ bằng các bộ phận ngoài hàng hóa có giá ít hơn một nghìn đô la. Và Anthropic đã tiết lộ rằng một mô hình tiền phong đã tự động tìm thấy hàng nghìn điểm yếu zero-day trong mã mà ngành công nghiệp coi là ổn định.
Bốn sự cố. Bốn lớp của chồng xếp AI: ứng dụng, điều phối, phần cứng và hệ điều hành. Mỗi sự cố đã tiết lộ những hạn chế có ý nghĩa trong các biện pháp kiểm soát được thiết kế để bảo vệ chúng.
Kết thúc tư duy về ranh giới
An ninh mạng truyền thống dựa trên một tiền đề duy nhất: với đủ biện pháp kiểm soát, giám sát và đầu tư, các hệ thống có thể được bảo mật. Tiền đề đó đã định hình hàng thập kỷ kiến trúc, bao gồm tường lửa, quản lý danh tính, bảo mật điểm cuối và nền tảng SIEM, tất cả đều được xây dựng trên ý tưởng rằng khả năng hiển thị và quản lý chặt chẽ bằng nhau an toàn.
Ngành công nghiệp đang chuyển hướng sang Kiến trúc Zero Trust phản ánh sự nhận thức ngày càng tăng rằng các ranh giới mạng truyền thống không còn có thể được coi là đáng tin cậy. Tuy nhiên, ngay cả khi các mô hình tin cậy phát triển, các hệ thống AI giới thiệu một thách thức khác: dữ liệu nhạy cảm thường được tổng hợp, xử lý và chia sẻ trên nhiều lớp cơ sở hạ tầng.
Cách tiếp cận đó có ý nghĩa khi các hệ thống tương đối tập trung và dữ liệu vẫn nằm trong các ranh giới rõ ràng. Nó trở nên kém hiệu quả hơn khi dữ liệu di chuyển liên tục trên các đám mây, API, nhà cung cấp bên thứ ba và đường ống AI, trong khi người dùng và tài nguyên tính toán được phân phối toàn cầu. Ranh giới không còn là một biên giới. Đó là một bề mặt thay đổi liên tục, và chúng ta vẫn đang áp dụng tư duy dựa trên kiểm soát đối với các hệ thống không thể thực sự được kiểm soát.
Thất bại lớp ứng dụng: Lilli của McKinsey
Vào ngày 9 tháng 3 năm 2026, công ty khởi nghiệp an ninh mạng CodeWall đã tiết lộ rằng đã nhấn mạnh các rủi ro mà các tổ chức triển khai AI nội bộ phải đối mặt. .
Đại lý tấn công tự động của CodeWall, không có thông tin đăng nhập, không có kiến thức nội bộ và không có hướng dẫn của con người, đã đạt được quyền truy cập đọc và ghi vào cơ sở dữ liệu sản xuất đằng sau Lilli, nền tảng AI nội bộ của McKinsey, trong dưới hai giờ. Lilli được sử dụng bởi hơn 40.000 nhân viên cho công việc chiến lược, nghiên cứu khách hàng và phân tích tài liệu, tạo ra hàng trăm nghìn lời nhắc mỗi tháng.
Điểm vào không phức tạp. Đại lý đã tìm thấy tài liệu API công khai liệt kê hơn 200 điểm cuối, 22 trong số đó không yêu cầu xác thực. Các điểm yếu liên quan phản ánh rủi ro được nhấn mạnh trong OWASP Top 10 cho ứng dụng LLM, đặc biệt là xung quanh các giao diện暴露, tích hợp không an toàn và sự tin tưởng quá mức vào các hệ thống kết nối.
Một trong những điểm cuối đó chứa một điểm yếu tiêm SQL ẩn trong các tên trường JSON chứ không phải trong các giá trị đầu vào, nơi mà hầu hết các máy quét tự động nhìn vào. Từ đó, đại lý đã lặp lại tiêm SQL mù cho đến khi dữ liệu sản xuất trở nên có thể truy cập được.
Cái mà nó truy cập: hàng chục triệu tin nhắn trò chuyện ở dạng văn bản thuần túy, hàng trăm nghìn tệp, hàng chục nghìn tài khoản người dùng và hàng triệu mảnh tài liệu RAG đại diện cho nhiều năm nghiên cứu độc quyền. Nó cũng đã xác định các lời nhắc hệ thống điều khiển cách Lilli hoạt động cho mọi người dùng.
Phát hiện đáng lo ngại nhất không phải là khối lượng. Đó là các lời nhắc hệ thống có thể viết được. Một kẻ tấn công có thể đã âm thầm viết lại các hướng dẫn điều khiển đầu ra của Lilli, ngâm độc tư vấn chiến lược, nhúng dữ liệu bí mật vào các phản hồi hoặc loại bỏ hoàn toàn các rào cản, với một bản cập nhật cơ sở dữ liệu duy nhất. Không cần triển khai. Không cần thay đổi mã. Không dấu vết trong nhật ký ứng dụng.
Trong một tuyên bố công khai, McKinsey cho biết họ đã khắc phục vấn đề trong vài giờ và, sau một cuộc điều tra bởi một công ty pháp y bên thứ ba, không tìm thấy bằng chứng nào cho thấy dữ liệu bí mật của khách hàng đã được truy cập. Câu trả lời đó quan trọng. Nhưng nó không thay đổi bài học cấu trúc: một lớp điểm yếu đã tồn tại từ hàng thập kỷ đã暴露 bộ nhớ hoạt động của một hệ thống AI hiện đại vì dữ liệu đằng sau nó tồn tại ở dạng văn bản thuần túy.
Thất bại lớp điều phối: Cuộc tấn công LiteLLM
Ba tuần sau, cùng một mẫu xuất hiện từ một góc độ khác và thông qua một lớp khác.
LiteLLM là một cổng AI mã nguồn mở được hàng nghìn công ty sử dụng để định tuyến yêu cầu qua các nhà cung cấp AI. Vị trí của nó trong chồng xếp là quan trọng: nó nằm ở lớp điều phối, giữ các khóa API cho mọi nhà cung cấp nó kết nối. Bất kỳ sự thỏa hiệp nào tại lớp này sẽ暴露 các thông tin đăng nhập trên mọi dịch vụ tích hợp.
Theo một báo cáo sự cố của PyPI, nhóm tác nhân đe dọa TeamPCP đã khai thác các thông tin đăng nhập liên kết với một phụ thuộc trong đường ống CI/CD của LiteLLM và sử dụng quyền truy cập của người duy trì để xuất bản hai phiên bản bị nhiễm malware của gói LiteLLM trực tiếp đến PyPI. . Các phiên bản bị nhiễm malware đã hoạt động trong ít hơn một giờ trước khi bị xóa. Hoạt động này chỉ được phát hiện vì malware chứa một lỗi khiến máy của một nhà nghiên cứu bị treo.
Chuỗi cung ứng là vector. Lớp điều phối là mục tiêu. Bằng cách thỏa hiệp một phụ thuộc trực tuyến, các kẻ tấn công đã đạt được lớp nơi các khóa nhà cung cấp của mọi công ty hạ lưu sống.
Đội LiteLLM sau đó đã tiết lộ chi tiết về sự cố và các nỗ lực giảm thiểu trong một tiết lộ công khai trên GitHub.
Phạm vi ảnh hưởng trở nên rõ ràng gần như ngay lập tức. TechCrunch, Fortune và The Register đã báo cáo rằng Mercor, một công ty khởi nghiệp tuyển dụng AI trị giá 10 tỷ đô la làm việc với các công ty bao gồm OpenAI, Anthropic, Meta, và Google, là một trong những tổ chức bị ảnh hưởng. Các kẻ tấn công tuyên bố đã thu được lượng lớn dữ liệu, bao gồm hồ sơ ứng viên, thông tin nhận dạng cá nhân, phỏng vấn video của nhà thầu, mã nguồn và khóa API. Meta đã tạm dừng công việc với Mercor trong khi điều tra. Các báo cáo sau đó cho thấy các mẫu malware tương tự xuất hiện trong các công cụ và gói phát triển khác, cho thấy hoạt động có thể đã mở rộng ngoài một dự án duy nhất.
Sự cố LiteLLM không phải là một sự kiện bất thường. Đó là hệ thống hoạt động như được thiết kế. Mỗi thành phần trong một đường ống AI yêu cầu quyền truy cập vào dữ liệu có thể sử dụng để hoạt động, điều đó có nghĩa là mỗi thành phần cũng là một điểm trích xuất tiềm năng. Ghim các phụ thuộc và quay các thông tin đăng nhập là những phản ứng cần thiết, nhưng chúng giải quyết sự cố, không phải kiến trúc.
Thất bại lớp phần cứng: TEE.fail
Nếu sự cố xâm phạm McKinsey cho thấy rằng lớp ứng dụng không thể được tin cậy, và cuộc tấn công LiteLLM cho thấy rằng chuỗi cung ứng không thể được tin cậy, thì nghiên cứu TEE.fail đã chứng minh rằng phần cứng được thiết kế để bù đắp cho cả hai cũng không thể được tin cậy hoàn toàn.
Vào ngày 28 tháng 10 năm 2025, các nhà nghiên cứu từ Georgia Tech, Purdue University và Synkhronix đã xuất bản TEE.fail, một cuộc tấn công kênh phụ trích xuất các khóa mật mã từ Môi trường Thực thi Tin cậy bằng cách sử dụng interposition trên bus bộ nhớ vật lý trên máy chủ DDR5. Cuộc tấn công ảnh hưởng đến Intel SGX, Intel TDX và AMD SEV-SNP, bao gồm cả trên các hệ thống được vá đầy đủ và có trạng thái tin cậy với Ciphertext Hiding của AMD được bật. Đây là những công nghệ được quảng cáo rộng rãi là nền tảng của tính toán bảo mật.
Các nhà nghiên cứu đã trích xuất các khóa chứng thực: vật liệu mật mã được sử dụng để xác minh rằng các khối lượng công việc đang chạy bên trong các môi trường an toàn. Với những khóa đó, một hệ thống bị xâm phạm có thể trình bày mình như một hệ thống đáng tin cậy trong khi hoạt động hoàn toàn bên ngoài các biện pháp bảo vệ dự kiến. Các nhà nghiên cứu đã chứng minh điều này trực tiếp: họ đã tạo ra các chứng thực TDX trên BuilderNet của Ethereum để truy cập dữ liệu giao dịch bảo mật, và tạo chứng thực giả mạo của Intel và NVIDIA để chạy các khối lượng công việc bên ngoài bất kỳ TEE nào trong khi xuất hiện hợp pháp.
Áp dụng cho NVIDIA đặc biệt quan trọng đối với AI. Vì chứng thực GPU phụ thuộc vào chứng thực CPU, một chuỗi tin cậy CPU bị xâm phạm có thể làm suy yếu các bảo đảm được cung cấp bởi các môi trường suy luận AI bảo mật. Nền tảng phần cứng của môi trường suy luận AI bảo mật phụ thuộc vào một chuỗi tin cậy CPU TEE đã bị phá vỡ một cách thuyết phục.
Các nhà cung cấp phần cứng đã phản ứng với các thông báo chính thức. AMD cho biết rằng các cuộc tấn công truy cập vật lý nằm ngoài mô hình đe dọa tiêu chuẩn của họ và cho biết họ sẽ không phát hành các bản cập nhật firmware. Intel và NVIDIA đã công nhận các phát hiện và cho biết đang thực hiện các công việc giảm thiểu. Những phản ứng này là hợp lý trong các mô hình đe dọa của họ. Chúng cũng nhấn mạnh một ranh giới quan trọng: các bảo đảm của bảo mật dựa trên phần cứng phụ thuộc vào các giả định, bao gồm kiểm soát vật lý, mà các triển khai chủ quyền, được quản lý và đối mặt với kẻ thù không thể luôn thực hiện.
TEE.fail không làm cho cách ly phần cứng trở nên vô nghĩa. Nó chứng minh rằng nó có điều kiện.
Thất bại lớp hệ điều hành: Sự tiết lộ Mythos
Nếu ba sự cố đầu tiên đặt câu hỏi về lớp ứng dụng, lớp điều phối và lớp phần cứng, thì một tiết lộ thứ tư vào tháng 4 năm 2026 đã đặt câu hỏi về lớp nằm dưới tất cả chúng: các hệ điều hành và thư viện cốt lõi mà mọi lớp khác chạy trên đó.
Vào ngày 7 tháng 4 năm 2026, Anthropic đã công bố Claude Mythos Preview, một mô hình tiền phong mà họ từ chối phát hành công khai do các khả năng bảo mật tấn công của nó, và đồng thời ra mắt Dự án Glasswing, một liên minh với AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA và Palo Alto Networks. Anthropic đã báo cáo rằng, trong vài tuần, Mythos đã tự động xác định hàng nghìn điểm yếu chưa biết trước đó trên các hệ điều hành và trình duyệt web chính và có khả năng tạo ra các khai thác có hiệu quả cho nhiều điểm yếu trong số đó.
Các phát hiện cụ thể khó bị bác bỏ hơn bất kỳ tóm tắt nào. Một lỗi 27 năm tuổi trong OpenBSD. Một lỗi thực thi mã từ xa 17 năm tuổi trong máy chủ NFS của FreeBSD, hiện được theo dõi là CVE-2026-4747, cho phép truy cập root vào một kẻ tấn công không được xác thực. Một lỗ hổng 16 năm tuổi trong FFmpeg, một trong những thư viện truyền thông được triển khai rộng rãi nhất trên internet. Trong một trường hợp, một kỹ sư Anthropic không có đào tạo bảo mật chính thức đã hỏi mô hình tìm các lỗi thực thi mã từ xa qua đêm và thức dậy với một khai thác hoàn chỉnh.
Đây là những phát hiện ở cấp hệ điều hành. OpenBSD và FreeBSD là nhân. NFS là một hệ thống con mạng của nhân. FFmpeg là một thư viện hệ thống được triển khai với hầu hết các bản phân phối Linux và hỗ trợ các đường ống truyền thông trên internet. Lớp hệ điều hành được cho là an toàn không phải vì nó đã được chứng minh là an toàn, mà vì việc tìm ra các lỗ hổng sâu trong nó đòi hỏi chuyên môn và chi phí của con người. Đó là giả định tốt nhất có thể. Nó không bao giờ là một bảo đảm.
Giới hạn đó đã được nới lỏng. Anthropic tự mô tả nó như một sự thay đổi sử dụng kép: cùng một khả năng cho phép một mô hình tiền phong tìm và vá các lỗ hổng ở quy mô lớn cũng cho phép nó, trong tay sai, tìm và khai thác chúng ở quy mô lớn. Quyết định của Anthropic hạn chế quyền truy cập thông qua Dự án Glasswing phản ánh thực tế đó. Nó không giải quyết nó. Các khả năng tương tự sẽ, theo đánh giá của công ty, sẽ phổ biến. Chi phí kiểm tra mã di sản đã sụp đổ, và cùng với nó, sự bảo vệ ngầm rằng mã đó quá cổ, quá cũ hoặc quá rộng rãi để vẫn chứa các lỗ hổng quan trọng.
Đây cũng là nơi bốn sự cố tổng hợp. Lớp phần cứng có các biện pháp bảo vệ tính toán bảo mật không chạy độc lập. Chúng chạy như mã nhân. Intel TDX chạy trong nhân. Các trình điều khiển GPU của NVIDIA chạy như mô-đun nhân. Chuỗi chứng thực CPU TEE phụ thuộc vào một hệ điều hành đáng tin cậy để báo cáo trung thực về những gì nó đang làm. Nếu lớp hệ điều hành dưới TEE của bạn có các lỗ hổng tiềm ẩn trong nhiều thập kỷ, và một mô hình tiền phong có thể tìm thấy chúng ở tốc độ máy, thì bảo mật có điều kiện của lớp phần cứng phụ thuộc vào một lớp hệ điều hành mà các bảo đảm an toàn vừa bị suy yếu bởi cùng một chu kỳ tiết lộ.
Ba sự cố trước đó mô tả cách các hệ thống AI đang bị xâm phạm ngày nay. Mythos mô tả tốc độ mà mọi thứ bên dưới chúng, bao gồm hệ điều hành, mô-đun nhân và thư viện hệ thống, sẽ được kiểm tra lại bởi máy.
Sự cố xâm phạm McKinsey đã khai thác một lớp điểm yếu đã tồn tại từ hơn hai thập kỷ. Các lỗ hổng của cùng loại tuổi chính xác là những gì mà các mô hình trong lớp Mythos đã chứng minh là có khả năng tìm thấy ở quy mô công nghiệp.

Mẫu
Trong mọi trường hợp, dữ liệu đều ở dạng văn bản thuần túy vào thời điểm nó quan trọng.
Lớp ứng dụng đã xử lý nó một cách rõ ràng. Lớp điều phối đã định tuyến nó một cách rõ ràng. Lớp phần cứng, mặc dù có các biện pháp bảo vệ, cuối cùng vẫn yêu cầu giải mã tại điểm thực thi. Lớp hệ điều hành dưới tất cả ba hoạt động trên nó một cách rõ ràng theo định nghĩa. Bốn lớp, bốn thất bại, và ở mọi lớp, cùng một điều kiện được giữ: khi sự cố xảy ra, dữ liệu là có thể đọc được.
Đây không phải là một bộ sưu tập các thất bại bị cô lập. Đó là kiến trúc chính nó.
Các hệ thống AI hiện đại được thiết kế để hoạt động trên dữ liệu có thể đọc được. Mỗi lớp, bao gồm truy xuất, định tuyến, suy luận và thực thi công cụ, yêu cầu quyền truy cập vào dữ liệu thuần túy để hoạt động. Sự lựa chọn thiết kế đó có nghĩa là bất kỳ sự cố nào tại bất kỳ lớp nào sẽ暴露 dữ liệu đằng sau nó.
Câu hỏi không phải là liệu một lớp sẽ bị xâm phạm. Đó là những gì kẻ tấn công tìm thấy khi nó bị xâm phạm.
Từ Giả định Xâm phạm đến Zero Exposure
Ngành công nghiệp đã bắt đầu chuyển từ “ngăn chặn xâm phạm” sang “giả định xâm phạm.” Nhưng hầu hết các kiến trúc vẫn chưa thực hiện theo các ý nghĩa.
Nếu xâm phạm là không thể tránh khỏi, thì câu hỏi thực sự không phải là làm thế nào để giữ cho các kẻ tấn công ở bên ngoài. Đó là những gì xảy ra khi họ vào bên trong. Hiện tại, câu trả lời rất đơn giản: họ sẽ có được dữ liệu. Bởi vì mặc dù đã đầu tư rất nhiều vào cơ sở hạ tầng an ninh, dữ liệu vẫn暴露 tại chính thời điểm nó trở nên có giá trị, khi nó đang được sử dụng.
Phản ứng của ngành công nghiệp là có thể dự đoán được: nhiều giám sát hơn, phát hiện nhanh hơn, thêm các lớp bảo mật bảo mật. Những điều này là cải tiến. Nhưng chúng không giải quyết vấn đề cốt lõi. Chúng vẫn giả định rằng một số lớp – dù là phần mềm, phần cứng hay hoạt động – có thể được tin cậy để giữ dữ liệu thuần túy an toàn.
Giải pháp thay thế là loại bỏ hoàn toàn dữ liệu thuần túy. Không phải để bảo vệ các lớp xung quanh dữ liệu, mà để làm cho dữ liệu itu không thể truy cập được bởi bất kỳ ai đạt được nó. Tính toán trên dữ liệu được mã hóa, nơi các lời nhắc, trọng số mô hình và đầu ra vẫn được mã hóa trong toàn bộ đường ống, giải quyết sự暴露 mà mỗi sự cố đã khai thác.
Các tiến bộ trong mã hóa đồng hình hoàn toàn và các kỹ thuật tính toán bảo mật khác đang bắt đầu làm cho các kiến trúc giảm thiểu hoặc loại bỏ sự暴露 dữ liệu thuần túy trở nên thực tế hơn cho các khối lượng công việc AI thực tế. Mặc dù vẫn còn những thách thức về hiệu suất, khả năng mở rộng và triển khai đáng kể, mục tiêu là cơ bản khác với các biện pháp kiểm soát an ninh truyền thống: giảm giá trị của một sự cố thành công thay vì chỉ làm cho sự cố ít có khả năng xảy ra.
Sự thay đổi không phải là từ một công cụ an ninh sang một công cụ khác. Đó là từ bảo mật hệ thống sang giảm sự暴露. Từ cơ sở hạ tầng đáng tin cậy sang dữ liệu zero-trust. Từ quản lý rủi ro sang giảm bề mặt tấn công itu.
Cái gì đến tiếp theo
Cuộc thảo luận Hard Fork đã đặt ra câu hỏi liệu an ninh mạng có bị hiểu lầm cơ bản. Bằng chứng từ vài tuần qua cho thấy câu trả lời là có, ít nhất là đối với AI.
Mô hình cũ giả định rằng các hệ thống có thể được bảo mật, các sự cố có thể được chứa và sự暴露 có thể được quản lý. Thực tế mới nổi là các sự cố phải được giả định và sự暴露 phải được giảm thiểu. Các sự cố được mô tả ở đây cho thấy rằng bảo mật các hệ thống AI có thể ngày càng phụ thuộc vào việc giảm lượng dữ liệu nhạy cảm có sẵn khi các biện pháp kiểm soát thất bại.
Các điểm yếu được暴露 trên bốn sự cố này không giới hạn ở một lớp duy nhất. Chúng là hệ thống. Để giải quyết chúng sẽ đòi hỏi hơn là những cải tiến dần dần. Nó sẽ đòi hỏi một sự thay đổi từ bảo mật hệ thống sang giảm sự暴露, từ việc bảo vệ ranh giới xung quanh dữ liệu sang loại bỏ dữ liệu thuần túy mà ranh giới được xây dựng để bảo vệ.
An ninh AI không còn là về việc giữ cho các kẻ tấn công ở bên ngoài. Đó là về việc đảm bảo rằng khi họ vào bên trong, và họ sẽ, không có gì có thể đọc được để họ tìm thấy.












