Lãnh đạo tư tưởng
95% của các phi công AI thất bại, và dữ liệu kém chất lượng là thủ phạm

Nghiên cứu của MIT mang lại một thực tế lạnh lùng cho các nhà lãnh đạo doanh nghiệp: 95% của các dự án AI không bao giờ vượt qua giai đoạn thử nghiệm. Mặc dù có sự bàn tán trong các phòng họp về tiềm năng chuyển đổi của AI, nhưng hầu hết các sáng kiến đều không tạo ra giá trị kinh doanh có ý nghĩa.
Sự khôn ngoan thông thường đổ lỗi cho các mô hình yếu, khả năng tính toán hạn chế hoặc tài năng kỹ thuật khan hiếm. Nhưng kinh nghiệm làm việc với hàng trăm doanh nghiệp cho thấy một câu chuyện khác. Ách tắc thực sự không phải là các thuật toán. Đó là dữ liệu. Dữ liệu kém chất lượng hoặc không nhất quán im lặng làm suy yếu thậm chí các nỗ lực AI tiên tiến nhất, biến đổi các đặt cược đổi mới thành chi phí chìm.
Chi phí ẩn của dữ liệu kém chất lượng
Trong các doanh nghiệp, dữ liệu kém chất lượng thường làm hỏng các dự án AI trước khi chúng được mở rộng. Hãy xem xét một kịch bản quen thuộc: một công ty Fortune 500 dành nhiều tháng để xây dựng một mô hình dự đoán chuyển đổi. Thử nghiệm trông mạnh mẽ – chính xác và đầy hứa hẹn. Nhưng vào lúc nó chuyển sang sản xuất, những vết nứt xuất hiện.
Các đường ống bị vỡ vào những thời điểm tồi tệ nhất. Các công việc quan trọng chạy trễ hàng giờ, bỏ lỡ các cửa sổ can thiệp. Các bảng đột nhiên bị rơi hàng sau các thay đổi phía上 không được thông báo. Các chứng chỉ API hết hạn mà không có cảnh báo, cắt đứt các nguồn cấp dữ liệu thiết yếu. Dữ liệu thử nghiệm sạch sẽ trở thành một dòng đầu vào không mới hoặc không nhất quán.
Hiệu ứng gợn sóng là tàn khốc. Có những dự đoán không đáng tin cậy, và các bên liên quan mất niềm tin. Dự án bị gác lại, không phải vì các thuật toán thất bại, mà vì nền tảng sụp đổ. Hàng tháng phát triển, hàng triệu đô la đầu tư, và hàng ngàn giờ kỹ sư biến mất.
Điều này không phải là một trường hợp bị cô lập. Theo báo cáo State of Data Observability 2024 của Pantomath, 94% của các tổ chức cho biết các vấn đề đường ống làm xói mòn niềm tin vào dữ liệu của họ, và 90% mất hàng giờ hoặc thậm chí hàng tuần để sửa chữa chúng. Nếu chiến lược AI của bạn dựa trên dữ liệu không đáng tin cậy, thất bại đang chờ đợi ngay phía trước.
Tại sao AI cần các nền tảng mạnh mẽ
Sự thành công của AI phụ thuộc vào chất lượng dữ liệu. Như câu nói đi, “Rác vào, rác ra.” Ngay cả các mô hình tốt nhất cũng sụp đổ nếu dữ liệu cho chúng là khiếm khuyết, giống như xây một tòa nhà chọc trời trên đất mềm.
Hãy nghĩ về một chiếc xe đua: kỹ thuật hàng đầu thế giới và một tay đua có kỹ năng nghĩa là không có gì nếu nhiên liệu bị nhiễm bẩn. Theo cách tương tự, các mô hình học máy tinh tế thất bại khi được cung cấp bởi dữ liệu không đáng tin cậy.
Các hệ thống AI cần dữ liệu chính xác, thời gian thực để thích nghi và thực hiện. Bất kỳ sự gián đoạn nào – công việc thất bại, hồ sơ bị thiếu, thay đổi lược đồ – có thể làm xói mòn độ chính xác hoặc thậm chí làm hỏng toàn bộ hệ thống. Có thể một công cụ đề xuất bị hỏng và khách hàng bị mất, hoặc một hệ thống phát hiện gian lận bỏ lỡ các mối đe dọa.
Không có các nền tảng dữ liệu mạnh mẽ, AI nhanh chóng trở thành một trách nhiệm lớn. Đó là lý do tại sao độ tin cậy, niềm tin và tính toàn vẹn của dữ liệu là những điều kiện tiên quyết cho bất kỳ chiến lược AI thành công nào.
Tình hình hiện tại của các hoạt động dữ liệu
Hầu hết các doanh nghiệp vẫn phụ thuộc vào các quy trình thủ công, phản ứng để chạy các hoạt động dữ liệu – một mô hình đơn giản là không thể mở rộng cho AI. Khi có điều gì đó bị hỏng, các kỹ sư phải tìm kiếm các vấn đề trên các kiến trúc đa nền tảng rộng lớn và vá chúng một cách riêng lẻ.
Cách tiếp cận chữa cháy này tạo ra ba vấn đề lớn:
- Phát hiện chậm: Các vấn đề có thể tồn tại trong vài ngày hoặc vài tuần, khiến các mô hình AI chạy trên dữ liệu bị thỏa hiệp.
- Sửa chữa không đầy đủ: Việc giải quyết vấn đề thủ công là không nhất quán, thường bỏ lỡ các nguyên nhân gốc rễ và để lại các hệ thống dễ bị tổn thương.
- Khả năng bị mất: Tài năng kỹ sư dành nhiều thời gian hơn để theo đuổi các thất bại hơn là thúc đẩy đổi mới.
Sự phức tạp chỉ làm tăng thêm thách thức. Các hệ sinh thái dữ liệu hiện đại bao gồm hàng chục nền tảng và các phụ thuộc rối rắm mà ít người thực sự hiểu. Việc chẩn đoán các nguyên nhân gốc rễ thường có nghĩa là đảo ngược các quy trình. Quá trình này có thể mất vài ngày hoặc thậm chí vài tuần.
Đổ thêm người vào vấn đề: các tư vấn viên, nhà thầu, các đội dữ liệu lớn hơn. Đó giống như giải quyết các nút giao thông bằng cách thuê thêm cảnh sát giao thông. Vấn đề thực sự không phải là nhân sự, mà là sự thiếu một hệ thống độ tin cậy của dữ liệu.
Quan sát và tự động hóa như các chất xúc tác
Con đường phía trước là chuyển đổi các hoạt động dữ liệu từ chữa cháy thủ công sang các hoạt động được xây dựng trên hai trụ cột: quan sát và tự động hóa.
Quan sát cung cấp khả năng hiển thị thời gian thực vào toàn bộ hệ sinh thái dữ liệu – theo dõi hiệu suất công việc, sự mới mẻ, chất lượng và phụ thuộc – vì vậy các vấn đề được bắt gặp trước khi chúng đến các ứng dụng AI. Thay vì chờ các đội phía hạ lưu báo cáo vấn đề, các doanh nghiệp có được tầm nhìn luôn bật vào sức khỏe và dòng chảy của dữ liệu của họ.
Tự động hóa thêm tốc độ và quy mô cần thiết để hành động trên tầm nhìn đó. Khi một công việc quan trọng thất bại vào lúc 3 giờ sáng, các hệ thống tự động có thể dừng các quy trình phía hạ lưu, cảnh báo các đội phù hợp với toàn bộ ngữ cảnh và thậm chí khởi động các hành động sửa chữa.
Cùng nhau, các khả năng này đánh dấu một sự thay đổi cơ bản. Độ tin cậy của dữ liệu không còn chỉ là một nhiệm vụ văn phòng cho các kỹ sư chuyên ngành. Nó đang nổi lên như một khả năng chiến lược hỗ trợ mọi tham vọng của doanh nghiệp về AI.
Đóng khoảng cách từ thử nghiệm đến sản xuất
Sự thất bại của nhiều sáng kiến AI nằm ở bước nhảy từ thử nghiệm đến sản xuất. Thử nghiệm chạy trên các tập dữ liệu tĩnh, được chăm sóc cẩn thận mà các nhà khoa học dữ liệu có thể kiểm tra và xác nhận cẩn thận. Sản xuất, ngược lại, là bẩn. Nó đòi hỏi xử lý các luồng dữ liệu không ngừng từ khắp doanh nghiệp.
Khi lý thuyết trở thành thực tiễn, đó là khi các vết nứt bắt đầu xuất hiện. Các quy trình batch hoạt động trong thử nghiệm không thể theo kịp các yêu cầu thời gian thực. Các tập dữ liệu đã được xác thực trước cho cách ra các đầu vào thô và không nhất quán. Các môi trường được kiểm soát phải tương tác với các nền tảng cũ, các API của bên thứ ba và các hệ thống kinh doanh luôn thay đổi.
Đó là lý do tại sao các doanh nghiệp bắc cầu khoảng cách này đầu tư vào cơ sở hạ tầng độ tin cậy của dữ liệu. Nền tảng của độ tin cậy của dữ liệu hỗ trợ những nhu cầu sản xuất thực tế, bẩn thỉu. Độ tin cậy của dữ liệu giúp hệ thống của bạn chuẩn bị cho những gì đang đến.
Khuyến nghị cho các doanh nghiệp
Các tổ chức mở rộng AI thành công chia sẻ các chiến lược chung:
- Đầu tư vào độ tin cậy của dữ liệu sớm. Hãy làm cho chất lượng trở thành một điều kiện tiên quyết, đặt giám sát, kiểm tra và xác nhận vào vị trí trước khi di chuyển các thử nghiệm sang sản xuất.
- Triển khai các thực tiễn quan sát. Theo dõi không chỉ các thất bại của công việc, mà còn theo dõi sự mới mẻ, thay đổi khối lượng, thay đổi lược đồ và các chỉ số chất lượng ảnh hưởng trực tiếp đến hiệu suất của AI.
- Tự động hóa các hoạt động thường xuyên. Sử dụng phát hiện và giải quyết tự động để giảm chữa cháy và giải phóng các kỹ sư cho công việc chiến lược.
- Xây dựng các cơ chế trách nhiệm. Xử lý chất lượng dữ liệu như một ưu tiên kinh doanh với quyền sở hữu rõ ràng và các vòng phản hồi giữa các nhà sản xuất và người tiêu dùng.
- Thiết kế cho khả năng phục hồi. Kiến trúc các hệ thống để chứa các thất bại, sử dụng các điểm xác thực để giữ cho dữ liệu xấu không lan rộng.
Tỷ lệ thất bại 95% của AI không phải là không thể tránh khỏi. Nó có thể phòng ngừa được. Vấn đề không phải là AI bản thân, mà là sự thiếu các nền tảng dữ liệu mạnh mẽ để hỗ trợ nó. Thành công trong các hoạt động dữ liệu là thành công trong AI. Chúng là một và giống nhau.
Đây là một lời gọi tỉnh thức. Các doanh nghiệp phải vượt qua các cách tiếp cận thủ công, phản ứng và áp dụng các hệ thống tự động, chủ động. Đừng dừng lại cho đến khi bạn có được độ tin cậy thực sự. Các công cụ và thực tiễn để sửa chữa “vấn đề dữ liệu xấu” đã tồn tại từ ngày hôm nay.
Các tổ chức áp dụng sự thay đổi này sẽ thấy hơn là chỉ tăng tỷ lệ thành công của AI. Họ biến đổi cách họ sử dụng dữ liệu, cho phép có những cái nhìn mới trên toàn doanh nghiệp.
Vì vậy, bạn có thể tiếp tục tài trợ cho các thử nghiệm bị định đoạt bởi dữ liệu không đáng tin cậy. Hoặc bạn có thể xây dựng các nền tảng mạnh mẽ làm cho AI trở thành một lợi thế bền vững. Đó là lên bạn.












