Lãnh đạo tư tưởng
Các Đội Dữ Liệu Đã Chết, Hãy Vĩnh Viễn Các Đội Dữ Liệu

Vâng, tiêu đề có vẻ clickbait và khiêu khích, nhưng với tư cách là một CTO với nhiều năm kinh nghiệm trong lĩnh vực dữ liệu, tôi đã chứng kiến một sự chuyển đổi mà chính đáng cho sự kịch tính. Các “đội dữ liệu” truyền thống – những người làm việc sau cánh cửa, phân tích báo cáo và bảng điều khiển – về cơ bản đã chết. Thay vào đó, một loại đội dữ liệu mới đang xuất hiện: một đội mạnh mẽ, tập trung vào sản phẩm, có tác động trực tiếp đến doanh thu. Họ không còn là một trung tâm chi phí, mà là một nhóm tạo ra lợi nhuận.
Chuyến Hành Trình Từ Trí Tuệ Kinh Doanh Đến Học Máy
Không lâu trước đây, các đội dữ liệu đồng nghĩa với trí tuệ kinh doanh (BI). Chúng tôi là những người ghi chép lịch sử của dữ liệu công ty, sống trong SQL và bảng tính, được giao nhiệm vụ trả lời “Điều gì đã xảy ra trong quý trước?” Khi công nghệ dữ liệu lớn như Hadoop xuất hiện và thuật ngữ “nhà khoa học dữ liệu” trở thành công việc mới hấp dẫn, các đội dữ liệu đã tiến hóa. Vào giữa những năm 2010, chúng tôi đã làm được hơn việc báo cáo; chúng tôi đã mạo hiểm vào visual hóa dữ liệu và phân tích tương tác, tạo ra bảng điều khiển động cho mọi bộ phận. Công việc của chúng tôi là về việc thu thập dữ liệu, trộn dữ liệu từ các nguồn và hình dạng khác nhau, và cố gắng hiểu kiến thức về lĩnh vực.
Sau đó, cuối những năm 2010 đã mang lại thời kỳ học máy. Các đội dữ liệu bắt đầu thuê các nhà khoa học dữ liệu để xây dựng các mô hình dự đoán và khám phá thông tin trong các tập dữ liệu lớn. Chúng tôi đã chuyển từ mô tả quá khứ sang dự đoán tương lai: mô hình churn, động cơ khuyến nghị, dự báo nhu cầu – bạn có thể đặt tên cho nó. Nhưng ngay cả khi đó, đầu ra của chúng tôi vẫn là các bản trình bày và thông tin, không phải sản phẩm trực tiếp. Chúng tôi hoạt động như một văn phòng dịch vụ nội bộ, tư vấn cho doanh nghiệp thông qua phân tích. Nói cách khác, chúng tôi là trung tâm chi phí – có giá trị, nhưng một bước cách xa khỏi sản phẩm cốt lõi và doanh thu.
Trong những trường hợp tốt nhất, các đội học máy đã được phân tán vào các đơn vị riêng biệt hoặc nhúng trong các nhóm sản phẩm, để mà các mô hình và suy luận của họ có thể được tích hợp đầy đủ vào các nền tảng. Sự chia cắt lớn dẫn đến nhiều dự án thất bại, đầu tư chìm và cơ hội bị mất.
GenAI: Từ Chức Năng Hỗ Trợ Đến Trung Tâm Lợi Nhuận
Sau đó GenAI đến và mọi thứ thay đổi. Việc phát hành các mô hình ngôn ngữ lớn mạnh mẽ, như gia đình GPT và các biến thể mã nguồn mở như Llama, đã đảo lộn toàn bộ cảnh quan gần như qua đêm. Đột nhiên, các đội dữ liệu không chỉ phân tích kinh doanh, mà trở thành một phần không thể thiếu trong việc xây dựng sản phẩm và trải nghiệm AI. Khi bạn tích hợp thành công một LLM vào một ứng dụng khách hàng hoặc quy trình nội bộ, bạn không chỉ thông báo cho kinh doanh; bạn đang điều khiển nó. Một hệ thống GenAI được triển khai tốt có thể tự động hóa hỗ trợ khách hàng, tạo nội dung tiếp thị, cá nhân hóa trải nghiệm người dùng hoặc thậm chí cung cấp dữ liệu cần thiết để thông báo và đào tạo các hệ thống AI mới nổi. Những khả năng này ảnh hưởng trực tiếp đến dòng doanh thu. Về hiệu quả, sản phẩm làm việc của đội dữ liệu đã chuyển từ các trang trình bày PowerPoint sang các ứng dụng được hỗ trợ bởi AI.
Các đội GenAI bắt đầu với các nhóm đổi mới, cung cấp các bằng chứng về khái niệm tạo ra “yếu tố wow”. Và không lâu sau đó, mọi người đều trở thành kỹ sư AI, lan truyền shadow IT trên toàn tổ chức.
Các đội dữ liệu sớm tìm thấy mình phải đối mặt với một câu hỏi mới: “Khi nào bạn sẽ trở thành một trung tâm lợi nhuận?” Khi các kỹ sư AI bắt đầu tạo ra những công cụ tuyệt vời, rõ ràng là đã đến lúc hợp nhất hai đội: những người kiểm soát dữ liệu và những người xây dựng ứng dụng.
Hãy xem xét một công ty bán lẻ triển khai một chatbot GenAI để xử lý các yêu cầu bán hàng, hoặc một ngân hàng ra mắt một cố vấn đầu tư cá nhân hóa được hỗ trợ bởi AI. Những điều này không phải là dự án phụ của IT – chúng là sản phẩm kỹ thuật số tạo ra giá trị khách hàng và tạo ra doanh thu. Tuy nhiên, đồng thời, để tạo ra những hệ thống này với quy mô, các đội kỹ sư AI cần phải có thể truy cập và vận hành dữ liệu mà các đội truyền thống đã chuẩn bị.
Các giám đốc điều hành đã nhận thấy. Kỳ vọng của các đội dữ liệu đang ở mức cao nhất từ trước đến nay, với các hội đồng quản trị và CEO đang nhìn vào chúng tôi để đưa ra vector tăng trưởng AI tiếp theo. Chúng tôi đã chuyển từ việc trở thành những nhà phân tích hậu trường sang những nhà đổi mới tiền tuyến. Đó là một vị trí thú vị để ở, nhưng nó đi kèm với áp lực mạnh mẽ để đưa ra kết quả với quy mô.
Từ Khám Phá Đến Sản Phẩm – Một Cửa Một Chiều
Sự chuyển đổi từ phân tích khám phá sang sản phẩm AI tập trung là sâu sắc và không thể đảo ngược. Tại sao không thể đảo ngược? Bởi vì tác động của GenAI đối với kinh doanh đang chứng minh quá lớn để quay lại một món đồ chơi R&D. Theo một cuộc khảo sát toàn cầu gần đây, 96% các nhà lãnh đạo CNTT đã tích hợp AI vào các quy trình cốt lõi – tăng từ 88% chỉ một năm trước. Nói cách khác, gần như mọi doanh nghiệp đã chuyển từ thử nghiệm AI sang tích hợp nó vào các quy trình quan trọng. Một khi bạn vượt qua ngưỡng mà AI đang cung cấp giá trị trong sản xuất, không có cách nào quay lại.
Sự thay đổi này trong trọng tâm AI thay đổi nhịp điệu và tư duy của các đội dữ liệu. Trong quá khứ, chúng tôi đã có sự sang trọng của các dự án khám phá dài và phân tích mở. Ngày nay, nếu chúng tôi xây dựng một tính năng AI, nó cần phải sẵn sàng cho sản xuất, tuân thủ và đáng tin cậy – giống như bất kỳ sản phẩm hướng đến khách hàng nào. Chúng tôi đã bước vào cái mà một số người gọi là “Thời đại Tự động hóa” của khoa học dữ liệu. Câu hỏi hướng dẫn công việc của chúng tôi không còn là “các thông tin gì chúng tôi có thể khám phá?” mà là “hệ thống thông minh nào chúng tôi có thể xây dựng để hành động trên thông tin trong thời gian thực?”
Các hệ thống GenAI không chỉ trả lời câu hỏi; chúng bắt đầu đưa ra quyết định. Đó là một cửa một chiều: sau khi trải nghiệm loại tự chủ và tác động này, các công ty sẽ không hài lòng với các báo cáo tĩnh và ra quyết định thủ công. Hơn bao giờ hết, các đội dữ liệu cần phải tập trung vào các bên liên quan và sản phẩm.
Sự Thật Cứng Rắn: Tại Sao Hầu Hết Các Dự Án GenAI Thất Bại
Trong tất cả sự phấn khích, có một thực tế ảm đạm: hầu hết các dự án GenAI thất bại. Hóa ra việc triển khai GenAI thành công là cực kỳ khó khăn. Một nghiên cứu gần đây của MIT cho thấy rằng một lượng lớn 95% các dự án thí điểm GenAI của doanh nghiệp không bao giờ cung cấp ROI có thể đo lường. Chỉ khoảng 5% các dự án AI thực sự đạt được tăng trưởng doanh thu nhanh hoặc tác động kinh doanh có ý nghĩa. Điều này không phải do thiếu tiềm năng – nó là do sự phức tạp của việc làm AI đúng.
Khám phá nguyên nhân của thất bại, nghiên cứu của MIT vẽ ra một bức tranh rõ ràng. Nhiều dự án gặp khó khăn vì “hype hơn công việc khó” – các đội theo đuổi các trường hợp sử dụng demo hấp dẫn thay vì đầu tư vào các nền tảng cơ bản của tích hợp, xác thực và giám sát. Những dự án khác thất bại do hội chứng “rác vào, rác ra” – chất lượng dữ liệu kém và đường ống dữ liệu bị cô lập khiến dự án thất bại ngay từ đầu. Thường thì không phải mô hình AI bị lỗi, mà là môi trường xung quanh. Như các nhà nghiên cứu đã nói, GenAI không thất bại trong phòng thí nghiệm; nó thất bại trong doanh nghiệp khi nó va chạm với các mục tiêu không rõ ràng, dữ liệu kém và quán tính tổ chức. Trong thực tế, hầu hết các dự án AI bị kẹt ở giai đoạn chứng minh khái niệm và không bao giờ tốt nghiệp sang triển khai sản xuất đầy đủ.
Thực tế này là một bài học quý giá. Nó cho chúng tôi biết rằng mặc dù các đội dữ liệu hiện đang ở trong ánh đèn sân khấu, nhưng đa số đang vật lộn để đáp ứng kỳ vọng cao hơn. Để GenAI thành công với quy mô, chúng tôi phải vượt qua một ngưỡng cao hơn so với những ngày cũ của BI.
Beyond Clever Prompts: Dữ Liệu, Quản Lý & Cơ Sở Hạ Tầng Quan Trọng
Điều gì phân biệt 5% dự án AI thành công khỏi 95% dự án thất bại? Trong kinh nghiệm của tôi (và như nghiên cứu xác nhận), những người chiến thắng tập trung vào các khả năng nền tảng – dữ liệu, quản lý và cơ sở hạ tầng. GenAI không phải là ma thuật; nó được xây dựng trên dữ liệu. Không có đường ống dữ liệu chất lượng cao, được quản lý tốt để cấp dữ liệu cho mô hình của bạn, ngay cả AI tốt nhất cũng sẽ tạo ra kết quả không ổn định. Summit Partners đã nói điều này trong một phân tích gần đây: “sự thành công của bất kỳ hệ thống hoặc quy trình nào sử dụng AI phụ thuộc vào chất lượng, cấu trúc và khả năng tiếp cận của dữ liệu mà nó cung cấp.”
Trong thực tế, điều này có nghĩa là các tổ chức phải đầu tư gấp đôi vào kiến trúc dữ liệu và quản lý khi họ áp dụng GenAI. Bạn có các cửa hàng dữ liệu thống nhất, có thể tiếp cận được mà AI của bạn có thể dựa vào (và tôi có nghĩa là TẤT CẢ các cửa hàng dữ liệu, bao gồm trung tâm dữ liệu, hyperscalers và hệ thống SaaS của bên thứ ba, v.v.)? Dữ liệu đó đã được làm sạch, thu thập và tuân thủ các quy định? Có dòng dữ liệu rõ ràng và khả năng kiểm toán (nên bạn có thể tin tưởng đầu ra AI và biết nó đến từ đâu)? Những câu hỏi này hiện đang ở tiền phong.
GenAI Đang Buộc Các Công Ty Cuối Cùng Đưa Nhà Dữ Liệu Của Họ Vào Trật Tự
Quản lý cũng đã trở nên quan trọng hơn. Khi một mô hình AI có thể tạo ra một câu trả lời sai (hoặc một câu trả lời xúc phạm), quản lý mạnh mẽ không phải là tùy chọn – nó là bắt buộc. Các biện pháp kiểm soát như phiên bản, kiểm tra thiên vị, xem xét của con người và các biện pháp bảo mật nghiêm ngặt xung quanh dữ liệu đầu vào nhạy cảm là thiết yếu. Không có quản lý phù hợp và mục tiêu rõ ràng, ngay cả một công cụ AI mạnh cũng sẽ gặp khó khăn trong việc đạt được động lực trong kinh doanh.
Và hãy đừng quên cơ sở hạ tầng. Triển khai GenAI với quy mô đòi hỏi sức mạnh tính toán đáng kể và kỹ thuật nghiêm ngặt. Các mô hình cần được cung cấp trong thời gian thực, trên hàng triệu truy vấn với độ trễ thấp. Chúng thường cần GPU hoặc phần cứng chuyên dụng, cũng như giám sát, giữ lại và quản lý vòng đời liên tục. Tóm lại, bạn cần cơ sở hạ tầng AI công nghiệp có bảo mật, có khả năng mở rộng và có khả năng phục hồi. Đây là nơi khái niệm Private AI xuất hiện như một khuôn khổ kết hợp cơ sở hạ tầng với dữ liệu và quản lý. Private AI đề cập đến sự phát triển của AI trong một môi trường được kiểm soát và bảo mật, đảm bảo bảo mật và tuân thủ dữ liệu.
Kết luận là thành công của GenAI phụ thuộc vào sự hòa hợp của ba trụ cột: dữ liệu, quản lý và cơ sở hạ tầng. Không có một trong số này, bạn sẽ gặp rủi ro khi tham gia vào 95% dự án không bao giờ mở rộng quy mô vượt quá giai đoạn demo.
Tại Sao Các Kỹ Sư AI Không Thể Làm Được Mọi Thứ
Với những yêu cầu này, rõ ràng là việc chỉ thuê một số kỹ sư AI tài năng không phải là một viên đạn bạc. Chúng tôi đã học được bài học này trong vài năm qua trong ngành dữ liệu. Trong những ngày đầu của sự bùng nổ khoa học dữ liệu, các công ty đã cố gắng tìm “những nhà khoa học dữ liệu kỳ lân” có thể làm mọi thứ – xây dựng mô hình, viết mã, xử lý dữ liệu và triển khai. Huyền thoại đó đã bị phá vỡ từ lâu. Như một nhà khoa học dữ liệu kỳ cựu đã nói, “một mô hình nằm trong một cuốn sổ tay thực sự không làm gì cho kinh doanh.” Bạn cần nhúng mô hình đó vào một ứng dụng hoặc quy trình để nó tạo ra giá trị. Và việc đó đòi hỏi một nỗ lực của đội bao gồm nhiều kỹ năng.
Vào cuối những năm 2010, chúng tôi đã thấy các đội dữ liệu đa dạng hóa thành các vai trò riêng biệt: kỹ sư dữ liệu bắt đầu xây dựng các đường ống dữ liệu mạnh mẽ, kỹ sư học máy tập trung vào việc sản xuất hóa mô hình, kỹ sư phân tích quản lý lớp phân tích, v.v.
Ngày nay, GenAI nâng cao tiêu chuẩn thậm chí còn cao hơn. Vâng, bạn cần các chuyên gia AI (kỹ sư prompt, người tinh chỉnh LLM, v.v.) nhưng những chuyên gia đó sẽ gặp phải một bức tường nếu họ không có các đường ống dữ liệu trưởng thành, khuôn khổ quản lý và nền tảng bảo mật để làm việc. Một kỹ sư AI có thể tạo ra một mô hình ngôn ngữ tuyệt vời trong một hộp cát nhưng việc biến mô hình đó thành một sản phẩm được sử dụng bởi hàng nghìn hoặc hàng triệu người đòi hỏi sự hợp tác với các đội bảo mật, các quan chức tuân thủ, kiến trúc sư dữ liệu, kỹ sư độ tin cậy của trang web và nhiều hơn nữa.
AI là một môn thể thao đồng đội. Thật dễ nghĩ rằng bạn có thể thả một mô hình nhà nước vào doanh nghiệp của mình và đột nhiên có một doanh nghiệp được hỗ trợ bởi AI. Các công ty thành công với AI là những công ty đã xây dựng các đội đa chức năng, hoặc “nhà máy AI”, kết hợp tất cả những mảnh ghép này lại với nhau. Các đội dữ liệu của họ đã tiến hóa thành đội sản phẩm AI toàn diện, kết hợp dữ liệu, mô hình hóa, kỹ thuật và chuyên môn vận hành. Họ đang xây dựng và triển khai các công cụ của mình theo cách dẫn dắt sản phẩm, dựa trên dữ liệu, với việc tạo giá trị được nhúng trong mọi KPI.
Thế Hệ Tiếp Theo Của Các Đội Dữ Liệu
Vậy, tương lai sẽ như thế nào cho “đội dữ liệu” mới? Dưới đây là một cái nhìn về những gì đang đến với những đội này trong vài năm tới:
- Ít ETL/ELT thủ công hơn: Việc thu thập dữ liệu thủ công sẽ giảm dần. Với các đường ống dữ liệu tự động hơn và tích hợp AI hỗ trợ, các đội sẽ không dành nửa thời gian của họ để làm sạch và di chuyển dữ liệu. Công việc nặng nhọc của việc chuẩn bị dữ liệu sẽ được xử lý ngày càng nhiều bởi các hệ thống thông minh, cho phép con người tập trung vào thiết kế và kiểm soát chất lượng ở cấp độ cao hơn.
- Ít bảng điều khiển hơn: Thời đại điều chỉnh bộ lọc bảng điều khiển không ngừng sẽ giảm dần. AI sẽ cho phép truy vấn ngôn ngữ tự nhiên và phân phối thông tin động. Thay vì xây dựng các bảng điều khiển trước cho mọi câu hỏi, người dùng sẽ nhận được câu trả lời từ AI (với dữ liệu nguồn đính kèm). Các đội dữ liệu sẽ dành ít thời gian hơn để phát triển báo cáo tĩnh và nhiều thời gian hơn để đào tạo AI tạo thông tin trực tiếp.
- Phát Triển Sản Phẩm Bản Dị AI Hơn: Các đội dữ liệu sẽ ở trung tâm của đổi mới sản phẩm. Cho dù đó là phát triển một tính năng AI mới hướng đến khách hàng hay một công cụ AI nội bộ tối ưu hóa hoạt động, những đội này sẽ hoạt động như các đội sản phẩm. Họ sẽ sử dụng các phương pháp phát triển phần mềm, nguyên mẫu nhanh, thử nghiệm A/B và thiết kế trải nghiệm người dùng – không chỉ phân tích dữ liệu. Mỗi đội dữ liệu sẽ, về hiệu quả, trở thành đội sản phẩm AI mang lại giá trị kinh doanh trực tiếp.
- Đại Diện Tự Động Trên Đường Dâng: Trong tương lai không xa, các đội dữ liệu sẽ triển khai đại diện AI tự động để xử lý các quyết định và nhiệm vụ thường xuyên. Thay vì chỉ dự đoán kết quả, những đại diện này sẽ được ủy quyền thực hiện một số hành động (với sự giám sát). Hãy tưởng tượng một đại diện AI vận hành có thể phát hiện sự bất thường và tự động mở một vé khắc phục, hoặc một đại diện bán hàng AI điều chỉnh giá thương mại điện tử theo thời gian thực. Các đội dữ liệu sẽ chịu trách nhiệm xây dựng và quản lý những đại diện này, đẩy ranh giới của những gì tự động hóa có thể đạt được.
Ánh sáng của những thay đổi này, người ta có thể nói rằng “các đội dữ liệu như chúng ta đã biết chúng là chết.” Những người làm việc với bảng tính và thợ sửa bảng điều khiển đã nhường chỗ cho một điều gì đó mới: đội đầu tiên của AI thông thạo dữ liệu, mã và chiến lược kinh doanh. Nhưng xa hơn là một lời ca ngợi, đây là một lễ kỷ niệm. Thế hệ tiếp theo của các đội dữ liệu chỉ mới bắt đầu, và họ có giá trị hơn bao giờ hết
Vậy, hãy nhớ, nhà kỹ sư dữ liệu đã chết, hãy vĩnh viễn nhà kỹ sư dữ liệu! Các đội dữ liệu như chúng ta đã biết chúng đã biến mất nhưng hãy vĩnh viễn các đội dữ liệu mới – mong họ trị vì trong thế giới được hỗ trợ bởi AI này với thông tin, trách nhiệm và sự táo bạo.












