Connect with us

Các Đội Dữ Liệu Đã Chết, Muôn Năm Để Các Đội Dữ Liệu Sống Lại

Lãnh đạo tư tưởng

Các Đội Dữ Liệu Đã Chết, Muôn Năm Để Các Đội Dữ Liệu Sống Lại

mm

Vâng, tiêu đề có vẻ clickbait và khiêu khích, nhưng với tư cách là một CTO với nhiều năm kinh nghiệm trong lĩnh vực dữ liệu, tôi đã chứng kiến một sự chuyển đổi mà điều đó xứng đáng với sự kịch tính. Đội “dữ liệu” truyền thống – những người làm việc ở hậu trường để tạo báo cáo và bảng điều khiển – về cơ bản đã chết. Thay vào đó, một loại đội dữ liệu mới đang xuất hiện: một đội tiên phong về AI, tập trung vào sản phẩm với tác động trực tiếp đến doanh thu. Họ không còn là một trung tâm chi phí, mà là một nhóm tạo ra lợi nhuận.

Chuyến Hành Trình Từ Trí Tuệ Kinh Doanh Đến Học Máy

Không lâu trước đây, các đội dữ liệu đồng nghĩa với trí tuệ kinh doanh (BI). Chúng tôi là những nhà sử học của dữ liệu công ty, sống trong SQL và bảng tính, được giao nhiệm vụ trả lời “Điều gì đã xảy ra trong quý trước?” Khi các công nghệ dữ liệu lớn như Hadoop xuất hiện và thuật ngữ “nhà khoa học dữ liệu” trở thành công việc mới nóng, các đội dữ liệu đã phát triển. Vào giữa những năm 2010, chúng tôi đã làm được hơn việc báo cáo; chúng tôi đã đi vào visual hóa dữ liệu và phân tích tương tác, tạo ra các bảng điều khiển động cho mọi bộ phận. Công việc là về việc thu thập dữ liệu, trộn các tập dữ liệu từ các nguồn và hình dạng khác nhau, và cố gắng hiểu kiến thức về lĩnh vực.

Sau đó, cuối những năm 2010 đã mang lại thời đại học máy. Các đội dữ liệu bắt đầu thuê các nhà khoa học dữ liệu để xây dựng các mô hình dự đoán và khám phá các thông tin trong các tập dữ liệu lớn. Chúng tôi đã chuyển từ mô tả quá khứ sang dự đoán tương lai: các mô hình churn, động cơ khuyến nghị, dự báo nhu cầu – bạn có thể đặt tên cho nó. Nhưng ngay cả khi đó, các đầu ra của chúng tôi là các bản trình bày và thông tin, không phải sản phẩm trực tiếp. Chúng tôi hoạt động như một văn phòng dịch vụ nội bộ, tư vấn cho doanh nghiệp thông qua phân tích. Nói cách khác, chúng tôi là trung tâm chi phí – có giá trị, nhưng cách xa sản phẩm và doanh thu cốt lõi.

Trong những trường hợp tốt nhất, các đội học máy đã được phân tán thành các đơn vị riêng biệt hoặc nhúng trong các nhóm sản phẩm, để các mô hình và suy luận của họ có thể được tích hợp đầy đủ vào các nền tảng. Sự chia rẽ vĩ đại đã dẫn đến nhiều dự án thất bại, đầu tư chìm và cơ hội bị mất.

GenAI: Từ Chức Năng Hỗ Trợ Đến Trung Tâm Lợi Nhuận

Sau đó GenAI đến và mọi thứ đã thay đổi. Việc phát hành các mô hình ngôn ngữ lớn mạnh mẽ, như gia đình GPT và các biến thể mã nguồn mở như Llama, đã lật đổ cảnh quan gần như chỉ trong một đêm. Đột nhiên, các đội dữ liệu không chỉ phân tích kinh doanh, mà thay vào đó đã trở thành một phần không thể thiếu trong việc xây dựng các sản phẩm và trải nghiệm AI. Khi bạn tích hợp thành công một LLM vào một ứng dụng hướng đến khách hàng hoặc một quy trình nội bộ, bạn không chỉ thông báo cho kinh doanh; bạn đang điều khiển nó. Một hệ thống GenAI được triển khai tốt có thể tự động hóa hỗ trợ khách hàng, tạo nội dung tiếp thị, cá nhân hóa trải nghiệm người dùng hoặc thậm chí cung cấp dữ liệu cần thiết để thông báo và đào tạo các hệ thống AI mới nổi. Những khả năng này ảnh hưởng trực tiếp đến dòng doanh thu. Trên thực tế, sản phẩm làm việc của đội dữ liệu đã chuyển từ các trang trình bày PowerPoint sang các ứng dụng AI được bật.

Các đội GenAI bắt đầu với các nhóm đổi mới, cung cấp các bằng chứng về khái niệm tạo ra “yếu tố wow”. Và không久, mọi người đều trở thành kỹ sư AI, lan rộng shadow IT trên các tổ chức.

Các đội dữ liệu sớm phải đối mặt với một câu hỏi mới: “Khi nào bạn sẽ trở thành một trung tâm lợi nhuận?” Khi các kỹ sư AI bắt đầu tạo ra các công cụ tuyệt vời, rõ ràng là đã đến lúc hợp nhất hai đội: những người kiểm soát dữ liệu và những người xây dựng ứng dụng.

Hãy xem xét một công ty bán lẻ triển khai một rô-bốt trò chuyện GenAI để xử lý các truy vấn bán hàng, hoặc một ngân hàng ra mắt một cố vấn đầu tư cá nhân hóa được thúc đẩy bởi AI. Những thứ này không phải là dự án phụ của IT truyền thống – chúng là sản phẩm kỹ thuật số tạo ra giá trị cho khách hàng và tạo ra doanh thu. Tuy nhiên, đồng thời, để tạo ra những hệ thống này với quy mô lớn, các đội kỹ sư AI cần có thể truy cập và vận hành dữ liệu mà các đội truyền thống đã chuẩn bị.

Các giám đốc điều hành đã nhận thấy. Kỳ vọng về các đội dữ liệu đang ở mức cao nhất hiện nay, với các hội đồng quản trị và CEO đang tìm kiếm chúng tôi để cung cấp vector tăng trưởng AI tiếp theo. Chúng tôi đã chuyển từ những nhà phân tích hậu trường sang những nhà đổi mới tiền tuyến. Đó là một vị trí thú vị để ở, nhưng nó đi kèm với áp lực mạnh mẽ để cung cấp kết quả với quy mô.

Từ Khám Phá Đến Sản Phẩm – Một Cửa Một Chiều

Sự chuyển đổi từ phân tích khám phá sang AI tập trung vào sản phẩm là sâu sắc và không thể đảo ngược. Tại sao không thể đảo ngược? Bởi vì tác động của GenAI đối với kinh doanh đang chứng minh quá lớn để trả lại cho một đồ chơi R&D. Theo một cuộc khảo sát toàn cầu gần đây, 96% của các nhà lãnh đạo IT đã tích hợp AI vào các quy trình cốt lõi – tăng từ 88% chỉ một năm trước. Nói cách khác, gần như mọi doanh nghiệp đã chuyển từ thử nghiệm AI sang nhúng nó vào các quy trình hoạt động quan trọng. Một khi bạn vượt qua ngưỡng mà AI đang cung cấp giá trị trong sản xuất, không có cách nào quay lại.

Sự thay đổi này trong AI thay đổi nhịp điệu và tư duy của các đội dữ liệu. Trong quá khứ, chúng tôi đã có sự sang trọng của các dự án khám phá dài và phân tích mở. Ngày nay, nếu chúng tôi đang xây dựng một tính năng AI, nó cần phải sẵn sàng cho sản xuất, tuân thủ và đáng tin cậy – giống như bất kỳ sản phẩm hướng đến khách hàng nào. Chúng tôi đã bước vào cái mà một số người gọi là “Thời đại Tự động” của khoa học dữ liệu. Câu hỏi hướng dẫn công việc của chúng tôi không còn là “các thông tin nào chúng tôi có thể khám phá?” mà là “hệ thống thông minh nào chúng tôi có thể xây dựng để hoạt động trên các thông tin trong thời gian thực?”

Các hệ thống GenAI không chỉ trả lời câu hỏi; chúng đang bắt đầu đưa ra quyết định. Đó là một cửa một chiều: sau khi trải nghiệm sự tự chủ và tác động này, các công ty sẽ không chấp nhận các báo cáo tĩnh và ra quyết định thủ công. Hơn bao giờ hết, các đội dữ liệu cần phải tập trung vào các bên liên quan và sản phẩm.

Sự Thật Cay Đắng: Tại Sao Hầu Hết Các Sáng Kiến GenAI Thất Bại

Trong tất cả sự phấn khích, có một thực tế ảm đạm: hầu hết các sáng kiến GenAI thất bại. Hóa ra việc triển khai GenAI thành công là cực kỳ thách thức. Một nghiên cứu gần đây của MIT cho thấy rằng một lượng 95% của các dự án thí điểm GenAI của doanh nghiệp không bao giờ cung cấp ROI có thể đo lường. Chỉ khoảng 5% của các thí điểm AI thực sự đạt được tăng trưởng doanh thu nhanh hoặc tác động kinh doanh có ý nghĩa. Điều này không phải do thiếu tiềm năng – mà là do sự phức tạp của việc làm AI đúng cách.

Khi đào sâu vào nguyên nhân của thất bại, nghiên cứu của MIT vẽ ra một bức tranh rõ ràng. Nhiều dự án vấp ngã vì “hype hơn công việc chăm chỉ” – các đội theo đuổi các trường hợp sử dụng demo hấp dẫn thay vì đầu tư vào các cơ sở tảng như tích hợp, xác thực và giám sát. Những dự án khác thất bại do hội chứng “rác vào, rác ra” – chất lượng dữ liệu kém và các đường ống dữ liệu bị cô lập khiến dự án thất bại ngay từ đầu. Thường thì không phải mô hình AI bị lỗi, mà là môi trường xung quanh. Như các nhà nghiên cứu đã nói, GenAI không thất bại trong phòng thí nghiệm; nó thất bại trong doanh nghiệp khi nó va chạm với các mục tiêu模糊, dữ liệu kém và quán tính tổ chức. Trong thực tế, hầu hết các thí điểm AI bị kẹt ở giai đoạn chứng minh khái niệm và không bao giờ tốt nghiệp sang triển khai sản xuất đầy đủ.

Thực tế này là một bài học quý giá. Nó cho chúng tôi biết rằng mặc dù các đội dữ liệu hiện đang ở tiền tuyến, nhưng đa số đang vật lộn để đáp ứng kỳ vọng cao hơn. Để GenAI thành công với quy mô lớn, chúng tôi phải vượt qua một ngưỡng cao hơn so với những ngày cũ của BI.

Vượt Ra Ngoài Các Lời Khuyên Thông Minh: Dữ Liệu, Quản Lý & Cơ Sở Hạ Tầng Quan Trọng

Điều gì phân biệt 5% của các dự án AI thành công với 95% thất bại? Trong kinh nghiệm của tôi (và như nghiên cứu xác nhận), những người chiến thắng tập trung vào các khả năng nền tảng – dữ liệu, quản lý và cơ sở hạ tầng. GenAI không phải là ma thuật; nó được xây dựng trên dữ liệu. Không có các đường ống dữ liệu chất lượng cao, được quản lý tốt để nuôi các mô hình của bạn, ngay cả AI tốt nhất cũng sẽ sản xuất kết quả không ổn định. Summit Partners đã nói điều đó trong một phân tích gần đây: “sự thành công của bất kỳ hệ thống hoặc quy trình nào sử dụng AI phụ thuộc vào chất lượng, cấu trúc và khả năng tiếp cận của dữ liệu mà nó cung cấp.”

Trong các điều khoản thực tế, điều này có nghĩa là các tổ chức phải tăng gấp đôi nỗ lực vào kiến trúc dữ liệu và quản lý khi họ áp dụng GenAI. Bạn có các cửa hàng dữ liệu thống nhất, có thể truy cập mà AI của bạn có thể dựa vào (và tôi có nghĩa là TẤT CẢ các cửa hàng dữ liệu, bao gồm trung tâm dữ liệu, hyperscalers và hệ thống SaaS của bên thứ ba, v.v.)? Dữ liệu đó đã được làm sạch, thu thập và tuân thủ các quy định? Có dòng dữ liệu rõ ràng và khả năng kiểm toán (nên bạn có thể tin tưởng đầu ra AI và biết chúng đến từ đâu)? Những câu hỏi này hiện đang ở tiền tuyến.

GenAI Đang Buộc Các Công Ty Cuối Cùng Đưa Nhà Dữ Liệu Của Họ Vào Trật Tự.

Quản lý cũng đã có một ý nghĩa mới. Khi một mô hình AI có thể tạo ra một câu trả lời sai (hoặc một câu trả lời xúc phạm), quản lý mạnh mẽ không phải là tùy chọn – nó là bắt buộc. Các biện pháp kiểm soát như phiên bản, kiểm tra thiên vị, xem xét của con người trong vòng lặp và các biện pháp bảo mật nghiêm ngặt xung quanh dữ liệu đầu vào nhạy cảm là thiết yếu. Không có quản lý và mục tiêu đào tạo rõ ràng, ngay cả một công cụ AI mạnh cũng sẽ gặp khó khăn trong việc đạt được động lực trong kinh doanh.

Và hãy không quên cơ sở hạ tầng. Triển khai GenAI với quy mô lớn đòi hỏi sức mạnh tính toán đáng kể và kỹ thuật nghiêm ngặt. Các mô hình cần được cung cấp trong thời gian thực, trên hàng triệu truy vấn với độ trễ thấp. Chúng thường cần GPU hoặc phần cứng chuyên dụng, cũng như giám sát, giữ lại và quản lý vòng đời liên tục. Nói ngắn gọn, bạn cần cơ sở hạ tầng AI công nghiệp có khả năng bảo mật, khả năng mở rộng và độ tin cậy. Đây là nơi khái niệm Private AI xuất hiện như một khuôn khổ kết hợp cơ sở hạ tầng với dữ liệu và quản lý. Private AI đề cập đến việc phát triển AI trong một môi trường được kiểm soát và bảo mật, đảm bảo bảo mật và tuân thủ dữ liệu.

Kết luận là sự thành công của GenAI phụ thuộc vào sự hòa hợp của ba trụ cột: dữ liệu, quản lýcơ sở hạ tầng. Không có một trong số đó, bạn sẽ gặp rủi ro khi tham gia 95% dự án không bao giờ mở rộng quy mô ngoài giai đoạn demo.

Tại Sao Các Kỹ Sư AI Không Thể Làm Được Mọi Thứ

Dựa trên những yêu cầu này, rõ ràng là việc chỉ thuê một vài kỹ sư AI tài năng không phải là một viên đạn bạc. Chúng tôi đã học được bài học này trong những năm qua trong ngành dữ liệu. Trong những ngày đầu của sự bùng nổ khoa học dữ liệu, các công ty đã cố gắng tìm kiếm “những nhà khoa học dữ liệu kỳ lân” có thể làm mọi thứ – xây dựng mô hình, viết mã, xử lý dữ liệu và triển khai. Huyền thoại đó đã bị phá vỡ từ lâu. Như một nhà khoa học dữ liệu kỳ cựu đã nói, “một mô hình nằm trong một cuốn sổ tay thực sự không làm gì cho kinh doanh.” Bạn cần nhúng mô hình đó vào một ứng dụng hoặc quy trình để nó tạo ra giá trị. Và việc đó đòi hỏi một nỗ lực của đội bao gồm nhiều kỹ năng khác nhau.

Trong cuối những năm 2010, chúng tôi đã thấy các đội dữ liệu đa dạng hóa thành các vai trò riêng biệt: các kỹ sư dữ liệu bắt đầu xây dựng các đường ống dữ liệu mạnh mẽ, các kỹ sư học máy tập trung vào sản xuất hóa mô hình, các kỹ sư phân tích quản lý lớp phân tích, v.v.

Ngày nay, GenAI đã nâng cao tiêu chuẩn thậm chí còn cao hơn. Vâng, bạn cần các chuyên gia AI (kỹ sư lời nhắc, tinh chỉnh LLM, v.v.), nhưng những chuyên gia đó sẽ gặp phải một bức tường nếu họ không có các đường ống dữ liệu trưởng thành, khuôn khổ quản lý và nền tảng bảo mật để làm việc. Một kỹ sư AI có thể tạo ra một mô hình ngôn ngữ tuyệt vời trong một hộp cát, nhưng việc biến điều đó thành một sản phẩm được sử dụng bởi hàng nghìn hoặc hàng triệu người đòi hỏi sự hợp tác với các đội bảo mật, các quan chức tuân thủ, kiến trúc sư dữ liệu, kỹ sư độ tin cậy của trang web và nhiều hơn nữa.

AI là một môn thể thao đồng đội. Nó rất hấp dẫn khi nghĩ rằng bạn có thể thả một mô hình trạng thái vào doanh nghiệp của mình và đột nhiên có một doanh nghiệp được thúc đẩy bởi AI. Những công ty thành công với AI là những công ty đã xây dựng các đội chức năng đa dạng, hoặc “nhà máy AI”, những đội kết hợp tất cả các mảnh ghép này lại với nhau. Các đội dữ liệu của họ đã tiến hóa hiệu quả thành các đội sản phẩm AI toàn diện, kết hợp dữ liệu, mô hình hóa, kỹ thuật và chuyên môn vận hành. Họ đang xây dựng và triển khai các công cụ của mình theo cách dẫn dắt dữ liệu, dẫn dắt sản phẩm, với việc tạo ra giá trị được nhúng trong mọi KPI.

Thế Hệ Mới Của Các Đội Dữ Liệu

Vậy, tương lai sẽ mang lại điều gì cho “đội dữ liệu” mới? Dưới đây là một cái nhìn về những gì đang đến với những đội này trong vài năm tới:

  • Ít ETL/ELT thủ công hơn: Việc thu thập dữ liệu thủ công sẽ giảm dần. Với các đường ống dữ liệu tự động hơn và tích hợp AI, các đội sẽ không dành nửa thời gian của họ để làm sạch và di chuyển dữ liệu. Công việc nặng nhọc của việc chuẩn bị dữ liệu sẽ được xử lý ngày càng nhiều bởi các hệ thống thông minh, cho phép con người tập trung vào thiết kế và kiểm soát chất lượng cấp cao.
  • Ít bảng điều khiển hơn: Thời đại của việc điều chỉnh liên tục các bộ lọc bảng điều khiển đang suy tàn. AI sẽ cho phép truy vấn ngôn ngữ tự nhiên và phân phối thông tin động. Thay vì xây dựng các bảng điều khiển trước cho mọi câu hỏi, người dùng sẽ nhận được câu trả lời từ AI (với dữ liệu nguồn đính kèm). Các đội dữ liệu sẽ dành ít thời gian hơn để phát triển các báo cáo tĩnh và nhiều thời gian hơn để đào tạo AI tạo ra thông tin theo cách tự phát.
  • Phát triển sản phẩm AI bản địa hơn: Các đội dữ liệu sẽ ở trung tâm của đổi mới sản phẩm. Cho dù đó là phát triển một tính năng AI mới hướng đến khách hàng hay một công cụ AI nội bộ tối ưu hóa hoạt động, những đội này sẽ hoạt động như các đội sản phẩm. Họ sẽ sử dụng các phương pháp phát triển phần mềm, nguyên mẫu nhanh, thử nghiệm A/B và thiết kế trải nghiệm người dùng – không chỉ phân tích dữ liệu. Mỗi đội dữ liệu sẽ, trên thực tế, trở thành một đội sản phẩm AI cung cấp giá trị kinh doanh trực tiếp.
  • Các tác nhân tự động trên đà tăng: Trong tương lai không xa, các đội dữ liệu sẽ triển khai các tác nhân AI tự động để xử lý các quyết định và nhiệm vụ thường xuyên. Thay vì chỉ dự đoán kết quả, những tác nhân này sẽ được ủy quyền thực hiện một số hành động (với sự giám sát). Hãy tưởng tượng một tác nhân AI vận hành có thể phát hiện một bất thường và tự động mở một vé khắc phục, hoặc một tác nhân bán hàng AI có thể điều chỉnh giá thương mại điện tử theo thời gian thực. Các đội dữ liệu sẽ chịu trách nhiệm xây dựng và quản lý những tác nhân này, đẩy ranh giới của những gì tự động hóa có thể đạt được.

Trong ánh sáng của những thay đổi này, một người có thể nói “các đội dữ liệu như chúng ta đã biết đang chết.” Những người làm việc với bảng tính và thợ sửa bảng điều khiển đã nhường chỗ cho một điều gì đó mới: các đội tiên phong về AI thông thạo dữ liệu, mã và chiến lược kinh doanh. Nhưng điều này không phải là một lời ca tụng, mà là một lễ kỷ niệm. Thế hệ mới của các đội dữ liệu chỉ mới bắt đầu, và họ có giá trị hơn bao giờ hết

Vậy, hãy nhớ, kỹ sư dữ liệu đã chết, muôn năm để kỹ sư dữ liệu sống lại! Các đội dữ liệu như chúng ta đã biết đã biến mất nhưng muôn năm để các đội dữ liệu mới – có thể họ sẽ trị vì trong thế giới được thúc đẩy bởi AI với sự hiểu biết, trách nhiệm và sự táo bạo.

Sergio Gago là CTO của Cloudera, mang lại hơn 20 năm kinh nghiệm trong lĩnh vực AI/ML, tính toán lượng tử và kiến trúc dựa trên dữ liệu. Trước đây là Giám đốc Điều hành của AI/ML & Quantum tại Moody’s Analytics, ông cũng từng giữ vị trí CTO tại Rakuten, Qapacity và Zinio. Sergio là một người ủng hộ mạnh mẽ cho cơ sở hạ tầng dữ liệu đáng tin cậy, tin rằng AI sẽ phát triển thành hệ điều hành của doanh nghiệp vào năm 2030.