Lãnh đạo tư tưởng

Con đường tới Tự động hóa Phát triển Mô hình

Published April 14, 2026

Doris Xin, CEO & Co-Founder, Disarray and Moustafa AbdelBaky, CTO & Co-Founder, Disarray

A stylized digital landscape showing illuminated lines connecting data structures. A cluster representing

Cột mốc quan trọng tiếp theo cho nghiên cứu AI là tự động hóa phát triển mô hình. Mỗi bước tiến trong suy luận, ngôn ngữ và nhận thức, theo một nghĩa nào đó, là một bước tiến tới mục tiêu đó. Tuy nhiên, con đường tới tự động hóa mô hình đòi hỏi phải giải quyết một tập hợp các thách thức cơ bản mà phải được giải quyết trước.

Cây cầu đến mục tiêu đó chạy trực tiếp qua kỹ thuật máy học (ML). Một quan niệm sai lầm phổ biến cho rằng ML là một công nghệ tiền thân của AI hiện đại và rằng các mô hình nền tảng đã đơn giản thay thế nó. Điều này hiểu lầm mối quan hệ. Là một lĩnh vực học thuật, ML bao gồm tất cả các khía cạnh của việc đào tạo mô hình, bao gồm cả việc đào tạo các mô hình nền tảng ở trung tâm của thời điểm AI hiện tại. Tuy nhiên, có một sự khác biệt có ý nghĩa về quy mô và độ phức tạp của dữ liệu.

Các mô hình ML truyền thống thường được đào tạo trên các tập dữ liệu được chăm sóc cẩn thận, cụ thể cho từng lĩnh vực, chứa hàng nghìn hoặc hàng triệu ví dụ. Ngược lại, các mô hình nền tảng được đào tạo trên hàng nghìn tập dữ liệu đồng thời, được rút ra từ các nguồn khác nhau với các định dạng, nguồn gốc và chất lượng không nhất quán. Sự khác biệt này về quy mô dữ liệu và tính dị biệt là một lý do cơ bản tại sao quản lý dữ liệu trở nên khó khăn và quan trọng hơn khi các mô hình trở nên mạnh mẽ hơn.

Điều đó làm cho việc hiểu dữ liệu trở thành một nút thắt trung tâm trong việc tự động hóa phát triển mô hình. Một hệ thống AI có thể giải thích dữ liệu dị biệt và cải thiện các đường ống được xây dựng xung quanh nó có thể, về nguyên tắc, cải thiện quá trình đào tạo của chính nó và giúp xây dựng các mô hình tốt hơn. Một khi AI có thể cải thiện quá trình mà nó được đào tạo, các cải tiến sẽ lan truyền xuống mọi lĩnh vực mà AI được áp dụng.

Three Barriers Standing in the Way

Barrier đầu tiên là sự phân mảnh ngữ cảnh. Trong gần như mọi tổ chức, các tín hiệu, thí nghiệm, định nghĩa tính năng và kiến thức tổ chức liên quan đến bất kỳ vấn đề mô hình hóa nào đều được phân tán trên các kho dữ liệu, sổ tay và đường ống mà không được thiết kế để giao tiếp với nhau. Hãy xem xét một hệ thống chăm sóc sức khỏe xây dựng một mô hình phát hiện sốc. Các tiêu chí lâm sàng liên quan đến vấn đề đó, chẳng hạn như ngưỡng quan trọng, giá trị phòng thí nghiệm và tiêu chuẩn ghi chép, có thể sống trong các mô块 riêng biệt của hệ thống hồ sơ sức khỏe điện tử.

Barrier thứ hai là sự mơ hồ ngữ nghĩa. Ý nghĩa không có trong dữ liệu mà thay vào đó là ngữ cảnh và tổ chức. Cùng một tên trường trong hai cơ sở dữ liệu khác nhau có thể đề cập đến những thứ khác nhau một cách tinh vi. Các khái niệm như doanh thu, người dùng hoạt động và tỷ lệ rời bỏ thường có nhiều định nghĩa hợp lệ trong một công ty. Ngay cả một khái niệm dường như đơn giản như “doanh thu” cũng có thể gây ra vấn đề. Một đội bán hàng có thể định nghĩa doanh thu là giá trị tổng hợp của các hợp đồng được ký trong quý này, trong khi đội tài chính định nghĩa nó là tiền thực sự nhận được. Đội sản phẩm có một sự hiểu biết khác, vì nó định nghĩa thuật ngữ để chỉ doanh thu được công nhận phân bổ trên một kỳ hạn đăng ký. Tất cả đều được rút ra từ các trường được đặt tên theo nghĩa đen là “doanh thu” trong các hệ thống tương ứng của họ, nhưng một báo cáo giữa các đội kết hợp chúng sẽ kết hợp âm thầm ba số không tương thích.

Barrier thứ ba và hệ thống nhất là sự thiếu nhớ tổ chức được ghi chép. Theo dõi nguồn gốc, giải quyết sự không nhất quán và duy trì tín hiệu chất lượng trên nhiều nguồn là một vấn đề chưa được giải quyết ngay cả đối với các đội con người. Không có bộ nhớ tổ chức về những gì đã được thử và làm thế nào những cách tiếp cận đó hoạt động, bất kỳ cơ chế tự động hóa mô hình nào sẽ tiếp tục phát hiện lại những điểm mù, lãng phí thời gian và tài nguyên.

Hãy xem xét một đội khoa học dữ liệu tại một công ty bán lẻ xây dựng một mô hình dự báo nhu cầu. Trong ba năm, một tá nhà phân tích đã từng độc lập phát hiện ra rằng dữ liệu thời tiết thô làm suy giảm hiệu suất của mô hình trong các tuần lễ, rằng nguồn cấp dữ liệu hàng tồn kho của một nhà cung cấp cụ thể chứa một độ trễ hệ thống và rằng cách tiếp cận tiêu chuẩn để xử lý các sự kiện khuyến mãi gây ra rò rỉ mục tiêu. Khi các nhà phân tích ban đầu chuyển sang các đội khác hoặc rời công ty, kiến thức đã rời đi cùng với họ. Không có hồ sơ tổ chức về những gì đã được thử, những gì đã thất bại và tại sao, một cơ chế tự động hóa mô hình không thể xây dựng trên kinh nghiệm tích lũy. Nó chỉ bắt đầu từ con số không, lại và lại, lãng phí thời gian không cần thiết.

What a Real Solution Requires

Lịch sử của tự động hóa ML là một lịch sử của các giải pháp một phần. AutoML đã giải quyết vấn đề điều chỉnh siêu tham số hẹp nhưng không thể xử lý sự không phù hợp của mục tiêu hoặc suy luận về ý định tổ chức. MLOps đã làm cho các đường ống sản xuất mạnh mẽ và dễ theo dõi hơn, nhưng các công cụ MLOps thực hiện một chiến lược chứ không định nghĩa nó. Các tác nhân mã hóa gần đây hơn đại diện cho một bước tiến thực sự, nhưng chúng đã thừa hưởng cùng một điểm mù. Chúng tạo ra mã tốt trong khi hoạt động mà không có ngữ cảnh tổ chức hoặc bộ nhớ tổ chức.

Một hệ thống có khả năng tự động hóa kỹ thuật ML thực sự sẽ cần các khả năng mà không có công cụ hiện có cung cấp kết hợp. Nó sẽ cần ánh xạ các mục tiêu kinh doanh sang các mục tiêu mô hình, điều này không thể được suy luận từ dữ liệu alone. Nó sẽ cần khám phá dữ liệu liên quan trên các hệ thống phân mảnh với các lược đồ không nhất quán, đồng thời tự động tuân thủ các ràng buộc về tuân thủ, quản trị và bảo mật, thay vì yêu cầu con người quản lý chúng như một quá trình riêng biệt. Nó sẽ cần bộ nhớ tổ chức để hiển thị công việc hiện có, hiểu tại sao các thí nghiệm trong quá khứ đã bị bỏ rơi và xây dựng trên những gì đồng nghiệp đã biết.

Các đường ray kiểm toán nghiêm ngặt để theo dõi nguồn gốc trên các phiên bản dữ liệu, định nghĩa tính năng và cam kết mã sẽ cần là một cơ chế cốt lõi để gắn hệ thống vào những gì thực sự xảy ra. Và bất kỳ hệ thống nào như vậy sẽ yêu cầu thiết kế con người trong vòng lặp có suy nghĩ. Không phải là một lựa chọn nhị phân giữa tự động hóa đầy đủ và kiểm soát thủ công đầy đủ, mà là hỗ trợ cho các mức độ tương tác khác nhau tùy thuộc vào nhiệm vụ, các став và sự tự tin của hệ thống tại mỗi điểm quyết định. Tự động hóa bỏ qua phán quyết của con người tại các thời điểm quan trọng không phải là một tính năng của AI được thiết kế tốt; mà nó là một chế độ thất bại.

Điều mà không phòng thí nghiệm nào đã giải quyết được là làm thế nào để tạo ra một sự hiểu biết ngữ nghĩa về dữ liệu tổ chức mà hiểu được ý nghĩa của dữ liệu trong một ngữ cảnh tổ chức cụ thể. MCP giải quyết vấn đề kết nối. Nó không giải quyết vấn đề ý nghĩa. Đó vẫn là biên giới nghiên cứu mở.

What Becomes Possible

Các ý nghĩa kinh tế của việc giải quyết những vấn đề này là đáng kể. Phát triển ML tùy chỉnh ngày nay đòi hỏi các chuyên gia thực hành và nhiều tuần lặp lại, thậm chí đối với các vấn đề được xác định rõ ràng. Một hệ thống có thể điều hướng toàn bộ công việc một cách tự động từ định nghĩa vấn đề đến khám phá dữ liệu, phát triển mô hình và đánh giá mô hình sẽ thay đổi đáng kể phương trình đó, nén thời gian và mở ra các trường hợp sử dụng có giá trị cao mà hiện tại quá tốn tài nguyên để theo đuổi. Các dự án mà trước đây đòi hỏi các đội có chuyên môn sâu về ML làm việc trong nhiều tuần có thể được hoàn thành trong vài ngày mà không cần sử dụng quá nhiều thời gian của các chuyên gia ML khan hiếm.

Các thách thức của sự phân mảnh ngữ cảnh, sự mơ hồ ngữ nghĩa và thiếu bộ nhớ tổ chức không độc nhất đối với ML doanh nghiệp. Chúng biểu hiện dưới các ràng buộc khác trong xây dựng các đường ống đào tạo mô hình nền tảng, nơi hàng nghìn tập dữ liệu dị biệt phải được tổng hợp, lọc và tinh chỉnh lặp lại. Mặc dù hai thiết lập khác nhau về cấu trúc và mục tiêu, nhưng cả hai đều bị giới hạn bởi cùng một nút thắt cơ bản: sự thiếu hệ thống có thể tin cậy để phục hồi ngữ cảnh, theo dõi nguồn gốc và xây dựng trên công việc trước đó trên các lần lặp lại. Tự động hóa phát triển mô hình trong doanh nghiệp do đó là một bước quan trọng trên con đường tới các hệ thống AI có thể cải thiện chính mình.

Doris Xin, CEO & Co-Founder, Disarray

Doris Xin là CEO và đồng sáng lập của Disarray. Là một tiến sĩ RISELab của UC Berkeley và là nghiên cứu sinh sau đại học của NSF, Doris đã rèn luyện chuyên môn ML của mình và là một kỹ sư ML sơ cấp tại LinkedIn.

Moustafa AbdelBaky, CTO & Co-Founder, Disarray

Moustafa AbdelBaky là CTO và đồng sáng lập của Disarray. Ông là nghiên cứu sinh tiến sĩ IBM ba lần với gần hai thập kỷ nghiên cứu về điều phối tự động trên các hệ thống phân tán, edge ML và trí tuệ nhân tạo thời gian thực cho các nhiệm vụ hàng không và vũ trụ tự động của NASA.

Unite.AI

Con đường tới Tự động hóa Phát triển Mô hình

Three Barriers Standing in the Way

What a Real Solution Requires

What Becomes Possible

You may like