Lãnh đạo tư tưởng

Giải pháp Thực thể Trở thành Cơ sở Hạ tầng Trí tuệ Nhân tạo, Không phải Chỉ là Làm sạch Dữ liệu

mm

Một thời gian trước, tôi đã xem một tác nhân trí tuệ nhân tạo đưa ra một câu trả lời tự tin nhưng hoàn toàn sai lầm vì một lý do rất đơn giản. Một doanh nghiệp có hai bản ghi cho cùng một khách hàng doanh nghiệp. Một bản ghi chứa tên thương mại cũ và thông tin liên hệ tài chính. Bản ghi khác chứa tên pháp lý mới mà công ty đã áp dụng sau khi sáp nhập, cùng với địa chỉ hóa đơn khác. Tác nhân được hỏi một câu hỏi đơn giản: tài khoản này có trong tình trạng tốt không? Nó tìm thấy một bản ghi, thấy không có hóa đơn quá hạn và nói có. Tuy nhiên, hóa đơn quá hạn được lưu dưới tên khác.

Không có gì bị “huyễn tưởng”. Mô hình suy luận sạch sẽ trên dữ liệu nó được cung cấp. Dữ liệu chỉ tình cờ mô tả hai khách hàng nơi trong thế giới thực chỉ có một. Lỗi không nằm trong mô hình ngôn ngữ. Nó nằm trong việc kết hợp.

Tôi đã đến suy nghĩ rằng đây là một trong những rủi ro bị đánh giá thấp nhất trong trí tuệ nhân tạo doanh nghiệp và cũng là một trong những điều được thảo luận ít nhất. Chúng ta nói rất nhiều về độ chính xác của mô hình, thiết kế lời nhắc và quản trị. Chúng ta nói ít hơn về việc liệu hệ thống thực sự biết thực thể thế giới thực mà nó đang hành động trên. Câu hỏi đó có một tên. Đó là giải quyết thực thể, và sau sáu mươi năm ở hậu trường, nó đang im lặng biến thành một phần của cơ sở hạ tầng trực tiếp.

Vấn đề đã thay đổi thì

Trong hầu hết cuộc đời hoạt động của nó, “liệu hai bản ghi này là cùng một thực thể?” là một câu hỏi làm sạch. Bạn chạy nó trong một lô, theo lịch trình, ở một nơi nào đó trong chương trình quản lý dữ liệu chính, kho hoặc đường ống phân tích. Nó không bao giờ hoàn hảo, nhưng nó có thể chấp nhận được, vì đầu ra là một báo cáo mà ai đó sẽ đọc vào tuần tới. Nếu hai bản ghi của cùng một nhà cung cấp không được hợp nhất, một số chi tiêu sẽ hơi sai, một nhà phân tích sẽ nhận thấy và nó sẽ được sửa trong lần chạy tiếp theo. Hệ thống có độ lỏng lẻo trong đó. Thời gian hấp thụ lỗi.

Một tác nhân trí tuệ nhân tạo loại bỏ độ lỏng lẻo đó. Nó thay đổi thì của câu hỏi từ “someday” thành “now”. Khi một tác nhân sắp phê duyệt một khoản hoàn trả, định tuyến một trường hợp, cập nhật một hồ sơ hoặc trả lời một câu hỏi tuân thủ, thực thể đã giải quyết không còn cho ăn một bảng điều khiển. Nó cho ăn một hành động. Chi phí của một liên kết sai chuyển từ một số hơi sai sang một điều gì đó xảy ra trong thế giới, ngay lập tức, và thường không có con người trong vòng lặp để bắt nó.

Đó là sự thay đổi đáng để suy ngẫm. Vấn đề cơ bản là cũ và được hiểu rõ. Điều mới là chúng ta đã kết nối nó trực tiếp vào các hệ thống hành động tự chủ.

Một vấn đề thống kê từ những năm 1960

Giải quyết thực thể không đến với các mô hình ngôn ngữ lớn. Nó đến với thẻ đục lỗ. Vào năm 1959, H. B. Newcombe và các đồng nghiệp của ông đã xuất bản một bài báo ngắn trên Tạp chí Khoa học về liên kết tự động của hồ sơ quan trọng, mô tả cách một máy tính có thể quyết định liệu một hồ sơ sinh và một hồ sơ kết hôn có đề cập đến cùng một người hay không. Một thập kỷ sau, Ivan Fellegi và Alan Sunter đã đưa ra một lý thuyết toán học chính thức cho ý tưởng này, định nghĩa ba kết quả mà bất kỳ hệ thống khớp nào vẫn sản xuất ngày nay: một liên kết, một liên kết không và một liên kết có thể mà một người cần xem xét.

Có một chi tiết trong dòng dõi đó đáng để suy ngẫm, vì đó là phần mà mọi người thường hiểu lầm nhất. Liên kết hồ sơ không bao giờ chỉ là khớp chính xác trên một địa chỉ email hoặc một ID được chia sẻ. Từ rất đầu, nó đã là xác suất. Nó đánh giá bằng chứng rằng hai hồ sơ đồng ý về một họ, một ngày, một địa điểm và tạo ra một điểm số, vì dữ liệu được nhập bởi con người là lộn xộn và các khóa chính xác thất bại liên tục. Giải quyết thực thể hiện đại vẫn hoạt động theo cách này. Nó kết hợp các quy tắc quyết định, nơi một định danh ổn định được chia sẻ là quyết định, với khớp máy học mờ và xác suất để đối phó với lỗi đánh máy, biệt danh, trường bị hoán đổi, viết tắt và hàng chục cách nhỏ mà cùng một người hoặc công ty xuất hiện khác nhau trên các hệ thống. Một khảo sát lĩnh vực tốt sẽ vạch ra một dòng không gián đoạn từ những hồ sơ quan trọng những năm 1950 đến các phương pháp phân cụm và máy học được sử dụng hiện nay.

Điều thực sự đã thay đổi là khi chúng ta cần câu trả lời. Các nhà nghiên cứu đã viết về giải quyết thực thể tại thời điểm truy vấn, chứ không chỉ thuần túy trước, từ lâu trước làn sóng trí tuệ nhân tạo hiện tại. Lúc đó nó là một tối ưu hóa thú vị. Bây giờ nó gần như là một yêu cầu.

Tại sao các tác nhân biến nó thành cơ sở hạ tầng

Hầu hết các hệ thống trí tuệ nhân tạo doanh nghiệp không trả lời từ bộ nhớ của mô hình. Chúng truy xuất. Mô hình phổ biến được gọi là tạo sinh tăng cường truy xuất có một tác nhân kéo nội dung liên quan vào thời điểm câu hỏi và suy luận trên nó. Về tổng thể, đây là một điều tốt. Nó dựa trên các câu trả lời của bạn vào dữ liệu của bạn chứ không phải mô hình đào tạo.

Nhưng nó mang theo một hệ quả dễ bị bỏ qua. Tác nhân kế thừa bất cứ điều gì bước truy xuất đưa cho nó. Nếu bước truy xuất trả về một khách hàng bị phân mảnh, ba bản ghi không đầy đủ chưa bao giờ được kết nối, tác nhân sẽ suy luận về ba khách hàng. Nếu bước truy xuất trả về một bản ghi bị hợp nhất sai, hai công ty khác nhau bị sập vào một hồ sơ duy nhất, tác nhân sẽ suy luận về một. Sự mơ hồ đã ngồi trong các hệ thống nguồn của bạn được truyền trực tiếp và trình bày cho mô hình như một sự thật đã được giải quyết. Mô hình không có cách nào biết rằng liên kết là sai, không giống như bạn khi đọc một bản tóm tắt gọn gàng của các bản ghi mà bạn chưa từng thấy.

Vì vậy, giải quyết không thể là một ý nghĩ sau cùng mà chạy mỗi quý và hạ cánh trong một bảng riêng. Thực thể phải được lắp ráp khi dữ liệu được tiêu thụ, và tầm nhìn hiện tại của nó phải có thể truy xuất tại thời điểm tác nhân hỏi. Đó là một sự phụ thuộc thời gian chạy. Nó hoạt động nhiều hơn như một cơ sở dữ liệu hoặc một dịch vụ xác thực hơn là một dự án làm sạch dữ liệu định kỳ, và nó phải được thiết kế, theo dõi và tin cậy giống như bạn sẽ đối xử với bất kỳ hệ thống nào mà ứng dụng của bạn gọi trong thời gian thực.

Khoảng cách sẵn sàng mà không ai đặt tên chính xác

Ngành công nghiệp đã cảm nhận được điều gì đó đang thiếu ở đây. Chỉ số sẵn sàng trí tuệ nhân tạo 2025 của Cisco cho thấy 83% tổ chức dự định triển khai các tác nhân tự chủ, trong khi chỉ khoảng một-third cảm thấy cơ sở hạ tầng của họ thực sự sẵn sàng cho chúng, và chỉ khoảng một-quarter cảm thấy được trang bị để kiểm soát và quản lý những gì các tác nhân thực sự làm. Khảo sát tình trạng trí tuệ nhân tạo mới nhất của McKinsey mô tả một khoảng cách tương tự từ hướng khác: khoảng 88% tổ chức hiện sử dụng trí tuệ nhân tạo trong ít nhất một chức năng, nhưng hầu hết chưa mở rộng nó trên toàn doanh nghiệp.

Khi mọi người giải thích khoảng cách đó, họ có xu hướng đưa ra hai từ: chất lượng dữ liệu và quản trị. Cả hai đều quan trọng, và không cái nào là tùy chọn. Nhưng có một câu hỏi hẹp hơn nằm dưới chúng mà dữ liệu sạch và được quản trị tốt không trả lời một mình. Hệ thống có thể xác định thực thể thế giới thực mà một bản ghi nhất định đề cập đến, trên tất cả các nơi mà bản ghi đó tồn tại, ngay bây giờ không? Bạn có thể giữ dữ liệu chất lượng cao trong từng hệ thống riêng lẻ và vẫn thất bại trong bài kiểm tra đó, vì sự thất bại không sống trong bất kỳ hệ thống nào. Nó sống trong không gian giữa chúng, nơi cùng một khách hàng mặc ba khuôn mặt hơi khác nhau.

Điều gì cần kiểm tra trước khi bạn để một tác nhân hành động

Nếu bạn đối xử với giải quyết thực thể như cơ sở hạ tầng trực tiếp, bạn có thể kiểm tra nó như cơ sở hạ tầng. Các chế độ thất bại hoạt động cụ thể và có thể kiểm tra: các bản sắc bị chia tách nên là một, các hợp nhất sai của các bản ghi nên giữ riêng biệt, các quy tắc tồn tại lỗi thời giữ việc thúc đẩy một địa chỉ bị thay thế, các định danh vĩnh viễn bị thiếu, và các tác nhân kế thừa sự mơ hồ của hệ thống nguồn như thể nó là sự thật đã được giải quyết.

Một bài kiểm tra sẵn sàng thực tế không yêu cầu một mô hình mới hoặc một danh mục nhà cung cấp mới. Hãy tập hợp một tập thực thể cơ bản mà bạn thực sự hiểu. Chạy nó qua cùng một đường truy xuất mà tác nhân của bạn sử dụng, không phải một bản sao sạch được xây dựng cho bản demo. Sau đó đo lường những thứ thực sự quyết định kết quả: số lượng hợp nhất sai và chia tách sai, cách hệ thống xử lý sự mơ hồ thực sự, ngưỡng độ tin cậy của nó, khi nào nó chuyển lên người thay vì đoán, và cách nó chuyển giao sạch sẽ cho các kiểm soát dữ liệu chính và quản trị hiện có của bạn. Nếu một nhóm không thể trả lời những câu hỏi đó, tác nhân đang hành động trên một danh tính mà nó không thể xác minh, và sự tự tin vào đầu ra của nó là bị hiểu lầm.

Không có gì thay thế quản lý dữ liệu chính, quản trị, nền tảng dữ liệu khách hàng hoặc kho. Những thứ đó trả lời các câu hỏi khác, và chúng vẫn cần thiết. Quản trị quyết định những gì một tác nhân được phép làm. Giải quyết thực thể quyết định ai, hoặc cái gì, nó đang làm. Đầu tiên là trưởng thành trong hầu hết các tổ chức lớn. Thứ hai là lớp mà nhiều người sắp phát hiện ra họ cần bên cạnh nó, trong thời gian thực, vào thời điểm họ để một tác nhân hành động thay vì tư vấn.

Tác nhân tôi xem không cần một mô hình thông minh hơn. Nó cần biết rằng hai tên là một khách hàng trước khi nó được phép phát âm chắc chắn. Khi chúng ta trao cho những hệ thống này quyền lực thực sự để hành động, kỷ luật im lặng sáu mươi năm tuổi đó ngừng trở thành làm sạch và bắt đầu trở thành tải trọng.

Steven Renwick là đồng sáng lập và CEO của Tilores (tilores.io), cung cấp giải pháp phân giải thực thể thời gian thực thông qua API cho các đội AI và dữ liệu. Ông làm việc với các nhà lãnh đạo kỹ thuật và dữ liệu về việc giải quyết danh tính khách hàng, nhà cung cấp và tài khoản trên các hệ thống phân mảnh.