Trí tuệ nhân tạo
Các Mô Hình Trí Tuệ Nhân Tạo Hàng Đầu Đang Mất Đ hướng Trong Các Tài Liệu Dài

Một nghiên cứu mới từ các nhà nghiên cứu tại LMU Munich, Trung tâm Máy học Munich và Adobe Research đã暴 lộ một điểm yếu trong mô hình ngôn ngữ trí tuệ nhân tạo: chúng gặp khó khăn trong việc hiểu các tài liệu dài theo cách mà có thể làm bạn ngạc nhiên. Phát hiện của nhóm nghiên cứu cho thấy rằng thậm chí các mô hình trí tuệ nhân tạo tiên tiến nhất cũng gặp khó khăn khi kết nối thông tin khi chúng không thể dựa vào việc 匹配 từ đơn giản.
Vấn Đề Ẩn Với Kỹ Năng Đọc Của Trí Tuệ Nhân Tạo
Hãy tưởng tượng bạn đang cố tìm một chi tiết cụ thể trong một bài nghiên cứu dài. Bạn có thể lướt qua nó, tạo ra các kết nối tinh thần giữa các phần khác nhau để ghép lại thông tin bạn cần. Nhiều mô hình trí tuệ nhân tạo, hóa ra, không hoạt động theo cách này. Thay vào đó, chúng thường dựa rất nhiều vào việc tìm kiếm 匹配 từ chính xác, tương tự như sử dụng Ctrl+F trên máy tính.
Nhóm nghiên cứu đã phát triển một tiêu chuẩn mới gọi là NOLIMA (Không 匹配 Từ Literal) để kiểm tra các mô hình trí tuệ nhân tạo khác nhau. Kết quả cho thấy rằng khi các mô hình trí tuệ nhân tạo xử lý các văn bản dài hơn 2.000 từ, hiệu suất của chúng giảm đáng kể. Khi chúng đạt đến 32.000 từ – khoảng chiều dài của một cuốn sách ngắn – hầu hết các mô hình đều hoạt động ở mức nửa khả năng thông thường. Điều này bao gồm việc kiểm tra các mô hình chính như GPT-4o, Gemini 1.5 Pro, và Llama 3.3 70B.
Hãy xem xét một nhà nghiên cứu y tế sử dụng trí tuệ nhân tạo để phân tích hồ sơ bệnh nhân, hoặc một đội pháp lý sử dụng trí tuệ nhân tạo để xem xét tài liệu vụ án. Nếu trí tuệ nhân tạo bỏ lỡ các kết nối quan trọng vì thông tin liên quan sử dụng từ khác với truy vấn tìm kiếm, hậu quả có thể đáng kể.
Tại Sao 匹配 Từ Không Đủ
Các mô hình trí tuệ nhân tạo hiện tại xử lý văn bản bằng cách sử dụng một cơ chế gọi là cơ chế chú ý. Hệ thống này giúp trí tuệ nhân tạo tập trung vào các phần khác nhau của văn bản để hiểu mối quan hệ giữa từ và ý tưởng. Khi làm việc với văn bản ngắn, điều này hoạt động đủ tốt. Tuy nhiên, nghiên cứu cho thấy cơ chế này trở nên quá tải khi văn bản dài hơn, đặc biệt khi nó không thể dựa vào 匹配 từ chính xác.
Kiểm tra NOLIMA đã暴 lộ hạn chế này bằng cách yêu cầu các mô hình trí tuệ nhân tạo trả lời các câu hỏi mà câu trả lời yêu cầu hiểu ngữ cảnh chứ không phải tìm kiếm 匹配 từ. Kết quả rất đáng chú ý. Trong khi các mô hình hoạt động tốt với văn bản ngắn, khả năng tạo ra các kết nối này giảm đáng kể khi chiều dài văn bản tăng. Thậm chí các mô hình chuyên dụng được thiết kế cho nhiệm vụ lập luận cũng đạt dưới 50% độ chính xác khi xử lý tài liệu dài hơn.
Không Có Sức Hỗ Trợ Của 匹配 Từ, Các Mô Hình Trí Tuệ Nhân Tạo Đã Gặp Khó Khăn Để:
- Kết nối các khái niệm liên quan sử dụng thuật ngữ khác nhau
- Theo dõi các đường lối lập luận đa bước
- Tìm kiếm thông tin liên quan khi nó xuất hiện sau ngữ cảnh chính
- Bỏ qua 匹配 từ gây hiểu lầm trong các phần không liên quan
Số Liệu Kể Chuyện
Phát hiện của nghiên cứu vẽ ra một bức tranh rõ ràng về cách các mô hình trí tuệ nhân tạo xử lý văn bản dài. GPT-4o đã thể hiện hiệu suất mạnh nhất, duy trì hiệu quả lên đến khoảng 8.000 token (khoảng 6.000 từ). Tuy nhiên, thậm chí mô hình này cũng cho thấy sự suy giảm đáng kể với văn bản dài hơn. Hầu hết các mô hình khác, bao gồm Gemini 1.5 Pro và Llama 3.3 70B, đã trải qua sự suy giảm hiệu suất đột ngột giữa 2.000 và 8.000 token.
Sự suy giảm hiệu suất trở nên rõ ràng hơn khi nhiệm vụ yêu cầu nhiều bước lập luận. Ví dụ, nếu một mô hình cần tạo ra hai kết nối logic – như hiểu rằng một nhân vật sống gần một địa danh, và địa danh đó nằm trong một thành phố cụ thể – tỷ lệ thành công giảm đáng kể. Nghiên cứu cho thấy loại lập luận đa bước này trở nên đặc biệt thách thức trong văn bản vượt quá 16.000 token, ngay cả khi sử dụng các kỹ thuật được thiết kế để cải thiện lập luận, như Chain-of-Thought prompting.
Điều làm cho những phát hiện này đặc biệt đáng chú ý là chúng thách thức các tuyên bố về khả năng của các mô hình trí tuệ nhân tạo trong việc xử lý ngữ cảnh dài. Mặc dù nhiều mô hình quảng cáo hỗ trợ cho các cửa sổ ngữ cảnh rộng, nhưng tiêu chuẩn NOLIMA cho thấy sự hiểu biết hiệu quả giảm đáng kể trước khi đạt đến các giới hạn lý thuyết này.

Source: Modarressi et al.
Khi Trí Tuệ Nhân Tạo Bỏ Qua Rừng Để Nhìn Cây
Những hạn chế này có ý nghĩa nghiêm trọng về cách chúng ta sử dụng trí tuệ nhân tạo trong các ứng dụng thực tế. Hãy xem xét một hệ thống pháp lý trí tuệ nhân tạo tìm kiếm trong luật. Nó có thể bỏ lỡ các tiền lệ liên quan chỉ vì chúng sử dụng thuật ngữ khác với truy vấn tìm kiếm. Thay vào đó, hệ thống có thể tập trung vào các vụ việc ít liên quan hơn mà happen để chia sẻ nhiều từ với các thuật ngữ tìm kiếm.
Tác động đến tìm kiếm và phân tích tài liệu đặc biệt đáng lo ngại. Các hệ thống tìm kiếm trí tuệ nhân tạo hiện tại thường dựa vào một kỹ thuật gọi là Retrieval-Augmented Generation (RAG). Ngay cả khi những hệ thống này thành công trong việc tìm kiếm một tài liệu chứa thông tin đúng, trí tuệ nhân tạo có thể không nhận ra sự liên quan của nó nếu từ ngữ khác với truy vấn. Thay vào đó, trí tuệ nhân tạo có thể bị thu hút bởi các tài liệu ít liên quan hơn mà có sự tương đồng bề mặt với các thuật ngữ tìm kiếm.
Đối Với Người Sử Dụng Trí Tuệ Nhân Tạo, Những Phát Hiện Này Đề Xuất Một Số Xem Xét Quan Trọng:
Thứ Nhất, các truy vấn và tài liệu ngắn hơn có thể mang lại kết quả đáng tin cậy hơn. Khi làm việc với văn bản dài, việc chia chúng thành các đoạn có ý nghĩa có thể giúp tạo ra các phần logic mà bảo tồn ngữ cảnh quan trọng.
Thứ Hai, người dùng nên đặc biệt cẩn thận khi yêu cầu trí tuệ nhân tạo tạo ra các kết nối trên các phần khác nhau của một tài liệu dài. Nghiên cứu cho thấy rằng các mô hình trí tuệ nhân tạo gặp khó khăn nhất khi chúng cần ghép thông tin từ các phần khác nhau, đặc biệt khi kết nối không rõ ràng thông qua từ vựng được chia sẻ.
Thứ Ba, những hạn chế này nhấn mạnh tầm quan trọng liên tục của sự giám sát con người. Mặc dù các công cụ trí tuệ nhân tạo có thể rất hữu ích cho nhiều nhiệm vụ, chúng không nên được coi là phương tiện thay thế hoàn toàn cho việc phân tích của con người đối với các tài liệu phức tạp. Khả năng của con người trong việc duy trì ngữ cảnh và tạo ra các kết nối khái niệm trên các văn bản dài vẫn vượt trội so với khả năng của trí tuệ nhân tạo hiện tại.
Những phát hiện này đóng vai trò như một lời nhắc nhở rằng mặc dù công nghệ trí tuệ nhân tạo đang phát triển nhanh chóng, những hệ thống này vẫn xử lý thông tin rất khác so với con người. Hiểu biết những hạn chế này là điều quan trọng để sử dụng các công cụ trí tuệ nhân tạo một cách hiệu quả và biết khi nào phán quyết của con người vẫn là điều cần thiết.
Cái Gì Đến Tiếp Theo
Hiểu biết những hạn chế của khả năng xử lý văn bản dài của các mô hình trí tuệ nhân tạo hiện tại mở ra những câu hỏi quan trọng về tương lai của sự phát triển trí tuệ nhân tạo. Nghiên cứu đằng sau tiêu chuẩn NOLIMA đã cho thấy rằng cách tiếp cận hiện tại của chúng ta đối với việc xử lý văn bản trí tuệ nhân tạo có thể cần phải được tinh chỉnh đáng kể, đặc biệt là trong cách các mô hình xử lý thông tin trên các đoạn văn bản dài hơn.
Các giải pháp hiện tại đã cho thấy sự thành công một phần. Chain-of-Thought prompting, khuyến khích các mô hình trí tuệ nhân tạo chia nhỏ lập luận của chúng thành các bước, giúp cải thiện hiệu suất một chút. Ví dụ, khi sử dụng kỹ thuật này, Llama 3.3 70B đã thể hiện khả năng xử lý ngữ cảnh dài hơn. Tuy nhiên, cách tiếp cận này vẫn còn thiếu sót khi xử lý văn bản vượt quá 16.000 token, cho thấy chúng ta cần các giải pháp cơ bản hơn.
Cơ chế chú ý, tạo thành xương sống của cách các mô hình trí tuệ nhân tạo hiện tại xử lý văn bản, cần được suy nghĩ lại. Hãy tưởng tượng nó như cố gắng tham gia vào một cuộc trò chuyện trong một phòng đông – cuộc trò chuyện càng dài, càng khó để theo dõi tất cả các điểm quan trọng đã được đề cập trước đó. Các mô hình trí tuệ nhân tạo hiện tại của chúng ta đối mặt với một thách thức tương tự, nhưng ở quy mô lớn hơn.
Nhìn về tương lai, các nhà nghiên cứu đang khám phá một số hướng đi đầy hứa hẹn. Một cách tiếp cận liên quan đến việc phát triển các cách mới cho trí tuệ nhân tạo tổ chức và ưu tiên thông tin trong văn bản dài, vượt ra ngoài việc 匹配 từ đơn giản để hiểu các kết nối khái niệm sâu sắc hơn. Điều này có thể hoạt động giống như cách con người tạo ra các bản đồ tinh thần của thông tin, kết nối ý tưởng dựa trên ý nghĩa chứ không chỉ dựa vào từ vựng được chia sẻ.
Một lĩnh vực phát triển khác tập trung vào việc cải thiện cách các mô hình trí tuệ nhân tạo xử lý những gì các nhà nghiên cứu gọi là “nhảy logic” – các bước logic cần thiết để kết nối các mảnh thông tin khác nhau. Các mô hình hiện tại gặp khó khăn với những kết nối này, đặc biệt là trong văn bản dài, nhưng các kiến trúc mới có thể giúp bắc cầu khoảng cách này.
Đối Với Những Người Làm Việc Với Các Công Cụ Trí Tuệ Nhân Tạo Hôm Nay, Những Phát Hiện Này Đề Xuất Một Số Cách Tiếp Cận Thực Tiễn:
Hãy xem xét việc chia các tài liệu dài thành các đoạn có ý nghĩa khi làm việc với trí tuệ nhân tạo. Điều này giúp tạo ra các phần logic mà bảo tồn ngữ cảnh quan trọng. Ví dụ, nếu phân tích một bài nghiên cứu, bạn có thể giữ các phần phương pháp và kết quả cùng nhau vì chúng thường chứa thông tin liên quan.
Khi yêu cầu trí tuệ nhân tạo phân tích văn bản dài, hãy cụ thể về các kết nối bạn muốn nó tạo ra. Thay vì đặt câu hỏi rộng, hãy hướng dẫn trí tuệ nhân tạo đến các mối quan hệ cụ thể bạn quan tâm khám phá. Điều này giúp bù đắp cho hạn chế hiện tại của mô hình trong việc tạo ra các kết nối này một cách độc lập.
Có lẽ quan trọng nhất, hãy duy trì kỳ vọng thực tế về khả năng của trí tuệ nhân tạo với văn bản dài. Mặc dù những công cụ này có thể rất hữu ích cho nhiều nhiệm vụ, chúng không nên được coi là phương tiện thay thế hoàn toàn cho việc phân tích của con người đối với các tài liệu phức tạp. Khả năng của con người trong việc duy trì ngữ cảnh và tạo ra các kết nối khái niệm trên các văn bản dài vẫn vượt trội so với khả năng của trí tuệ nhân tạo hiện tại.
Con đường phía trước cho sự phát triển trí tuệ nhân tạo trong lĩnh vực này vừa đầy thách thức vừa thú vị. Khi chúng ta hiểu rõ hơn về những hạn chế này, chúng ta có thể làm việc hướng đến các hệ thống trí tuệ nhân tạo thực sự hiểu văn bản dài thay vì chỉ xử lý chúng. Cho đến lúc đó, sử dụng trí tuệ nhân tạo một cách hiệu quả có nghĩa là làm việc với những hạn chế hiện tại của nó trong khi đánh giá cao những điểm mạnh của nó.












