Kết nối với chúng tôi

Tại sao các mô hình ngôn ngữ lớn quên mất phần giữa: Khám phá điểm mù ẩn giấu của AI

Trí tuệ nhân tạo

Tại sao các mô hình ngôn ngữ lớn quên mất phần giữa: Khám phá điểm mù ẩn giấu của AI

mm

Vì các Mô hình ngôn ngữ lớn (LLM) được sử dụng rộng rãi cho các nhiệm vụ như tóm tắt tài liệu, phân tích pháp lý và đánh giá bệnh sử, nên điều quan trọng là phải nhận ra những hạn chế của các mô hình này. Trong khi các vấn đề phổ biến như ảo giácthiên vị đã được biết đến rộng rãi, các nhà nghiên cứu gần đây đã xác định được một sai sót đáng kể khác: khi xử lý các văn bản dài, LLM có xu hướng lưu giữ thông tin ở phần đầu và phần cuối nhưng thường bỏ qua phần giữa.

Vấn đề này được gọi là “lạc-lạc-giữa-giữa” hiện tượng, có thể ảnh hưởng nghiêm trọng đến hiệu suất của các mô hình này trong các ứng dụng thực tế. Ví dụ, nếu AI được giao nhiệm vụ tóm tắt một tài liệu pháp lý dài, việc thiếu các chi tiết quan trọng ở giữa có thể dẫn đến tóm tắt gây hiểu lầm hoặc không đầy đủ. Trong các thiết lập y tế, việc bỏ qua thông tin từ giữa bệnh sử của bệnh nhân có thể dẫn đến các khuyến nghị không chính xác. Việc hiểu lý do tại sao điều này xảy ra vẫn là một nhiệm vụ đầy thách thức đối với các nhà nghiên cứu đang cố gắng xây dựng AI an toàn và đáng tin cậy hơn. Tuy nhiên, gần đây, một nghiên cứu cung cấp một số câu trả lời rõ ràng nhất từ ​​trước đến nay, cho thấy vấn đề này có nguồn gốc sâu xa từ kiến ​​trúc của các mô hình này.

Vấn đề “Lạc giữa”

Hiện tượng “lạc giữa chừng” ám chỉ xu hướng của LLM ít chú ý đến thông tin ở giữa các chuỗi đầu vào dài. Nó tương tự như cách con người thường nhớ các mục đầu tiên và cuối cùng trong một danh sách tốt hơn so với các mục ở giữa. Sự thiên vị nhận thức này ở con người thường được gọi là hiệu ứng ưu tiên và gần đây. Đối với LLM, điều này có nghĩa là họ hoạt động tốt hơn khi thông tin chính nằm ở đầu hoặc cuối văn bản nhưng lại gặp khó khăn khi thông tin đó nằm ở giữa. Điều này dẫn đến đường cong hiệu suất "hình chữ U", trong đó độ chính xác cao ở phần đầu, giảm đáng kể ở giữa và sau đó tăng trở lại ở phần cuối.

Hiện tượng này không chỉ là vấn đề lý thuyết. Nó đã được quan sát thấy ở nhiều nơi nhiệm vụ, từ trả lời câu hỏi đến tóm tắt tài liệu. Ví dụ, nếu bạn hỏi một câu hỏi LLM mà câu trả lời nằm ở vài đoạn đầu tiên của một bài viết dài, thì có khả năng câu trả lời sẽ đúng. Điều tương tự cũng đúng nếu câu trả lời nằm ở vài đoạn cuối. Nhưng nếu thông tin quan trọng bị ẩn ở đâu đó ở giữa, thì độ chính xác của mô hình sẽ giảm mạnh. Đây là một hạn chế nghiêm trọng, vì điều đó có nghĩa là chúng ta không thể hoàn toàn tin tưởng các mô hình này với các nhiệm vụ đòi hỏi phải hiểu một bối cảnh dài và phức tạp. Điều này cũng khiến chúng dễ bị thao túng. Ai đó có thể cố tình đặt thông tin gây hiểu lầm ở đầu hoặc cuối tài liệu để tác động đến đầu ra của AI.

Hiểu về kiến ​​trúc của LLM

Để hiểu tại sao LLM quên phần giữa, chúng ta cần xem cách chúng được xây dựng. LLM hiện đại dựa trên một kiến ​​trúc được gọi là Transformer. Transformer là một bước đột phá trong AI vì nó giới thiệu một cơ chế được gọi là tự chú ý. Tự chú ý cho phép mô hình cân nhắc tầm quan trọng của các từ khác nhau trong văn bản đầu vào khi xử lý bất kỳ từ nào. Ví dụ, khi xử lý câu "Con mèo ngồi trên tấm thảm", cơ chế tự chú ý có thể học được rằng "mèo" và "ngồi" có liên quan cao. Điều này cho phép mô hình xây dựng sự hiểu biết phong phú hơn nhiều về mối quan hệ giữa các từ so với các kiến ​​trúc trước đây.

Một thành phần quan trọng khác là mã hóa vị trí. Vì bản thân cơ chế tự chú ý không có ý nghĩa cố hữu về thứ tự từ, nên các mã hóa vị trí được thêm vào đầu vào để cung cấp cho mô hình thông tin về vị trí của từng từ trong chuỗi. Nếu không có điều này, mô hình sẽ coi văn bản đầu vào chỉ là một “túi từ” không có cấu trúc. Hai thành phần này, sự chú ý đến bản thân và mã hóa vị trí, hoạt động cùng nhau để làm cho LLM hiệu quả hơn. Tuy nhiên, nghiên cứu mới cho thấy cách chúng tương tác cũng là nguồn gốc của điểm mù ẩn này.

Sự thiên vị vị trí xuất hiện như thế nào

Mới đây nghiên cứu sử dụng một cách tiếp cận thông minh để giải thích hiện tượng này. Nó mô hình hóa luồng thông tin bên trong Transformer dưới dạng đồ thị, trong đó mỗi từ là một nút và các kết nối chú ý là các cạnh. Điều này cho phép các nhà nghiên cứu theo dõi về mặt toán học cách thông tin từ các vị trí khác nhau được xử lý thông qua nhiều lớp của mô hình.

Họ đã khám phá ra hai hiểu biết chính. Đầu tiên, việc sử dụng che giấu nhân quả trong nhiều LLM vốn tạo ra sự thiên vị về phía đầu của chuỗi. Causal masking là một kỹ thuật đảm bảo khi mô hình tạo ra một từ, nó chỉ có thể chú ý đến các từ đứng trước nó, chứ không phải sau nó. Điều này rất quan trọng đối với các tác vụ như tạo văn bản. Tuy nhiên, qua nhiều lớp, điều này tạo ra hiệu ứng phức hợp. Vài từ đầu tiên trong một văn bản được xử lý nhiều lần và các biểu diễn của chúng ngày càng có ảnh hưởng hơn. Ngược lại, các từ ở giữa luôn nhìn lại bối cảnh đã được thiết lập tốt này và đóng góp độc đáo của riêng chúng có thể bị lấn át.

Thứ hai, các nhà nghiên cứu đã xem xét cách mã hóa vị trí tương tác với hiệu ứng che lấp nhân quả này. Các LLM hiện đại thường sử dụng mã hóa vị trí tương đối, tập trung vào khoảng cách giữa các từ thay vì vị trí tuyệt đối của chúng. Điều này giúp mô hình khái quát hóa thành các văn bản có độ dài khác nhau. Mặc dù điều này có vẻ là một ý tưởng hay, nhưng nó lại tạo ra một áp lực cạnh tranh. Mặt nạ nhân quả đẩy trọng tâm của mô hình vào phần đầu, trong khi mã hóa vị trí tương đối khuyến khích mô hình tập trung vào các từ gần đó. Kết quả của cuộc giằng co này là mô hình chú ý nhiều nhất đến phần đầu của văn bản và ngữ cảnh cục bộ ngay lập tức của bất kỳ từ nào. Thông tin ở xa và không ở phần đầu, nói cách khác là phần giữa, sẽ ít được chú ý nhất.

Ý nghĩa rộng hơn

Hiện tượng “bị lạc ở giữa” có hậu quả đáng kể đối với các ứng dụng dựa vào việc xử lý các văn bản dài. Nghiên cứu cho thấy vấn đề không chỉ là hiệu ứng ngẫu nhiên mà là hậu quả cơ bản của cách chúng ta thiết kế các mô hình này. Điều này có nghĩa là chỉ đào tạo chúng trên nhiều dữ liệu hơn thì không thể giải quyết được vấn đề. Thay vào đó, chúng ta có thể cần phải xem xét lại một số nguyên tắc kiến ​​trúc cốt lõi của Transformers.

Đối với người dùng và nhà phát triển AI, đây là một cảnh báo quan trọng. Chúng ta phải nhận thức được hạn chế này khi thiết kế các ứng dụng dựa trên LLM. Đối với các tác vụ liên quan đến tài liệu dài, chúng ta có thể cần phát triển các chiến lược để giảm thiểu sự thiên vị này. Điều này có thể bao gồm việc chia tài liệu thành các phần nhỏ hơn hoặc tạo các mô hình hướng sự chú ý của mô hình cụ thể đến các phần khác nhau của văn bản. Nó cũng nhấn mạnh tầm quan trọng của việc thử nghiệm nghiêm ngặt. Chúng ta không thể cho rằng một LLM hoạt động tốt trên các văn bản ngắn sẽ đáng tin cậy khi đối mặt với các đầu vào dài hơn, phức tạp hơn.

Lời kết

Sự phát triển của AI luôn tập trung vào việc xác định những hạn chế và tìm cách khắc phục chúng. Vấn đề "bị lạc giữa chừng" là một lỗi đáng kể trong các mô hình ngôn ngữ lớn, khi chúng có xu hướng bỏ qua thông tin ở giữa các chuỗi văn bản dài. Vấn đề này phát sinh từ sự thiên vị trong kiến ​​trúc Transformer, đặc biệt là sự tương tác giữa che giấu nhân quả và mã hóa vị trí tương đối. Mặc dù LLM hoạt động tốt với thông tin ở đầu và cuối văn bản, nhưng chúng gặp khó khăn khi các chi tiết quan trọng được đặt ở giữa. Hạn chế này có thể làm giảm độ chính xác của LLM trong các tác vụ như tóm tắt tài liệu và trả lời câu hỏi, có thể gây ra những tác động nghiêm trọng trong các lĩnh vực như luật pháp và y học. Các nhà phát triển và nhà nghiên cứu phải giải quyết vấn đề này để cải thiện độ tin cậy của LLM trong các ứng dụng thực tế.

Tiến sĩ Tehseen Zia là Phó Giáo sư chính thức tại Đại học COMSATS Islamabad, có bằng Tiến sĩ về AI tại Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ nhân tạo, Học máy, Khoa học dữ liệu và Thị giác máy tính, ông đã có những đóng góp đáng kể với các công bố trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã lãnh đạo nhiều dự án công nghiệp khác nhau với tư cách là Điều tra viên chính và là Nhà tư vấn AI.