Trí tuệ nhân tạo
Ngay cả các mô hình ngôn ngữ hiện đại cũng gặp khó khăn trong việc hiểu logic thời gian

Dự đoán trạng thái tương lai là một nhiệm vụ quan trọng trong nghiên cứu thị giác máy tính – không chỉ trong lĩnh vực robot, nơi các tình huống thực tế phải được xem xét. Các hệ thống học máy được giao nhiệm vụ quan trọng do đó cần có hiểu biết đầy đủ về thế giới vật lý.
Tuy nhiên, trong một số trường hợp, kiến thức rõ ràng về thực tại thời gian có thể là lừa dối: một bài báo mới từ Các Tiểu vương quốc Ả Rập Thống nhất đã phát hiện ra rằng các mô hình ngôn ngữ lớn đa phương thức (MLLMs) hiện đại, bao gồm cả các nhà lãnh đạo trong lĩnh vực này như GPT-4o và Google Gemini, không đạt được kết quả tốt khi giải thích cách thời gian được thể hiện trong hình ảnh.
Các cặp hình ảnh tuần tự (xem hình dưới), sẽ không phải là thách thức đối với con người ngay cả khi được sắp xếp sai thứ tự, có thể đánh lừa các MLLMs tiên tiến khi được trình bày trong các ngữ cảnh hoặc cấu hình không mong muốn (chẳng hạn như hình ảnh thứ hai trước, kết hợp thành hình ảnh đơn, hình ảnh tuần tự nhiều hình ảnh có thể hoặc không thể đại diện cho thứ tự thời gian chính xác, v.v.).

Mẫu từ một trong các tập dữ liệu được biên soạn cho nghiên cứu mới, thể hiện các sự kiện tuần tự dưới dạng hình ảnh ‘trước và sau’. Các nhà nghiên cứu đã làm cho dữ liệu này có sẵn tại https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer
Các nhà nghiên cứu đã giao nhiệm vụ cho các mô hình thực hiện các thử thách lý luận thời gian cơ bản, chẳng hạn như xác định thứ tự sự kiện hoặc ước tính khoảng thời gian, và phát hiện ra rằng bảy MLLMs được thử nghiệm đạt được kết quả đáng kể thấp hơn so với độ chính xác của con người:
‘Tổng thể, [kết quả] cho thấy rằng tất cả các MLLMs hiện tại, bao gồm GPT-4o – mô hình tiên tiến nhất trong đánh giá của chúng tôi – gặp khó khăn với tiêu chuẩn được đề xuất. Mặc dù GPT-4o có hiệu suất vượt trội so với các mô hình khác, nhưng nó không thể thể hiện một cách nhất quán lý luận thời gian chính xác trên các thiết lập khác nhau.’
‘Độ chính xác nhất quán là đáng kể thấp đối với tất cả các mô hình, cho thấy những hạn chế đáng kể trong khả năng hiểu và giải thích các chuỗi thời gian từ đầu vào trực quan. Những khiếm khuyết này rõ ràng ngay cả khi các mô hình được cung cấp đầu vào hình ảnh đa dạng hoặc các lời nhắc được tối ưu hóa, cho thấy rằng các kiến trúc và phương pháp đào tạo hiện tại là không đủ cho việc hiểu thứ tự thời gian mạnh mẽ.’
Các hệ thống học máy được thiết kế để tối ưu hóa kết quả chính xác nhất, nhưng cũng hiệu quả và dễ sử dụng nhất*. Vì chúng không tiết lộ lý do rõ ràng, nên có thể khó xác định khi chúng lừa đảo, hoặc sử dụng ‘phương pháp tắt’.
Trong trường hợp như vậy, MLLM có thể đạt được đáp án đúng bằng phương pháp sai. Việc đáp án như vậy có thể đúng có thể tạo ra sự tự tin sai lầm trong mô hình, điều này có thể tạo ra kết quả không chính xác bằng phương pháp tương tự trong các nhiệm vụ sau được trình bày cho nó.
Tồi tệ hơn, sự sai hướng này có thể trở nên sâu sắc hơn trong chuỗi phát triển nếu con người bị ấn tượng bởi nó và đưa ra phản hồi tích cực trong các thử nghiệm và phiên chú thích có thể góp phần vào hướng mà dữ liệu và/hoặc mô hình có thể thực hiện.
Trong trường hợp này, đề xuất là MLLMs đang ‘giả vờ’ hiểu biết thực sự về niên đại và hiện tượng thời gian, bằng cách quan sát và neo đậu vào các chỉ số thứ cấp (chẳng hạn như dấu thời gian, trong dữ liệu video, thứ tự hình ảnh trong bố cục, hoặc thậm chí – có khả năng – tên tệp được đánh số tuần tự).
Điều này cũng cho thấy rằng MLLMs hiện tại không đáp ứng bất kỳ định nghĩa thực sự nào về việc khái quát hóa khái niệm về hiện tượng thời gian – ít nhất, đến mức con người có thể.
Bài báo mới có tiêu đề Liệu các MLLMs đa phương thức có thể thực hiện hiểu và lý luận thời gian trực quan không? Câu trả lời là Không!, và đến từ ba nhà nghiên cứu tại Đại học Mohamed bin Zayed về Trí tuệ Nhân tạo và Thương mại Kỹ thuật số Quốc tế Alibaba.
Dữ liệu và Thử nghiệm
Các tác giả lưu ý rằng các chuẩn mực và nghiên cứu trước đó, chẳng hạn như MMMU và TemporalBench, tập trung vào đầu vào hình ảnh đơn hoặc đề xuất câu hỏi cho MLLMs có thể quá dễ để trả lời, và có thể không tiết lộ xu hướng hành vi tắt.
Do đó, các tác giả cung cấp hai phương pháp cập nhật: Hiểu thứ tự thời gian (TOU) và Ước tính khoảng thời gian (TLE). Phương pháp TOU kiểm tra khả năng của mô hình trong việc xác định thứ tự sự kiện chính xác từ các cặp khung hình video; phương pháp TLE đánh giá khả năng của MLLM trong việc ước tính sự khác biệt thời gian giữa hai hình ảnh, từ vài giây đến vài năm.

Từ bài báo, hai nhiệm vụ chính của chuẩn mực TemporalVQA: trong Hiểu thứ tự thời gian, mô hình quyết định hình ảnh nào thể hiện sự kiện xảy ra trước; trong Ước tính khoảng thời gian, mô hình ước tính thời gian trôi qua giữa hai hình ảnh, chọn từ các tùy chọn bao gồm giây, phút, ngày hoặc năm. Các nhiệm vụ này nhằm kiểm tra khả năng lý luận về thời gian và trình tự của các sự kiện trực quan. Nguồn: https://arxiv.org/pdf/2501.10674
Các nhà nghiên cứu đã biên soạn 360 cặp hình ảnh cho chuẩn mực TOU, sử dụng video nguồn mở từ Pixabay và Pexels, để có thể làm cho tập dữ liệu có sẵn qua giao diện người dùng.
Các video bao gồm một loạt các chủ đề, từ con người trong các hoạt động hàng ngày đến nội dung không phải con người như động vật và thực vật. Từ những video này, các cặp khung hình được chọn để thể hiện một chuỗi sự kiện với sự thay đổi đủ để làm cho khung hình bắt đầu ‘rõ ràng’.
Lựa chọn của con người được sử dụng để đảm bảo rằng các khung hình có thể được sắp xếp một cách xác định. Ví dụ, một trong các cặp được biên soạn cho thấy một chiếc cốc trà một phần đầy trong một khung hình, và cùng chiếc cốc đầy trà trong khung hình tiếp theo, khiến logic chuỗi dễ dàng xác định.

Logic thời gian của hai bức tranh này không thể tránh khỏi, vì trà không thể bị hút trở lại vòi.
Như vậy, 360 cặp hình ảnh đã được thu thập.
Đối với phương pháp TLE, hình ảnh miễn phí bản quyền được chọn từ Google và Flickr, cũng như các khung hình được chọn từ video miễn phí bản quyền trên YouTube. Chủ đề của các video này bao gồm các cảnh hoặc đối tượng có khoảng thời gian thay đổi từ giây đến ngày đến mùa – ví dụ, trái cây chín, hoặc sự thay đổi của mùa trong các phong cảnh.
Do đó, 125 cặp hình ảnh đã được biên soạn cho phương pháp TLE.
Không tất cả các MLLMs được thử nghiệm đều có thể xử lý nhiều hình ảnh; do đó, các thử nghiệm khác nhau để phù hợp với khả năng của từng mô hình.
Nhiều phiên bản của các tập dữ liệu được biên soạn đã được tạo, trong đó một số cặp được kết hợp theo chiều dọc, và những cặp khác được kết hợp theo chiều ngang. Các biến thể khác đã hoán đổi thứ tự thời gian chính xác của các cặp.
Hai loại lời nhắc được phát triển. Loại đầu tiên theo mẫu:
Liệu sự kiện trong hình ảnh (trái / trên / đầu tiên) xảy ra trước sự kiện trong hình ảnh (phải / dưới / thứ hai) không? Trả lời đúng hoặc sai với lý do.
Loại thứ hai theo lược đồ:
Giữa hai hình ảnh này, hình ảnh nào thể hiện sự kiện xảy ra trước? Trả lời (trái hoặc phải / trên hoặc dưới / đầu tiên hoặc thứ hai) với lý do.
Đối với TLE, các câu hỏi là trắc nghiệm, yêu cầu mô hình đánh giá khoảng thời gian trôi qua giữa hai hình ảnh được trình bày, với giây, phút, giờ, ngày, tháng và năm có sẵn như đơn vị thời gian. Trong cấu hình này, hình ảnh mới nhất được trình bày ở bên phải.
Lời nhắc được sử dụng ở đây là:
Trong hình ảnh đã cho, ước tính thời gian trôi qua giữa hình ảnh đầu tiên (trái) và hình ảnh thứ hai (phải).
Chọn một trong các tùy chọn sau:
-
Dưới 15 giây
B. Giữa 2 phút đến 15 phút
C. Giữa 1 giờ đến 12 giờ
D. Giữa 2 ngày đến 30 ngày
E. Giữa 4 tháng đến 12 tháng
F. Trên 3 năm
Các MLLMs được thử nghiệm bao gồm ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; và LLaVA-CoT.
Hiểu thứ tự thời gian: Kết quả

Kết quả của Hiểu thứ tự thời gian trên các mô hình và bố cục đầu vào khác nhau, thể hiện độ chính xác và tính nhất quán trên các thiết lập và lời nhắc khác nhau.
Về kết quả được hiển thị ở trên, các tác giả đã phát hiện ra rằng tất cả các MLLMs được thử nghiệm, bao gồm GPT-4o (đã thể hiện hiệu suất tổng thể tốt nhất), gặp khó khăn đáng kể với chuẩn mực TemporalVQA – và thậm chí GPT-4o không thể thể hiện một cách nhất quán lý luận thời gian đáng tin cậy trên các cấu hình khác nhau.
Các tác giả cho rằng độ chính xác nhất quán thấp trên tất cả các LLM cho thấy những hạn chế đáng kể trong khả năng của mô hình để hiểu và lý luận về các chuỗi thời gian từ dữ liệu trực quan. Các nhà nghiên cứu lưu ý rằng những thách thức này vẫn tồn tại ngay cả khi sử dụng đầu vào hình ảnh đa dạng và lời nhắc được tối ưu hóa, cho thấy những hạn chế cơ bản trong các kiến trúc mô hình và phương pháp đào tạo hiện tại.
Các thử nghiệm cho thấy sự thay đổi đáng kể về hiệu suất trên các chiến lược lời nhắc. Trong khi GPT-4o được cải thiện với lời nhắc được tối ưu hóa (đạt 4% trong thiết lập hình ảnh đơn và 65,3% trong thiết lập hình ảnh đa dạng), hiệu suất vẫn còn dưới mức chấp nhận được.
Các mô hình như LLaVA-NeXT và Qwen-VL thậm chí còn nhạy cảm hơn, với hiệu suất giảm khi sử dụng lời nhắc thay thế, cho thấy rằng việc tối ưu hóa lời nhắc alone không thể vượt qua những hạn chế cơ bản của MLLMs trong việc lý luận thời gian.
Các thử nghiệm cũng cho thấy rằng bố cục hình ảnh (tức là dọc so với ngang) có tác động đáng kể đến hiệu suất của mô hình. GPT-4o đã cải thiện tính nhất quán của mình với các sắp xếp dọc, tăng từ 39,2% lên 52,8%; tuy nhiên, các mô hình khác, bao gồm các biến thể LLaVA, đã thể hiện sự thiên vị hướng mạnh mẽ, xuất sắc trong một hướng nhưng thất bại trong hướng khác.
Bài báo cho thấy rằng những không nhất quán này cho thấy sự phụ thuộc vào các tín hiệu không gian, chứ không phải lý luận thời gian thực sự, với các MLLMs không phân tích thực sự chuỗi sự kiện hoặc hiểu tiến trình theo thời gian. Thay vào đó, chúng dường như đã dựa vào các mẫu hoặc tính năng trực quan liên quan đến bố cục của hình ảnh, chẳng hạn như vị trí hoặc sắp xếp của chúng, để đưa ra quyết định.

Thử nghiệm định tính cho thấy dự đoán của GPT-4o khi đối mặt với các thứ tự đầu vào khác nhau. Trong thứ tự đầu tiên, các cặp hình ảnh được trình bày theo thứ tự ban đầu, trong khi trong thứ tự thứ hai, thứ tự được đảo ngược. Các phân loại chính xác được đánh dấu bằng màu xanh lá cây, các phân loại sai thuần túy bằng màu đỏ, lý do ảo bằng màu cam, và lý do không hợp lý hoặc ‘không hợp lệ’ bằng màu nâu, cho thấy sự không nhất quán của mô hình trên các cấu hình đầu vào khác nhau.
So sánh các thử nghiệm giữa đầu vào hình ảnh đơn và đa dạng cho thấy sự cải thiện hạn chế, với GPT-4o thực hiện tốt hơn một chút trên đầu vào hình ảnh đa dạng, tăng từ 31,0% lên 43,6% (với P1) và 46,0% lên 65,3% (với P2).
Các mô hình khác, chẳng hạn như InternVL, đã thể hiện hiệu suất ổn định nhưng thấp, trong khi Qwen-VL đã thấy những lợi ích nhỏ. Các tác giả kết luận rằng những kết quả này cho thấy rằng thêm ngữ cảnh trực quan không cải thiện đáng kể khả năng lý luận thời gian, vì mô hình gặp khó khăn trong việc tích hợp thông tin thời gian một cách hiệu quả.
Nghiên cứu Con người
Trong một nghiên cứu con người, ba cuộc khảo sát đã được thực hiện để đánh giá cách mô hình MLLM đa phương thức có hiệu suất tốt nhất so với ước tính của con người.
Con người đã đạt được độ chính xác 90,3%, vượt trội so với 65,3% của GPT-4o với 25%. Tập dữ liệu đã chứng minh là đáng tin cậy, với lỗi tối thiểu của con người và sự đồng thuận nhất quán về các câu trả lời chính xác.

Kết quả từ nghiên cứu người dùng con người cho vòng thử nghiệm đầu tiên.
Ước tính khoảng thời gian: Kết quả

Kết quả cho TLE: Ước tính khoảng thời gian đánh giá độ chính xác của mô hình trong việc xác định khoảng thời gian giữa các cặp hình ảnh, trên các thang từ giây đến năm. Nhiệm vụ này đánh giá khả năng của mỗi mô hình trong việc chọn thang thời gian chính xác cho khoảng thời gian trôi qua.
Trong những thử nghiệm này, các MLLMs chỉ thực hiện vừa phải trên ước tính khoảng thời gian: GPT-4o đạt được độ chính xác 70%, nhưng các mô hình khác thực hiện đáng kể kém hơn (xem bảng trên), và hiệu suất cũng thay đổi đáng kể trên các thang thời gian khác nhau.
Các tác giả nhận xét:
‘Nhiệm vụ ước tính khoảng thời gian kiểm tra khả năng của MLLMs trong việc suy luận khoảng thời gian giữa các cặp hình ảnh. [Tất cả] MLLMs, bao gồm cả người biểu diễn hàng đầu như GPT-4o và Gemini1.5-Pro, gặp khó khăn với nhiệm vụ này, đạt được độ chính xác vừa phải từ 60-70%. GPT-4o thể hiện hiệu suất không nhất quán, với hiệu suất mạnh trong Giây và Năm nhưng dưới hiệu suất trong Giờ.
‘Tương tự, LLaVA-CoT thể hiện hiệu suất đặc biệt trong khoảng thời gian Giây và Ngày, trong khi thể hiện hiệu suất kém đáng kể trong các khoảng thời gian khác.’
Nghiên cứu Con người
Trong nghiên cứu con người cho TLE, hiệu suất trung bình của con người đã được cải thiện so với GPT-4o (mô hình có hiệu suất tốt nhất trong thể loại này) với 12,3%.
Các tác giả lưu ý rằng một số thử thách đặc biệt khó khăn, và trong một trường hợp, tất cả các tham gia người dùng đã trả lời sai, cùng với tất cả các tham gia AI.
Các tác giả kết luận rằng GPT-4o thể hiện ‘khả năng lý luận mạnh mẽ, bất kể thứ tự hình ảnh được trình bày cho nó.
Kết luận
Nếu MLLMs cuối cùng tích lũy và hấp thụ đủ ‘phương pháp tắt’ dữ liệu để bao gồm cả những thử thách khó khăn nhất của loại được trình bày bởi các tác giả trong nghiên cứu này, thì việc liệu chúng có thể được coi là đã phát triển khả năng khái quát hóa theo phong cách con người trong lĩnh vực này có thể trở thành một điểm không cần thiết.
Không ai biết chính xác bằng cách nào chúng ta có được khả năng của mình trong lý luận thời gian – liệu chúng ta cũng ‘lừa đảo’ cho đến khi lượng kinh nghiệm học được tiết lộ một mẫu hoạt động như ‘bản năng’ đối với loại thử nghiệm này?
* Từ quan điểm rằng các mô hình đang được tối ưu hóa với các hàm mất mát mà phản hồi của con người đã đóng góp vào, và hiệu quả được tối ưu hóa bởi các thử nghiệm và phân loại của con người sau đó.
Được xuất bản lần đầu vào thứ Hai, ngày 27 tháng 1 năm 2025












