Τεχνητή νοημοσύνη

Ακόμη και τα πιο προηγμένα μοντέλα γλωσσών έχουν δυσκολίες να κατανοήσουν τη χρονική λογική

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Η πρόβλεψη των μελλοντικών καταστάσεων είναι một κρίσιμη αποστολή στην έρευνα της υπολογιστικής όρασης – όχι μόνο στη ρομποτική, όπου πρέπει να λαμβάνονται υπόψη οι πραγματικές καταστάσεις. Τα συστήματα μηχανικής μάθησης που έχουν ανατεθεί σε αποστολές κρίσιμης σημασίας πρέπει επομένως να έχουν επαρκή κατανόηση του φυσικού κόσμου.

Ωστόσο, σε ορισμένες περιπτώσεις, μια φαινομενικά εντυπωσιακή γνώση της χρονικής πραγματικότητας μπορεί να είναι παραπλανητική: μια νέα μελέτη από τα Ηνωμένα Αραβικά Εμιράτα έχει διαπιστώσει ότι τα πιο προηγμένα μοντέλα πολυμεσικής μεγάλης κλίμακας γλωσσών (MLLMs), συμπεριλαμβανομένων των ηγετών του κλάδου GPT-4o και Google Gemini, δεν μπορούν να ερμηνεύσουν πώς ο χρόνος αντιπροσωπεύεται στις εικόνες.

Παράδειγμα διαδοχικών ζευγών (βλέπε εικόνα παρακάτω), τα οποία θα ήταν άμεσα για τους ανθρώπους ακόμη και αν τοποθετηθούν σε λάθος σειρά, μπορούν να παραπλανήσουν προηγμένα MLLMs όταν παρουσιάζονται σε απροσδόκητους контекστ ή διαμορφώσεις (όπως δεύτερη-εικόνα-πρώτη, συνδεδεμένες σε單ε εικόνες, διαδοχικές πολλές εικόνες που μπορεί να αντιπροσωπεύουν ή όχι τη σωστή χρονική σειρά, κ.λπ.).

Δείγματα από ένα από τα σύνολα δεδομένων που συγκεντρώθηκαν για τη νέα μελέτη, που δείχνουν διαδοχικά γεγονότα. Οι ερευνητές έχουν κάνει αυτά τα δεδομένα διαθέσιμα στο https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Δείγματα από ένα από τα σύνολα δεδομένων που συγκεντρώθηκαν για τη νέα μελέτη, που δείχνουν διαδοχικά γεγονότα στη μορφή ‘πριν και μετά’ εικόνων. Οι ερευνητές έχουν κάνει αυτά τα δεδομένα διαθέσιμα στο https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Οι ερευνητές ζήτησαν από τα μοντέλα να εκτελέσουν βασικές προκλήσεις χρονικής λογικής, όπως η καθορισμός της σειράς των γεγονότων ή η εκτίμηση των χρονικών διαστημάτων, και διαπίστωσαν ότι τα επτά MLLMs που δοκιμάστηκαν εκτέλεσαν αξιοσημείωτα κάτω από την ακρίβεια των ανθρώπων:

‘Συνολικά, τα [αποτελέσματα] αποκαλύπτουν ότι όλα τα τρέχοντα MLLMs, συμπεριλαμβανομένου του GPT-4o – του πιο προηγμένου μοντέλου στην αξιολόγησή μας – έχουν δυσκολίες με το προτεινόμενο βENCHMARK.尽管 το GPT-4o έχει υπεροχή απόδοση σχετικά με άλλα μοντέλα, αποτυγχάνει να αποδείξει συνεχώς ακριβή χρονική λογική σε διαφορετικές ρυθμίσεις.

‘Οι συνεχείς βαθμοί ακρίβειας είναι αξιοσημείωτα χαμηλοί για όλα τα μοντέλα, υποδεικνύοντας σημαντικές ελλείψεις στην ικανότητά τους να κατανοήσουν και να ερμηνεύσουν χρονικές ακολουθίες από οπτικά δεδομένα. Αυτές οι ελλείψεις είναι φανερές ακόμη και όταν τα μοντέλα παρέχονται με πολλαπλά είσοδα εικόνων ή βελτιστοποιημένα προτροπές, υποδεικνύοντας ότι οι τρέχουσες αρχιτεκτονικές και μεθόδους εκπαίδευσης είναι ανεπαρκείς για ρομποτική κατανόηση της χρονικής σειράς.’

Τα συστήματα μηχανικής μάθησης σχεδιάζονται να βελτιστοποιούνται για τα πιο ακριβή, αλλά και τα πιο αποτελεσματικά και ευχάριστα αποτελέσματα*.既然 δεν αποκαλύπτουν την λογική τους ρητά, μπορεί να είναι δύσκολο να κατανοηθεί όταν απατούν ή χρησιμοποιούν ‘συντομεύσεις’.

Σε τέτοια περίπτωση, το MLLM μπορεί να φτάσει στο σωστό απάντηση με το λάθος μέθοδο.Το γεγονός ότι μια τέτοια απάντηση μπορεί να είναι σωστή μπορεί να εμπνεύσει ψευδή εμπιστοσύνη στο μοντέλο, το οποίο μπορεί να παράγει λανθασμένα αποτελέσματα με την ίδια μέθοδο σε μεταγενέστερες εργασίες που παρουσιάζονται σε αυτό.

Χειρότερα, αυτή η παρεξήγηση μπορεί να γίνει ακόμη πιο εμβυθισμένη στη διαδικασία ανάπτυξης αν οι άνθρωποι εντυπωσιαστούν από αυτήν και δώσουν θετική ανατροφοδότηση σε δοκιμές και συνεδρίες αναnotation που μπορεί να συμβάλλουν στην κατεύθυνση που τα δεδομένα και/ή το μοντέλο μπορεί να πάρουν.

Σε αυτή την περίπτωση, η πρόταση είναι ότι τα MLLMs ‘ψευτοποιούν’ μια αληθινή κατανόηση της χρονολογίας και των χρονικών φαινομένων, παρατηρώντας και αγκιστρώντας δευτερεύουσες ενδείξεις (όπως χρονικές σφραγίδες, για παράδειγμα, σε δεδομένα βίντεο, σειρά εικόνων σε διάταξη, ή ακόμη και – πιθανώς – σειριακά αριθμημένα ονόματα αρχείων).

Παραπέμπει επίσης στο γεγονός ότι τα MLLMs σήμερα δεν ικανοποιούν καμία πραγματική ορισμό της γενίκευσης ενός εννοήματος χρονικών φαινομένων – τουλάχιστον, στο βαθμό που οι άνθρωποι μπορούν.

Το νέο έγγραφο έχει τον τίτλο Μπορούν τα πολυμεσικά MLLMs να κάνουν οπτική χρονική κατανόηση και λογική; Η απάντηση είναι Όχι!, και προέρχεται από τρεις ερευνητές στο Mohamed bin Zayed Πανεπιστήμιο της Τεχνητής Νοημοσύνης και Alibaba Διεθνής Ψηφιακό Εμπόριο.

Δεδομένα και Δοκιμές

Οι ερευνητές σημειώνουν ότι προηγούμενες βάσεις δεδομένων και μελέτες, όπως MMMU και TemporalBench, εστιάζουν σε είσοδο單ε εικόνας ή αλλιώς διαμορφώνουν ερωτήσεις για τα MLLMs που μπορεί να είναι πολύ εύκολες να απαντηθούν, και μπορεί να μην αποκαλύψουν μια τάση προς συμπεριφορά συντομεύσεων.

Επομένως, οι ερευνητές προσφέρουν δύο ενημερωμένες προσεγγίσεις: Χρονική σειρά κατανόηση (TOU) και Εκτίμηση χρονικού διαστήματος (TLE). Η προσέγγιση TOU δοκιμάζει τα μοντέλα στην ικανότητά τους να καθορίσουν τη σωστή σειρά των γεγονότων από ζεύγη καρέ βίντεο. Η μέθοδος TLE αξιολογεί την ικανότητα του MLLM να εκτιμήσει τη χρονική διαφορά μεταξύ δύο εικόνων, που κυμαίνεται από δευτερόλεπτα έως χρόνια.

Από το έγγραφο, οι δύο κύριες εργασίες του TemporalVQA benchmark: στη Χρονική σειρά κατανόηση, το μοντέλο αποφασίζει ποια από τις δύο εικόνες δείχνει ένα γεγονός που συνέβη πρώτα. Στην Εκτίμηση χρονικού διαστήματος, το μοντέλο εκτιμά πόσο χρόνο έχει περάσει μεταξύ των δύο εικόνων, επιλέγοντας από επιλογές που περιλαμβάνουν δευτερόλεπτα, λεπτά, ημέρες ή χρόνια. Αυτές οι εργασίες στοχεύουν να δοκιμάσουν πώς καλά τα MLLMs μπορούν να λογικεύσουν τη χρονική σειρά και το χρονικό διάστημα των οπτικών γεγονότων. Source: https://arxiv.org/pdf/2501.10674

Οι ερευνητές συγκέντρωσαν 360 ζεύγη εικόνων για το benchmark TOU, χρησιμοποιώντας ανοικτά βίντεο από Pixabay και Pexels, ώστε να είναι δυνατό να κάνουν το σύνολο δεδομένων διαθέσιμο μέσω ενός GUI.

Τα βίντεο κάλυπταν μια σειρά από θέματα, από ανθρώπους σε καθημερινές δραστηριότητες έως μη ανθρώπινη περιεχόμενο, όπως ζώα και φυτά. Από αυτά, ζεύγη καρέ επιλέχθηκαν για να δείξουν μια σειρά γεγονότων με αρκετή ποικιλία για να κάνουν την αρχική καρέ ‘πρόδηλη’.

Η επιλογή ανθρώπων χρησιμοποιήθηκε για να διασφαλιστεί ότι τα καρέ θα μπορούσαν να διαταχθούν οριστικά.

Για την προσέγγιση TLE, επιλέχθηκαν εικόνες χωρίς πνευματικά δικαιώματα από Google και Flickr, καθώς και επιλεγμένα καρέ από βίντεο χωρίς πνευματικά δικαιώματα στο YouTube. Το περιεχόμενο των βίντεο παρουσίαζε σκηνές ή αντικείμενα που η αλλαγή τους διάστημα κυμαινόταν από δευτερόλεπτα έως ημέρες έως εποχές – για παράδειγμα, ωριμάζον φρούτο ή η αλλαγή των εποχών σε τοπία.

Έτσι, 125 ζεύγη εικόνων συγκεντρώθηκαν για τη μέθοδο TLE.

Δεν ήταν όλα τα MLLMs που δοκιμάστηκαν σε θέση να επεξεργαστούν πολλαπλά είσοδα εικόνας. Επομένως, οι δοκιμές διέφεραν για να προσαρμοστούν στις ικανότητες κάθε μοντέλου.

Πολυάριθμες εκδοχές των συγκεντρωμένων συνόλων δεδομένων δημιουργήθηκαν, στις οποίες ορισμένα από τα ζεύγη ήταν συνδεδεμένα κατακόρυφα και άλλα οριζόντια. Περαιτέρω παραλλαγές αντάλλαξαν τη σωστή και την ορθή χρονική σειρά των ζευγών.

Δυο τύποι προτρεπτικών αναπτύχθηκαν. Ο πρώτος ακολούθησε αυτό το πρότυπο:

Συνέβη το γεγονός στην (αριστερή / πάνω / πρώτη) εικόνα πριν από το γεγονός στην (δεξιά / κάτω / δεύτερη) εικόνα; Δηλώστε αλήθεια ή ψέμα με λόγο.

Ο δεύτερος ακολούθησε αυτό το σχήμα:

Ποια από τις δύο εικόνες δείχνει το γεγονός που συνέβη πρώτα; Δηλώστε (αριστερή ή δεξιά / πάνω ή κάτω / πρώτη ή δεύτερη) με λόγο.

Για την TLE, οι ερωτήσεις ήταν πολλαπλής επιλογής, ζητώντας από τα μοντέλα να αξιολογήσουν το χρονικό διάστημα μεταξύ των δύο παρουσιαζόμενων εικόνων, με δευτερόλεπτα, ώρες, λεπτά, ημέρες, μήνες και χρόνια διαθέσιμα ως μονάδες χρόνου. Σε αυτή τη διαμόρφωση, η πιο πρόσφατη εικόνα παρουσιάστηκε στη δεξιά.

Η προτροπή που χρησιμοποιήθηκε εδώ ήταν:

Στην δεδομένη εικόνα, εκτιμήστε το χρόνο που έχει περάσει μεταξύ της πρώτης εικόνας (αριστερά) και της δεύτερης εικόνας (δεξιά).

Επιλέξτε μια από τις ακόλουθες επιλογές:

1. Λιγότερο από 15 δευτερόλεπτα B. Μεταξύ 2 λεπτών έως 15 λεπτών C. Μεταξύ 1 ώρας έως 12 ωρών D. Μεταξύ 2 ημερών έως 30 ημερών E. Μεταξύ 4 μηνών έως 12 μηνών F. Περισσότερο από 3 χρόνια

Τα MLLMs που δοκιμάστηκαν ήταν ChatGPT-4o. Gemini1.5-Pro. LlaVa-NeXT. InternVL. Qwen-VL. Llama-3-vision. και LLaVA-CoT.

Χρονική σειρά κατανόηση: Αποτελέσματα

Αποτελέσματα της Χρονικής σειράς κατανόησης σε διάφορα μοντέλα και διαμορφώσεις εισόδου, δείχνοντας ακρίβεια και συνεπήτητα για διάφορες ρυθμίσεις και προτροπές.

Σχετικά με τα αποτελέσματα που εμφανίζονται παραπάνω, οι ερευνητές διαπίστωσαν ότι όλα τα δοκιμασμένα MLLMs, συμπεριλαμβανομένου του GPT-4o (ο οποίος έδειξε την καλύτερη συνολική απόδοση), είχαν σημαντικές δυσκολίες με το TemporalVQA benchmark – και ακόμη και το GPT-4o απέτυχε να επιδείξει συνεχώς αξιόπιστη χρονική λογική σε διαφορετικές διαμορφώσεις.

Οι ερευνητές υποστηρίζουν ότι οι συνεχείς χαμηλοί βαθμοί ακρίβειας σε όλα τα MLLMs υποδηλώνουν σημαντικές ελλείψεις στην ικανότητά τους να ερμηνεύσουν και να λογικεύσουν χρονικές ακολουθίες από οπτικά δεδομένα. Αυτές οι ελλείψεις είναι φανερές ακόμη και όταν τα μοντέλα παρέχονται με πολλαπλά είσοδα εικόνας ή βελτιστοποιημένες προτροπές, υποδεικνύοντας ότι οι τρέχουσες αρχιτεκτονικές και μεθόδους εκπαίδευσης είναι ανεπαρκείς για ρομποτική κατανόηση της χρονικής σειράς.

Οι δοκιμές έδειξαν σημαντικές παραλλαγές στην απόδοση σε διαφορετικές στρατηγικές προτροπών. Ενώ το GPT-4o βελτίωσε την απόδοση του με βελτιστοποιημένες προτροπές (φτάνοντας στο 4% σε μονό-εικόνα και 65.3% σε πολλαπλή-εικόνα), η απόδοση παρέμεινε κάτω από αποδεκτά επίπεδα.

Μοντέλα όπως το LLaVA-NeXT και το Qwen-VL ήταν ακόμη πιο ευαίσθητα, με την απόδοση να μειώνεται όταν χρησιμοποιούνταν εναλλακτικές προτροπές, υποδεικνύοντας ότι η μηχανική προτροπών μόνο δεν μπορεί να υπερβεί τις θεμελιώδεις ελλείψεις των MLLMs σε σχέση με τη χρονική λογική.

Οι δοκιμές επίσης έδειξαν ότι η διάταξη εικόνας (δηλαδή, κατακόρυφα εναντίον οριζόντιων) είχε σημαντική επίδραση στην απόδοση του μοντέλου. Το GPT-4o βελτίωσε τη συνεπήτητα με κατακόρυφες διατάξεις, αυξάνοντας από 39.2% σε 52.8%. Ωστόσο, άλλα μοντέλα, συμπεριλαμβανομένων των LLaVA, έδειξαν ισχυρές δια向ικές προκαταλήψεις, excelling σε μια διάταξη αλλά αποτυγχάνοντας σε μια άλλη.

Το έγγραφο υποδηλώνει ότι αυτές οι ασυνεπήτητες υποδηλώνουν εξάρτηση από χωρικές ενδείξεις, chứ नह από αληθινή χρονική λογική, με τα MLLMs να μην αναλύουν πραγματικά την ακολουθία των γεγονότων ή να κατανοούν την εξέλιξη με τον χρόνο. Αντίθετα, φαίνεται να έχουν βασιστεί σε μοτίβα ή οπτικά χαρακτηριστικά που σχετίζονται με τη διάταξη των εικόνων, όπως η θέση ή η ευθυγράμμιση, για να λάβουν αποφάσεις.

Ποιοτικές δοκιμές υπογραμμίζουν τις προβλέψεις του GPT-4o όταν αντιμετωπίζονται με διαφορετικές σειρές εισόδου. Στην πρώτη σειρά, τα ζεύγη εικόνων παρουσιάζονται στη σειρά τους. Στη δεύτερη σειρά, η σειρά είναι αντεστραμμένη. Οι σωστές ταξινομήσεις σημειώνονται με πράσινο, οι καθαρές λανθασμένες ταξινομήσεις με κόκκινο, οι ψευδείς λόγοι με πορτοκαλί και οι αλόγιστοι ή ‘άκυροι’ λόγοι με καφέ, αποκαλύπτοντας τις ασυνεπήτητες του μοντέλου σε διαφορετικές διαμορφώσεις εισόδου.

Συγκριτικές δοκιμές μεταξύ μονό-εικόνας και πολλαπλή-εικόνας εισόδου έδειξαν περιορισμένη συνολική βελτίωση, με το GPT-4o να εκτελεί ελαφρώς καλύτερα σε πολλαπλή-εικόνα είσοδο, αυξάνοντας από 31.0% σε 43.6% (με P1) και 46.0% σε 65.3% (με P2).

Άλλα μοντέλα, όπως το InternVL, έδειξαν σταθερή αλλά χαμηλή ακρίβεια, ενώ το Qwen-VL έδειξε μικρές κέρδη. Οι ερευνητές συμπεραίνουν ότι αυτά τα αποτελέσματα υποδηλώνουν ότι η πρόσθετη οπτική контέxt δεν βελτιώνει σημαντικά τις ικανότητες χρονικής λογικής,既然 τα μοντέλα έχουν δυσκολίες να ενσωματώσουν αποτελεσματικά χρονικές πληροφορίες.

Μελέτη Ανθρώπων

Σε μια μελέτη ανθρώπων, τρεις έρευνες διεξήχθησαν για να αξιολογήσουν πώς κοντά το καλύτερο MLLM εκτέλεσε σε σύγκριση με την ανθρώπινη εκτίμηση.

Οι άνθρωποι πέτυχαν 90.3% ακρίβεια, υπερβαίνοντας το 65.3% του GPT-4o κατά 25%. Το σύνολο δεδομένων αποδείχθηκε αξιόπιστο, με ελάχιστα ανθρώπινα λάθη και συνεπήτητα σε σωστές απαντήσεις.

Αποτελέσματα από την μελέτη ανθρώπων για την πρώτη σειρά δοκιμών.

Εκτίμηση Χρονικού Διαστήματος: Αποτελέσματα

Αποτελέσματα για την TLE: η εκτίμηση χρονικού διαστήματος αξιολογεί την ακρίβεια του μοντέλου στην αναγνώριση διαστημάτων μεταξύ ζευγών εικόνων, σε κλίμακα από δευτερόλεπτα έως χρόνια. Η εργασία αξιολογεί την ικανότητα του κάθε μοντέλου να επιλέξει τη σωστή κλίμακα χρόνου για το χρονικό διάστημα.

Σε αυτές τις δοκιμές, τα MLLMs εκτέλεσαν μόνο αξιοπρεπώς στην εκτίμηση χρονικού διαστήματος: το GPT-4o πέτυχε 70% ακρίβεια, αλλά τα άλλα μοντέλα εκτέλεσαν σημαντικά χειρότερα (βλέπε πίνακα παραπάνω), και η απόδοση επίσης ποικίλλει σημαντικά σε διαφορετικές κλίμακες χρόνου.

Οι ερευνητές σχολιάζουν:

‘Η εργασία της εκτίμησης χρονικού διαστήματος δοκιμάζει την ικανότητα των MLLMs να υπολογίσουν χρονικά διαστήματα μεταξύ ζευγών εικόνων. [Όλα] τα MLLMs, συμπεριλαμβανομένων των κορυφαίων εκτελεστών όπως το GPT-4o και το Gemini1.5-Pro, έχουν δυσκολίες με αυτήν την εργασία, επιτυγχάνοντας μόνο μέτρια επίπεδα ακρίβειας 60-70%. Το GPT-4o zeigt ισχυρή απόδοση στα δευτερόλεπτα και τα χρόνια, αλλά υπολείπεται στις ώρες.

Συγκριτικά, το LLaVA-CoT δείχνει εξαιρετική απόδοση στα δευτερόλεπτα και τις ημέρες, ενώ δείχνει αξιοσημείωτα κακή απόδοση σε άλλα χρονικά διαστήματα.’

Μελέτη Ανθρώπων

Στη μελέτη ανθρώπων για την TLE, η μέση ανθρώπινη απόδοση βελτίωσε την απόδοση του GPT-4o (το καλύτερο μοντέλο και σε αυτήν την κατηγορία) κατά 12.3%.

Οι ερευνητές σημειώνουν ότι ορισμένες από τις προκλήσεις ήταν ιδιαίτερα απαιτητικές, και ότι σε μια περίπτωση όλοι οι συμμετέχοντες ανθρώπων επέστρεψαν λανθασμένη απάντηση, μαζί με όλα τα μοντέλα AI.

Οι ερευνητές συμπεραίνουν ότι το GPT-4o δείχνει ‘λογικά ρομποτικές ικανότητες λογικής, παρά την σειρά των εικόνων που παρουσιάζονται σε αυτό.

Συμπέρασμα

Εάν τα MLLMs τελικά συγκεντρώσουν και απορροφήσουν αρκετά ‘συντομεύσεις’ δεδομένων για να καλύψουν ακόμη και τις πιο δύσκολες προκλήσεις του τύπου που παρουσιάζονται από τους ερευνητές σε αυτή τη μελέτη, είτε μπορούν να θεωρηθούν ότι έχουν αναπτύξει ανθρώπινες ικανότητες γενίκευσης σε αυτόν τον τομέα μπορεί να γίνει ένα αμφιλεγόμενο σημείο.

Ούτε είναι γνωστό ακριβώς με ποιο τρόπο αποκτάμε τις δικές μας ικανότητες χρονικής λογικής – μήπως επίσης ‘απατούμε’ μέχρι που η απλή ποσότητα της εμπειρίας που έχει μάθει αποκαλύπτει ένα μοτίβο που εκτελείται ως ‘ενστικτό’ σε σχέση με αυτόν τον τύπο δοκιμών?

* Από την άποψη ότι τα μοντέλα είναι όλο και περισσότερο βελτιστοποιημένα με συναρτήσεις απώλειας που η ανθρώπινη ανατροφοδότηση έχει συνεισφέρει σε αυτά, και αποτελεσματικά βελτιστοποιημένα από ανθρώπινες δοκιμές και μεταγενέστερη τριβή.

Πρώτη δημοσίευση Δευτέρα, 27 Ιανουαρίου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]