Connect with us

Τα Μοντέλα AI Σπάνε στο Βασικό Αναγνωριστικό Ρολογιού Ενώ οι Άνθρωποι Εξελίσσονται

Τεχνητή νοημοσύνη

Τα Μοντέλα AI Σπάνε στο Βασικό Αναγνωριστικό Ρολογιού Ενώ οι Άνθρωποι Εξελίσσονται

mm

Μια περιεκτική μελέτη που ελέγχει 11 προηγμένα μοντέλα AI έναντι ανθρώπων στο αναγνώρισιμο αναλογικών ρολογιών έχει αποκαλύψει μια εκπληκτική αδυναμία στα τρέχοντα συστήματα τεχνητής νοημοσύνης. Ενώ οι άνθρωποι πέτυχαν 89,1% ακρίβεια στην αναγνώριση της ώρας, το καλύτερο μοντέλο του Google κατάφερε μόνο 13,3% ακρίβεια στο ίδιο τεστ.

Η μελέτη ClockBench, που διεξήχθη από τον ερευνητή Alek Safar, δείχνει ότι ακόμη και τα πιο προηγμένα συστήματα AI δυσκολεύονται με οπτικές εργασίες που οι περισσότεροι άνθρωποι τις κυριεύουν ως παιδιά. Η βάση ελέγχου ελέγχει συστήματα από το Google, OpenAI, Anthropic και άλλα μεγάλα εργαστήρια AI χρησιμοποιώντας 180 εξειδικευμένα αναλογικά ρολόγια.

Αυτό ξεπερνά τα ρολόγια. Τα αποτελέσματα υπογραμμίζουν θεμελιώδεις περιορισμούς στο πώς τα συστήματα AI επεξεργάζονται και συλλογίζονται οπτικές πληροφορίες. “Η ανάγνωση αναλογικών ρολογιών θέτει ένα υψηλό εμπόδιο για την εκτέλεση συλλογισμών στο οπτικό χώρο”, σημειώνει ο Safar στην ερευνητική εργασία. Η εργασία απαιτεί από τα μοντέλα να αναγνωρίσουν τα χέρια του ρολογιού, να κατανοήσουν τις σχέσεις τους και να μεταφράσουν την οπτική τοποθέτηση σε αριθμητική ώρα.

Ο χάσμα απόδοσης γίνεται ακόμη πιο εντυπωσιακό όταν εξετάζουμε τα πρότυπα σφαλμάτων. Όταν οι άνθρωποι έκαναν λάθη, το μέσο σφάλμα ήταν μόνο τρία λεπτά. Τα μοντέλα AI, από την άλλη πλευρά, missed το σημείο με ένα έως τρία ώρες – περίπου ισοδύναμο με τυχαία μαντέψια σε ένα 12ωρο ρολόι.

Ειδικές Αδυναμίες Αποκαλύφθηκαν

Τα συστήματα AI δυσκολεύονται ιδιαίτερα με:

  • Ρωμαϊκά αριθμητικά (3,2% ακρίβεια)
  • Κατοπτρικές ή ανάποδες όψεις ρολογιών
  • Ευχάριστα φόντα ή σύνθετα σχέδια
  • Ρολόγια με δεύτερες χέρια που απαιτούν ακριβείς αναγνώσεις

Είναι ενδιαφέρον ότι όταν τα μοντέλα AI διαβάζουν επιτυχώς ένα ρολόι, εκτελούν καλά τις εργασίες που ακολουθούν, όπως η προσθήκη χρόνου ή η μετατροπή ζωνών ώρας. Αυτό υποδηλώνει ότι η βασική πρόκληση лежει στην αρχική οπτική αναγνώριση και όχι στη μαθηματική συλλογιστική.

Βιομηχανική Ανάλυση Απόδοσης

Τα μοντέλα του Google ηγήθηκαν, με Gemini 2.5 Pro που πέτυχε 13,3% ακρίβεια και Gemini 2.5 Flash που έφτασε στο 10,5%. OpenAI’s GPT-5 scored 8,4%, ενώ τα μοντέλα Claude της Anthropic εκτέλεσαν χαμηλότερα, με Claude 4 Sonnet στο 4,2% και Claude 4.1 Opus στο 5,6%.

Το xAI’s Grok 4 παρουσίασε εκπληκτικά κακά αποτελέσματα με 0,7% ακρίβεια, αν και αυτό οφειλόταν στο μοντέλο που σήμανε λανθασμένα 63% όλων των ρολογιών ως δείχνοντας αδύνατες ώρες όταν μόνο 20,6% το έκαναν πραγματικά.

Πηγή: Alek Safar

Ευρύτερες Επιπτώσεις για την Ανάπτυξη AI

Η μελέτη χτίζει πάνω στην “εύκολη για τους ανθρώπους, δύσκολη για τα AI” προσέγγιση των τεστ όπως ARC-AGI και SimpleBench. Ενώ τα συστήματα AI έχουν κατακτήσει γρήγορα γνώσεων-εντατικές εργασίες και ακόμη και ξεπέρασαν την απόδοση των ανθρώπων σε πολλά τυποποιημένα τεστ, η βασική οπτική συλλογιστική παραμένει προβληματική.

Η έρευνα υποδηλώνει ότι οι τρέχουσες προσεγγίσεις κλιμάκωσης μπορεί να μην λύνουν τις προκλήσεις της οπτικής συλλογιστικής. Ο Safar υποθέτει ότι τα αναλογικά ρολόγια μπορεί να είναι υποαντιπροσωπεύονται στα δεδομένα εκπαίδευσης και ότι η μετάφραση οπτικών αναπαραστάσεων ρολογιών σε κείμενο για συλλογιστική δημιουργεί πρόσθετες δυσκολίες.

Η ClockBench ενώνεται με μια αυξανόμενη συλλογή από βάσεις ελέγχου που σχεδιάστηκαν για να ανακαλύψουν τις αδυναμίες του AI που δεν είναι αμέσως εμφανείς από την απόδοση σε παραδοσιακά τεστ. Το πλήρες σύνολο δεδομένων παραμένει ιδιωτικό για να αποφευχθεί η μόλυνση των μελλοντικών εκπαιδεύσεων AI, με μόνο μικρά δείγματα που δημοσιεύονται για δοκιμές.

Τα αποτελέσματα θέτουν ερωτήματα σχετικά με το αν οι υπάρχουσες παραδόσεις ανάπτυξης AI μπορούν να αντιμετωπίσουν αυτές τις προκλήσεις οπτικής συλλογιστικής ή αν θα χρειαστούν εντελώς νέες προσεγγίσεις – παρόμοια με το πώς η υπολογιστική σε χρόνο δοκιμών ξεκλείδωσε την πρόοδο σε άλλα τομείς.

Για τώρα, το ταπεινό αναλογικό ρολόι στέκεται ως一个 απροσδόκητος φρούριο ενάντια στην τεχνητή νοημοσύνη, αναγνώσιμο από σχεδόν οποιοδήποτε άνθρωπο αλλά που confounds τα πιο εξελιγμένα συστήματα AI.

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας του AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις του AI σε όλο τον κόσμο.