Η γωνία του Anderson

Η IA Δυσκολεύεται να Ξεχωρίσει το Αριστερό από το Δεξί στις Ιατρικές Εικόνες

Published August 4, 2025

Updated April 26, 2026

Martin Anderson

A robot doctor confused by an x-ray of a hand – ChatGPT-40 and Firefly (Oct 2024).

Μια νέα μελέτη αποκαλύπτει ότι τα μοντέλα εικόνας της IA, όπως το ChatGPT, μπορούν να διαβάξουν λανθασμένα αναποδογυρισμένα ή περιστραμμένα ανατομικά χαρακτηριστικά, αυξάνοντας τον κίνδυνο επικίνδυνων λαθών στη διάγνωση, με δοκιμές που δείχνουν ότι συχνά αποτυγχάνουν στην βασική χωρική λογική στις ιατρικές εικόνες – υποψιάζοντας που πρέπει να βρίσκονται τα όργανα, αντί να κοιτάξουν πραγματικά την εικόνα. Ίσως με μεγαλύτερο ενδιαφέρον, η έρευνα αποδεικνύει ότι αυτά τα μοντέλα μπορεί να μην διαβάζουν τις αποθηκευμένες PDF ή να κοιτάζουν τις εικόνες σας καθόλου.

Όποιος έχει ανεβάσει τακτικά δεδομένα, όπως περιεχόμενο PDF, σε ένα leading μοντέλο γλώσσας όπως το ChatGPT, θα γνωρίζει ότι τα LLMs δεν διαβάζουν πάντα απαραίτητα ή εξετάζουν τι τους παρουσιάζουμε· αντίθετα, κάνουν υποθέσεις για το υλικό, με βάση τι έγραψες για αυτό στην πρόσκληση όταν το ανέβασες.

Μπορεί να είναι δύσκολο να πείσεις ένα μοντέλο γλώσσας να ομολογήσει ότι η απάντησή του βασίζεται σε προηγούμενες γνώσεις, μεταδεδομένα ή γενικές υποθέσεις αντί για το περιεχόμενο που του δόθηκε. Source: https://chatgpt.com

Ένας πιθανός λόγος για αυτό είναι να αυξηθεί η ταχύτητα της απάντησης, θεωρώντας το ανεβασμένο υλικό ‘περιττό’ και βασίζοντας την κείμενη πρόσκληση στην προηγούμενη γνώση του συστήματος – αποφεύγοντας την ανύψωση εντελώς και μειώνοντας την κυκλοφορία του δικτύου.

Ένας άλλος λόγος είναι η διατήρηση των πόρων (αν και οι παρόχοι φαίνεται απίθανο να αποκαλύψουν αυτό, αν είναι αλήθεια), όπου τα υφιστάμενα μεταδεδομένα που το LLM εξήγαγε από πρώην συναλλαγές στο chat χρησιμοποιούνται ως βάση για περαιτέρω απαντήσεις, ακόμη και όταν αυτές οι συναλλαγές και τα μεταδεδομένα δεν περιέχουν αρκετές πληροφορίες για να εξυπηρετήσουν αυτόν τον σκοπό.

Αριστερά. Δεξιά;

Όποιοι και να είναι οι λόγοι για την ποικιλία της προσοχής και των ικανοτήτων εστίασης της τρέχουσας γενιάς των LLMs, υπάρχουν καταστάσεις και περιβάλλοντα στα οποία η υποψία είναι εξαιρετικά επικίνδυνη. Ένα από αυτά είναι όταν η IA που αναφέρεται ζητείται να παρέχει ιατρικές υπηρεσίες, όπως ο έλεγχος ή η εκτίμηση του κινδύνου του ραδιολογικού υλικού.

Αυτή την εβδομάδα ερευνητές από τη Γερμανία και τις ΗΠΑ δημοσίευσαν μια νέα μελέτη που εξετάζει την αποτελεσματικότητα τεσσάρων leading μοντέλων οράσεως-γλώσσας, συμπεριλαμβανομένου του ChatGPT-4o, όταν ζητείται να αναγνωρίσει την τοποθεσία των οργάνων στις ιατρικές εικόνες.

Εξαιρετικά, παρά το γεγονός ότι αντιπροσωπεύουν την κατάσταση της τέχνης σε αυτόν τον τομέα, τα βασικά μοντέλα επιτύγχαναν keinen υψηλότερο ποσοστό επιτυχίας από την καθαρή τύχη την περισσότερη ώρα – φαινομενικά επειδή δεν ήταν σε θέση να αποσυνδέσουν τις προηγούμενες γνώσεις της ανθρώπινης ανατομίας τους επαρκώς και να κοιτάξουν πραγματικά τις εικόνες που τους παρουσιάζονταν, αντί να φθάσουν σε μια εύκολη προηγούμενη πriors από τα δεδομένα εκπαίδευσής τους.

Οι ερευνητές βρήκαν ότι τα LLMs που δοκιμάστηκαν είχαν σημαντικά καλύτερη απόδοση όταν τα τμήματα που έπρεπε να εξεταστούν σημειώθηκαν με άλλους δείκτες (όπως κουκκίδες και αλφαριθμητικοί δείκτες) καθώς και ονομάστηκαν – και καλύτερα από όλα όταν δεν υπήρχε καμία αναφορά σε όργανα ή ανατομία στην ερώτηση:

Διάφορα επίπεδα επιτυχίας, που αυξάνονται καθώς η ικανότητα του μοντέλου να καταφύγει σε εκπαιδευμένα δεδομένα μειώνεται και αναγκάζεται να επικεντρωθεί στα δεδομένα μπροστά του. Source: https://wolfda95.github.io/your_other_left/

Το έγγραφο παρατηρεί*:

‘Τα state-of-the-art VLMs διαθέτουν ήδη ισχυρές προηγούμενες ανατομικές γνώσεις ενσωματωμένες στα γλωσσικά τους συστατικά. Με άλλα λόγια, “ξέρουν” πού βρίσκονται συνήθως τα ανατομικά cấu trúcες στην τυπική ανθρώπινη ανατομία.

‘Υποθέτουμε ότι τα VLMs συχνά βασίζουν τις απαντήσεις τους σε αυτήν την προηγούμενη γνώση αντί να αναλύουν το πραγματικό περιεχόμενο της εικόνας. Για παράδειγμα, όταν ζητηθεί αν το ήπαρ είναι στα δεξιά της κοιλιάς, ένα μοντέλο μπορεί να απαντήσει θετικά χωρίς να εξετάσει την εικόνα, βασίζοντας την απάντησή του αποκλειστικά στην εκμαθημένη νόρμα ότι το ήπαρ βρίσκεται συνήθως στα δεξιά της κοιλιάς.

‘ΣUCH συμπεριφορά θα μπορούσε να οδηγήσει σε κρίσιμες λάθη στη διάγνωση σε περιπτώσεις όπου οι πραγματικές θέσεις αποκλίνουν από τα τυπικά ανατομικά πρότυπα, όπως στο situs inversus, μεταχειρουργικές αλλαγές ή μετατόπιση όγκων.’

Για να μετριάσει το πρόβλημα στις μελλοντικές προσπάθειες, οι συγγραφείς έχουν αναπτύξει ένα σύνολο δεδομένων σχεδιασμένο για να αντιμετωπίσει αυτό το πρόβλημα.

Τα ευρήματα του εγγράφου μπορεί να είναι εκπληκτικά για πολλούς αναγνώστες που έχουν ακολουθήσει την ανάπτυξη της ιατρικής IA,既然 η ραδιογραφία είχε σημειωθεί πολύ νωρίς ως ένας από τους πιο κινδυνεύοντες εργασιακούς ρόλους που θα αυτοματοποιηθούν μέσω της μηχανικής μάθησης.

Το νέο έργο ονομάζεται Το άλλο σου αριστερό! Τα μοντέλα οράσεως-γλώσσας αποτυγχάνουν να αναγνωρίσουν σχετικές θέσεις σε ιατρικές εικόνες, και προέρχεται από επτά ερευνητές σε δύο σχολές στο Πανεπιστήμιο του Ulm και την Axiom Bio στις ΗΠΑ.

Μέθοδος και Δεδομένα

Οι ερευνητές έθεσαν ως στόχο να απαντήσουν σε τέσσερα ζητήματα: αν τα state-of-the-art μοντέλα οράσεως-γλώσσας μπορούν να καθορίσουν σωστά τις σχετικές θέσεις στις ραδιολογικές εικόνες· αν η χρήση οπτικών δεικτών βελτιώνει την απόδοσή τους σε αυτήν την εργασία· αν βασίζονται περισσότερο στις προηγούμενες ανατομικές γνώσεις παρά στο πραγματικό περιεχόμενο της εικόνας· και πώς χειρίζονται τις σχετικές θέσεις όταν αφαιρεθεί κάθε ιατρικό контекст.

Για αυτόν τον σκοπό, καλλιέργησαν το Ιατρική Εικόνα Σχετικής Θέσης (MIRP) σύνολο δεδομένων.

Αν και τα περισσότερα υπάρχοντα οπτικά ερωτήματα-απαντήσεις για τοιχεία CT ή MRI περιλαμβάνουν ανατομικές και τοποθεσιακές εργασίες, αυτές οι παλαιότερες συλλογές παραβλέπουν την κεντρική πρόκληση της καθορισμού σχετικών θέσεων, αφήνοντας πολλές εργασίες που μπορούν να επιλυθούν χρησιμοποιώντας μόνο ιατρικές γνώσεις.

Το MIRP σχεδιάστηκε για να αντιμετωπίσει αυτό, δοκιμάζοντας ερωτήσεις σχετικών θέσεων μεταξύ ανατομικών cấu trúcων, αξιολογώντας την επίδραση των οπτικών δεικτών και εφαρμόζοντας τυχαίες περιστροφές και αναστροφές για να αποκλείσει την εξάρτηση από τις εκμαθημένες νόρμες. Το σύνολο δεδομένων επικεντρώνεται στις κοιλιακές τομές CT, λόγω της πολυπλοκότητας και της συχνότητας τους στη ραδιολογία.

Το MIRP περιέχει ίσο αριθμό ναι και όχι απαντήσεων, με τις ανατομικές cấu trúcες σε κάθε ερώτηση προαιρετικά σημειωμένες για σαφήνεια.

Τρεις τύποι οπτικών δεικτών δοκιμάστηκαν: μαύρα νούμερα σε λευκό κουτί· μαύρα γράμματα σε λευκό κουτί· και ένα κόκκινο και ένα μπλε σημείο:

Οι διάφοροι οπτικοί δείκτες που χρησιμοποιήθηκαν στο MIRP. Source: https://arxiv.org/pdf/2508.00549

Η συλλογή προήλθε από τα υπάρχοντα Πέρα από την Κρανιοκατσαρό (BTCV) και Ανατομική Πολυοργανική Τομή (AMOS) σύνολα δεδομένων.

Σημειωμένες τομές από το σύνολο δεδομένων AMOS. Source: https://arxiv.org/pdf/2206.08023

Το TotalSegmentator έργο χρησιμοποιήθηκε για να εξαγάγει ανατομικές επίπεδες εικόνες από ογκομετρικά δεδομένα:

Μερικές από τις 104 ανατομικές cấu trúcες που διαθέτει ο TotalSegmentator. Source: https://arxiv.org/pdf/2208.05868

Οι αξονικές τομές εικόνας αποκτήθηκαν με το SimpleITK πλαίσιο.

Οι θέσεις ‘πρόκλησης’ έπρεπε να είναι τουλάχιστον 50px μακριά, και να έχουν μέγεθος τουλάχιστον διπλάσιο από αυτό των δεικτών, για να γεννήσουν ζευγάρια ερωτήσεων-απαντήσεων.

Δοκιμές

Τα τέσσερα μοντέλα οράσεως-γλώσσας που δοκιμάστηκαν ήταν GPT-4o· Llama3.2· Pixtral· και το JanusPro της DeepSeek.

Οι ερευνητές δοκιμάστηκαν κάθε μια από τις τέσσερις ερευνητικές ερωτήσεις, με την πρώτη (Q1) να είναι ‘Μπορούν τα τρέχοντα top-tier VLMs να καθορίσουν σωστά τις σχετικές θέσεις στις ραδιολογικές εικόνες? Για αυτήν την ερώτηση, οι ερευνητές δοκιμάστηκαν τα μοντέλα σε απλές, περιστραμμένες ή αναποδογυρισμένες τομές CT χρησιμοποιώντας μια τυπική μορφή ερώτησης, όπως Είναι το αριστερό νεφρό κάτω από την κοιλιά;.

Τα αποτελέσματα (που εμφανίζονται παρακάτω) έδειξαν ακρίβειες κοντά στο 50 τοις εκατό σε όλα τα μοντέλα, υποδεικνύοντας απόδοση στο επίπεδο της τύχης, και την αδυναμία να κρίνουν σωστά τις σχετικές θέσεις χωρίς οπτικούς δείκτες:

Μέση ακρίβεια για όλες τις πειραματικές δοκιμές χρησιμοποιώντας αξιολόγηση εικόνας στο MIRP benchmark (RQ1–RQ3) και το σύνολο δεδομένων ablation (AS).

Για να δοκιμάσουν αν οι οπτικοί δείκτες μπορούν να βοηθήσουν τα μοντέλα οράσεως-γλώσσας να καθορίσουν τις σχετικές θέσεις στις ραδιολογικές εικόνες, η μελέτη επανέλαβε τις πειραματικές δοκιμές χρησιμοποιώντας τομές CT που σημειώθηκαν με γράμματα, αριθμούς ή κόκκινα και μπλε σημεία· και εδώ, η μορφή της ερώτησης điều chỉnhθηκε για να αναφέρεται σε αυτούς τους δείκτες – για παράδειγμα, Είναι το αριστερό νεφρό (Α) κάτω από την κοιλιά (Β); ή Είναι το αριστερό νεφρό (κόκκινο) κάτω από την κοιλιά (μπλε);.

Τα αποτελέσματα έδειξαν μικρές αυξήσεις της ακρίβειας για το GPT-4o και το Pixtral όταν χρησιμοποιήθηκαν δείκτες γραμμάτων ή αριθμών, ενώ το JanusPro και το Llama3.2 είδαν μικρή ή καθόλου ωφέλεια, υποδεικνύοντας ότι οι δείκτες μόνοι τους μπορεί να μην είναι αρκετοί για να βελτιώσουν σημαντικά την απόδοση.

Ακρίβεια για όλες τις πειραματικές δοκιμές χρησιμοποιώντας αξιολόγηση εικόνας. Για RQ2, RQ3, και AS, τα αποτελέσματα εμφανίζονται με τον καλύτερο δείκτη για κάθε μοντέλο: γράμματα για το GPT-4o, και κόκκινο-μπλε σημεία για το Pixtral, JanusPro, και Llama3.4.

Για να απαντήσουν στην τρίτη ερώτηση, Βασίζονται τα VLMs περισσότερο στις προηγούμενες ανατομικές γνώσεις παρά στην οπτική είσοδο όταν καθορίζουν τις σχετικές θέσεις στις ραδιολογικές εικόνες;, οι συγγραφείς εξέτασαν αν τα μοντέλα οράσεως-γλώσσας βασίζονται περισσότερο στις προηγούμενες ανατομικές γνώσεις παρά στην οπτική απόδειξη όταν καθορίζουν τις σχετικές θέσεις στις ραδιολογικές εικόνες.

Όταν δοκιμάστηκαν σε περιστραμμένες ή αναποδογυρισμένες τομές CT, το GPT-4o και το Pixtral παρήγαγαν συχνά απαντήσεις που ήταν συνεπείς με τις τυπικές ανατομικές θέσεις, αντί να αντανακλούν αυτό που εμφανιζόταν στην εικόνα, με το GPT-4o να επιτυγχάνει πάνω από 75 τοις εκατό ακρίβεια στην αξιολόγηση ανατομίας, αλλά μόνο απόδοση στο επίπεδο της τύχης στην αξιολόγηση εικόνας.

Αφαιρώντας τις ανατομικές ορολογίες από τις προτροπές και χρησιμοποιώντας μόνο οπτικούς δείκτες, αναγκάστηκαν τα μοντέλα να βασιστούν στο περιεχόμενο της εικόνας, οδηγώντας σε σημαντικές αυξήσεις, με το GPT-4o να υπερβαίνει το 85 τοις εκατό ακρίβεια με δείκτες γραμμάτων, και το Pixtral πάνω από 75 τοις εκατό με σημεία.

Μια σύγκριση των τεσσάρων μοντέλων οράσεως-γλώσσας στην καθορισμό των σχετικών θέσεων των ανατομικών cấu trúcων στις ιατρικές εικόνες – μια κρίσιμη απαιτούμενη για κλινική χρήση. Η απόδοση είναι στο επίπεδο της τύχης με απλές εικόνες (RQ1) και εμφανίζει μόνο μικρές αυξήσεις με οπτικούς δείκτες (RQ2). Όταν αφαιρούνται οι ανατομικές ονομασίες και τα μοντέλα αναγκάζονται να βασιστούν αποκλειστικά στους δείκτες, το GPT-4o και το Pixtral επιτύγχαναν σημαντικές αυξήσεις της ακρίβειας (RQ3). Τα αποτελέσματα εμφανίζονται με τον καλύτερο δείκτη για κάθε μοντέλο.

Αυτό υποδηλώνει ότι ενώ και τα δύο μπορούν να εκτελέσουν την εργασία χρησιμοποιώντας δεδομένα εικόνας, έχουν την τάση να προτιμούν τις εκμαθημένες ανατομικές προτεραιότητες όταν τους δίνονται ανατομικές ονομασίες – ένα μοτίβο που δεν είναι σαφώς παρατηρήσιμο στο JanusPro ή στο Llama3.2.

Хотя δεν καλύπτουμε συνήθως μελέτες ablation, οι συγγραφείς απάντησαν στην τέταρτη και τελευταία ερευνητική ερώτηση με αυτόν τον τρόπο. Επομένως, για να δοκιμάσουν την ικανότητα σχετικής θέσης χωρίς κανένα ιατρικό контέxt, η μελέτη χρησιμοποίησε απλές λευκές εικόνες με τυχαία τοποθετημένους δείκτες και έθεσε απλές ερωτήσεις όπως Είναι το νούμερο 1 πάνω από το νούμερο 2;. Το Pixtral έδειξε βελτιωμένα αποτελέσματα με δείκτες σημείων, ενώ τα άλλα μοντέλα εκτέλεσαν παρόμοια με τα αποτελέσματα RQ3.

Το JanusPro, και ιδιαίτερα το Llama3.2, δυσκολεύτηκαν ακόμη και σε αυτό το απλοποιημένο περιβάλλον, υποδεικνύοντας υποκείμενες αδυναμίες στη σχετική θέση που δεν περιορίζονται στις ιατρικές εικόνες.

Οι συγγραφείς παρατηρούν ότι το GPT-4o εκτέλεσε καλύτερα με δείκτες γραμμάτων, ενώ το Pixtral, το JanusPro και το Llama3.2 επιτύγχαναν υψηλότερα σκορ με κόκκινο-μπλε σημεία. Το GPT-4o ήταν ο γενικός κορυφαίος εκτελεστής, με το Pixtral να ηγείται μεταξύ των ανοιχτών μοντέλων.

Συμπέρασμα

Σε προσωπικό επίπεδο, αυτό το έγγραφο drew την προσοχή μου όχι τόσο για την ιατρική του σημασία, αλλά επειδή υπογραμμίζει ένα από τα πιο υποαναφερθέντα και θεμελιώδη ελαττώματα της τρέχουσας κυμαίας των SOTA LLMs – ότι, αν η εργασία μπορεί να αποφευχθεί, και trừτιαν bạn παρουσιάσετε το υλικό σας προσεκτικά, δεν θα διαβάσουν τους κειμένους κειμένου που ανεβάζετε ή εξετάζουν τις εικόνες που σας παρουσιάζουν.

Επιπλέον, η μελέτη υποδηλώνει ότι αν η κείμενη πρόσκληση σας σε οποιοδήποτε σημείο εξηγεί τι είναι το δευτερεύον υλικό που υποβάλλετε, το LLM θα έχει την τάση να το θεωρήσει ως ‘τελεολογικό’ παράδειγμα, και θα υποθέσει/υποθέσει πολλά πράγματα γι’ αυτό με βάση τις προηγούμενες γνώσεις, αντί να μελετήσει και να εξετάσει τι υποβάλλετε.

Επίδραση, σε αυτό το σημείο, τα VLMs θα έχουν μεγάλη δυσκολία να αναγνωρίσουν ‘παράξενο’ υλικό – μια από τις πιο απαραίτητες δεξιότητες στη διαγνωστική ιατρική. Ενώ είναι δυνατό να αντιστρέψουν τη λογική και να έχουν ένα σύστημα να ψάχνει για outliers αντί για αποτελέσματα εντός της κατανομής, το μοντέλο θα χρειαζόταν εξαιρετική επιμέλεια για να αποφευχθεί η υπερβολική σήμανση με μη σχετικά ή ψευδή παραδείγματα.

* Εσωτερικές αναφορές παραλείπονται, καθώς δεν υπάρχει εύγλωττος τρόπος να τις συμπεριλάβουμε ως υπερσύνδεσμους. Παρακαλώ ανατρέξτε στο αρχικό έγγραφο.

Πρώτη δημοσίευση Δευτέρα, 4 Αυγούστου 2025

Related Topics:LVLM medicine Multimodal Medical AI vision language model

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]