Connect with us

Χρησιμοποιώντας το τηλεοπτικό σόου ‘House’ για την ανάπτυξη των διαγνωστικών ικανοτήτων του AI

Η γωνία του Anderson

Χρησιμοποιώντας το τηλεοπτικό σόου ‘House’ για την ανάπτυξη των διαγνωστικών ικανοτήτων του AI

mm
A screen capture from the NBC TV show 'House, S04E02., 'The Right Stuff'

Αν και η διάγνωση σπάνιων ασθενειών είναι μια ιδιαίτερα δύσκολη πρόκληση για το AI (όπως και για τους ανθρώπους), τα δημοφιλή μοντέλα γλώσσας ChatGPT και Gemini παρουσιάζουν υποσχόμενη απόδοση όταν εκπαιδεύονται σε διαγνωστικές περιπτώσεις από το δημοφιλές ιατρικό δράμα ‘House’.

 

Σχεδόν τα μισά από tous τους φοιτητές των ιατρικών επιστημών παρακολουθούν τακτικά ιατρικές δραματικές σειρές όπως House, Grey’s Anatomy και Scrubs. Αν και αυτό το είδος υλικού μπορεί να χρησιμοποιηθεί μόνο για διδακτικούς σκοπούς με πολλή φιλτράρισή και πλαισίωση, λόγω του κινδύνου διάδοσης επικίνδυνης παραπληροφόρησης, το πρότυπο έρευνας για δραματικές σειρές με ιατρικές καταστάσεις τείνει να είναι αρκετά υψηλό (αν και η ακρίβεια διαφέρει μεταξύ παραγωγών).

Δεν είναι έκπληξη ότι οι γιατροί συχνά δημιουργούν, συμβουλεύουν ή γράφουν τηλεοπτικές ιατρικές δραματικές σειρές. Σε τέτοιες περιπτώσεις, η εκτεταμένη γνώση του ιατρικού τομέα είναι επωφελής όχι μόνο για την ακριβή μεταφορά ιατρικών ζητημάτων, αλλά και για την ιδέα προτάσεων για νέες και ενδιαφέρουσες ιστορίες.

Μια από τις πιο μελετημένες ιατρικές σειρές της πρόσφατης ‘χρυσής εποχής’ της τηλεόρασης είναι το House (γνωστό και ως House MD), όπου οι εκκεντρικότητες του πρωταγωνιστή και οι μεγάλες διακυμάνσεις στο υποστηρικτικό καστ, διασκεδαστικές όπως ήταν, πήραν δεύτερη θέση στο ‘νόσημα της εβδομάδας’.

Στην πραγματικότητα, από τα 177 επεισόδια που προβλήθηκαν σε οκτώ σεζόν, το House παρείχε 176 μελετημένες περιπτώσεις διαγνωστικών μελετών. Αν και η σειρά ολοκληρώθηκε το 2012, μέχρι το 2015 είχε ήδη χρησιμοποιηθεί ως εργαλείο διδασκαλίας, με ένα ειδικό σεμινάριο Dr. House που πρόσφερε βελτιωμένα αποτελέσματα σε σύγκριση με τα τυπικά σεμινάρια, ακόμη και αν η συμμετοχή δεν προσέφερε πιστωτικές μονάδες για τους φοιτητές:

Από μια μελέτη του 2015, διάφοροι λόγοι για τους οποίους οι ιατρικοί φοιτητές ήθελαν να παρακολουθήσουν ένα διαγνωστικό σεμινάριο που αξιοποιούσε πληροφορίες από τη τηλεοπτική σειρά 'House'. Η σεμινάρια είχαν προγραμματιστεί σε μια σκόπιμα δύσκολη ώρα και δεν παρείχαν πιστωτικές μονάδες για τους φοιτητές· παρά τις παραπάνω παράμετρους, η πρωτοβουλία ήταν επιτυχημένη.

Από μια μελέτη του 2015, διάφοροι λόγοι για τους οποίους οι ιατρικοί φοιτητές ήθελαν να παρακολουθήσουν ένα διαγνωστικό σεμινάριο που αξιοποιούσε πληροφορίες από τη τηλεοπτική σειρά ‘House’. Η σεμινάρια είχαν προγραμματιστεί σε μια σκόπιμα δύσκολη ώρα και δεν παρείχαν πιστωτικές μονάδες για τους φοιτητές· παρά τις παραπάνω παράμετρους, η πρωτοβουλία ήταν επιτυχημένη. Πηγή

House και AI

Αν και η χρήση του House και άλλων διαφορετικών τηλεοπτικών σειρών έχει αποδειχθεί σε πολλές μελέτες ως αποτελεσματικό βοηθητικό εργαλείο για την μάθηση, για τους ιατρικούς φοιτητές, λίγο από αυτήν την προσέγγιση έχει επιχειρηθεί μέχρι τώρα σε ένα контέκστο μηχανικής μάθησης.

Τώρα, μια νέα εργασία από το Πανεπιστήμιο της Πενσυλβάνια έχει κάνει μια αρχική προσέγγιση σε αυτήν την κατεύθυνση, αναπτύσσοντας ένα σύνολο δεδομένων που περιλαμβάνει όλες τις χρησιμοποιήσιμες 176 περιπτώσεις μελέτης του House, διαμορφωμένες σε μια αφηγηματική διαγνωστική δομή, και αξιολογημένες σε δημοφιλείς LLMs από την OpenAI και τη Google.

Παρά τη δυσκολία αυτής της πρόκλησης (η οποία χαρακτηρίζει ένα από τα πιο δύσκολα πεδία στις βιολογικές επιστήμες), οι ερευνητές βρήκαν ότι οι πιο πρόσφατες εκδόσεις του ChatGPT και του Gemini έδειξαν βελτίωση σε σχέση με τις παλαιότερες εκδόσεις, υποδεικνύοντας ότι η εξελικτική τάση της ανάπτυξης του μοντέλου είναι πιθανό να κατευθυνθεί αποτελεσματικά στις διαγνωστικές διαδικασίες με το χρόνο.

Η εργασία αναφέρει:

‘Τα αποτελέσματα δείχνουν σημαντική διακύμανση στην απόδοση, που κυμαίνεται από 16,48% έως 38,64% ακρίβεια, με τις νεότερες γενιές μοντέλων να δείχνουν μια βελτίωση 2,3 φορές. Αν και όλα τα μοντέλα αντιμετωπίζουν σημαντικές προκλήσεις με τη διάγνωση σπάνιων ασθενειών, η παρατηρηθείσα βελτίωση μεταξύ των αρχιτεκτονικών υποδηλώνει υποσχόμενες κατευθύνσεις για μελλοντική ανάπτυξη.

‘Η εκπαιδευτικά επικυρωμένη βάση μας καθιστάζει βασικά μετρικά για την αφηγηματική ιατρική συλλογιστική και παρέχει ένα δημόσια προσιτό πλαίσιο αξιολόγησης για την προώθηση της έρευνας για τη διάγνωση με τη βοήθεια του AI.’

Εκτός από την καθιέρωση των μετρικών απόδοσης με τα οποία μπορούν να αξιολογηθούν οι μελλοντικές προσπάθειες, οι συγγραφείς σημειώνουν ότι το νέο σύνολο δεδομένων – το οποίο θα κάνουν δημόσια προσιτό – λύνει την έλλειψη αφηγηματικής διαδικασίας μέσα στα υπάρχοντα ιατρικά σύνολα δεδομένων και είναι εύκολα προσιτό, σε αντίθεση με τον κλειστό πολιτισμό των τυπικών ιατρικών συνόλων δεδομένων.

Η νέα εργασία έχει τον τίτλο Αξιολόγηση των Μεγάλων Μοντέλων Γλώσσας στη Διάγνωση Σπάνιων Ασθενειών: Μια Μελέτη Περίπτωσης με το House M.D, και προέρχεται από τέσσερις ερευνητές στο Penn State*.

Δεδομένα

Για να πληρώσουν το σύνολο δεδομένων, οι συγγραφείς χρησιμοποίησαν δημόσια διαθέσιμα υλικά από την καθιερωμένη House Wiki σελίδα φανς. Το αφηγηματικό περιεχόμενο εξαγόταν και αποστάλθηκε χρησιμοποιώντας το δημοφιλές πλαίσιο Beautiful Soup, το οποίο μπορεί να εξαγάγει δομικά δεδομένα από την πηγή HTML των ιστοσελίδων.

Μετά τη συλλογή των βασικών αφηγημάτων με αυτόν τον τρόπο, τέσσερα LLMs χρησιμοποιήθηκαν για τη μετατροπή της εξόδου σε τυποποιημένη μορφή περιπτώσεων. Τα μοντέλα που χρησιμοποιήθηκαν ήταν GPT-4o mini; GPT-5 Mini; Gemini 2.5 Flash; και Gemini 2.5 Pro. Τέλος, εφαρμόστηκε φιλτράρισμα ποιότητας, για να διασφαλιστεί ότι το σύνολο δεδομένων είχε την κατάλληλη κλινική λεπτομέρεια και ευθυγράμμιση με την τρέχουσα κατάσταση της τέχνης στην ιατρική συλλογιστική.

Οι συγγραφείς παρατηρούν ότι ‘ορφανές’ ασθένειες (γνωστές και ως σπάνιες ασθένειες) είναι υποαντιπροσωπεύονται στα τυπικά ιατρικά βάσεις δεδομένων· σε ορισμένες περιπτώσεις, η κάλυψή τους στην τηλεοπτική σειρά House μπορεί να αντιπροσωπεύει ένα ασυνήθιστο ποσοστό της συνολικής υφιστάμενης κάλυψης.

Οι συγγραφείς παραδέχονται ότι η χρησιμότητα μιας πηγής δεδομένων αυτού του τύπου πρέπει να είναι προσεκτική σε σχέση με την καλλιτεχνική άδεια που μπορεί να προηγηθεί σε ορισμένες περιπτώσεις στην ανάπτυξη ιατρικού δράματος:

‘Αν και το σύνολο δεδομένων μας αντανακλά τις περιορισμούς του φανταστικού περιεχομένου, συμπεριλαμβανομένης της δραματικής υπερβολής και της εστίασης σε σύνθετες περιπτώσεις, αυτές οι ιδιότητες μπορεί να ωφελήσουν την αξιολόγηση παρέχοντας απαιτητικά περιπτώσεις που δοκιμάζουν τη ρομποτική αντοχή του μοντέλου.

‘Η εκπαιδευτική επικύρωση του House M.D. από ιατρικούς επαγγελματίες παρέχει εμπιστοσύνη ότι οι εξαγόμενοι σενάρια περιέχουν κλινικά σημαντικές πληροφορίες που είναι κατάλληλες για αξιολόγηση του AI.’

Παραδείγματα από το σύνολο δεδομένων που γεννήθηκε για το έργο. Πηγή [   https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download    ]

Παραδείγματα από το σύνολο δεδομένων που γεννήθηκε για το έργο.  Πηγή

Δοκιμές

Για να αξιολογήσουν την ακρίβεια του μοντέλου στις αφηγηματικές διαγνωστικές εργασίες, οι συγγραφείς σχεδίασαν μια απλή διαδικασία που συνδυάζει τη γεννήτρια προτροπών, την εύρεση του μοντέλου και την αξιολόγηση.

Τα τέσσερα προαναφερθέντα LLMs δοκιμάστηκαν, με κάθε μοντέλο να έχει ρυθμιστεί με θερμοκρασία ορισμένη στο μηδέν (διασφαλίζοντας детερμινιστική αντί για ‘δημιουργική’ έξοδο), και με μέγιστο token μήκος 1.500 – μια άδεια που σχεδιάστηκε για να καλύψει σύνθετη διαγνωστική συλλογιστική. Δεν χρησιμοποιήθηκαν πρόσθετες συστήματος προτροπές για να πλαισιώσουν τις ερωτήσεις περαιτέρω.

Οι προτροπές ακολουθούσαν ένα τυπικό δομημένο ιατρικό μορφότυπο περιπτώσεων – το είδος που οι θεατές θα είναι πιο εξοικειωμένοι με τις ιατρικές δραματικές σειρές όταν μια νέα ασθενής/ασθένεια εισαγωγής και ένας γιατρός συνοψίζει μια επισκόπηση για το όφελος άλλων γιατρών που παρευρίσκονται (πρακτικά, αν και, για το όφελος των θεατών).

Κάθε προτροπή παρουσίαζε μια κλινική αφήγηση που αποτελούνταν από δημογραφικές λεπτομέρειες· μια χρονολογική σειρά συμπτωμάτων· σχετικές ιατρικές ιστορικές· και πρώιμες διαγνωστικές ευρήματα. Το μοντέλο ενημερώθηκε να αναγνωρίσει μια πρωταρχική διάγνωση και να δικαιολογήσει την απόφασή του με συλλογιστική.

Κάθε μοντέλο παρήγαγε την διαγνωστική του απάντηση σε μια seule διαδρομή, χωρίς καμία επαναληπτική βελτίωση· και οι απαντήσεις συλλέχθηκαν υπό συνεπείς συνθήκες σε όλες τις 176 περιπτώσεις:

Ένα εικονογραφημένο αξιολογημένο παράδειγμα, που δείχνει μια αφηγηματική κλινική προτροπή και την αντίστοιχη ground truth διάγνωση, όπως χρησιμοποιήθηκε για δοκιμή του Gemini 2.5 Pro.

Ένα εικονογραφημένο αξιολογημένο παράδειγμα, που δείχνει μια αφηγηματική κλινική προτροπή και την αντίστοιχη ground truth διάγνωση, όπως χρησιμοποιήθηκε για δοκιμή του Gemini 2.5 Pro. Πηγή


Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]