Υγεία
Μοντέλα AI Εκπαιδευμένα σε Δεδομένα με Φυλετική Προκατάληψη Επιδίδουν Χειρότερη Επίδοση στη Διάγνωση Ασθενειών

Πρόσφατα, μια μελέτη που δημοσιεύθηκε στο περιοδικό PNAS και πραγματοποιήθηκε από ερευνητές από την Αργεντινή, υποδήλωνε ότι η παρουσία φυλο-εκτροπής δεδομένων εκπαίδευσης οδηγεί σε χειρότερη απόδοση του μοντέλου κατά τη διάγνωση ασθενειών και άλλων ιατρικών προβλημάτων. Όπως αναφέρθηκε από το Statnews, η ομάδα των ερευνητών πειραματίστηκε με την εκπαίδευση μοντέλων όπου οι θηλυκοί ασθενείς ήταν αξιοσημείωτα υποαντιπροσωπεύονται ή εξαιρούνται εντελώς, και βρήκαν ότι ο αλγόριθμος εκτελούσε σημαντικά χειρότερα όταν διάγνωσε ασθένειες. Το ίδιο ίσχυε και για περιπτώσεις όπου οι αρσενικοί ασθενείς εξαιρούνταν ή ήταν υποαντιπροσωπεύονται.
Κατά τη διάρκεια των τελευταίων πέντε ετών, καθώς τα μοντέλα AI και η μηχανική μάθηση έχουν γίνει πιο πανταχού παρούσες, περισσότερη προσοχή έχει δοθεί στα προβλήματα των προκατειλημμένων συνόλων δεδομένων και των προκατειλημμένων μοντέλων μηχανικής μάθησης που προκύπτουν από αυτά. Η προκατάληψη δεδομένων στη μηχανική μάθηση μπορεί να οδηγήσει σε άβολα, κοινωνικά επιζήμια και αποκλειστικά εφαρμογές AI, αλλά όταν πρόκειται για ιατρικές εφαρμογές, οι ζωές μπορεί να κρέμονται από μια νήμα. Ωστόσο, παρά τη γνώση του προβλήματος, λίγες μελέτες έχουν προσπαθήσει να ποσοτικοποιήσουν πόσο καταστροφική μπορεί να είναι η προκατειλημμένη βάση δεδομένων. Η μελέτη που πραγματοποιήθηκε από την ερευνητική ομάδα βρήκε ότι η προκατάληψη δεδομένων μπορεί να έχει πιο ακραίες επιπτώσεις από ό,τι πολλοί εμπειρογνώμονες είχαν προηγουμένως υπολογίσει.
Μια από τις πιο δημοφιλείς χρήσεις του AI τα τελευταία χρόνια, σε ιατρικούς контext, ήταν η χρήση μοντέλων AI για τη διάγνωση ασθενών με βάση ιατρικές εικόνες. Η ερευνητική ομάδα ανέλυσαν μοντέλα που χρησιμοποιούνται για την ανίχνευση της παρουσίας διάφορων ιατρικών καταστάσεων όπως πνευμονία, καρδιομεγαλία ή κήλη από ακτίνες Χ. Η ερευνητική ομάδα μελέτησε τρεις ανοικτές αρχιτεκτονικές μοντέλων: Inception-v3, ResNet και DenseNet-121. Τα μοντέλα εκπαιδεύτηκαν σε ακτίνες Χ που προέρχονται από δύο ανοικτές βάσεις δεδομένων που προέρχονται από το Πανεπιστήμιο του Στάνφορντ και τα Εθνικά Ινστιτούτα Υγείας. Αν και οι βάσεις δεδομένων είναι相当 ισορροπημένες όσον αφορά την αναπαράσταση φύλου, οι ερευνητές τεχνητά εκτροπήθηκαν τα δεδομένα με το να τα σπάσουν σε υποσύνολα όπου υπήρχε μια ανισορροπία φύλου.
Η ερευνητική ομάδα δημιούργησε πέντε διαφορετικά συνόλα εκπαίδευσης, το καθένα αποτελούμενο από διαφορετικά αναλογικά σκανών αρσενικών/θηλυκών ασθενών. Τα πέντε συνόλα εκπαίδευσης χωρίστηκαν ως εξής:
- Όλες οι εικόνες ήταν αρσενικών ασθενών
- Όλες οι εικόνες ήταν θηλυκών ασθενών
- 25% αρσενικοί ασθενείς και 75% θηλυκοί ασθενείς
- 75% θηλυκοί ασθενείς και 25% αρσενικοί ασθενείς
- Μισοί αρσενικοί ασθενείς και μισοί θηλυκοί ασθενείς
Μετά την εκπαίδευση του μοντέλου σε ένα από τα υποσύνολα, δοκιμάστηκε σε μια συλλογή σκανών από αρσενικούς και θηλυκούς ασθενείς. Υπήρχε μια αξιοσημείωτη τάση που ήταν παρούσα σε διάφορες ιατρικές καταστάσεις, η ακρίβεια των μοντέλων ήταν πολύ χειρότερη όταν τα δεδομένα εκπαίδευσης ήταν σημαντικά φυλο-εκτροπής. Ένα ενδιαφέρον σημείο να σημειωθεί είναι ότι αν ένα φύλο ήταν υπερπροσώπευτο στα δεδομένα εκπαίδευσης, αυτό το φύλο δεν φαινόταν να ωφελείται από την υπερπροσώπευση. Ανεξάρτητα από το αν το μοντέλο εκπαιδεύτηκε σε δεδομένα που ήταν εκτροπής για ένα φύλο ή το άλλο, δεν εκτελούσε καλύτερα σε αυτό το φύλο σε σύγκριση με όταν εκπαιδεύτηκε σε μια περιεκτική βάση δεδομένων.
Ο senior συγγραφέας της μελέτης, Enzo Ferrante, αναφέρθηκε από το Statnews ως εξηγώντας ότι η μελέτη υπογραμμίζει πόσο σημαντικό είναι για τα δεδομένα εκπαίδευσης να είναι διαφορετικά και αντιπροσωπευτικά για όλους τους πληθυσμούς που σκοπεύετε να δοκιμάσετε το μοντέλο.
Δεν είναι εντελώς σαφές γιατί τα μοντέλα που εκπαιδεύονται σε ένα φύλο τείνουν να επιδίδουν χειρότερα όταν εφαρμόζονται σε ένα άλλο φύλο. Κάποια από τις ανισότητες μπορεί να οφείλονται σε φυσιολογικές διαφορές, αλλά διάφορα κοινωνικά και πολιτιστικά παράγοντες θα μπορούσαν επίσης να λογαριαστούν για κάποια από τις διαφορές. Για παράδειγμα, οι γυναίκες μπορεί να λαμβάνουν ακτίνες Χ σε ένα διαφορετικό στάδιο εξέλιξης της ασθένειάς τους σε σύγκριση με τους άνδρες. Αν αυτό ήταν αλήθεια, θα μπορούσε να επηρεάσει τα χαρακτηριστικά (και επομένως τα πρότυπα που μάθει το μοντέλο) που βρίσκονται στα δεδομένα εκπαίδευσης. Αν αυτό είναι αλήθεια, καθιστά πολύ πιο δύσκολο για τους ερευνητές να απο-προκαταλήψουν τα δεδομένα τους, καθώς η προκατάληψη θα ήταν ενσωματωμένη στη βάση δεδομένων μέσω των μηχανισμών συλλογής δεδομένων.
Ακόμη και ερευνητές που προστίθενται προσοχή στη διαφοροποίηση των δεδομένων μερικές φορές δεν έχουν άλλη επιλογή παρά να εργαστούν με δεδομένα που είναι εκτροπής ή προκατειλημμένα. Καταστάσεις όπου μια ανισότητα υπάρχει στη διάγνωση ιατρικών καταστάσεων θα οδηγήσουν συχνά σε μη ισορροπημένα δεδομένα. Για παράδειγμα, δεδομένα για ασθενείς με καρκίνο του μαστού συλλέγονται σχεδόν εξ ολοκλήρου από γυναίκες. Παρόμοια, ο αυτισμός εκδηλώνεται διαφορετικά μεταξύ γυναικών και ανδρών, και ως αποτέλεσμα, η πάθηση διαγιγνώσκεται σε πολύ υψηλότερο ποσοστό σε αγόρια παρά σε κορίτσια.
Παρά τα όλα αυτά, είναι εξαιρετικά σημαντικό για τους ερευνητές να ελέγχουν για εκτροπής δεδομένων και προκατάληψη δεδομένων με οποιονδήποτε τρόπο μπορούν. Για αυτό, μελλοντικές μελέτες θα βοηθήσουν τους ερευνητές να ποσοτικοποιήσουν την επίδραση των προκατειλημμένων δεδομένων.












