Υγεία
Δημιουργία Συνθετικών Δεδομένων Τραυμάτων Με Δίκτυα Ανταγωνιστικών Γεννητριών

Για πρώτη φορά, ένα Δίκτυο Ανταγωνιστικών Γεννητριών χρησιμοποιείται για τη δημιουργία συνθετικών δεδομένων εικόνων τραυμάτων, για να αντιμετωπιστεί η κρίσιμη έλλειψη διαφορετικών και προσιτών περιεχομένων αυτού του είδους στις εφαρμογές μηχανικής μάθησης στην υγεία.
Το σύστημα, που ονομάζεται WG2AN, είναι μια συνεργασία μεταξύ του Batten College of Engineering & Technology και της εταιρείας AI υγείας eKare, η οποία ειδικεύεται στην εφαρμογή μεθόδων μηχανικής μάθησης στη μέτρηση και αναγνώριση τραυμάτων.
Το GAN εκπαιδεύεται σε 100-4000 ετικεтировμένες στερεοσκοπικές χρονικές εικόνες τραυμάτων που παρέχονται από την eKare, συμπεριλαμβανομένων ανωνυμοποιημένων φωτογραφιών τύπων τραυμάτων από αιτίες όπως πίεση, χειρουργείο, λεμφοαγγειακά περιστατικά, διαβήτη και εγκαύματα. Το αρχικό υλικό ποικίλλει σε μέγεθος μεταξύ 1224×1224 και 2160×2160, όλα τραβηγμένα υπό διαθέσιμο φως από γιατρούς.
Για να ταιριάξει τον διαθέσιμο 潛 Latent χώρο στη αρχιτεκτονική εκπαίδευσης του μοντέλου, οι εικόνες αναδιαμορφώθηκαν σε 512×512 και εξαγέρθηκαν από τα υπόβαθρά τους. Για να μελετήσουν την επίδραση του μεγέθους του συνόλου δεδομένων, δοκιμαστικές εκτελέσεις εφαρμόστηκαν σε δείγματα 100, 250, 500, 1000, 2000 και 4000 εικόνων.
Η εικόνα παραπάνω δείχνει αυξανόμενη λεπτομέρεια και γρανулярτητα σύμφωνα με το μέγεθος του συνόλου εκπαίδευσης, και τον αριθμό epochs που εκτελούνται σε κάθε πέρασμα.

Η αρχιτεκτονική του WG2GAN. Πηγή: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033
Το WG2GAN εκτελείται στο PyTorch σε ένα σχετικά λιτό καταναλωτικό σύστημα, με 8GB VRAM σε μια κάρτα γραφικών GTX 1080. Η εκπαίδευση διήρκεσε μεταξύ 4-58 ωρών στο εύρος μεγεθών συνόλων δεδομένων από 100-4000 εικόνων, και σε ένα εύρος epochs, σε μέγεθος δείγματος 64 ως μια συμφωνία μεταξύ ακρίβειας και απόδοσης. Ο βελτιωτής Adam χρησιμοποιείται για το πρώτο μισό της εκπαίδευσης σε μια ταχύτητα μάθησης 0,0002, και ολοκληρώνεται με μια γραμμική μείωση της ταχύτητας μάθησης μέχρι να επιτευχθεί μια απώλεια μηδέν.

Πάνω αριστερά, τομείς εφαρμογής στην περιοχή του τραύματος. Πάνω κέντρο, εικόνα του πραγματικού τραύματος· πάνω δεξιά, ένα συνθετικό τραύμα ενός τύπου που μπορεί να γενικευτεί σε ένα σύνολο δεδομένων, με βάση την αρχική πηγή. Κάτω, το αρχικό τραύμα, και, δεξιά, μια σύνθεση του τραύματος που παράγεται από το WG2GAN.
Στα ιατρικά σύνολα δεδομένων, όπως και σε πολλά άλλα τομείς της μηχανικής μάθησης, η ετικέττα είναι ένα αναπόφευκτο μποτλνεκ. Σε αυτή την περίπτωση, οι ερευνητές χρησιμοποίησαν ένα ημι-αυτόματο σύστημα ετικέττας που αξιοποιεί πρώην έρευνα από την eKare, η οποία χρησιμοποίησε πραγματικά μοντέλα τραυμάτων, δημιουργημένα σε Play-Doh και χρωματισμένα για σεμαντικό контέκστ.

Μοντέλα τραυμάτων eKare
Οι ερευνητές σημείωσαν ένα πρόβλημα που συχνά συμβαίνει στις αρχικές φάσεις της εκπαίδευσης, όταν ένα σύνολο δεδομένων είναι πολύ διαφορετικό και τα βάρη είναι τυχαία – το μοντέλο χρειάζεται πολύ χρόνο (75 epochs) για να ‘σταθεροποιηθεί’:

Όπου τα δεδομένα είναι ποικίλα, και τα GAN και τα μοντέλα encoder/decoder δυσκολεύονται να αποκτήσουν γενίκευση στις πρώτες φάσεις, όπως μπορούμε να δούμε στο παραπάνω γράφημα της εκπαίδευσης του WG2GAN, το οποίο παρακολουθεί τη χρονοδιάγραμμα εκπαίδευσης από την αρχή μέχρι την απώλεια μηδέν.
Πρέπει να λαμβάνονται προφυλάξεις για να διασφαλιστεί ότι η διαδικασία εκπαίδευσης δεν εστιάζει στα χαρακτηριστικά ή τις ιδιότητες κάποιας μιας επανάληψης ή epoch, αλλά συνεχίζει να γενικεύει σε μια χρήσιμη μέση απώλεια χωρίς να παράγει αποτελέσματα που αφηρημένα το αρχικό υλικό. Σε περίπτωση του WG2GAN, αυτό θα κινδύνευε να δημιουργήσει απεριόριστα, εντελώς ‘μυθικά’ τραύματα, συνδυασμένα μεταξύ πολύ ευρέως φάσματος μη σχετικών τύπων τραυμάτων, αντί να παράγει μια ακριβή σειρά παραλλαγών μέσα σε einen συγκεκριμένο τύπο τραύματος.
Έλεγχος Εύρους Σε Ένα Σύνολο Δεδομένων Μηχανικής Μάθησης
Μοντέλα με ελαφρά σύνολα εκπαίδευσης γενικεύουν γρηγορότερα, και οι ερευνητές της εργασίας υποστηρίζουν ότι οι πιο ρεαλιστικές εικόνες θα μπορούσαν να αποκτηθούν σε λιγότερο από τις μέγιστες ρυθμίσεις: ένα σύνολο δεδομένων 1000 εικόνων που εκπαιδεύονται πάνω από 200 epochs.
Αν και μικρότερα σύνολα δεδομένων μπορεί να επιτύχουν πολύ ρεαλιστικές εικόνες σε λιγότερο χρόνο, το εύρος των εικόνων και των τύπων τραυμάτων που παράγονται θα είναι αναγκαστικά πιο περιορισμένο. Υπάρχει μια λεπτή ισορροπία στη διαδικασία εκπαίδευσης GAN και encoder/decoder μεταξύ του όγκου και της ποικιλίας των εισαγώμενων δεδομένων, της πιστότητας των παραγόμενων εικόνων και της ρεαλιστικότητας των παραγόμενων εικόνων — ζητήματα εύρους και βαρύτητας που δεν είναι σίγουρα περιορισμένα στα ιατρικά σύνολα δεδομένων.
Δυσισορροπίες Τάξεων Σε Ιατρικά Σύνολα Δεδομένων
Γενικά, η μηχανική μάθηση στην υγεία είναι ταλαιπωρημένη όχι μόνο από την έλλειψη συνόλων δεδομένων, αλλά και από δυσισορροπίες τάξεων, όπου τα απαραίτητα δεδομένα για μια συγκεκριμένη ασθένεια αποτελούν τόσο μικρό ποσοστό του συνόλου δεδομένων που κινδυνεύει να απορριφθεί ως ngoại lệ δεδομένων ή να ενσωματωθεί στη διαδικασία γενίκευσης κατά τη διάρκεια της εκπαίδευσης.
Πολλά μέθοδοι έχουν προταθεί για να αντιμετωπίσουν το τελευταίο ζήτημα, όπως υπο-δειγματοληψία ή υπερ-δειγματοληψία. Ωστόσο, το πρόβλημα συχνά παρακαμπτώνεται με την ανάπτυξη συνόλων δεδομένων που είναι ειδικά για μια συγκεκριμένη ιατρική περίπτωση. Αν και αυτή η προσέγγιση είναι αποτελεσματική σε κάθε περίπτωση, συμβάλλει στην κουλτούρα της Βαλκανίκευσης στον τομέα της ιατρικής μηχανικής μάθησης, και υποστηρίζεται ότι επιβραδύνει την γενική πρόοδο στον τομέα.













