Τεχνητή νοημοσύνη

Το νέο εργαλείο μπορεί να δείξει στους ερευνητές τι αφήνουν τα GAN από μια εικόνα

Ενημερώθηκε on Δεκέμβριος 9, 2022

Πρόσφατα, μια ομάδα ερευνητών από το MIT-IBM Watson AI Lab δημιούργησε μια μέθοδο εμφάνισης του τι αφήνει ένα Generative Adversarial Network από μια εικόνα όταν του ζητείται να δημιουργήσει εικόνες. Η μελέτη μεταγλωττίστηκε Βλέποντας τι δεν μπορεί να δημιουργήσει ένα GAN, και παρουσιάστηκε πρόσφατα στο Διεθνές Συνέδριο για το Computer Vision.

Γενετικά Διαφορικά Δίκτυα έχουν γίνει πιο στιβαρά, εξελιγμένα και ευρέως χρησιμοποιημένα τα τελευταία χρόνια. Έχουν γίνει αρκετά καλοί στην απόδοση εικόνων γεμάτες λεπτομέρεια, αρκεί αυτή η εικόνα να περιορίζεται σε μια σχετικά μικρή περιοχή. Ωστόσο, όταν τα GAN χρησιμοποιούνται για τη δημιουργία εικόνων μεγαλύτερων σκηνών και περιβαλλόντων, τείνουν να μην έχουν την ίδια καλή απόδοση. Σε σενάρια όπου τα GAN καλούνται να αποδώσουν σκηνές γεμάτες με πολλά αντικείμενα και αντικείμενα, όπως ένας πολυσύχναστος δρόμος, τα GAN συχνά αφήνουν έξω πολλές σημαντικές πτυχές της εικόνας.

Σύμφωνα με το MIT News, η έρευνα αναπτύχθηκε εν μέρει από τον David Bau, μεταπτυχιακό φοιτητή στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών στο MIT. Ο Bau εξήγησε ότι οι ερευνητές συνήθως επικεντρώνονται στο να βελτιώσουν τα συστήματα μηχανικής μάθησης στα οποία δίνουν προσοχή και να διακρίνουν πώς ορισμένες εισροές μπορούν να αντιστοιχιστούν σε συγκεκριμένες εκροές. Ωστόσο, ο Bau εξήγησε επίσης ότι η κατανόηση των δεδομένων που αγνοούνται από τα μοντέλα μηχανικής μάθησης είναι συχνά εξίσου σημαντική και ότι η ερευνητική ομάδα ελπίζει ότι τα εργαλεία τους θα εμπνεύσουν τους ερευνητές να δώσουν προσοχή στα δεδομένα που αγνοούνται.

Το ενδιαφέρον του Bau για τα GAN υποκινήθηκε από το γεγονός ότι θα μπορούσαν να χρησιμοποιηθούν για τη διερεύνηση της φύσης του μαύρου κουτιού των νευρωνικών δικτύων και για να αποκτήσουν μια διαίσθηση για το πώς θα μπορούσαν να συλλογιστούν τα δίκτυα. Ο Bau εργάστηκε προηγουμένως σε ένα εργαλείο που μπορούσε να αναγνωρίσει συγκεκριμένα σμήνη τεχνητών νευρώνων, χαρακτηρίζοντάς τους ως υπεύθυνους για την αναπαράσταση αντικειμένων του πραγματικού κόσμου, όπως βιβλία, σύννεφα και δέντρα. Ο Bau είχε επίσης εμπειρία με ένα εργαλείο που ονομάζεται GANPaint, το οποίο επιτρέπει στους καλλιτέχνες να αφαιρούν και να προσθέτουν συγκεκριμένες λειτουργίες από φωτογραφίες χρησιμοποιώντας GAN. Σύμφωνα με τον Bau, η εφαρμογή GANPaint αποκάλυψε ένα πιθανό πρόβλημα με τα GAN, ένα πρόβλημα που έγινε εμφανές όταν ο Bau ανέλυσε τις εικόνες. Όπως είπε ο Bau στο MIT News:

«Ο σύμβουλός μου πάντα μας ενθάρρυνε να κοιτάξουμε πέρα από τους αριθμούς και να εξετάσουμε εξονυχιστικά τις πραγματικές εικόνες. Όταν κοιτάξαμε, το φαινόμενο ξεπήδησε αμέσως: Οι άνθρωποι αποχωρούσαν επιλεκτικά».

Ενώ τα συστήματα μηχανικής εκμάθησης έχουν σχεδιαστεί για να εξάγουν μοτίβα από εικόνες, μπορεί επίσης να καταλήξουν να αγνοούν τα σχετικά μοτίβα. Ο Bau και άλλοι ερευνητές πειραματίστηκαν με την εκπαίδευση GAN σε διάφορες εσωτερικές και εξωτερικές σκηνές, αλλά σε όλους τους διαφορετικούς τύπους σκηνών οι GAN άφησαν σημαντικές λεπτομέρειες στις σκηνές όπως αυτοκίνητα, οδικές πινακίδες, άνθρωποι, ποδήλατα κ.λπ. Αυτό ίσχυε ακόμη και όταν τα αντικείμενα που έμειναν έξω ήταν σημαντικά για την εν λόγω σκηνή.

Η ερευνητική ομάδα υπέθεσε ότι όταν το GAN εκπαιδεύεται σε εικόνες, το GAN μπορεί να είναι πιο εύκολο να καταγράψει τα μοτίβα της εικόνας που είναι πιο εύκολο να αναπαραστήσουν, όπως μεγάλα ακίνητα αντικείμενα όπως τοπία και κτίρια. Μαθαίνει αυτά τα μοτίβα σε σχέση με άλλα, πιο δύσκολα στην ερμηνεία μοτίβα, όπως αυτοκίνητα και άνθρωποι. Είναι γνωστό ότι τα GAN συχνά παραλείπουν σημαντικές, σημαντικές λεπτομέρειες κατά τη δημιουργία εικόνων, αλλά η μελέτη από την ομάδα του MIT μπορεί να είναι η πρώτη φορά που έχει αποδειχθεί ότι τα GAN παραλείπουν ολόκληρες κατηγορίες αντικειμένων σε μια εικόνα.

Η ερευνητική ομάδα σημειώνει ότι είναι δυνατό για τα GAN να επιτύχουν τους αριθμητικούς τους στόχους ακόμη και όταν αφήνουν έξω αντικείμενα που ενδιαφέρονται για τους ανθρώπους όταν βλέπουν εικόνες. Εάν οι εικόνες που δημιουργούνται από το GANS πρόκειται να χρησιμοποιηθούν για την εκπαίδευση πολύπλοκων συστημάτων σαν αυτόνομα οχήματα, τα δεδομένα εικόνας θα πρέπει να ελέγχονται προσεκτικά γιατί υπάρχει πραγματική ανησυχία ότι κρίσιμα αντικείμενα όπως πινακίδες, άνθρωποι και άλλα αυτοκίνητα θα μπορούσαν να παραμείνουν εκτός των εικόνων. Ο Bau εξήγησε ότι η έρευνά τους δείχνει γιατί η απόδοση ενός μοντέλου δεν πρέπει να βασίζεται μόνο στην ακρίβεια:

«Πρέπει να καταλάβουμε τι είναι και τι δεν κάνουν τα δίκτυα για να βεβαιωθούμε ότι κάνουν τις επιλογές που θέλουμε να κάνουν».

Σχετικά θέματα:βαθιά μάθηση GAN Γενετικά Διαφορικά Δίκτυα

Επόμενο

Μερικά βασικά βιβλία για την τεχνητή νοημοσύνη είναι διαθέσιμα στο διαδίκτυο δωρεάν

Μην χάσετε

Το AI διδάσκει τον εαυτό του νόμους της φυσικής

Ντάνιελ Νέλσον

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.