Τεχνητή νοημοσύνη
Καλύτερη Απόδοση Μηχανικής Μάθησης Μέσω CNN-Βάσεων Μεθόδων Μεγέθυνσης Εικόνας

Η έρευνα του Google έχει προτείνει eine νέα μέθοδο για τη βελτίωση της αποδοτικότητας και της ακρίβειας των διαδικασιών εκπαίδευσης με βάση την όραση, βελτιώνοντας τον τρόπο με τον οποίο οι εικόνες σε ένα σύνολο δεδομένων缩θούν στο στάδιο της προεπεξεργασίας.
Στο άρθρο Μάθηση για τη Μεγέθυνση Εικόνας για Καθήκοντα Υπολογιστικής Όρασης, οι ερευνητές Hossein Talebi και Peyman Milanfar χρησιμοποιούν ένα CNN για τη δημιουργία μιας νέας υβριδικής αρχιτεκτονικής μεγέθυνσης εικόνας που παράγει μια αξιοσημείωτη βελτίωση των αποτελεσμάτων αναγνώρισης σε τέσσερα δημοφιλή σύνολα δεδομένων υπολογιστικής όρασης.

Το προτεινόμενο συνδυασμένο πλαίσιο για αναγνώριση και μεγέθυνση. Πηγή: https://arxiv.org/pdf/2103.09950.pdf
Το άρθρο παρατηρεί ότι οι μεθόδοι αναδιαμόρφωσης/μεγέθυνσης που χρησιμοποιούνται σήμερα στις αυτοματοποιημένες διαδικασίες μηχανικής μάθησης είναι ετών παλιές και συχνά χρησιμοποιούν μόνο βασικές μεθόδοι διγραμμικής, διbicubic και πλησιέστερου γείτονα μεγέθυνσης – μεθόδοι που αντιμετωπίζουν όλα τα pixel αδιακρίτως.
Αντίθετα, η προτεινόμενη μέθοδος αυξάνει τα δεδομένα εικόνας μέσω ενός CNN και ενσωματώνει την είσοδο στα μεγεθυμένα εικόνες που θα περάσουν τελικά από την αρχιτεκτονική του μοντέλου.
Περιορισμοί Εικόνας στην Εκπαίδευση AI
Για να εκπαιδεύσετε ένα μοντέλο που ασχολείται με εικόνες, ένα πλαίσιο μηχανικής μάθησης θα περιλαμβάνει ένα στάδιο προεπεξεργασίας, όπου μια ποικιλία εικόνων διαφόρων μεγεθών, χώρων χρωμάτων και ανάλυσεων (που θα συμβάλλουν στο σύνολο δεδομένων εκπαίδευσης) θα περάσουν συστηματικά από το στάδιο κοπής και μεγέθυνσης σε συνεπή διαστάσεις και μια σταθερή, ενιαία μορφή.
Γενικά, αυτό θα περιλαμβάνει κάποιο συμβιβασμό γύρω από τη μορφή PNG, όπου θα καθοριστεί ένας συμβιβασμός μεταξύ χρόνου επεξεργασίας/πόρων, μεγέθους αρχείου και ποιότητας εικόνας.
Προσαρμογή Δοσοληψιών στο VRAM
Ο λόγος για τον οποίο οι εικόνες πρέπει να είναι όλες του ίδιου μεγέθους είναι ότι η κατηφόρα κλίση, η μέθοδος με την οποία το μοντέλο βελτιώνεται με τον καιρό, απαιτεί ομοιόμορφα δεδομένα εκπαίδευσης.
Ο λόγος για τον οποίο οι εικόνες πρέπει να είναι τόσο μικρές είναι ότι πρέπει να φορτωθούν (πλήρως αποσυμπιεσμένες) στο VRAM κατά την εκπαίδευση σε μικρές δόσεις, συνήθως μεταξύ 6-24 εικόνων ανά δόση. Λίγες εικόνες ανά δόση, και δεν υπάρχει αρκετό υλικό ομάδας για να γενικευθεί καλά, εκτός από την επέκταση του χρόνου εκπαίδευσης· πολλές, και το μοντέλο μπορεί να αποτύχει να λάβει τις απαραίτητες ιδιότητες και λεπτομέρειες (βλ. παρακάτω).
Αυτή η ‘ζωντανή φόρτωση’ του σταδίου της αρχιτεκτονικής εκπαίδευσης ονομάζεται λατινική περιοχή. Αυτό είναι το σημείο όπου οι ιδιότητες εξάγονται επανειλημμένα από τα ίδια δεδομένα (δηλ. τις ίδιες εικόνες) μέχρι το μοντέλο να έχει καταλήξει σε μια κατάσταση όπου έχει όλες τις γενικευμένες γνώσεις που χρειάζεται για να πραγματοποιήσει μετασχηματισμούς σε μεταγενέστερα, μη είδικα δεδομένα του ίδιου τύπου.
Αυτή η διαδικασία γενικά διαρκεί ημέρες, αν και μπορεί να διαρκέσει ακόμη και einen μήνα ή περισσότερο συνεχούς και απαραίτητου υψηλού όγκου 24/7 σκέψης για να επιτύχει χρήσιμη γενίκευση. Οι αυξήσεις του μεγέθους VRAM είναι μόνο χρήσιμες μέχρι ένα σημείο, поскольку ακόμη και μικρές αυξήσεις της ανάλυσης της εικόνας possono να έχουν einen порядку μεγέθους επίδραση στην ικανότητα επεξεργασίας, και σχετικές επιπτώσεις στην ακρίβεια που μπορεί να μην είναι πάντα ευνοϊκές.
Η χρήση μεγαλύτερου VRAM για να φιλοξενήσει μεγαλύτερες δόσεις είναι επίσης ένα μεικτό ευλογία, καθώς οι μεγαλύτερες ταχύτητες εκπαίδευσης που λαμβάνονται από αυτόν τον τρόπο είναι πιθανό να αντικατασταθούν από λιγότερο ακριβή αποτελέσματα.
Πώς η Υπεροχή της Μικρομεγέθυνσης Βοηθά
Η τελική ποιότητα μιας εικόνας που θα περιλαμβάνεται σε ένα σύνολο δεδομένων εκπαίδευσης έχει αποδειχθεί ότι έχει μια βελτιωτική επίδραση στο αποτέλεσμα της εκπαίδευσης, ιδιαίτερα σε εργασίες αναγνώρισης αντικειμένων. Το 2018 ερευνητές από το Ινστιτούτο Max Planck για τα Ευφυή Συστήματα υποστήριξαν ότι η επιλογή μεθόδου επαναδειγματοποίησης έχει σημαντική επίδραση στην απόδοση και τα αποτελέσματα της εκπαίδευσης.
Επιπλέον, προηγούμενη εργασία από το Google (συγγραφέας από τους συγγραφείς του νέου άρθρου) έχει βρει ότι η ακρίβεια ταξινόμησης μπορεί να βελτιωθεί με τη διατήρηση του ελέγχου των αρτεφάκτων συμπίεσης στις εικόνες του συνόλου δεδομένων.
Το μοντέλο CNN που κατασκευάστηκε στο νέο δειγματολήπτη συνδυάζει τη διγραμμική μεγέθυνση με μια λειτουργία ‘skip connection’ που μπορεί να ενσωματώσει την έξοδο από το εκπαιδευμένο δίκτυο στην μεγεθυμένη εικόνα.
Αντίθετα με μια τυπική αρχιτεκτονική κωδικοποιητή/αποκωδικοποιητή, η νέα πρόταση μπορεί να ενεργεί όχι μόνο ως feed-forward σφράγισμα, αλλά και ως αντίστροφο σφράγισμα για αύξηση σε οποιοδήποτε στόχο μέγεθος και/ή αναλογία.
Λεπτομέρειες Υψηλής Συχνότητας
Η νέα μέθοδος παράγει εικόνες που στην πραγματικότητα φαίνεται να ‘ψήνω’ κλειδιά χαρακτηριστικά (που θα αναγνωριστούν τελικά από τη διαδικασία εκπαίδευσης)直接 στην πηγή εικόνας. Σε αισθητικές όρους, τα αποτελέσματα είναι μη συνήθιστα:

Η νέα μέθοδος εφαρμόζεται σε τέσσερα δίκτυα – Inception V2· DenseNet-121· ResNet-50· και MobileNet-V2. Τα αποτελέσματα της μεθόδου μείωσης μεγέθους εικόνας του Google Research παράγουν εικόνες με προφανή συσσώρευση pixel, προβλέποντας τα κλειδιά χαρακτηριστικά που θα αναγνωριστούν κατά τη διαδικασία εκπαίδευσης.
Οι ερευνητές σημειώνουν ότι αυτές οι αρχικές πειραματικές διαδικασίες είναι αποκλειστικά βελτιστοποιημένες για εργασίες αναγνώρισης εικόνας, και ότι στις δοκιμές το CNN-δυνατό ‘learned resizer’ ήταν σε θέση να επιτύχει βελτιωμένα ποσοστά σφάλματος σε τέτοιες εργασίες. Οι ερευνητές σκοπεύουν στο μέλλον να εφαρμόσουν τη μέθοδο σε άλλους τύπους εφαρμογών υπολογιστικής όρασης με βάση εικόνες.













