Τεχνητή νοημοσύνη

Ενοποιητική σύνθεση λόγου και χειρονομίας

Δημοσιευμένα Αύγουστος 28, 2021

Ενημερώθηκε Δεκέμβριος 9, 2022

Μάρτιν Άντερσον

Όταν επέστρεψα στη Βρετανία από κάποια χρόνια στη Νότια Ιταλία, χρειάστηκε αρκετός χρόνος για να σταματήσω να χειρονομώ ενώ μιλούσα. Στο Ηνωμένο Βασίλειο, η υποστήριξη της ομιλίας σας με τολμηρές κινήσεις των χεριών σας κάνει να φαίνεστε υπερβολικά καφεΐνη. στην Ιταλία, ως κάποιος που μαθαίνει τη γλώσσα, με βοήθησε πραγματικά να γίνει κατανοητόΑκόμα και τώρα, στις πιο σπάνιες περιπτώσεις που μιλάω ιταλικά, τα «άγρια χέρια» επιστρέφουν στην υπηρεσία. Είναι σχεδόν αδύνατο να μιλήσεις ιταλικά χωρίς να κινηθείς.

Τα τελευταία χρόνια, η επικοινωνία υποστηρίζεται από χειρονομίες στον ιταλικό και εβραϊκό πολιτισμό έχει έρθει στην προσοχή του κοινού ως κάτι περισσότερο από ένα τροπάριο από το έργο του Μάρτιν Σκορτσέζε και τις πρώτες ταινίες του Γούντι Άλεν. Το 2013 οι New York Times συνέταξαν ένα σύντομο ιστορικό βίντεο των ιταλικών χειρονομιών? Η ακαδημαϊκή κοινότητα αρχίζει να μελετά τις φυλετικές τάσεις για χειρονομίες, αντί να απορρίπτει το θέμα ως στερεότυπο. και νέα emoji από την Unicode Consortium είναι κλείνοντας το έλλειμμα χειρονομίας που συνοδεύεται από καθαρά ψηφιακή επικοινωνία που βασίζεται σε κείμενο.

Μια Ενιαία Προσέγγιση Ομιλίας και Χειονομίας

Τώρα, νέα έρευνα από το Τμήμα Ομιλίας, Μουσικής και Ακοής στο Βασιλικό Ινστιτούτο Τεχνολογίας KTH της Σουηδίας, επιδιώκει να συνδυάσει την αναγνώριση ομιλίας και χειρονομιών σε ένα ενιαίο, πολυτροπικό σύστημα που θα μπορούσε ενδεχομένως να αυξήσει την κατανόησή μας για την επικοινωνία που βασίζεται στην ομιλία, χρησιμοποιώντας τη γλώσσα του σώματος ως ολοκληρωμένο συμπλήρωμα της ομιλίας, αντί για ένα παράλληλο πεδίο σπουδών.

Οπτικά από τη δοκιμαστική σελίδα του σουηδικού έργου ομιλίας/χειρονομίας. Πηγή: https://swatsw.github.io/isg_icmi21/

Η έρευνα προτείνει ένα νέο μοντέλο που ονομάζεται ολοκληρωμένη σύνθεση ομιλίας και χειρονομίας (ISG) και συγκεντρώνει μια σειρά από νευρωνικά μοντέλα τελευταίας τεχνολογίας από την έρευνα ομιλίας και χειρονομιών.

Η νέα προσέγγιση εγκαταλείπει τη γραμμική μοντέλο αγωγού (όπου οι πληροφορίες χειρονομίας προέρχονται διαδοχικά από την ομιλία ως δευτερεύον στάδιο επεξεργασίας) για μια πιο ολοκληρωμένη προσέγγιση, η οποία βαθμολογείται εξίσου με τα υπάρχοντα συστήματα σύμφωνα με τους τελικούς χρήστες και η οποία επιτυγχάνει ταχύτερο χρόνο σύνθεσης και μειωμένο αριθμό παραμέτρων.

Γραμμικές έναντι ολοκληρωμένων προσεγγίσεων. Πηγή: https://arxiv.org/pdf/2108.11436.pdf

Το νέο πολυτροπικό σύστημα ενσωματώνει έναν αυθόρμητο συνθεσάιζερ κειμένου σε ομιλία και μια γεννήτρια χειρονομιών με ηχητική ομιλία, και τα δύο εκπαιδευμένα στην υπάρχουσα χειρονομία ομιλίας Trinity σύνολο δεδομένων. Το σύνολο δεδομένων περιέχει 244 λεπτά λήψης ήχου και σώματος ενός άνδρα που μιλάει για διαφορετικά θέματα και χειρονομεί ελεύθερα.

Το έργο είναι ένα μυθιστόρημα και εφαπτομενικό ισοδύναμο με το DurIAN έργο, το οποίο παράγει εκφράσεις προσώπου και ομιλία, παρά χειρονομίες και ομιλία, και που εμπίπτει περισσότερο στη σφαίρα της αναγνώρισης και σύνθεσης έκφρασης.

Αρχιτεκτονικές

Τα στοιχεία ομιλίας και οπτικής (χειρονομίας) του έργου δεν είναι ισορροπημένα σε δεδομένα. Το κείμενο είναι αραιό και η χειρονομία είναι πλούσια και με ένταση δεδομένων – μια πρόκληση όσον αφορά τον καθορισμό στόχων και μετρήσεων. Ως εκ τούτου, οι ερευνητές αξιολόγησαν το σύστημα κυρίως από την ανθρώπινη απόκριση στην έξοδο, αντί για πιο προφανείς μηχανιστικές προσεγγίσεις όπως το μέσο τετραγωνικό σφάλμα (MSE).

Τα δύο κύρια μοντέλα ISG αναπτύχθηκαν γύρω από το δεύτερη επανάληψη του 2017 της Google Tacotron έργο σύνθεσης ομιλίας από άκρο σε άκρο και τη Νότια Κορέα Glow-TTS πρωτοβουλία που δημοσιεύθηκε το 2020. Το Tacotron χρησιμοποιεί μια αυτοπαλινδρομική αρχιτεκτονική LSTM, ενώ το Glow-TTS δρα παράλληλα μέσω τελεστών συνέλιξης, με ταχύτερη απόδοση GPU και χωρίς προβλήματα σταθερότητας που μπορούν να παρακολουθήσουν αυτοπαλινδρομικά μοντέλα.

Οι ερευνητές δοκίμασαν τρία αποτελεσματικά συστήματα ομιλίας/χειρονομίας κατά τη διάρκεια του έργου: μια τροποποιημένη έκδοση μιας πολυτροπικής γενιάς ομιλίας και χειρονομίας δημοσιεύθηκε το 2021 από αρκετούς ίδιους ερευνητές στο νέο έργο· μια αποκλειστική και τροποποιημένη έκδοση ISG του ανοιχτού κώδικα Tacotron 2. και μια εξαιρετικά τροποποιημένη έκδοση ISG του Glow-TTS.

Για να αξιολογήσουν τα συστήματα, οι ερευνητές δημιούργησαν ένα διαδικτυακό περιβάλλον ανατροφοδότησης που περιλαμβάνει αρθρωτά τρισδιάστατα άτομα που μιλούν και μετακινούνται σε προκαθορισμένα τμήματα κειμένου (η γενική εμφάνιση του περιβάλλοντος μπορεί να φανεί στο δημόσια σελίδα έργου).

Το περιβάλλον δοκιμής.

Ζητήθηκε από τα υποκείμενα της δοκιμής να αξιολογήσουν την απόδοση του συστήματος με βάση την ομιλία και τις χειρονομίες, μόνο την ομιλία και μόνο τις χειρονομίες. Τα αποτελέσματα έδειξαν μια μικρή βελτίωση στη νέα έκδοση ISG σε σχέση με την παλαιότερη έκδοση αγωγού, αν και το νεότερο σύστημα λειτουργεί πιο γρήγορα και με μειωμένους πόρους.

Στην ερώτηση «Πόσο ανθρώπινη είναι η χειρονομία;», το πλήρως ενσωματωμένο μοντέλο ISG τελειώνει ελαφρώς μπροστά από το πιο αργό μοντέλο αγωγού, με τα μοντέλα που βασίζονται στο Tacotron και το Glow πιο πίσω.

Στην ερώτηση «Πόσο ανθρώπινη είναι η χειρονομία;», το πλήρως ενσωματωμένο μοντέλο ISG καταλήγει ελαφρώς μπροστά από το μοντέλο με την πιο αργή ροή δεδομένων, με τα μοντέλα που βασίζονται στο Tacotron και το Glow να ακολουθούν περισσότερο.

Ενσωματωμένο ανασήκωμα των ώμων

Το μοντέλο Tacotron2-ISG, το πιο επιτυχημένο από τις τρεις προσεγγίσεις, καταδεικνύει ένα επίπεδο «υποσυνείδητης» μάθησης που σχετίζεται με ορισμένες από τις πιο συνηθισμένες φράσεις στο σύνολο δεδομένων, όπως «Δεν ξέρω» - παρά την έλλειψη σαφών δεδομένων που θα το έκαναν να δημιουργήσει ένα σήκωμα των ώμων που θα συνοδεύει αυτή τη φράση, οι ερευνητές διαπίστωσαν ότι η γεννήτρια όντως σηκώνει τους ώμους.

Οι ερευνητές σημειώνουν ότι η πολύ συγκεκριμένη φύση αυτού του νέου έργου αναπόφευκτα συνεπάγεται έλλειψη γενικών πόρων, όπως ειδικά σύνολα δεδομένων που ενσωματώνουν δεδομένα ομιλίας και χειρονομιών με τρόπο κατάλληλο για την εκπαίδευση ενός τέτοιου συστήματος. Παρ' όλα αυτά, και παρά την πρωτοποριακή φύση της έρευνας, τη θεωρούν μια πολλά υποσχόμενη και ελάχιστα εξερευνημένη οδό στην ομιλία, τη γλωσσολογία και την αναγνώριση χειρονομιών.

Επόμενο

Τα νευρωνικά δίκτυα βοηθούν στην αφαίρεση σύννεφων από εναέριες εικόνες

Μην χάσετε

Ένα σύστημα AI Soulmate Recommender που βασίζεται μόνο σε εικόνες

Μάρτιν Άντερσον

Συγγραφέας στη μηχανική μάθηση, ειδικός τομέα στη σύνθεση ανθρώπινης εικόνας. Πρώην επικεφαλής ερευνητικού περιεχομένου στο Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai

Unite.AI

Ενοποιητική σύνθεση λόγου και χειρονομίας

Μια Ενιαία Προσέγγιση Ομιλίας και Χειονομίας

Αρχιτεκτονικές

Ενσωματωμένο ανασήκωμα των ώμων

Μπορεί να σου αρέσει