Τεχνητή νοημοσύνη
Ανάγνωση Χειλιών Με Visemes και Μηχανική Μάθηση

Νέα έρευνα από το Τμήμα Μηχανικής Υπολογιστών της Τεχεράνης προσφέρει μια βελτιωμένη προσέγγιση στην πρόκληση της δημιουργίας συστημάτων μηχανικής μάθησης ικανών να διαβάζουν τα χείλη. Το έγγραφο, με τίτλο Ανάγνωση Χειλιών Χρησιμοποιώντας Viseme Decoding, αναφέρει ότι το νέο σύστημα επιτυγχάνει μια βελτίωση 4% στον ρυθμό σφαλμάτων λέξεων σε σύγκριση με τα καλύτερα προηγούμενα μοντέλα. Το σύστημα αντιμετωπίζει την γενική έλλειψη χρήσιμων δεδομένων εκπαίδευσης σε αυτόν τον τομέα με τη συσχετίση visemes με κείμενο που προέρχεται από τα έξι εκατομμύρια δείγματα στη βάση δεδομένων OpenSubtitles μεταφρασμένων τίτλων ταινιών. Ένα viseme είναι η οπτική ισοδύναμη ενός φωνήματος, αποτελώντας μια οπτική-ηχητική συσχέτιση που μπορεί να συνιστά ένα ‘χαρακτηριστικό’ σε ένα μοντέλο μηχανικής μάθησης.

Visemes σε λειτουργία. Πηγή: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Οι ερευνητές ξεκίνησαν με τη θέσπιση του χαμηλότερου ρυθμού σφαλμάτων σε διαθέσιμα σύνολα δεδομένων και την ανάπτυξη ακολουθιών viseme από καθιερωμένες διαδικασίες συσχετίσεων. Προοδευτικά, αυτή η διαδικασία αναπτύσσει einen οπτικό λεξικό λέξεων – αν και είναι απαραίτητο να οριστούν οι πιθανότητες ακρίβειας για διαφορετικές λέξεις που μοιράζονται ένα viseme (όπως ‘καρδιά’ και ‘τέχνη’).
Όπου δύο идентical λέξεις οδηγούν στο ίδιο viseme, επιλέγεται η πιο συχνά εμφανιζόμενη λέξη. Το μοντέλο βασίζεται στη παραδοσιακή σειριακή-σε-σειριακή μάθηση με την προσθήκη ενός υπο-επεξεργαστή σταδίου όπου τα visemes προβλέπονται από κείμενο και μοντελοποιούνται σε một αφιερωμένο pipeline:

Πάνω, παραδοσιακές σειριακές-σε-σειριακές μεθόδους σε ένα μοντέλο χαρακτήρων· κάτω, η προσθήκη μοντελοποίησης χαρακτήρων viseme στο μοντέλο έρευνας της Τεχεράνης. Πηγή: https://arxiv.org/pdf/2104.04784.pdf
Το μοντέλο εφαρμόστηκε χωρίς οπτικό контέxt ενάντια στη βάση δεδομένων LRS3-TED, δημοσιευμένη από το Πανεπιστήμιο της Οξφόρδης το 2018, με το χειρότερο ρυθμό σφαλμάτων λέξεων (WER) που επιτεύχθηκε ένα σεβαστό 24,29%. Η έρευνα της Τεχεράνης ενσωματώνει επίσης τη χρήση ενός γραφημάτων-σε-φωνήματα μετατροπέα. Σε ένα τεστ ενάντια στην έρευνα του 2017 της Οξφόρδης Ανάγνωση Χειλιών Προτάσεων Στο Άγριο (βλέπε παρακάτω), η μέθοδος Video-To-Viseme επιτύχει einen ρυθμό σφαλμάτων λέξεων 62,3%, σε σύγκριση με 69,5% για τη μέθοδο της Οξφόρδης. Οι ερευνητές καταλήγουν στο συμπέρασμα ότι η χρήση ενός μεγαλύτερου όγκου κειμένου, σε συνδυασμό με γραφήματα-σε-φωνήματα και συσχετίσεις viseme, υπόσχεται βελτιώσεις σε σχέση με την κατάσταση της τέχνης στα αυτόματα συστήματα ανάγνωσης χειλιών, αναγνωρίζοντας ότι οι μέθοδοι που χρησιμοποιούνται μπορεί να παράγουν ακόμη καλύτερα αποτελέσματα όταν ενσωματωθούν σε πιο εξελιγμένα τρέχοντα πλαίσια. Η μηχανική ανάγνωση χειλιών έχει sido ένα ενεργό και συνεχές πεδίο έρευνας στην όραση υπολογιστή και NLP τα τελευταία δύο δεκαετίες. Μεταξύ πολλών άλλων παραδειγμάτων και έργων, το 2006 η χρήση αυτοματοποιημένου λογισμικού ανάγνωσης χειλιών κατέλαβε τα πρωτοσέλιδα όταν χρησιμοποιήθηκε για την ερμηνεία του τι έλεγε ο Αδόλφος Χίτλερ σε ορισμένες από τις διάσημες σιωπηλές ταινίες που γυρίστηκαν στην εξοχική του κατοικία, αν και η εφαρμογή φαίνεται να έχει εξαφανιστεί από την προσοχή από τότε (δώδεκα χρόνια αργότερα, ο σερ Πίτερ Τζάκσον έπρεπε να καταφύγει σε ανθρώπινους αναγνώστες χειλιών για να αποκαταστήσει τις συνομιλίες του βίντεο του Πρώτου Παγκοσμίου Πολέμου στο έργο Δεν Θα Μεγαλώσουν Πάλι). Το 2017, Ανάγνωση Χειλιών Προτάσεων Στο Άγριο, μια συνεργασία μεταξύ του Πανεπιστημίου της Οξφόρδης και του τμήματος έρευνας AI της Google, παρήγαγε ένα AI ανάγνωσης χειλιών ικανό να συναγάγει σωστά το 48% της ομιλίας σε βίντεο χωρίς ήχο, όπου ένας ανθρώπινος αναγνώστης χειλιών μπορούσε να φτάσει μόνο σε μια ακρίβεια 12,4% από το ίδιο υλικό. Το μοντέλο εκπαιδεύτηκε σε χιλιάδες ώρες βίντεο της τηλεόρασης της BBC. Αυτό το έργο ακολούθησε ένα ξεχωριστό πρωτοβουλία της Οξφόρδης/Google από το προηγούμενο έτος, με τίτλο LipNet, μια αρχιτεκτονική νευρωνικού δικτύου που χαρτογραφούσε ακολουθίες βίντεο μεταβλητού μήκους σε ακολουθίες κειμένου χρησιμοποιώντας ένα Gated Recurrent Network (GRN), το οποίο προσθέτει λειτουργικότητα στη βασική αρχιτεκτονική ενός Recurrent Neural Network (RNN). Το μοντέλο πέτυχε μια βελτίωση 4,1 φορές καλύτερη από τους ανθρώπινους αναγνώστες χειλιών. Εκτός από το πρόβλημα της εξαγωγής ενός ακριβούς μεταγράμματος σε πραγματικό χρόνο, η πρόκληση της ερμηνείας ομιλίας από βίντεο βαθαίνει όταν αφαιρείτε χρήσιμο контέxt, όπως ήχο, ‘πρόσωπο-προς-πρόσωπο’ βίντεο που είναι καλά φωτισμένο, και μια γλώσσα/πολιτισμό όπου τα φωνήματα/visemes είναι σχετικά διακριτά. Αν και δεν υπάρχει当前 μια εμπειρική κατανόηση ποίων γλωσσών είναι οι πιο δύσκολοι να αναγνωριστούν χείλη στην πλήρη απουσία ήχου, η ιαπωνική είναι ένας πρωταρχικός υποψήφιος. Οι διαφορετικοί τρόποι με τους οποίους οι ιαπωνικοί ιθαγενείς (όπως και ορισμένοι άλλοι δυτικοί και ανατολικοί Ασιάτες) χρησιμοποιούν εκφράσεις προσώπου ενάντια στο περιεχόμενο της ομιλίας τους ήδη τους κάνουν μια μεγαλύτερη πρόκληση για συστήματα αναγνώρισης συναισθήματος. Ωστόσο, αξίζει να σημειωθεί ότι μεγάλο μέρος της επιστημονικής βιβλιογραφίας sobre το θέμα είναι γενικά περιορισμένο, όχι τουλάχιστον επειδή ακόμη και η καλόπιστη αντικειμενική έρευνα σε αυτήν την σφαίρα κινδυνεύει να διασχίσει την расovou προφίλ και την προώθηση υφιστάμενων στερεότυπων. Γλώσσες με einen υψηλό ποσοστό γουττουράλων συστατικών, όπως Chechen και Δutch, είναι ιδιαίτερα προβληματικές για αυτόματα τεχνικές εξαγωγής ομιλίας, ενώ πολιτισμοί όπου ο ομιλητής μπορεί να εκφράσει συναισθήματα ή σεβασμό κοιτάζοντας μακριά (πάλι, γενικά σε ασιατικές κουλτούρες) προσθέτουν μια άλλη διάσταση όπου οι ερευνητές της AI ανάγνωσης χειλιών θα πρέπει να αναπτύξουν επιπλέον μεθόδους ‘πλήρωσης’ από άλλους контέxt συνειρμούς.













