Ηγέτες σκέψης

Η Τεχνητή Νοημοσύνη Ομιλίας Ανθίζει – Αλλά Είναι Ικανή Να Έχει Επίδραση;

mm

Η παγκόσμια αγορά για πράκτορες φωνής AI αναπτύσσεται ταχύτατα, προβλέπεται να αυξηθεί από 3,14 δισεκατομμύρια δολάρια το 2024 σε 47,5 δισεκατομμύρια δολάρια μέχρι το 2034. Δεν είναι πλέον μια νιχιαία τεχνολογία, οι περισσότερες μεγάλες εταιρείες τεχνολογίας (συμπεριλαμβανομένων των Google, Amazon, Apple, Meta και Microsoft) έχουν τώρα προϊόντα φωνής, οι νεοφυείς εταιρείες προσφέρουν καινοτομίες στην αγορά και η τεχνολογία herself γίνεται ολοένα και πιο προσιτή με ανοιχτά μοντέλα. Από τις καθημερινές εικονικές βοηθούς όπως η Siri και η Alexa μέχρι τη διεθνή دوبλαρίστη σε ταινίες και τηλεόραση, δεν υπήρξε ποτέ μια πιο γόνιμη ευκαιρία για την υιοθέτηση της τεχνητής νοημοσύνης φωνής.

Όμως, καθώς η πρόσβαση στην τεχνητή νοημοσύνη φωνής γίνεται ολοένα και πιο ευρεία, οι εμπειρίες παραμένουν βαθιά ανόμοιες. Αυτό συμβαίνει επειδή το πιο δύσκολο μέρος της τεχνητής νοημοσύνης φωνής δεν είναι η δημιουργία του ήχου μιας φωνής, αλλά η δημιουργία μιας φωνής που να cảm thấy αληθινή στις καθημερινές αλληλεπιδράσεις. Η ευρεία διαθεσιμότητα δεν σημαίνει ότι αυτές οι φωνές AI είναι επαρκείς για τις επιχειρηματικές ανάγκες ή για τη μακροχρόνια υιοθέτηση από τους χρήστες. Το真正ικό ανταγωνιστικό τοπίο θα κατακτηθεί από εκείνους που προσφέρουν φωνές που να cảmθούν ανθρώπινες, δυναμικές και συναισθηματικά ευαίσθητες σε πραγματικές καταστάσεις.

Η κοιλάδα του αισθήματος: το “ικανοποιητικό” δεν είναι αρκετό

Μια αυξανόμενη υπόθεση μέσα στην βιομηχανία είναι ότι η επίτευξη μιας φωνής που να είναι ανθρώπινης φωνής θα είναι “ικανοποιητική” για την ευρεία υιοθέτηση, αποτελώντας ουσιαστικά το τέλος του αγώνα. Οι χρήστες θα ανεχθούν μια ελαφριά μη φυσιολογική φωνή επειδή η χρησιμότητα υπερβαίνει τα ελαττώματα.

Στην πραγματικότητα, αυτή η υπόθεση παρεξηγεί το πώς οι άνθρωποι αντιλαμβάνονται την ομιλία, το συναισθηματικό και την αυθεντικότητα. Οι σχεδόν ανθρώπινες φωνές είναι ευάλωτες να δημιουργήσουν ένα “κοιλάδα του αισθήματος” που κάνει τους χρήστες να αισθάνονται άβολα, ιδίως κατά τη διάρκεια της εξυπηρέτησης πελατών, των αλληλεπιδράσεων υγείας ή του σχεδιασμού ταξιδιών, όπου τα συναισθήματα μπορούν να κυμαίνονται ψηλά και να αισθάνονται κατανοητά.

Στην πραγματικότητα, ερευνήσεις για την αλληλεπίδραση ανθρώπου-μηχανής δείχνουν ότι όταν μια φωνή είναι σχεδόν ανθρώπινη αλλά λείπει η συναισθηματική ή ρυθμική ευθυγράμμιση, οι χρήστες αντιλαμβάνονται ότι κάτι δεν πάει καλά. Για παράδειγμα, ορισμένες εταιρείες με AI δέκτες σημειώνουν ότι οι χρήστες περιγράφουν τις αλληλεπιδράσεις ως αλλόκοτες ή ανησυχητικές επειδή η φωνή έχει λεπτές ρυθμικές ή συναισθηματικές χρονικές διαφορές που απλώς δεν αισθάνονται σωστά. Σε περιβάλλοντα εξυπηρέτησης πελατών, ακόμη και μικρές στιγμές τριβής ή δυσφορίας μπορούν να συσσωρευτούν γρήγορα σε πραγματική δυσαρέσκεια και τελική εγκατάλειψη.

Η διάλυση αυτής της “ικανοποιητικής” κατάστασης είναι ολοένα και πιο σημαντική για τους επιχειρηματικούς στόχους. Η τεχνητή νοημοσύνη προβλέπεται να χειριστεί περίπου 50% των περιπτώσεων εξυπηρέτησης πελατών μέχρι το 2027, ωστόσο αρνητικές αυτοματοποιημένες αλληλεπιδράσεις μπορούν να βλάψουν直接 την αντίληψη του brand. Μια κακή αλληλεπίδραση chatbot ακολουθούμενη από μια εξίσου κακή ή μη φυσιολογική φωνητική εμπειρία θα δημιουργήσει πιθανώς μια βαθιά αίσθηση της δυσφορίας και μπορεί να σηματοδοτήσει ότι δεν υπάρχει αξιόπιστη οδός για πραγματική βοήθεια.

Όσο οι καταναλωτές αλληλεπιδρούν ολοένα και περισσότερο με φωνές AI, η ανεκτικότητα για ρομποτικές ή άβολες αλληλεπιδράσεις μειώνεται και οι χρήστες θα αποσυνδεθούν γρήγορα, προκαλώντας σοβαρές επιχειρηματικές συνέπειες για τις εταιρείες που βασίζονται σε τέτοιους εργαλεία.

Αληθινή Πραγματικότητα

Στην τεχνητή νοημοσύνη φωνής, η ανθρώπινη πραγματικότητα είναι περισσότερο από τη単 giảnτική ακρίβεια προφορά ή την αφαίρεση των ρομποτικών υπο톤ων. Απαιτεί επίσης μια πολυδιάστατη συνδυασμό συναισθήματος, περιβάλλοντος, πολιτιστικών νюансов, χρονισμού και άλλων πιο λεπτών παραγόντων. Η πραγματική πρόκληση, λοιπόν, έγκειται στην αποσύνθεση, κατανόηση και τελικά αναπαραγωγή των στρωμάτων που διαμορφώνουν την ανθρώπινη επικοινωνία, όπως:

Συναισθηματικός εύρος και αυθεντικότητα

Η ομορφιά των ανθρώπινων φωνών έγκειται στην ικανότητά τους να μεταφέρουν ζέστη, επείγουσα, χιούμορ, απογοήτευση, ενθουσιασμό και άπειρα άλλα συναισθήματα, σε συνδυασμό με τις ίδιες τις λέξεις. Αυτή η συναισθηματική νюανς επηρεάζει trực tiếp εάν ένας χρήστης αισθάνεται κατανοητός ή απορριπτικός, διαβεβαιωμένος ή ερεθισμένος.

Φανταστείτε, για παράδειγμα, έναν πράκτορα υποστήριξης AI που αντιμετωπίζει έναν εξοργισμένο πελάτη. Ο πράκτορας μπορεί να πει: “Κατανοώ πλήρως πόσο εξοργιστικό πρέπει να είναι αυτό. Ας δούμε πώς μπορούμε να το διορθώσουμε.” Όταν η φωνή που λέει αυτές τις λέξεις ακούγεται εмпαθητική, μπορεί να μειώσει το στρες του καλούντος και να σηματοδοτήσει πραγματική επίλυση συναλλαγών. Οι ίδιες λέξεις που εκφέρονται με μια πλάτη ή μη φυσιολογική φωνή μπορούν να προκαλέσουν την αντίθετη αντίδραση.

Περιβαλλόμενη ευφυΐα

Οι άνθρωποι προσαρμόζουν φυσικά την ομιλία τους με βάση την εύρος της κατάστασης, την συναισθηματική κατάσταση του ακροατή, την πολυπλοκότητα της πληροφορίας και το κοινωνικό περιβάλλον. Οι σημερινές φωνές AI έχουν την τάση να παραδίδουν τις γραμμές ομοιόμορφα, λείπουν των περιβαλλόμενων σημάτων που κάνουν την ομιλία να αισθάνεται ανταποκρίσιμη και παρούσα. Πραγματιστική ομιλία απαιτεί μια κατανόηση όχι μόνο των λέξεων, αλλά και του γιατί αυτές οι λέξεις εκφράζονται και του πνεύματος εκείνων που τις εκφράζουν.

Μικρο-εκφράσεις σε ήχο

Φυσική ομιλία περιλαμβάνει λεπτές ατελειότητες όπως αναπνοές, παύσεις, διστακτικούς δείκτες και ανώμαλο ρυθμό. Αυτό είναι ένας από τους κύριους λόγους για τους οποίους η άψογη, αδιάκοπη ομιλία AI αισθάνεται λιγότερο ανθρώπινη. Δυστυχώς, η αναπαραγωγή αυτών των σημάτων με πιστότητα παραμένει τεχνικά προκλητική.

Πολιτιστική και γλωσσική νύξη

Παράλληλα με την αναπαραγωγή προφορών, η αυθεντική περιφερειακή επικοινωνία εξαρτάται από μια επίγνωση των διαφορετικών πολιτισμών, του ρυθμού, της τονικότητας, των ιδιωμάτων, των επιπέδων формικότητας και των στυλ επικοινωνίας. Για παράδειγμα, ένα ανεβαζόμενο μοτίβο τονικότητας που σηματοδοτεί φιλικότητα και ενθουσιασμό σε einen πολιτισμό μπορεί να ερμηνευθεί ως αβεβαιότητα ή ερωτηματικότητα σε έναν άλλο, πιθανότατα να αλλάζει την αντίληψη του χρήστη για πρόθεση ή συναισθήμα.

Χωρίς αυτές τις φωνητικές νύξεις που ενσωματώνονται στα μοντέλα AI, ακόμη και τεχνικά ακριβείς φωνές μπορεί να αισθάνονται ακατάλληλες ή συναρπαστικές για τους χρήστες από διαφορετικά πολιτιστικά υπόβαθρα. Η αληθινή πραγματικότητα απαιτεί την ικανότητα να προσαρμόζεται τον τόνο και το στυλ με βάση τις προσδοκίες του κάθε χρήστη.

Όταν λαμβάνουμε υπόψη όλα αυτά τα λεπτά, αλλά σημαντικά στοιχεία, γίνεται σαφές ότι οι φωνές AI δεν πρέπει μόνο να ηχούν σαν άνθρωπος, αλλά και να ανταποκρίνονται σε πραγματικό χρόνο σαν άνθρωπος. Αυτός είναι ο λόγος για τον οποίο η καθυστέρηση είναι ένα κρίσιμο στοιχείο για την αξιολόγηση του πόσο ανθρώπινη αισθάνεται μια φωνή AI. Σε φυσική συνομιλία, οι άνθρωποι παίρνουν σειρά να μιλήσουν σε μέσο χρονικό διάστημα 250 χιλιοστοδευτερόλεπτα. Οποιαδήποτε μεγαλύτερη χρονική διάρκεια και η αλληλεπίδραση αισθάνεται καθυστερημένη, αμελής ή συγχυσμένη. Η μικρή διαφορά μεταξύ μιας σκέψης παύσης και μιας τεχνικής καθυστέρησης μπορεί να είναι αρκετή για να διαταράξει την ψευδαίσθηση της φυσικής συνομιλίας και να κάνει την φωνή να αισθάνεται λιγότερο προσεκτική.

Γιατί Αυτό Μattering

Πηγαίνοντας μπροστά, η αγορά θα ευνοήσει αναπόφευκτα τις εταιρείες που μπορούν να προσφέρουν και πραγματικότητα και ανταπόκριση σε πραγματικό χρόνο.

Για τους πράκτορες AI και βοηθούς, η υιοθέτηση των χρηστών και η συνεχής εμπλοκή εξαρτώνται από το εάν οι άνθρωποι θέλουν να αλληλεπιδράσουν με την τεχνολογία από την αρχή. Η διαφορά μεταξύ eines εργαλείου που οι χρήστες δοκιμάζουν μία φορά και eines που βασίζονται σε αυτό κάθε μέρα είναι η ποιότητα της συνομιλιακής εμπειρίας.

Στην βιομηχανία ψυχαγωγίας, η εστίαση του κοινού και η διατήρηση εξαρτώνται από το πόσο πιστευτή είναι ένα κομμάτι περιεχομένου, και μια seule μη φυσιολογική γραμμή μπορεί να διαταράξει την εμπλοκή του θεατή. Οι φωνές AI που χρησιμοποιούνται στη دوبλαρίστη ή την ερμηνεία χαρακτήρων πρέπει να ενσωματωθούν πλήρως στο αφηγηματικό για να διατηρήσουν την συναισθηματική επίδραση.

Για την εμπιστοσύνη και την ευαισθησία της εξυπηρέτησης πελατών, η φωνή που ακούγεται σκληρή ή συναισθηματικά αποσυνδεδεμένη μπορεί να εξομαλύνει μια κατάσταση αντί να την επιλύσει. Οι χρήστες περιμένουν φωνές που μπορούν να αντανακλούν ανησυχία, υπομονή ή διαβεβαίωση, όχι μόνο να παραδίδουν γραπτές απαντήσεις.

Τι Ερχεται Επόμενο

Οι εταιρείες που θα κερδίσουν τον αγώνα της φωνής AI θα είναι εκείνες που θα εξαπλώσουν την συναισθηματική νύξη, θα κατανοήσουν την πολιτιστική και περιβαλλόμενη ποικιλία, θα ανταποκριθούν άμεσα και ομαλά, και θα προσφέρουν εμπειρίες που δεν μπορούν να διακρίνουν από την ομιλία με έναν άνθρωπο.

Σε μια αγορά όπου ο καθένας μπορεί να δημιουργήσει μια φωνή AI και οι προσδοκίες των χρηστών εξελίσσονται αντίστοιχα, το “ικανοποιητικό” θα γίνει σύντομα όχι αρκετό. Ο唯一 τρόπος για να παραμείνει ανταγωνιστικός θα είναι να δημιουργήσει φωνές AI που οι άνθρωποι μπορούν εύκολα να ξεχάσουν ότι είναι AI.

Ο Oz Krakowski, Chief Business Development Officer, ηγείται της ανάπτυξης επιχειρήσεων και των στρατηγικών πωλήσεων της Deepdub's και έχει εποπτεύσει τη τοπικοποίηση εκατοντάδων ωρών σεναριογραφημένου και μη σεναριογραφημένου περιεχομένου σε πολλές γλώσσες χρησιμοποιώντας την πρωτοποριακή πλατφόρμα τοπικοποίησης με τεχνητή νοημοσύνη της Deepdub. Από τη δублиάρισή θεατρικών, βραβευμένων ανεξάρτητων ταινιών, της πρώτης δραματικής σειράς που δουμπλαρίστηκε στο Hulu ("Vanda") μέχρι μη σεναριογραφημένο περιεχόμενο όπως η τηλεοπτική εκπομπή "Hardcore Pawn" και το ντοκιμαντέρ "Forensic Files", ο Oz έχει διευκολύνει τις συνεργασίες και τις συνεργασίες με στούντιο και ιδιοκτήτες περιεχομένου σε όλο τον κόσμο, είναι επίσης μέλος της επιτροπής σχεδιασμού των βραβείων DEG. Ο Oz είναι ένας serial επιχειρηματίας και, πριν ενταχθεί στη Deepdub, ήταν συνιδρυτής μιας εταιρείας στο χώρο της υγείας.