Συνδεθείτε μαζί μας
Πίνακας ( [ID] => 226 [user_firstname] => Dr. Ron [user_lastname] => Chrisley [ψευδώνυμο] => [προστασία μέσω email]
    [user_nicename] => ronchrisleyunite-ai [display_name] => Dr. Ron Chrisley [email_user] => [προστασία μέσω email]
    [user_url] => [user_registered] => 2024-02-01 20:19:42 [user_description] => Ο Dr. Ron Chrisley είναι επί του παρόντος Επικεφαλής Επιστημονικός Σύμβουλος στο Tenyx, την οποία συνίδρυσε το 2021. Έλαβε πτυχίο στα Συμβολικά Συστήματα από το Στάνφορντ, είναι διδάκτωρ από το Πανεπιστήμιο της Οξφόρδης και είναι καθηγητής Γνωστικής Επιστήμης και Τεχνητής Νοημοσύνης στο Πανεπιστήμιο του Σάσεξ. Από το 2019 έως το 2020, ήταν επισκέπτης μελετητής στο Ινστιτούτο του Στάνφορντ για την Ανθρωποκεντρική ΤΝ. [user_avatar] => mm
)

Ηγέτες της σκέψης

Πράκτορες για επιχειρήσεις που βασίζονται σε τεχνητή νοημοσύνη: Δύο βασικές προκλήσεις

Ενημερώθηκε on

Τώρα, περισσότερο από ποτέ, είναι η ώρα για συστήματα φωνής που τροφοδοτούνται από AI. Σκεφτείτε μια κλήση στην εξυπηρέτηση πελατών. Σύντομα θα εξαφανιστεί όλη η ευθραυστότητα και η ακαμψία – οι σκληρές ρομποτικές φωνές, τα περιοριστικά μενού τύπου «press one for sales», οι ενοχλητικές εμπειρίες που μας έκαναν όλους να πατάμε μανιωδώς το μηδέν με την ελπίδα να μιλήσουμε αντ 'αυτού με έναν ανθρώπινο παράγοντα. (Ή, λαμβάνοντας υπόψη τους μεγάλους χρόνους αναμονής που μπορεί να συνεπάγεται η μεταφορά σε έναν ανθρώπινο πράκτορα, μας έκανε να εγκαταλείψουμε την κλήση εντελώς.)

ΟΧΙ πια. Προόδους όχι μόνο σε μετασχηματιστές μεγάλα γλωσσικά μοντέλα (LLMs) αλλά σε αυτόματο αναγνώρισης ομιλίας (ASR) και κείμενο σε ομιλία Τα συστήματα (TTS) σημαίνουν ότι οι πράκτορες που βασίζονται στη φωνή "επόμενης γενιάς" είναι εδώ - εάν γνωρίζετε πώς να τους δημιουργήσετε.

Σήμερα ρίχνουμε μια ματιά στις προκλήσεις που αντιμετωπίζει όποιος ελπίζει να δημιουργήσει έναν τέτοιου είδους συνομιλητή βασισμένο στη φωνή.

Γιατί φωνή;

Πριν προχωρήσουμε, ας ρίξουμε μια γρήγορη ματιά στα γενικά αξιοθέατα και τη συνάφεια των πρακτόρων που βασίζονται στη φωνή (σε αντίθεση με τις αλληλεπιδράσεις που βασίζονται σε κείμενο). Υπάρχουν πολλοί λόγοι για τους οποίους μια φωνητική αλληλεπίδραση μπορεί να είναι πιο κατάλληλη από αυτή που βασίζεται σε κείμενο – αυτοί μπορεί να περιλαμβάνουν, κατά αυξανόμενη σειρά σοβαρότητας:

  • Προτίμηση ή συνήθεια – η ομιλία προηγείται της γραφής αναπτυξιακά και ιστορικά

  • Αργή εισαγωγή κειμένου – πολλοί μπορούν να μιλήσουν πιο γρήγορα από ό,τι μπορούν να γράψουν

  • Καταστάσεις χωρίς χέρια – όπως η οδήγηση, η γυμναστική ή το πλύσιμο των πιάτων

  • Αναλφαβητισμός – τουλάχιστον στη γλώσσα(ες) που καταλαβαίνει ο πράκτορας

  • Αναπηρίες – όπως τύφλωση ή έλλειψη μη φωνητικού κινητικού ελέγχου

Σε μια εποχή που φαινομενικά κυριαρχείται από συναλλαγές μέσω ιστότοπου, η φωνή παραμένει ένας ισχυρός αγωγός για το εμπόριο. Για παράδειγμα, μια πρόσφατη μελέτη της JD Power σχετικά με την ικανοποίηση πελατών στον ξενοδοχειακό κλάδο διαπίστωσε ότι οι επισκέπτες που έκλεισαν το δωμάτιό τους μέσω τηλεφώνου ήταν πιο ικανοποιημένοι με τη διαμονή τους σε σχέση με εκείνους που έκαναν κράτηση μέσω ενός διαδικτυακού ταξιδιωτικού γραφείου (OTA) ή απευθείας μέσω του ιστότοπου του ξενοδοχείου .

Αλλά οι διαδραστικές φωνητικές απαντήσεις, ή εν συντομία IVR, δεν αρκούν. Μια μελέτη του 2023 από τη Zippia διαπίστωσε ότι το 88% των πελατών προτιμούν φωνητικές κλήσεις με ζωντανό πράκτορα αντί να πλοηγούνται σε ένα αυτοματοποιημένο μενού τηλεφώνου. Η μελέτη διαπίστωσε επίσης ότι τα κορυφαία πράγματα που ενοχλούν περισσότερο τους ανθρώπους σχετικά με τα μενού του τηλεφώνου περιλαμβάνουν την ακρόαση άσχετων επιλογών (69%), την αδυναμία πλήρους περιγραφής του ζητήματος (67%), την αναποτελεσματική εξυπηρέτηση (33%) και τις μπερδεμένες επιλογές (15% ).

Και υπάρχει ένα άνοιγμα στη χρήση βοηθών που βασίζονται στη φωνή. Σύμφωνα με μια μελέτη της Accenture, περίπου το 47% των καταναλωτών αισθάνεται ήδη άνετα χρησιμοποιώντας φωνητικούς βοηθούς για να αλληλεπιδρούν με επιχειρήσεις και περίπου το 31% των καταναλωτών έχουν ήδη χρησιμοποιήσει έναν φωνητικό βοηθό για να αλληλεπιδράσουν με μια επιχείρηση.

Όποιος κι αν είναι ο λόγος, για πολλούς, υπάρχει προτίμηση και ζήτηση για προφορική αλληλεπίδραση – αρκεί να είναι φυσική και άνετη.

Τι κάνει έναν καλό πράκτορα που βασίζεται στη φωνή;

Σε γενικές γραμμές, ένας καλός πράκτορας που βασίζεται στη φωνή θα πρέπει να ανταποκρίνεται στον χρήστη με έναν τρόπο που είναι:

  • Σχετικό: Με βάση τη σωστή κατανόηση του τι είπε/ήθελε ο χρήστης. Λάβετε υπόψη ότι σε ορισμένες περιπτώσεις, η απάντηση του πράκτορα δεν θα είναι απλώς μια προφορική απάντηση, αλλά κάποια μορφή δράσης μέσω της ενσωμάτωσης με ένα σύστημα υποστήριξης (π.χ., στην πραγματικότητα προκαλεί την κράτηση ενός δωματίου ξενοδοχείου όταν ο καλών λέει "Προχωρήστε και κάντε κράτηση") .

  • Ακριβές: Με βάση τα γεγονότα (π.χ. πείτε ότι υπάρχει διαθέσιμο δωμάτιο στο ξενοδοχείο στις 19 Ιανουαρίου μόνο εάν υπάρχει)

  • Σαφής: Η απάντηση πρέπει να είναι κατανοητή

  • Επίκαιρο: Με το είδος της καθυστέρησης που θα περίμενε κανείς από έναν άνθρωπο

  • Ασφαλές: Χωρίς προσβλητική ή ακατάλληλη γλώσσα, αποκάλυψη προστατευμένων πληροφοριών κ.λπ.

Το πρόβλημα

Τα τρέχοντα αυτοματοποιημένα συστήματα που βασίζονται στη φωνή προσπαθούν να ικανοποιήσουν τα παραπάνω κριτήρια εις βάρος του α) του ότι είναι α) πολύ περιορισμένα και β) είναι πολύ απογοητευτικά στη χρήση. Μέρος αυτού είναι αποτέλεσμα των υψηλών προσδοκιών που θέτει ένα πλαίσιο συνομιλίας που βασίζεται στη φωνή, με αυτές τις προσδοκίες να αυξάνονται μόνο όσο περισσότερο η ποιότητα φωνής στα συστήματα TTS γίνεται δυσδιάκριτη από τις ανθρώπινες φωνές. Αλλά αυτές οι προσδοκίες διαψεύστηκαν στα συστήματα που είναι ευρέως διαδεδομένα αυτή τη στιγμή. Γιατί;

Με μια λέξη – ακαμψία:

  • Περιορισμένη ομιλία – ο χρήστης συνήθως αναγκάζεται να λέει πράγματα αφύσικα: με σύντομες φράσεις, με συγκεκριμένη σειρά, χωρίς ψευδείς πληροφορίες κ.λπ. Αυτό προσφέρει ελάχιστη ή καθόλου πρόοδο σε σχέση με το παλιό σύστημα μενού που βασίζεται σε αριθμούς του σχολείου

  • Στενή, μη περιεκτική έννοια της «αποδεκτής» ομιλίας – χαμηλή ανοχή για αργκό, ουμ και αχ, κ.λπ.

  • Χωρίς οπισθοδρόμηση: Εάν κάτι πάει στραβά, μπορεί να υπάρχει μικρή πιθανότητα «επισκευής» ή διόρθωσης της προβληματικής πληροφορίας, αλλά αντίθετα πρέπει να ξεκινήσετε από την αρχή ή να περιμένετε τη μεταφορά σε έναν άνθρωπο.

  • Αυστηρή στροφή - δεν υπάρχει δυνατότητα διακοπής ή ομιλίας ενός πράκτορα

Είναι αυτονόητο ότι οι άνθρωποι βρίσκουν αυτούς τους περιορισμούς ενοχλητικούς ή απογοητευτικούς.

Η λύση:

Τα καλά νέα είναι ότι τα σύγχρονα συστήματα τεχνητής νοημοσύνης είναι αρκετά ισχυρά και γρήγορα ώστε να βελτιώνουν σημαντικά τα παραπάνω είδη εμπειριών, αντί να πλησιάζουν (ή να υπερβαίνουν!) τα πρότυπα εξυπηρέτησης πελατών που βασίζονται στον άνθρωπο. Αυτό οφείλεται σε διάφορους παράγοντες:

  • Ταχύτερο, πιο ισχυρό υλικό

  • Βελτιώσεις στο ASR (μεγαλύτερη ακρίβεια, υπέρβαση θορύβου, τόνοι κ.λπ.)

  • Βελτιώσεις στο TTS (φωνές με φυσικό ήχο ή ακόμα και κλωνοποιημένες)

  • Η άφιξη των γενεσιουργών LLM (συνομιλίες με φυσικό ήχο)

Αυτό το τελευταίο σημείο αλλάζει το παιχνίδι. Η βασική ιδέα ήταν ότι ένα καλό μοντέλο πρόβλεψης μπορεί να χρησιμεύσει ως ένα καλό μοντέλο παραγωγής. Ένας τεχνητός πράκτορας μπορεί να πλησιάσει την απόδοση συνομιλίας σε ανθρώπινο επίπεδο εάν λέει ό,τι ένα αρκετά καλό LLM προβλέπει ότι είναι το πιο πιθανό πράγμα που θα έλεγε ένας καλός ανθρώπινος πράκτορας εξυπηρέτησης πελατών στο δεδομένο πλαίσιο συνομιλίας.

Σηκώστε την άφιξη δεκάδων νεοσύστατων τεχνολογιών τεχνητής νοημοσύνης που ελπίζουν να λύσουν το πρόβλημα του φωνητικού αντιπροσώπου απλώς επιλέγοντας και στη συνέχεια συνδέοντας, εκτός ραφιού, μονάδες ASR και TTS σε έναν πυρήνα LLM. Από αυτή την άποψη, η λύση είναι απλώς το θέμα της επιλογής ενός συνδυασμού που ελαχιστοποιεί την καθυστέρηση και το κόστος. Και φυσικά, αυτό είναι σημαντικό. Είναι όμως αρκετό;

Οχι τόσο γρήγορα

Υπάρχουν αρκετοί συγκεκριμένοι λόγοι για τους οποίους αυτή η απλή προσέγγιση δεν θα λειτουργήσει, αλλά προέρχονται από δύο γενικά σημεία:

  1. Τα LLM στην πραγματικότητα δεν μπορούν, από μόνα τους, να παρέχουν καλές συνομιλίες κειμένου βασισμένες σε γεγονότα του είδους που απαιτείται για εταιρικές εφαρμογές όπως η εξυπηρέτηση πελατών. Επομένως, δεν μπορούν, από μόνοι τους, να το κάνουν αυτό ούτε για συνομιλίες που βασίζονται στη φωνή. Κάτι άλλο χρειάζεται.

  2. Ακόμα κι αν συμπληρώνετε τα LLM με ό,τι χρειάζεται για να φτιάξετε έναν καλό συνομιλητή βασισμένο σε κείμενο, η μετατροπή του σε έναν καλό συνομιλητή με βάση τη φωνή απαιτεί περισσότερα από την απλή σύνδεση με τις καλύτερες ενότητες ASR και TTS που μπορείτε να αντέξετε οικονομικά.

Ας δούμε ένα συγκεκριμένο παράδειγμα καθεμιάς από αυτές τις προκλήσεις.

Πρόκληση 1: Διατήρηση της πραγματικότητας

Όπως είναι πλέον ευρέως γνωστό, τα LLM μερικές φορές παράγουν ανακριβείς ή «παραισθήσεις» πληροφορίες. Αυτό είναι καταστροφικό στο πλαίσιο πολλών εμπορικών εφαρμογών, ακόμα κι αν μπορεί να αποτελέσει μια καλή εφαρμογή ψυχαγωγίας όπου η ακρίβεια μπορεί να μην είναι το ζητούμενο.

Το ότι οι LLM μερικές φορές έχουν παραισθήσεις είναι αναμενόμενο, μετά από προβληματισμό. Είναι άμεση συνέπεια της χρήσης μοντέλων που εκπαιδεύτηκαν σε δεδομένα από ένα έτος (ή περισσότερο) πριν για να δημιουργηθούν απαντήσεις σε ερωτήσεις σχετικά με γεγονότα που δεν αποτελούν μέρος ή δεν προέρχονται από ένα σύνολο δεδομένων (όσο τεράστιο) που μπορεί να είναι ένα έτος ή περισσότερο παλαιός. Όταν ο καλών ρωτά "Ποιος είναι ο αριθμός μέλους μου;", ένα απλό προεκπαιδευμένο LLM μπορεί να δημιουργήσει μόνο μια εύλογη απάντηση, όχι ακριβή.

Οι πιο συνηθισμένοι τρόποι αντιμετώπισης αυτού του προβλήματος είναι:

  • Βελτιστοποίηση: Εκπαιδεύστε το προεκπαιδευμένο LLM περαιτέρω, αυτή τη φορά σε όλα τα δεδομένα του τομέα που θέλετε να μπορεί να απαντήσει σωστά.

  • Άμεση μηχανική: Προσθέστε τα επιπλέον δεδομένα/οδηγίες ως είσοδο στο LLM, εκτός από το ιστορικό συνομιλιών

  • Ανάκτηση επαυξημένης γενιάς (RAG): Όπως και η μηχανική άμεσης επικοινωνίας, με τη διαφορά ότι τα δεδομένα που προστίθενται στην προτροπή καθορίζονται αμέσως ταιριάζοντας το τρέχον πλαίσιο συνομιλίας (π.χ. ο πελάτης έχει ρωτήσει «Το ξενοδοχείο σας έχει πισίνα;») σε μια κωδικοποιημένη ενσωμάτωση ευρετήριο των δεδομένων που αφορούν τον τομέα σας (που περιλαμβάνει, π.χ. ένα αρχείο που λέει: "Εδώ είναι οι διαθέσιμες εγκαταστάσεις στο ξενοδοχείο: πισίνα, σάουνα, σταθμός φόρτισης EV.").

  • Έλεγχος βάσει κανόνων: Όπως το RAG, αλλά ό,τι πρέπει να προστεθεί (ή να αφαιρεθεί) από την προτροπή δεν ανακτάται με την αντιστοίχιση μιας νευρικής μνήμης, αλλά καθορίζεται μέσω σκληρών (και κωδικοποιημένων) κανόνων.

Σημειώστε ότι ένα μέγεθος δεν ταιριάζει σε όλα. Ποια από αυτές τις μεθόδους θα είναι κατάλληλη θα εξαρτηθεί, για παράδειγμα, από τα δεδομένα του συγκεκριμένου τομέα που ενημερώνουν την απάντηση του πράκτορα. Συγκεκριμένα, θα εξαρτηθεί από το αν τα εν λόγω δεδομένα αλλάζουν συχνά (κλήση για κλήση, ας πούμε – π.χ. όνομα πελάτη) ή σχεδόν ποτέ (π.χ. ο αρχικός χαιρετισμός: «Γεια σας, σας ευχαριστώ που τηλεφωνήσατε στο Hotel Budapest. Πώς μπορώ να σας βοηθήσω σήμερα ;»). Η τελειοποίηση δεν θα ήταν κατάλληλη για την πρώτη και η RAG θα ήταν μια αδέξια λύση για τη δεύτερη. Έτσι, οποιοδήποτε λειτουργικό σύστημα θα πρέπει να χρησιμοποιήσει μια ποικιλία από αυτές τις μεθόδους.

Επιπλέον, η ενσωμάτωση αυτών των μεθόδων με το LLM και μεταξύ τους με τρόπο που ελαχιστοποιεί την καθυστέρηση και το κόστος απαιτεί προσεκτική μηχανική. Για παράδειγμα, η απόδοση RAG του μοντέλου σας μπορεί να βελτιωθεί εάν το ρυθμίσετε με ακρίβεια για να διευκολύνετε αυτήν τη μέθοδο.

Μπορεί να μην αποτελεί έκπληξη το γεγονός ότι κάθε μία από αυτές τις μεθόδους εισάγει με τη σειρά της τις δικές της προκλήσεις. Για παράδειγμα, πάρτε τη λεπτομέρεια. Η τελειοποίηση του προεκπαιδευμένου LLM στα δεδομένα του τομέα σας θα βελτιώσει την απόδοσή του σε αυτά τα δεδομένα, ναι. Αλλά η τελειοποίηση τροποποιεί τις παραμέτρους (βάρη) που αποτελούν τη βάση της (πιθανώς αρκετά καλής) γενικής απόδοσης του προεκπαιδευμένου μοντέλου. Αυτή η τροποποίηση επομένως προκαλεί μια ξεμάθηση (ή «καταστροφική λήθη») ορισμένων από τις προηγούμενες γνώσεις του μοντέλου. Αυτό μπορεί να έχει ως αποτέλεσμα το μοντέλο να δίνει λανθασμένες ή ακατάλληλες (ακόμη και μη ασφαλείς) απαντήσεις. Εάν θέλετε ο αντιπρόσωπός σας να συνεχίσει να ανταποκρίνεται με ακρίβεια και ασφάλεια, χρειάζεστε μια μέθοδο λεπτομέρειας που μετριάζει την καταστροφική λήθη.

Πρόκληση 2: Τερματισμός

Ο καθορισμός του πότε ένας πελάτης έχει ολοκληρώσει την ομιλία είναι κρίσιμος για τη φυσική ροή συνομιλίας. Ομοίως, το σύστημα πρέπει να χειρίζεται τις διακοπές με χάρη, διασφαλίζοντας ότι η συνομιλία παραμένει συνεκτική και ανταποκρίνεται στις ανάγκες του πελάτη. Η επίτευξη αυτού σε ένα πρότυπο συγκρίσιμο με την ανθρώπινη αλληλεπίδραση είναι ένα σύνθετο έργο, αλλά είναι απαραίτητο για τη δημιουργία φυσικών και ευχάριστων εμπειριών συνομιλίας.

Μια λύση που λειτουργεί απαιτεί από τους σχεδιαστές να εξετάσουν ερωτήσεις όπως αυτές:

  • Πόσο καιρό μετά τη διακοπή της ομιλίας του πελάτη πρέπει να περιμένει ο πράκτορας προτού αποφασίσει ότι ο πελάτης έχει σταματήσει να μιλάει;

  • Τα παραπάνω εξαρτώνται από το αν ο πελάτης έχει συμπληρώσει μια πλήρη πρόταση;

  • Τι πρέπει να γίνει εάν ο πελάτης διακόψει τον πράκτορα;

  • Συγκεκριμένα, θα έπρεπε ο πράκτορας να υποθέσει ότι αυτό που έλεγε δεν ακούστηκε από τον πελάτη;

Αυτά τα ζητήματα, που έχουν να κάνουν σε μεγάλο βαθμό με το χρονοδιάγραμμα, απαιτούν προσεκτική μηχανική πάνω και πέρα ​​από αυτή που σχετίζεται με την απόκτηση ενός LLM για τη σωστή απάντηση.

Συμπέρασμα

Η εξέλιξη των συστημάτων φωνής που βασίζονται σε τεχνητή νοημοσύνη υπόσχεται μια επαναστατική αλλαγή στη δυναμική εξυπηρέτησης πελατών, αντικαθιστώντας τα απαρχαιωμένα τηλεφωνικά συστήματα με προηγμένες τεχνολογίες LLM, ASR και TTS. Ωστόσο, η υπέρβαση των προκλήσεων στις παραισθησιακές πληροφορίες και η απρόσκοπτη κατάληξη θα είναι καθοριστικής σημασίας για την παροχή φυσικών και αποτελεσματικών φωνητικών αλληλεπιδράσεων.

Η αυτοματοποίηση της εξυπηρέτησης πελατών έχει τη δύναμη να γίνει μια πραγματική αλλαγή παιχνιδιών για τις επιχειρήσεις, αλλά μόνο εάν γίνει σωστά. Το 2024, ιδιαίτερα με όλες αυτές τις νέες τεχνολογίες, μπορούμε επιτέλους να κατασκευάσουμε συστήματα που να μπορούν να αισθάνονται φυσικά και ρέοντα και να μας καταλαβαίνουν σθεναρά. Το καθαρό αποτέλεσμα θα μειώσει τους χρόνους αναμονής και θα βελτιώσει την τρέχουσα εμπειρία που έχουμε με τα φωνητικά ρομπότ, σηματοδοτώντας μια μεταμορφωτική εποχή όσον αφορά την αφοσίωση των πελατών και την ποιότητα των υπηρεσιών.

Ο Δρ Itamar Arel, επί του παρόντος Διευθύνων Σύμβουλος στο Tenyx, συνδυάζει το ακαδημαϊκό του υπόβαθρο ως πρώην καθηγητής στο Πανεπιστήμιο του Τενεσί και στο εργαστήριο τεχνητής νοημοσύνης του Πανεπιστημίου του Στάνφορντ με την επιχειρηματική επιτυχία, συνιδρυώντας τις πρωτοπόρες εταιρείες Binatix, Apprente (που εξαγοράστηκε από McDonald's και IBM) και Tenyx. Η Itamar κατείχε πρόσφατα τη θέση του εταιρικού αντιπρόεδρου και επικεφαλής των εργαστηρίων McD Tech Labs στην McDonald's Corporation και επικεφαλής της συνομιλίας AI στην IBM Watson Orders.

Ο Dr. Ron Chrisley είναι επί του παρόντος Επικεφαλής Επιστημονικός Σύμβουλος στο Tenyx, την οποία συνίδρυσε το 2021. Έλαβε πτυχίο στα Συμβολικά Συστήματα από το Στάνφορντ, είναι διδάκτωρ από το Πανεπιστήμιο της Οξφόρδης και είναι καθηγητής Γνωστικής Επιστήμης και Τεχνητής Νοημοσύνης στο Πανεπιστήμιο του Σάσεξ. Από το 2019 έως το 2020, ήταν επισκέπτης μελετητής στο Ινστιτούτο του Στάνφορντ για την Ανθρωποκεντρική ΤΝ.