Συνεντεύξεις
Νίκολα Μρκσιτς, Συνιδρυτής και Διευθύνων Σύμβουλος της PolyAI – Σειρά Συνεντεύξεων

Ο Νίκολα Μρκσιτς είναι συνιδρυτής και Διευθύνων Σύμβουλος της PolyAI, ενός ηγετικού προμηθευτή επιχειρηματικών λύσεων φωνητικών βοηθών για αυτοματοποιημένη εξυπηρέτηση πελατών.
Τι σας έκανε να ενδιαφερθείτε αρχικά για την Τεχνητή Νοημοσύνη;
Έχω ασχοληθεί με τα μαθηματικά και την επιστήμη των υπολογιστών από πολύ μικρή ηλικία. Κατά τη διάρκεια των σπουδών μου στο Κέιμπριτζ, είχα την ευκαιρία να συνεργαστώ με几个 ηγετικούς ερευνητές μηχανικής μάθησης, συμπεριλαμβανομένων των Steve Young και Zoubin Ghahramani. Ο Steve με πείσε να ενταχθώ στην εταιρεία του, VocalIQ, για να εργαστώ στην ανάπτυξη συστημάτων διαλόγου ομιλίας. Αργότερα, τελικά έκανα διδακτορικό με τον Steve, εργαζόμενος στην ανάπτυξη μοντέλων κατανόησης γλώσσας που βασίζονται σε δεδομένα και λειτουργούν σε διαφορετικές περιπτώσεις και γλώσσες. Η συνομιλητική Τεχνητή Νοημοσύνη είναι ένα πολύ δύσκολο και σύνθετο πεδίο εργασίας, με πολλές επιστημονικές και μηχανικές επαναστάσεις ακόμη μπροστά μας, και με έχει κρατήσει απασχολημένο από τότε.
Το 2017, ξεκινήσατε την PolyAI, μια εταιρεία συνομιλητικής Τεχνητής Νοημοσύνης, θα μπορούσατε να συζητήσετε την ιστορία πίσω από την PolyAI;
Οι συνιδρυτές μου, Shawn Wen, Eddy Su και εγώ κάναμε τα διδακτορικά μας στο Κέιμπριτζ την ίδια περίοδο. Είχαμε εργαστεί σε συστήματα διαλόγου για χρόνια, αλλά σύντομα συνειδητοποιήσαμε ότι τα είδη των σοφιστικών συστημάτων στα οποία είχαμε συνηθίσει να εργαζόμαστε είχαν πολύ λίγες εμπορικές εφαρμογές. Έτσι, ήρθαμε μαζί για να δημιουργήσουμε μια λύση συνομιλητικής Τεχνητής Νοημοσύνης που θα ήταν επωφελής στον πραγματικό κόσμο. Είδαμε μια ευκαιρία για πραγματικά συνομιλητικά, πολλαπλά, συναλλακτικά συστήματα διαλόγου που θα μπορούσαν να αλληλεπιδράσουν με πραγματικούς ανθρώπους στην καθημερινή ζωή.
Εστιάσαμε στην εξυπηρέτηση πελατών επειδή αισθανθήκαμε ότι οι τρέχουσες τεχνολογικές ικανότητες και οι απαιτήσεις των πελατών ήταν καλά αντιστοιχισμένες.
Θα μπορούσατε να συζητήσετε κάποιες από τις τεχνολογίες μηχανικής μάθησης και επεξεργασίας φυσικής γλώσσας που χρησιμοποιούνται;
Το κύριο μυστικό μας είναι το σύνολο των διαφορετικών ιδιόκτητων μοντέλων κωδικοποιητών. Τα έχουμε προ-εκπαιδεύσει σε δισεκατομμύρια φυσικών συζητήσεων, ώστε να μπορούν να εξάγουν πρόθεση ακόμη και όταν η εισερχόμενη ομιλία χρησιμοποιεί ιδιώματα ή εκφράσεις για παράδειγμα. Αυτό είναι απίστευτα σημαντικό για την επικοινωνία μέσω τηλεφώνου. Οι πελάτες δεν μιλούν με λέξεις-κλειδιά· διηγούνται ιστορίες, διακόπτουν, κάνουν ερωτήσεις και γενικά θέλουν να λάβουν τον έλεγχο της συνομιλίας.
Πρόσφατα, ανακοινώσαμε το μοντέλο μας ConVEx, ένα εξαιρετικά αποτελεσματικό εκχερσόγραφο οντοτήτων, το οποίο μας επιτρέπει να εξάγουμε ακριβώς τιμές από συζητήσεις.
Η διαδικασία μας για την ορχήστρα ASR περιλαμβάνει τη χρήση της εκπαίδευσης αναγνώρισης ομιλίας για να εξουδετερώσουμε τον θόρυβο που προκαλείται από διαφορετικά προφορικά ιδιώματα, καθώς και την εκπαίδευση για διαφορετικά περιβάλλοντα.
Έχουμε επίσης αναπτύξει μια αρκετά robust βιβλιοθήκη πολιτικής διαλόγου με προ-σχεδιασμένες περιπτώσεις χρήσης που περιλαμβάνουν όλες τις κοινές συναλλαγές εξυπηρέτησης πελατών, ώστε να μπορούμε να ξεκινήσουμε einen νέο φωνητικό βοηθό για πελάτες εξαιρετικά γρήγορα.
Σύμφωνα με την άποψή σας, τι διαφοροποιεί ένα καλό προϊόν συνομιλητικής Τεχνητής Νοημοσύνης από ένα κακό;
Ένα καλό προϊόν θα κατανοήσει συνεχώς τι εννοούν οι χρήστες και δεν θα τους κάνει ποτέ να επαναλάβουν τον εαυτό τους. Οι κλήσεις συχνά συμβαίνουν σε θορυβώδεις περιβάλλοντα, οπότε τα προϊόντα πρέπει να είναι ανθεκτικά σε ακαθόριστες εισροές. Όσο τα brands επεκτείνουν σε μεγάλες αγορές, τα προϊόντα πρέπει να κατανοούν eine ποικιλία προφορικών ιδιωμάτων και τρόπων εκφράσεων προθέσεων. Και τα δύο απαιτούν από τα προϊόντα να εγγυώνται robust αναγνώριση ομιλίας, ανθεκτική ταξινόμηση προθέσεων και εξαγωγή οντοτήτων.
Ένα εξαιρετικό προϊόν θα είναι ενεργά αλληλεπιδραστικό για τους χρήστες. Θα ακολουθήσει τη σκέψη του χρήστη και θα μπορεί να χειριστεί σύνθετες, καθημερινές περιπτώσεις όπου οι χρήστες μπορεί να μοιράζονται πολλαπλά προθέσεις και κομμάτια πληροφοριών ταυτόχρονα, και μπορεί να πηδήξουν μεταξύ διαφορετικών περιβαλλόντων. Αυτό απαιτεί robust πολλαπλή ταξινόμηση και διαχείριση περιβαλλόντων.
Ένα αλληλεπιδραστικό προϊόν θα εμφανίζει ανθρώπινες ιδιότητες χωρίς να είναι ακατανόητο ή πολύ ρομποτική. Αυτό σημαίνει γρήγορες αλληλεπιδράσεις, αυθεντικές φωνές, συνεχείς ενδείξεις ανατροφοδότησης και ένα βαθμό τυχαιότητας και ατελειών.
Τέλος, ένα εξαιρετικό προϊόν συνομιλητικής Τεχνητής Νοημοσύνης θα αλληλεπιδράσει με τους χρήστες όπου κι αν βρίσκονται και θα προσφέρει μια ομαλή, ειδική για κάθε πλατφόρμα εμπειρία, η οποία μπορεί να εκτείνεται σε φωνή, SMS, chat ή πλατφόρμες κοινωνικής αλληλεπίδρασης. Το παράδειγμα αλληλεπίδρασης πρέπει να αγκαλιάσει την ιδιαιτερότητα κάθε πλατφόρμας επικοινωνίας.
Τι είναι κάποια από τα πλεονεκτήματα των εταιρειών που χρησιμοποιούν συνομιλητική Τεχνητή Νοημοσύνη αντί να προσπαθούν να κατευθύνουν τις ερωτήσεις τους σε chat bots;
Η εμπειρία του πελάτη είναι κρίσιμη και έχει γίνει ένας βασικός οδηγός για την καθυστερήσή τους. Η πρώτη προτεραιότητα πρέπει να είναι η διευκόλυνση των πελατών να κάνουν ότι χρειάζονται να κάνουν.
Το τηλέφωνο είναι ακόμη το προτιμώμενο κανάλι για τους περισσότερους πελάτες για να επικοινωνήσουν με μια εταιρεία. Μέχρι το 65% όλων των αλληλεπιδράσεων πελατών συμβαίνουν ακόμη μέσω τηλεφώνου. Κατά τη διάρκεια της πανδημίας COVID-19, τα κέντρα επικοινωνίας έχουν ωθηθεί στα άκρα με περισσότερους πελάτες από ποτέ να καλούν για υποστήριξη.
Βέβαια, μια εξαιρετική εμπειρία επιτρέπει στους πελάτες να επικοινωνούν όπως θέλουν, οπότε για όποιον προτιμά ασύγχρονες επικοινωνίες, κάνουμε εύκολη για τα brands να προσφέρουν το ίδιο επίπεδο εμπειρίας σε κειμενικές πλατφόρμες.
Πόσο μεγάλη πρόκληση είναι η ανίχνευση της πρόθεσης του τι προσπαθεί να πει ένας πελάτης;
Υπάρχουν πολλές προκλήσεις στην κατανόηση των πελατών μέσω καναλιών φωνής. Η ακριβής και συνεχής κατανόηση της σημασίας των χρηστών απαιτεί πολλά συστατικά να λειτουργούν καλά μαζί.
Πρώτον, η αναγνώριση ομιλίας είναι δύσκολη, ιδιαίτερα όταν οι άνθρωποι καλούν από θορυβώδη περιβάλλοντα, όπως όταν είναι σε ηχεία, ή όταν οδηγούν μέσα από κίνηση ή σήραγγες. Η αναγνώριση ομιλίας μπορεί επίσης να είναι δύσκολη σε περιοχές με διαφορετικά προφορικά ιδιώματα και διάλεκτους. Έχουμε αναπτύξει einen αποτελεσματικό τρόπο να προκαθορίσουμε τα μοντέλα αναγνώρισης ομιλίας για το δεδομένο περιβάλλον, ώστε να βελτιστοποιήσουμε την αναγνώριση ομιλίας.
Επειδή το μοντέλο μας ConveRT έχει εκπαιδευτεί σε ένα τεράστιο ποσό συνομιλητικών δεδομένων, μπορεί να ανιχνεύσει πρόθεση ακόμη και όταν η εισερχόμενη ομιλία χρησιμοποιεί ιδιώματα ή εκφράσεις για παράδειγμα. Αυτό είναι απίστευτα σημαντικό για την επικοινωνία μέσω τηλεφώνου.
Μια άλλη σκέψη είναι η κατανόηση όταν οι χρήστες θέλουν να thựcίσουν πολλαπλά προθέσεις ταυτόχρονα. Για παράδειγμα, κάποιος μπορεί να πει: “Χάθηκα την κάρτα μου. Μπορείτε να με ενημερώσετε αν έχει χρησιμοποιηθεί και να την αποκλείσετε;”. Σε αυτή την περίπτωση, το μοντέλο πρέπει να αναγνωρίσει δύο προθέσεις και να ενεργήσει σε αυτές με τρόπο που έχει νόημα.
Το μοντέλο πρέπει επίσης να είναι σε θέση να εξάγει και να κατανοήσει τις οντότητες που προσφέρονται από τους πελάτες. Για παράδειγμα, “έχετε ένα τραπέζι το Σάββατο για μένα, τη γυναίκα μου και τα 2 παιδιά μας;”. Η επιφανειακή πρόθεση εδώ είναι να ελέγξει τη διαθεσιμότητα για ένα τραπέζι, αλλά το μοντέλο πρέπει να βγάλει την ημερομηνία (Σάββατο) και τον αριθμό των ανθρώπων (4) και οποιαδήποτε άλλη πιθανή πληροφορία που μπορεί να είναι σχετική (ίσως τα παιδιά επιτρέπονται μόνο στην εστιατόριο περιοχή και δεν μπορούν να καθίσουν στο μπαρ).
Τέλος, η συνομιλία δεν είναι πάντα γραμμική. Οι πελάτες μπορεί να διακόψουν με ερωτήσεις που δεν σχετίζονται με την ερώτηση του φωνητικού βοηθού, οπότε ο βοηθός πρέπει να είναι σε θέση να “ακούσει” για ένα είδος εισροής, ενώ είναι ανοιχτός σε διαφορετικά ερεθίσματα, όπως ερωτήσεις ή αλλαγές σε πληροφορίες που παρέχθηκαν προηγουμένως από τον πελάτη.
Τι είναι η διαδικασία και ο χρόνος που απαιτείται για μια εταιρεία που θέλει να ξεκινήσει einen συνομιλητικό Τεχνητή Νοημοσύνη bot με την PolyAI;
Είμαστε εδώ για να προσφέρουμε φωνητικούς βοηθούς που έχουν ουσιαστική επιχειρηματική επίδραση. Έτσι, ξεκινάμε κάθε συνεργασία με μια ανακάλυψη, όπου βοηθάμε τους πελάτες να αναγνωρίσουν και να εκφράσουν τους στόχους CX, τα βασικά μετρικά και τις διαδικασίες υποστήριξης. Αυτό είναι το σημείο όπου ορίζουμε τις διαδρομές που ο φωνητικός βοηθός θα οδηγήσει τους πελάτες. Αυτό, μαζί με το προ-εκπαιδευμένο μοντέλο ConveRT, σημαίνει ότι δεν χρειαζόμαστε τεράστιες ποσότητες συνομιλητικών δεδομένων από τους πελάτες.
Από εκεί, μπορούμε να αναπτύξουμε einen φωνητικό βοηθό με πολύ λίγη εισροή που απαιτείται από τον πελάτη, οπότε δεν είναι καθόλου απαιτητικό για τις εσωτερικές ομάδες IT.
Ανάλογα με την πολυπλοκότητα, μπορούμε να ξεκινήσουμε einen αποδεικτικότιμο σε τόσο λίγο χρόνο όσο 2 εβδομάδες, και μια πλήρη ανάπτυξη σε 2 μήνες.
Ευχαριστούμε για τη μεγάλη συνέντευξη, οι αναγνώστες που θέλουν να μάθουν περισσότερα πρέπει να επισκεφθούν την PolyAI.












