Τεχνητή νοημοσύνη
Βικράντ Τομάρ, Διευθύνων Σύμβουλος και Ιδρυτής της Fluent.ai – Σειρά Συνεντεύξεων

Ο Βικράντ Τομάρ είναι ο Διευθύνων Σύμβουλος και Ιδρυτής της Fluent.ai, một λογισμικό κατανοήσης ομιλίας και φωνητικής διεπαφής για κατασκευαστές συσκευών και παρόχους υπηρεσιών.
Τι σας έκανε να ενδιαφερθείτε αρχικά για τη μελέτη της ακουστικής μοντελοποίησης για την αναγνώριση ομιλίας;
Πραγματικά, η ικανότητα να μιλάμε στις συσκευές με τον ίδιο τρόπο που μιλάμε σε έναν άλλον άνθρωπο. Αυτή η όραση ήταν γοητευτική για μένα. Ξεκίνησα να μελετώ την αναγνώριση ομιλίας κατά το τελευταίο έτος των σπουδών μου. Αυτή ήταν επίσης η στιγμή που άρχισα να ενδιαφέρομαι για την έρευνα, οπότε πήρα ένα μάθημα αναγνώρισης ομιλίας και ένα σχετικό ερευνητικό έργο. Μου ήταν δυνατό να δημοσιεύσω ένα ερευνητικό έργο στη διάσκεψη InterSpeech, μια από τις μεγαλύτερες και πιο φημισμένες διασκέψεις αναγνώρισης ομιλίας, από αυτή τη δουλειά. Όλα αυτά με έκαναν να επιλέξω την έρευνα στην αναγνώριση ομιλίας ως στόχο για μακροχρόνια, και έτσι το PhD.
Το 2015, ξεκινήσατε την Fluent.ai. Μπορείτε να μοιραστείτε την ιστορία πίσω από αυτή τη νεοφυή εταιρεία;
Έχω μια επιχειρηματική ορμή μέσα μου για πολύ καιρό. Εγώ, μαζί με δύο άλλους φίλους, hatten προσπαθήσει να ξεκινήσουμε μια εταιρεία μετά το πτυχίο μας, ωστόσο, για κάποιους λόγους, αυτή η προσπάθεια δεν ήταν επιτυχημένη. Κατά τη διάρκεια του PhD μου στο McGill, έkept μια ματιά στο startup σκηνικό του Μόντρεαλ. Κατά τη διάρκεια αυτής της περιόδου, ήμουν επίσης σε επαφή με ανθρώπους από το TandemLaunch – το startup foundry όπου δημιούργησα την Fluent.ai. Μέχρι τότε, ήμουν στο τέλος του PhD μου, και σκέφτηκα σοβαρά να δοκιμάσω την επιχειρηματικότητα ξανά. Μέσω της εργασιακής μου εμπειρίας, έρευνας και σύνδεσμου με άλλες ομάδες έρευνας ομιλίας, συνειδητοποίησα ότι οι περισσότερες από αυτές τις εμπειρίες είχαν επικεντρωθεί στην αναγνώριση ομιλίας με έναν συγκεκριμένο τρόπο: από ομιλία σε μεταγραφή κειμένου και στη συνέχεια επεξεργασία φυσικής γλώσσας. Ωστόσο, αυτό άφησε ένα κενό στην χρηστικότητα. Ένα μεγάλο τμήμα του πληθυσμού δεν μπορεί να επωφεληθεί από τις λύσεις ομιλίας που αναπτύχθηκαν με αυτόν τον τρόπο. Η ποσότητα δεδομένων που απαιτείται για τέτοιες μεθόδους είναι τόσο μεγάλη που δεν θα είχε οικονομική λογική να αναπτύξουμε ξεχωριστά μοντέλα για γλώσσες με λιγότερους ομιλητές. Επιπλέον, πολλές διαλέκτους και γλώσσες δεν έχουν ξεχωριστή γραπτή μορφή. Ακόμη και η οικογένειά μου δεν ήταν σε θέση να χρησιμοποιήσει εργαλεία που αναπτύχθηκαν από μένα (μιλάνε μια διάλεκτο των Χίντι). Λαμβάνοντας υπόψη όλα αυτά, άρχισα να σκέφτομαι διαφορετικούς τρόπους για τη δημιουργία μοντέλων ομιλίας, όπου η ποσότητα δεδομένων που απαιτείται ήταν λιγότερη, και/ή ο τελικός χρήστης θα μπορούσε να εκπαιδεύσει ή να ενημερώσει τα μοντέλα. Ήμουν ενήμερος για τη δουλειά που είχε γίνει στο Πανεπιστήμιο KU Leuven (KUL) που θα μπορούσε να ανταποκριθεί σε κάποιους από αυτούς τους απαιτήσεις. Με μέρος της τεχνολογίας που προέρχεται από το KUL, μπόρεσα να κάνω τα πρώτα βήματα προς το τι είναι η Fluent σήμερα.
Μπορείτε να εξηγήσετε τις直觀 λύσεις κατανοήσης ομιλίας της Fluent.ai;
Οι λύσεις αναγνώρισης ομιλίας της Fluent.ai είναι εμπνευσμένες από τον τρόπο με τον οποίο οι άνθρωποι αποκτάνε και αναγνωρίζουν γλώσσες. Τα συμβατικά συστήματα αναγνώρισης ομιλίας πρώτα μεταγράφουν την εισερχόμενη ομιλία σε κείμενο και στη συνέχεια εξάγουν τη σημασία από αυτό το κείμενο. Αυτός δεν είναι ο τρόπος με τον οποίο οι άνθρωποι αναγνωρίζουν ομιλία. Πάρτε ένα παράδειγμα παιδιών πριν μάθουν να διαβάζουν και να γράφουν: παρά το γεγονός ότι δεν ξέρουν τίποτα για τη γραπτή αναπαράσταση γλωσσών, είναι σε θέση να έχουν μια ομιλία με ευκολία. Σε παρόμοιο τρόπο, τα μοντέλα της Fluent με βάση τα sâuфа νεύρα είναι ικανά να εξάγουν τη σημασία απευθείας από τους ήχους ομιλίας χωρίς να χρειάζεται να μεταγράψουν πρώτα σε κείμενο. Τεχνικά, αυτό είναι αληθινή Κατανόηση Γλωσσών Ομιλίας. Υπάρχουν πολλά πλεονεκτήματα σε αυτήν την προσέγγιση. Η παραδοσιακή αναγνώριση ομιλίας είναι μια επίπονη προσέγγιση, όπου πολλά μέρη που εκπαιδεύονται ξεχωριστά συνδυάζονται για να παρέχουν μια τελική απάντηση. Αυτό οδηγεί σε μια μη βέλτιστη λύση που υποφέρει από παραλλαγές σε αποτελέσματα για προφορές, θόρυβο, συνθήκες φόντου κ.λπ. Το σύστημα αυτόματης αναγνώρισης προθέσεων (AIR) της Fluent είναι βέλτιστο από άκρου σε άκρο; είναι εντελώς μια αρχιτεκτονική με βάση τα νεύρα, όπου όλα τα μέρη εκπαιδεύονται μαζί για να παρέχουν την πιο βέλτιστη λύση. Επιπλέον, είμαστε σε θέση να αφαιρέσουμε πολλά υπολογιστικά βαρέα μέρη που είναι συνήθως παρόντα στο συμβατικό σύστημα αναγνώρισης ομιλίας. Αυτό μας επιτρέπει να δημιουργήσουμε συστήματα αναγνώρισης ομιλίας με χαμηλό αποτύπωμα που μπορούν να τρέχουν σε μόλις 40KB RAM σε ένα χαμηλής ισχύος μικροελεγκτή που τρέχει σε 50 MHz. Τέλος, τα συστήματα κατανοήσης γλωσσών ομιλίας με βάση την AIR είναι σε θέση να εκμεταλλευτούν τις ομοιότητες μεταξύ διαφορετικών γλωσσών με έναν μοναδικό τρόπο για να παρέχουν απαράμιλles χαρακτηριστικά όπως η ικανότητα να αναγνωρίζουν πολλές γλώσσες στο ίδιο μοντέλο.
Τι είναι κάποια από τα προκλήματα της τεχνητής νοημοσύνης πίσω από την υπερπήδηση του προβλήματος του θορύβου;
Ο θόρυβος είναι μια από τις μεγαλύτερες προκλήσεις για την αναγνώριση ομιλίας. Αυτό που το κάνει ένα πραγματικά προκλητικό πρόβλημα είναι ότι υπάρχουν πολλοί διαφορετικοί τύποι θορύβου και επηρεάζουν το φάσμα της ομιλίας με διαφορετικούς τρόπους. Κάποιες φορές ο θόρυβος μπορεί επίσης να έχει επίδραση στην απόκριση του μικροφώνου. Σε πολλές περιπτώσεις, δεν είναι δυνατό να χωριστούν οι πηγές ομιλίας από τις πηγές θορύβου. Σε κάποιες περιπτώσεις, ο θόρυβος μπορεί να μασκάρει τις πληροφορίες που είναι διαθέσιμες στο φάσμα ομιλίας, ενώ σε άλλες μπορεί να αφαιρέσει完全 τις χρήσιμες πληροφορίες. Και τα δύο οδηγούν σε χαμηλή ακρίβεια. Ενώ είναι εύκολο να αφαιρέσετε συνεπείς τύπους θορύβου, όπως ο θόρυβος του ανεμιστήρα, κάποιος τύπος θορύβου, όπως ο θόρυβος του πλήθους ή οι άνθρωποι που μιλάνε στο φόντο ή η μουσική, είναι πολύ δύσκολο να αφαιρεθεί λόγω του τρόπου με τον οποίο επηρεάζουν το φάσμα ομιλίας.
Μπορείτε να ορίσετε τι είναι το Edge AI και πώς η Fluent.ai χρησιμοποιεί αυτόν τον τύπο τεχνητής νοημοσύνης;
Το Edge AI είναι ένας όρος ομπρέλα που χρησιμοποιείται για να καλύψει μια σειρά από διαφορετικούς τρόπους με τους οποίους οι εφαρμογές τεχνητής νοημοσύνης μπορούν να μεταφερθούν σε συσκευές χαμηλής ισχύος. Όλο και περισσότερο, αυτός ο όρος χρησιμοποιείται για τις περιπτώσεις όπου οι συσκευές άκρου εκτελούν ορισμένες έξυπνες υπολογιστικές διαδικασίες από μόνοι τους. Στην Fluent, εστιάζουμε στο να φέρουμε υψηλής ποιότητας κατανοήσεις ομιλίας στο άκρο. Έχουμε αναπτύξει αποτελεσματικούς αλγόριθμους που επιτρέπουν στις συσκευές χαμηλής ισχύος να αναγνωρίζουν την εισερχόμενη ομιλία από μόνοι τους χωρίς να χρειάζεται να στείλουν τα δεδομένα σε einen διακομιστή cloud για επεξεργασία. Τα πλεονεκτήματα είναι διπλά: πρώτον, η ιδιωτικότητα του χρήστη δεν επηρεάζεται από τη ροή και την αποθήκευση των δεδομένων φωνής του στην cloud. Δεύτερον, αυτή η προσέγγιση μειώνει την καθυστέρηση επειδή τα δεδομένα ομιλίας και η απάντηση δεν χρειάζεται να ταξιδέψουν μεταξύ του διακομιστή cloud και της συσκευής.
Τι άλλο τύπο τεχνητής νοημοσύνης χρησιμοποιείτε;
Η κύρια εστίασή μας είναι στις προσεγγίσεις με βάση τα sâuφα νεύρα για την αναγνώριση ομιλίας. Χρησιμοποιούμε μεθόδους ενίσχυσης学习 (RL), π.χ. NASIL[1], για να ανακαλύψουμε νέες, προηγουμένως άγνωστες αρχιτεκτονικές μοντέλων AI (σε κάποιο βαθμό, η AI δημιουργεί AI). Και χρησιμοποιούμε AutoML για να調整 nuestros προκαθορισμένα μοντέλα AI για να επιτύχουμε αξιόπιστα αποτελέσματα για διαφορετικές εφαρμογές, αυξάνοντας έτσι την αξιοπιστία και την αναπαραγωγιμότητα. Η συμπίεση μοντέλων και άλλες μαθηματικές προσεγγίσεις βοηθούν επίσης στην оптимποίηση της απόδοσης του μοντέλου.
Τι βλέπετε να συμβαίνει τα επόμενα 5 χρόνια για την κατανοήση φυσικής γλώσσας και την επεξεργασία φυσικής γλώσσας;
Νομίζω ότι τα συστήματα θα εξελιχθούν για να παρέχουν πιο φυσικές αλληλεπιδράσεις. Παρά την πρόοδο τα τελευταία χρόνια, τα περισσότερα τρέχοντα συστήματα μπορούν να απαντήσουν μόνο σε απλές ερωτήσεις ή να εκτελέσουν μια φωνητική αναζήτηση στο διαδίκτυο. Θα δούμε περισσότερες και περισσότερες λύσεις που μπορούν να συλλογιστούν και να απαντήσουν σε μια πλήρη ερώτηση για ένα άτομο αντί να λειτουργούν ως μια δοξασμένη φωνητική μηχανή αναζήτησης.
Το άλλο ενδιαφέρον σημείο είναι η ιδιωτικότητα. Τα τρέχοντα δημοφιλή λύσεις είναι κυρίως συνδεδεμένες συσκευές που ροούν όλα τα δεδομένα φωνής του χρήστη σε einen διακομιστή cloud. Ωστόσο, η ιδιωτικότητα αυτών των λύσεων γίνεται ένα ζήτημα. Αρχίζουμε επίσης να βλέπουμε τις εφαρμογές της φωνητικής διεπαφής πέρα από τις καταναλωτικές ηλεκτρονικές συσκευές σε βιομηχανικά περιβάλλοντα, στο επαγγελματικό χώρο ήχου, καθώς και στα ξενοδοχεία και τις αίθουσες συνεδριάσεων. Ένα κλειδί απαιτούμενο για αυτές τις εφαρμογές είναι η ιδιωτικότητα, επομένως οι τρέχουσες συνδεδεμένες λύσεις δεν επαρκούν – επομένως θα δούμε πολλές περισσότερες λύσεις AI άκρου ή σε συσκευές φυσικής γλώσσας.
Όπως ανέφερα νωρίτερα, οι λύσεις ομιλίας και φυσικής γλώσσας παραμένουν μη προσιτές σε ένα μεγάλο μέρος του παγκόσμιου πληθυσμού. Υπάρχει σημαντική δουλειά που γίνεται για τη δημιουργία νέων τύπων μοντέλων AI που μπορούν να εκπαιδευτούν με μικρή ποσότητα δεδομένων, με αποτέλεσμα τη μείωση του κόστους ανάπτυξης και την ενεργοποίηση της ανάπτυξης μοντέλων σε γλώσσες με λιγότερους ομιλητές. Στο ίδιο πνεύμα, θα δούμε λύσεις που μπορούν να μάθουν να αναγνωρίζουν πολλές γλώσσες στο ίδιο μοντέλο. Συνολικά, θα δούμε περισσότερες και περισσότερες λύσεις μοντέλων AI που μπορούν να απαντήσουν σε μια ερώτηση του χρήστη στη μητρική του γλώσσα.
Υπάρχει κάτι άλλο που θα ήθελε να μοιραστείτε σχετικά με την Fluent.ai;
Η τεχνολογία ομιλίας έχει προχωρήσει πολύ τα τελευταία χρόνια και έχει πολλή ανάπτυξη μπροστά της. Στην Fluent.ai, ψάχνουμε συνεχώς για νέες χρήσεις της υφιστάμενης τεχνολογίας μας ενώ καινοτομούμε συνεχώς εσωτερικά. Η πανδημία COVID-19 δημιούργησε μια αυξημένη ευαισθησία σε περιοχές υψηλής επαφής, όπως τα κουμπιά ανελκυστήρα, τα κιόσκια σε εστιατόρια και άλλα, που δημιούργησε μια νέα ζήτηση για φωνητικές τεχνολογίες. Η Fluent.ai ελπίζει να βοηθήσει να γεμίσει αυτά τα κενά, καθώς οι λύσεις μας είναι πολυγλωσσικές και επομένως πιο περιεκτικές, και λειτουργούν εκτός σύνδεσης, προσφέροντας ένα επιπλέον επίπεδο ιδιωτικότητας. Αυτές οι λειτουργίες, όπως αναφέρθηκε, είναι πιθανό να είναι το μέλλον της τεχνολογίας ομιλίας.
Ευχαριστώ για τη μεγάλη συνέντευξη, οι αναγνώστες που επιθυμούν να μάθουν περισσότερα πρέπει να επισκεφθούν την ιστοσελίδα της Fluent.ai.
[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit












