στέλεχος AudioSep : Διαχωρίστε οτιδήποτε περιγράφετε - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

AudioSep : Διαχωρίστε οτιδήποτε περιγράφετε

mm

Δημοσιευμένα

 on

Το LASS ή ο διαχωρισμός πηγής ήχου με ερωτήματα γλώσσας είναι το νέο παράδειγμα για την CASA ή την Υπολογιστική Ακουστική Ανάλυση Σκηνής που στοχεύει να διαχωρίσει έναν ήχο στόχο από ένα δεδομένο μείγμα ήχου χρησιμοποιώντας ένα ερώτημα φυσικής γλώσσας που παρέχει τη φυσική αλλά κλιμακούμενη διεπαφή για εργασίες και εφαρμογές ψηφιακού ήχου . Αν και τα πλαίσια LASS έχουν προχωρήσει σημαντικά τα τελευταία χρόνια όσον αφορά την επίτευξη της επιθυμητής απόδοσης σε συγκεκριμένες πηγές ήχου όπως μουσικά όργανα, δεν είναι σε θέση να διαχωρίσουν τον ήχο-στόχο στον ανοιχτό τομέα. 

AudioSep, είναι ένα θεμελιώδες μοντέλο που στοχεύει να επιλύσει τους τρέχοντες περιορισμούς των πλαισίων LASS, ενεργοποιώντας τον διαχωρισμό ήχου στόχου χρησιμοποιώντας ερωτήματα φυσικής γλώσσας. Οι προγραμματιστές του πλαισίου AudioSep έχουν εκπαιδεύσει το μοντέλο εκτενώς σε μια μεγάλη ποικιλία πολυτροπικών συνόλων δεδομένων μεγάλης κλίμακας και έχουν αξιολογήσει την απόδοση του πλαισίου σε μια ευρεία γκάμα ηχητικών εργασιών, συμπεριλαμβανομένου του διαχωρισμού μουσικών οργάνων, του διαχωρισμού συμβάντων ήχου και της βελτίωσης της ομιλίας μεταξύ πολλών άλλων. Η αρχική απόδοση του AudioSep ικανοποιεί τα σημεία αναφοράς καθώς επιδεικνύει εντυπωσιακές δυνατότητες εκμάθησης μηδενικής λήψης και προσφέρει ισχυρή απόδοση διαχωρισμού ήχου. 

Σε αυτό το άρθρο, θα κάνουμε μια βαθύτερη κατάδυση στη λειτουργία του πλαισίου AudioSep καθώς θα αξιολογήσουμε την αρχιτεκτονική του μοντέλου, τα σύνολα δεδομένων που χρησιμοποιούνται για εκπαίδευση και αξιολόγηση και τις βασικές έννοιες που εμπλέκονται στη λειτουργία του μοντέλου AudioSep. Ας ξεκινήσουμε λοιπόν με μια βασική εισαγωγή στο πλαίσιο CASA. 

CASA, USS, QSS, LASS Frameworks : The Foundation for AudioSep

Το CASA ή το πλαίσιο Υπολογιστικής Ανάλυσης Ακουστικής Σκηνής είναι ένα πλαίσιο που χρησιμοποιείται από προγραμματιστές για να σχεδιάσουν συστήματα μηχανικής ακρόασης που έχουν την ικανότητα να αντιλαμβάνονται περίπλοκα περιβάλλοντα ήχου με τρόπο παρόμοιο με τον τρόπο που οι άνθρωποι αντιλαμβάνονται τον ήχο χρησιμοποιώντας τα ακουστικά τους συστήματα. Ο διαχωρισμός ήχου, με ιδιαίτερη έμφαση στον διαχωρισμό του ήχου στόχου, είναι ένας θεμελιώδης τομέας έρευνας στο πλαίσιο του CASA και στοχεύει στην επίλυση του «πρόβλημα κοκτέιλ πάρτι” ή διαχωρισμός πραγματικών ηχογραφήσεων από μεμονωμένες εγγραφές ή αρχεία πηγής ήχου. Η σημασία του διαχωρισμού ήχου μπορεί να αποδοθεί κυρίως στις ευρέως διαδεδομένες εφαρμογές του, όπως ο διαχωρισμός πηγής μουσικής, ο διαχωρισμός πηγής ήχου, η βελτίωση ομιλίας, η αναγνώριση ήχου στόχου και πολλά άλλα. 

Το μεγαλύτερο μέρος της εργασίας για τον διαχωρισμό ήχου που έγινε στο παρελθόν περιστρέφεται κυρίως γύρω από το διαχωρισμό μιας ή περισσότερων πηγών ήχου, όπως ο διαχωρισμός μουσικής ή ο διαχωρισμός ομιλίας. Ένα νέο μοντέλο που ονομάζεται USS ή Universal Sound Separation στοχεύει να διαχωρίσει αυθαίρετους ήχους σε ηχογραφήσεις πραγματικού κόσμου. Ωστόσο, είναι ένα δύσκολο και περιοριστικό έργο να διαχωριστεί κάθε πηγή ήχου από ένα ηχητικό μείγμα κυρίως λόγω του ευρέος φάσματος διαφορετικών πηγών ήχου που υπάρχουν στον κόσμο που είναι ο κύριος λόγος για τον οποίο η μέθοδος USS δεν είναι εφικτή για εφαρμογές πραγματικού κόσμου που λειτουργούν. σε πραγματικό χρόνο. 

Μια εφικτή εναλλακτική λύση στη μέθοδο USS είναι η μέθοδος QSS ή η μέθοδος διαχωρισμού ήχου βάσει ερωτημάτων που στοχεύει στο διαχωρισμό μιας μεμονωμένης ή στοχευόμενης πηγής ήχου από το ηχητικό μείγμα με βάση ένα συγκεκριμένο σύνολο ερωτημάτων. Χάρη σε αυτό, το πλαίσιο QSS επιτρέπει στους προγραμματιστές και τους χρήστες να εξαγάγουν τις επιθυμητές πηγές ήχου από το μείγμα με βάση τις απαιτήσεις τους, γεγονός που καθιστά τη μέθοδο QSS μια πιο πρακτική λύση για ψηφιακές εφαρμογές πραγματικού κόσμου, όπως η επεξεργασία περιεχομένου πολυμέσων ή η επεξεργασία ήχου. 

Επιπλέον, οι προγραμματιστές πρότειναν πρόσφατα μια επέκταση του πλαισίου QSS, του πλαισίου LASS ή του πλαισίου διαχωρισμού πηγής ήχου με ερωτήματα γλώσσας που στοχεύει στο διαχωρισμό αυθαίρετων πηγών ήχου από ένα ηχητικό μείγμα χρησιμοποιώντας τις περιγραφές φυσικής γλώσσας της στοχευόμενης πηγής ήχου . Καθώς το πλαίσιο LASS επιτρέπει στους χρήστες να εξαγάγουν τις στοχευόμενες πηγές ήχου χρησιμοποιώντας ένα σύνολο οδηγιών φυσικής γλώσσας, μπορεί να γίνει ένα ισχυρό εργαλείο με ευρέως διαδεδομένες εφαρμογές σε εφαρμογές ψηφιακού ήχου. Σε σύγκριση με τις παραδοσιακές μεθόδους ερωτημάτων ήχου ή όρασης, η χρήση οδηγιών φυσικής γλώσσας για διαχωρισμό ήχου προσφέρει μεγαλύτερο βαθμό πλεονεκτήματος καθώς προσθέτει ευελιξία και καθιστά την απόκτηση πληροφοριών ερωτήματος πολύ πιο εύκολη και βολική. Επιπλέον, σε σύγκριση με πλαίσια διαχωρισμού ήχου που βασίζονται σε ερωτήματα ετικετών που χρησιμοποιούν ένα προκαθορισμένο σύνολο εντολών ή ερωτημάτων, το πλαίσιο LASS δεν περιορίζει τον αριθμό των ερωτημάτων εισόδου και έχει την ευελιξία να γενικεύεται σε ανοιχτό τομέα απρόσκοπτα. 

Αρχικά, το πλαίσιο LASS βασίζεται στην εποπτευόμενη μάθηση στην οποία το μοντέλο εκπαιδεύεται σε ένα σύνολο σημασμένων δεδομένων ζεύξης ήχου-κειμένου. Ωστόσο, το κύριο ζήτημα με αυτήν την προσέγγιση είναι η περιορισμένη διαθεσιμότητα σχολιασμένων και επισημασμένων δεδομένων ήχου-κειμένου. Προκειμένου να μειωθεί η αξιοπιστία του πλαισίου LASS στα σχολιασμένα δεδομένα με ετικέτα ήχου-κειμένου, τα μοντέλα εκπαιδεύονται χρησιμοποιώντας την προσέγγιση εκμάθησης πολυτροπικής εποπτείας. Ο πρωταρχικός στόχος πίσω από τη χρήση μιας προσέγγισης πολυτροπικής εποπτείας είναι η χρήση πολυτροπικών μοντέλων προεκπαίδευσης με αντίθεση, όπως το μοντέλο CLIP ή Contrastive Language Image Pre Training ως κωδικοποιητής ερωτημάτων για το πλαίσιο. Δεδομένου ότι το πλαίσιο CLIP έχει τη δυνατότητα να ευθυγραμμίζει τις ενσωματώσεις κειμένου με άλλες μεθόδους, όπως ο ήχος ή η όραση, επιτρέπει στους προγραμματιστές να εκπαιδεύουν τα μοντέλα LASS χρησιμοποιώντας τρόπους πλούσιες σε δεδομένα και επιτρέπει την παρεμβολή στα δεδομένα κειμένου σε μια ρύθμιση μηδενικής λήψης. Ωστόσο, τα τρέχοντα πλαίσια LASS χρησιμοποιούν σύνολα δεδομένων μικρής κλίμακας για εκπαίδευση και οι εφαρμογές του πλαισίου LASS σε εκατοντάδες πιθανούς τομείς δεν έχουν ακόμη διερευνηθεί. 

Για να επιλύσουν τους τρέχοντες περιορισμούς που αντιμετωπίζουν τα πλαίσια LASS, οι προγραμματιστές εισήγαγαν το AudioSep, ένα θεμελιώδες μοντέλο που στοχεύει να διαχωρίσει τον ήχο από ένα ηχητικό μείγμα χρησιμοποιώντας περιγραφές φυσικής γλώσσας. Η τρέχουσα εστίαση για το AudioSep είναι η ανάπτυξη ενός προεκπαιδευμένου μοντέλου διαχωρισμού ήχου που αξιοποιεί τα υπάρχοντα μεγάλης κλίμακας πολυτροπικά σύνολα δεδομένων για να επιτρέψει τη γενίκευση των μοντέλων LASS σε εφαρμογές ανοιχτού τομέα. Συνοψίζοντας, το μοντέλο AudioSep είναι:Ένα θεμελιώδες μοντέλο για καθολικό διαχωρισμό ήχου σε ανοιχτό τομέα χρησιμοποιώντας ερωτήματα φυσικής γλώσσας ή περιγραφές που εκπαιδεύονται σε μεγάλης κλίμακας σύνολα δεδομένων ήχου και πολυτροπικών δεδομένων". 

AudioSep : Βασικά Εξαρτήματα & Αρχιτεκτονική

Η αρχιτεκτονική του πλαισίου AudioSep περιλαμβάνει δύο βασικά στοιχεία: έναν κωδικοποιητή κειμένου και ένα μοντέλο διαχωρισμού. 

Ο Κωδικοποιητής κειμένου

Το πλαίσιο AudioSep χρησιμοποιεί έναν κωδικοποιητή κειμένου του μοντέλου CLIP ή Contrastive Language Image Pre Training ή του CLAP ή Contrastive Language Audio Pre Training μοντέλο για εξαγωγή ενσωματώσεων κειμένου σε ένα ερώτημα φυσικής γλώσσας. Το ερώτημα εισαγωγής κειμένου αποτελείται από μια ακολουθία "N" διακριτικά που στη συνέχεια επεξεργάζεται από τον κωδικοποιητή κειμένου για να εξαγάγει τις ενσωματώσεις κειμένου για το συγκεκριμένο ερώτημα γλώσσας εισαγωγής. Ο κωδικοποιητής κειμένου χρησιμοποιεί μια στοίβα μπλοκ μετασχηματιστών για να κωδικοποιήσει τα διακριτικά κειμένου εισόδου και οι αναπαραστάσεις εξόδου συγκεντρώνονται αφού περάσουν μέσα από τα επίπεδα μετασχηματιστή που οδηγεί στην ανάπτυξη μιας διανυσματικής αναπαράστασης D με σταθερό μήκος όπου το D αντιστοιχεί στις διαστάσεις του CLAP ή των μοντέλων CLIP ενώ ο κωδικοποιητής κειμένου είναι παγωμένος κατά τη διάρκεια της περιόδου εκπαίδευσης. 

Το μοντέλο CLIP είναι προεκπαιδευμένο σε ένα σύνολο δεδομένων μεγάλης κλίμακας ζευγαρωμένων δεδομένων εικόνας-κειμένου χρησιμοποιώντας αντιθετική μάθηση, που είναι ο κύριος λόγος για τον οποίο ο κωδικοποιητής κειμένου του μαθαίνει να χαρτογραφεί περιγραφές κειμένου στον σημασιολογικό χώρο που μοιράζεται επίσης οι οπτικές αναπαραστάσεις. Το πλεονέκτημα που κερδίζει το AudioSep χρησιμοποιώντας τον κωδικοποιητή κειμένου του CLIP είναι ότι μπορεί τώρα να αυξήσει ή να εκπαιδεύσει το μοντέλο LASS από οπτικοακουστικά δεδομένα χωρίς ετικέτα χρησιμοποιώντας εναλλακτικά τις οπτικές ενσωματώσεις, επιτρέποντας έτσι την εκπαίδευση μοντέλων LASS χωρίς την απαίτηση σχολιασμού ή ετικέτας δεδομένα ήχου-κειμένου. 

Το μοντέλο CLAP λειτουργεί παρόμοια με το μοντέλο CLIP και χρησιμοποιεί αντιθετικό μαθησιακό στόχο καθώς χρησιμοποιεί έναν κωδικοποιητή κειμένου και ήχου για τη σύνδεση ήχου και γλώσσας, φέρνοντας έτσι περιγραφές κειμένου και ήχου σε έναν λανθάνοντα χώρο ήχου-κειμένου ενωμένα μεταξύ τους. 

Μοντέλο Διαχωρισμού

Το πλαίσιο AudioSep χρησιμοποιεί ένα μοντέλο ResUNet τομέα συχνοτήτων που τροφοδοτείται με ένα μείγμα κλιπ ήχου ως τη ραχοκοκαλιά διαχωρισμού για το πλαίσιο. Το πλαίσιο λειτουργεί εφαρμόζοντας πρώτα έναν μετασχηματισμό STFT ή έναν βραχυχρόνιο μετασχηματισμό Fourier στην κυματομορφή για την εξαγωγή ενός σύνθετου φασματογράμματος, του φασματογράμματος μεγέθους και της φάσης του X. Στη συνέχεια, το μοντέλο ακολουθεί την ίδια ρύθμιση και κατασκευάζει ένα δίκτυο κωδικοποιητή-αποκωδικοποιητή για επεξεργασία το φασματογράφημα μεγέθους. 

Το δίκτυο κωδικοποιητή-αποκωδικοποιητή ResUNet αποτελείται από 6 υπολειπόμενα μπλοκ, 6 μπλοκ αποκωδικοποιητών και 4 μπλοκ συμφόρησης. Το φασματογράφημα σε κάθε μπλοκ κωδικοποιητή χρησιμοποιεί 4 υπολειμματικά συμβατικά μπλοκ για τη μείωση δειγματοληψίας σε ένα χαρακτηριστικό σημείο συμφόρησης, ενώ τα μπλοκ αποκωδικοποιητή χρησιμοποιούν 4 υπολειμματικά αποσυνελικτικά μπλοκ για να λάβουν τα στοιχεία διαχωρισμού με upsampling των χαρακτηριστικών. Κατόπιν αυτού, καθένα από τα μπλοκ κωδικοποιητή και τα αντίστοιχα μπλοκ αποκωδικοποιητή του δημιουργούν μια σύνδεση παράβλεψης που λειτουργεί με τον ίδιο ρυθμό ανόδου ή μείωσης δειγματοληψίας. Το υπόλοιπο μπλοκ του πλαισίου αποτελείται από 2 επίπεδα ενεργοποίησης Leaky-ReLU, 2 επίπεδα κανονικοποίησης παρτίδας και 2 επίπεδα CNN, και επιπλέον, το πλαίσιο εισάγει επίσης μια πρόσθετη υπολειπόμενη συντόμευση που συνδέει την είσοδο και την έξοδο κάθε μεμονωμένου υπολειπόμενου μπλοκ. Το μοντέλο ResUNet παίρνει το μιγαδικό φασματογράφημα X ως είσοδο και παράγει τη μάσκα μεγέθους M ως έξοδο με το υπόλοιπο φάσης να εξαρτάται από ενσωματώσεις κειμένου που ελέγχει το μέγεθος της κλιμάκωσης και την περιστροφή της γωνίας του φασματογράμματος. Το διαχωρισμένο μιγαδικό φασματογράφημα μπορεί στη συνέχεια να εξαχθεί πολλαπλασιάζοντας την προβλεπόμενη μάσκα μεγέθους και το υπόλοιπο φάσης με STFT (Short-Time Fourier Transform) του μείγματος. 

Στο πλαίσιό του, το AudioSep χρησιμοποιεί ένα επίπεδο γραμμικής διαμόρφωσης φιλμ ή χαρακτηριστικών για να γεφυρώσει το μοντέλο διαχωρισμού και τον κωδικοποιητή κειμένου μετά την ανάπτυξη των συνελικτικών μπλοκ στο ResUNet. 

Προπόνηση και απώλεια

Κατά τη διάρκεια της εκπαίδευσης του μοντέλου AudioSep, οι προγραμματιστές χρησιμοποιούν τη μέθοδο αύξησης της έντασης και εκπαιδεύουν το πλαίσιο AudioSep από άκρο σε άκρο χρησιμοποιώντας μια συνάρτηση απώλειας L1 μεταξύ της αλήθειας εδάφους και των προβλεπόμενων κυματομορφών. 

Σύνολα δεδομένων και σημεία αναφοράς

Όπως αναφέρθηκε σε προηγούμενες ενότητες, το AudioSep είναι ένα θεμελιώδες μοντέλο που στοχεύει στην επίλυση της τρέχουσας εξάρτησης των μοντέλων LASS από σχολιασμένα ζεύγη δεδομένων ήχου-κειμένου. Το μοντέλο AudioSep εκπαιδεύεται σε ένα ευρύ φάσμα συνόλων δεδομένων για να το εξοπλίσει με δυνατότητες πολλαπλής μάθησης και εδώ είναι μια λεπτομερής περιγραφή του συνόλου δεδομένων και των σημείων αναφοράς που χρησιμοποιούνται από τους προγραμματιστές για την εκπαίδευση του πλαισίου AudioSep. 

AudioSet

Το AudioSet είναι ένα σύνολο δεδομένων ήχου μεγάλης κλίμακας με αδύναμη επισήμανση που περιλαμβάνει πάνω από 2 εκατομμύρια αποσπάσματα ήχου των 10 δευτερολέπτων που εξάγονται απευθείας από το YouTube. Κάθε απόσπασμα ήχου στο σύνολο δεδομένων AudioSet κατηγοριοποιείται με βάση την απουσία ή την παρουσία κλάσεων ήχου χωρίς τις συγκεκριμένες λεπτομέρειες χρονισμού των συμβάντων ήχου. Το σύνολο δεδομένων AudioSet έχει πάνω από 500 διακριτές κατηγορίες ήχου, συμπεριλαμβανομένων φυσικών ήχων, ανθρώπινων ήχων, ήχους οχημάτων και πολλά άλλα. 

VGGSound

Το σύνολο δεδομένων VGGSound είναι ένα σύνολο δεδομένων οπτικού ήχου μεγάλης κλίμακας που όπως και το AudioSet έχει προέλθει απευθείας από το YouTube και περιέχει πάνω από 2,00,000 βίντεο κλιπ, καθένα από τα οποία έχει διάρκεια 10 δευτερολέπτων. Το σύνολο δεδομένων VGGSound κατηγοριοποιείται σε περισσότερες από 300 κατηγορίες ήχου, συμπεριλαμβανομένων των ανθρώπινων ήχων, των φυσικών ήχων, των ήχων πουλιών και άλλων. Η χρήση του συνόλου δεδομένων VGGSound διασφαλίζει ότι το αντικείμενο που είναι υπεύθυνο για την παραγωγή του ήχου στόχου μπορεί επίσης να περιγραφεί στο αντίστοιχο οπτικό κλιπ. 

AudioCaps

Το AudioCaps είναι το μεγαλύτερο σύνολο δεδομένων υποτίτλων ήχου που διατίθεται δημόσια και περιλαμβάνει πάνω από 50,000 αποσπάσματα ήχου 10 δευτερολέπτων που εξάγονται από το σύνολο δεδομένων AudioSet. Τα δεδομένα στα AudioCaps χωρίζονται σε τρεις κατηγορίες: δεδομένα εκπαίδευσης, δεδομένα δοκιμών και δεδομένα επικύρωσης, και τα ηχητικά αποσπάσματα σχολιάζονται με ανθρώπινο σχολιασμό με περιγραφές φυσικής γλώσσας χρησιμοποιώντας την πλατφόρμα Amazon Mechanical Turk. Αξίζει να σημειωθεί ότι κάθε ηχητικό απόσπασμα στο σύνολο δεδομένων εκπαίδευσης έχει μία μόνο λεζάντα, ενώ τα δεδομένα στα σύνολα δοκιμών και επικύρωσης έχουν 5 λεζάντες βασικής αλήθειας. 

ClothoV2

Το ClothoV2 είναι ένα σύνολο δεδομένων υποτίτλων ήχου που αποτελείται από κλιπ που προέρχονται από την πλατφόρμα FreeSound και, όπως και το AudioCaps, κάθε ηχητικό κλιπ έχει ανθρώπινα σχόλια με περιγραφές φυσικής γλώσσας χρησιμοποιώντας την πλατφόρμα Amazon Mechanical Turk. 

WavCaps

Ακριβώς όπως το AudioSet, το WavCaps είναι ένα σύνολο δεδομένων ήχου μεγάλης κλίμακας με αδύναμη επισήμανση που περιλαμβάνει πάνω από 400,000 ηχητικά κλιπ με λεζάντες και συνολικό χρόνο εκτέλεσης που προσεγγίζει τις 7568 ώρες δεδομένων εκπαίδευσης. Τα ηχητικά κλιπ στο σύνολο δεδομένων WavCaps προέρχονται από μια ευρεία γκάμα πηγών ήχου, συμπεριλαμβανομένων των Ηχητικών Εφέ του BBC, AudioSet, FreeSound, SoundBible και άλλων.

Λεπτομέρειες Εκπαίδευσης

Κατά τη διάρκεια της φάσης εκπαίδευσης, το μοντέλο AudioSep δειγματίζει τυχαία δύο τμήματα ήχου που προέρχονται από δύο διαφορετικά αποσπάσματα ήχου από το σύνολο δεδομένων εκπαίδευσης και στη συνέχεια τα αναμιγνύει μεταξύ τους για να δημιουργήσει ένα μείγμα εκπαίδευσης όπου η διάρκεια κάθε τμήματος ήχου είναι περίπου 5 δευτερόλεπτα. Στη συνέχεια, το μοντέλο εξάγει το μιγαδικό φασματόγραμμα από το σήμα κυματομορφής χρησιμοποιώντας ένα παράθυρο Hann μεγέθους 1024 με μέγεθος άλμα 320. 

Στη συνέχεια, το μοντέλο χρησιμοποιεί τον κωδικοποιητή κειμένου των μοντέλων CLIP/CLAP για να εξαγάγει τις ενσωματώσεις κειμένου με την εποπτεία κειμένου να είναι η προεπιλεγμένη διαμόρφωση για το AudioSep. Για το μοντέλο διαχωρισμού, το πλαίσιο AudioSep χρησιμοποιεί ένα επίπεδο ResUNet που αποτελείται από 30 επίπεδα, 6 μπλοκ κωδικοποιητή και 6 μπλοκ αποκωδικοποιητή που μοιάζουν με την αρχιτεκτονική που ακολουθείται στο καθολικό πλαίσιο διαχωρισμού ήχου. Επιπλέον, κάθε μπλοκ κωδικοποιητή έχει δύο συνελικτικά επίπεδα με μέγεθος πυρήνα 3×3 με τον αριθμό των χαρτών χαρακτηριστικών εξόδου των μπλοκ κωδικοποιητών να είναι 32, 64, 128, 256, 512 και 1024 αντίστοιχα. Τα μπλοκ αποκωδικοποιητή μοιράζονται συμμετρία με τα μπλοκ κωδικοποιητή και οι προγραμματιστές εφαρμόζουν το Adam optimizer για να εκπαιδεύσουν το μοντέλο AudioSep με μέγεθος παρτίδας 96. 

Αποτελέσματα Αξιολόγησης

Στα προβλεπόμενα σύνολα δεδομένων

Το παρακάτω σχήμα συγκρίνει την απόδοση του πλαισίου AudioSep σε προβλεπόμενα σύνολα δεδομένων κατά τη φάση εκπαίδευσης, συμπεριλαμβανομένων των συνόλων δεδομένων εκπαίδευσης. Το παρακάτω σχήμα αντιπροσωπεύει τα αποτελέσματα αξιολόγησης συγκριτικής αξιολόγησης του πλαισίου AudioSep σε σύγκριση με συστήματα βασικής γραμμής συμπεριλαμβανομένου του Speech Μοντέλα βελτίωσης, LASS και CLIP. Το μοντέλο AudioSep με κωδικοποιητή κειμένου CLIP αντιπροσωπεύεται ως AudioSep-CLIP, ενώ το μοντέλο AudioSep με κωδικοποιητή κειμένου CLAP αντιπροσωπεύεται ως AudioSep-CLAP.

Όπως φαίνεται στο σχήμα, το πλαίσιο AudioSep αποδίδει καλά όταν χρησιμοποιεί λεζάντες ήχου ή ετικέτες κειμένου ως ερωτήματα εισόδου και τα αποτελέσματα υποδεικνύουν την ανώτερη απόδοση του πλαισίου AudioSep σε σύγκριση με προηγούμενα μοντέλα διαχωρισμού ήχου LASS και ερωτημάτων ήχου. 

Σε μη ορατά σύνολα δεδομένων

Για να αξιολογήσουν την απόδοση του AudioSep σε μια ρύθμιση μηδενικής λήψης, οι προγραμματιστές συνέχισαν να αξιολογούν την απόδοση σε μη ορατά σύνολα δεδομένων και το πλαίσιο AudioSep προσφέρει εντυπωσιακή απόδοση διαχωρισμού σε μια ρύθμιση μηδενικής λήψης και τα αποτελέσματα εμφανίζονται στο παρακάτω σχήμα. 

Επιπλέον, η παρακάτω εικόνα δείχνει τα αποτελέσματα της αξιολόγησης του μοντέλου AudioSep έναντι της βελτίωσης ομιλίας Voicebank-Demand. 

Η αξιολόγηση του πλαισίου AudioSep υποδεικνύει μια ισχυρή και επιθυμητή απόδοση σε μη ορατά σύνολα δεδομένων σε μια ρύθμιση μηδενικής λήψης, και έτσι ανοίγει ο δρόμος για την εκτέλεση εργασιών λειτουργίας ήχου σε νέες διανομές δεδομένων. 

Οπτικοποίηση των αποτελεσμάτων διαχωρισμού

Το παρακάτω σχήμα δείχνει τα αποτελέσματα που προέκυψαν όταν οι προγραμματιστές χρησιμοποίησαν το πλαίσιο AudioSep-CLAP για να πραγματοποιήσουν οπτικοποιήσεις φασματογραμμάτων για πηγές ήχου στόχου εδάφους αλήθειας και μείξεις ήχου και διαχωρισμένες πηγές ήχου χρησιμοποιώντας ερωτήματα κειμένου διαφορετικών ήχων ή ήχων. Τα αποτελέσματα επέτρεψαν στους προγραμματιστές να παρατηρήσουν ότι το μοτίβο διαχωρισμένων πηγών του φασματογράμματος είναι κοντά στην πηγή της αλήθειας του εδάφους που υποστηρίζει περαιτέρω τα αντικειμενικά αποτελέσματα που προέκυψαν κατά τη διάρκεια των πειραμάτων. 

Σύγκριση ερωτημάτων κειμένου

Οι προγραμματιστές αξιολογούν την απόδοση των AudioSep-CLAP και AudioSep-CLIP στο AudioCaps Mini και οι προγραμματιστές χρησιμοποιούν τις ετικέτες συμβάντων AudioSet , τους υπότιτλους AudioCaps και τις περιγραφές φυσικής γλώσσας με εκ νέου σχολιασμούς για να εξετάσουν τα αποτελέσματα διαφορετικών ερωτημάτων και τα ακόλουθα Το σχήμα δείχνει ένα παράδειγμα του AudioCaps Mini σε δράση. 

Συμπέρασμα

AudioSep είναι ένα θεμελιώδες μοντέλο που αναπτύχθηκε με στόχο να είναι ένα γενικό πλαίσιο διαχωρισμού ήχου ανοιχτού τομέα που χρησιμοποιεί περιγραφές φυσικής γλώσσας για διαχωρισμό ήχου. Όπως παρατηρήθηκε κατά την αξιολόγηση, το πλαίσιο AudioSep είναι σε θέση να εκτελεί απρόσκοπτα μάθηση μηδενικής λήψης και χωρίς επίβλεψη, χρησιμοποιώντας υπότιτλους ήχου ή ετικέτες κειμένου ως ερωτήματα. Τα αποτελέσματα και η απόδοση αξιολόγησης του AudioSep υποδεικνύουν μια ισχυρή απόδοση που ξεπερνά τα τρέχοντα πλαίσια διαχωρισμού ήχου, όπως το LASS, και μπορεί να είναι αρκετά ικανό να επιλύσει τους τρέχοντες περιορισμούς των δημοφιλών πλαισίων διαχωρισμού ήχου. 

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.