Τεχνητή νοημοσύνη
Το Facebook Δημιουργεί Μοντέλο Μηχανικής Μετάφρασης που Μπορεί να Μεταφράζει Απευθείας μεταξύ 100 Διαφορετικών Γλωσσών

Το Facebook έχει αναπτύξει πρόσφατα ένα νέο μοντέλο μηχανικής μετάφρασης που μπορεί να μεταφράσει κείμενο μεταξύ οποιουδήποτε ζευγαριού γλωσσών από ένα σύνολο 100 γλωσσών. Ενώ υπάρχουν άλλα συστήματα μηχανικής μετάφρασης, τα περισσότερα άλλα συστήματα μετάφρασης AI λειτουργούν μεταφράζοντας πρώτα το κείμενο στα αγγλικά και στη συνέχεια μετατρέποντας το κείμενο από εκεί. Όπως αναφέρθηκε από το Engadget, το μοντέλο μετάφρασης AI του Facebook λειτουργεί χωρίς τη χρήση της αγγλικής γλώσσας ως μεσάζοντα και据 αναφέρεται ότι μπορεί να επιτύχει περίπου 90% ακρίβεια.
Το σύνολο δεδομένων εκπαίδευσης του μοντέλου AI του Facebook αποτελούνταν από περίπου 7,5 δισεκατομμύρια ζευγάρια προτάσεων, που κατανέμονται σε 100 διαφορετικές γλώσσες. Τα δεδομένα συλλέχθηκαν από το διαδίκτυο χρησιμοποιώντας μια σειρά από web crawlers και οι γλώσσες που παρουσιάζονταν στα συλλεγμένα δεδομένα αναγνωρίστηκαν χρησιμοποιώντας ένα μοντέλο γλώσσας που ονομάζεται FastText. Μόλις συλλέχθηκαν τα δεδομένα, εκτελέστηκαν μέσω eines εργαλείου που ονομάζεται LASER 2.0 για την εξαγωγή του νοήματος των διαφορετικών δειγμάτων προτάσεων και τη συσχέτιση προτάσεων σε διαφορετικές γλώσσες με βάση το νόημά τους. Το LASER 2.0 αναπτύχθηκε από το Facebook και χρησιμοποιεί αλγόριθμους μη επιβλεπόμενης μάθησης για τη δημιουργία ενσωματώσεων. Οι ενσωματώσεις προτάσεων περιέχουν πληροφορίες σχετικά με τις σχέσεις μεταξύ διαφορετικών προτάσεων με βάση χαρακτηριστικά όπως η συχνότητα χρήσης και το πόσο κοντά βρίσκονται οι προτάσεις η μια στην άλλη. Το LASER 2.0 μπορεί στη συνέχεια να δημιουργήσει ζευγάρια προτάσεων που έχουν πολύ παρόμοιο νόημα.
Τα δεδομένα εκπαίδευσης δεν ήταν μόνο ζευγαρωμένα με βάση το νόημα των προτάσεων. Οι γλώσσες elles ήταν ομαδοποιημένες. Ο στόχος ήταν να σχεδιαστεί ένα σύστημα που δεν θα χρειαζόταν να χρησιμοποιηθεί η αγγλική γλώσσα ως μεσάζων μεταξύ δύο γλωσσών, με την Angela Fan του Facebook, η οποία ηγήθηκε του έργου, να σημειώνει ότι πολλές περιοχές σε όλο τον κόσμο μιλούν δύο γλώσσες που δεν είναι αγγλικά. Οι μηχανικοί του Facebook πραγματοποίησαν την εκπαίδευση εστιάζοντας στη ζευγαρώση γλωσσών που μεταφράζονται συνήθως η μια στην άλλη. Δημιουργήθηκαν δεκατέσσερις διαφορετικές γλωσσικές ομάδες, με βάση μεταβλητές όπως η κουλτούρα, οι γλωσσικές ομοιότητες και η γεωγραφία. Για παράδειγμα, μια από τις γλωσσικές ομάδες που δημιουργήθηκαν από τους ερευνητές περιείχε τις πιο κοινές γλώσσες σε όλη την Ινδία, οι οποίες περιλαμβάνουν τις γλώσσες Urdu, Tamil, Hindi και Bengali. Αυτό έγινε così ώστε οι συχνά ζευγαρωμένες γλώσσες να λαμβάνουν υψηλής ποιότητας μεταφράσεις.
Η μεθοδος εκπαίδευσης που εστιάζει στις γλωσσικές ομάδες οδήγησε σε κάποια ενδιαφέροντα αποτελέσματα. Βρέθηκε ότι το μοντέλο μετάφρασης που προέκυψε είχε μεγαλύτερη ακρίβεια από τα υπάρχοντα μοντέλα για某些 ζευγάρια γλωσσών. Για παράδειγμα, όταν μεταφράζεται από τα αγγλικά στα λευκορωσικά, το AI ήταν σε θέση να εφαρμόσει certains μοτίβα που είχε μάθει όταν μεταφράζεται από τα ρωσικά, επειδή τα λευκορωσικά έχουν γλωσσικές ομοιότητες με τα ρωσικά. Παρόμοια, οι προσπάθειες μετάφρασης μεταξύ ισπανικών και πορτογαλικών βελτιώθηκαν, επειδή τα ισπανικά είναι η δεύτερη πιο διαδεδομένη γλώσσα και υπήρχε ένα σημαντικό όγκο δεδομένων εκπαίδευσης για την εργασία.
Υπάρχουν περίπου εξήντα γλώσσες που το σύστημα μετάφρασης δεν καλύπτει ακόμη, και η ακρίβεια του μοντέλου σε γλώσσες χωρίς πολλά δεδομένα εκπαίδευσης πρέπει να βελτιωθεί πριν από τη χρήση. Πολλές γλώσσες σε όλη τη Νοτιοανατολική Ασία και την Αφρική δεν έχουν τον όγκο δεδομένων που χρειάζεται για να εκπαιδεύσουν ένα αξιόπιστο μοντέλο. Η ερευνητική ομάδα πρέπει να βρει κάποιο τρόπο να αντιμετωπίσει这一 έλλειψη δεδομένων. Η ερευνητική ομάδα πρέπει επίσης να καθορίσει τον τρόπο ελέγχου για οποιαδήποτε ρατσιστικά, σεξιστικά ή άλλα βλάσφημα μοτίβα που μπορεί να έχει μάθει το μοντέλο. Ενώ η ερευνητική ομάδα έχει χρησιμοποιήσει ένα φίλτρο προφανών, το φίλτρο λειτουργεί κυρίως στα αγγλικά δεδομένα.
Το σύστημα μηχανικής μετάφρασης δεν έχει χρησιμοποιηθεί ακόμη στην πλατφόρμα κοινωνικών μέσων του Facebook. Το τρέχον μοντέλο είναι μόνο για ερευνητικούς σκοπούς. Ωστόσο, το Facebook προετοιμάζεται για να σχεδιάσει παρόμοια μοντέλα και να χειριστεί τις περίπου 20 δισεκατομμύρια αιτήσεις μετάφρασης που λαμβάνει η ιστοσελίδα κάθε μέρα.








