Seguici sui social

Facebook crea un modello di traduzione automatica in grado di tradurre direttamente tra 100 lingue diverse

Intelligenza Artificiale

Facebook crea un modello di traduzione automatica in grado di tradurre direttamente tra 100 lingue diverse

mm

Facebook si è recentemente sviluppato un nuovo modello di traduzione automatica che può tradurre il testo tra una data coppia di lingue su un set di 100 lingue. Sebbene esistano altri sistemi di traduzione automatica, la maggior parte degli altri sistemi di traduzione AI funziona prima traducendo il testo in inglese e poi convertendo il testo da lì.  Come riportato da Engadget, il traduttore AI di Facebook funziona senza utilizzare la lingua inglese come intermediario e, secondo quanto riferito, è in grado di raggiungere una precisione di circa il 90%.

I dati di addestramento di Facebook per il modello AI erano composti da circa 7.5 miliardi di coppie di frasi, distribuite in 100 lingue diverse. I dati sono stati compilati dal web utilizzando una serie di web crawler e le lingue presenti nei dati raccolti sono state identificate utilizzando un modello linguistico chiamato FastText. Una volta raccolti i dati, è stato eseguito tramite uno strumento chiamato LASER 2.0 per estrarre il significato dei diversi esempi di frasi e abbinare insieme frasi in diverse lingue in base al loro significato. LASER 2.0 è stato sviluppato da Facebook e utilizza algoritmi di apprendimento non supervisionato per creare incorporamenti. Gli incorporamenti di frasi contengono informazioni sulle relazioni tra diverse frasi in base a caratteristiche come la frequenza di utilizzo e quanto le frasi appaiono vicine tra loro. LASER 2.0 è quindi in grado di creare pais di frasi che hanno significati molto simili.

I dati di addestramento non sono stati solo accoppiati in base ai significati delle frasi. Le lingue stesse sono state raggruppate insieme. L'obiettivo era progettare un sistema che non richiedesse l'uso dell'inglese come mezzo tra due lingue, con Angela Fan di Facebook, che ha guidato il progetto, notando che molte regioni in tutto il mondo parlano due lingue che non sono l'inglese. Gli ingegneri di Facebook hanno effettuato la formazione concentrandosi sull'abbinamento di lingue comunemente tradotte l'una dall'altra. Sono stati creati quattordici diversi gruppi linguistici, basati su variabili come la cultura, le somiglianze linguistiche e la geografia. Ad esempio, uno dei gruppi linguistici creati dai ricercatori conteneva le lingue più comuni in tutta l'India, che includono le lingue urdu, tamil, hindi e bengalese. Ciò è stato fatto in modo che le lingue comunemente accoppiate ricevessero traduzioni di alta qualità.

Il metodo di formazione incentrato sul gruppo linguistico ha portato ad alcuni risultati interessanti. È stato riscontrato che il modello di traduzione risultante aveva una maggiore precisione rispetto ai modelli attualmente esistenti per determinati abbinamenti linguistici. Durante la traduzione dall'inglese al bielorusso, ad esempio, l'IA è stata in grado di applicare determinati modelli che aveva appreso durante la traduzione dal russo perché il bielorusso ha somiglianze linguistiche con il russo. Allo stesso modo, gli sforzi di traduzione tra spagnolo e portoghese sono migliorati poiché lo spagnolo è la seconda lingua più parlata e c'era un volume sostanziale di dati di formazione per l'attività.

Ci sono circa sessanta lingue che il sistema di traduzione non copre ancora e l'accuratezza del modello sulle lingue senza molti dati di addestramento deve essere migliorata prima che sia pronto per l'uso. Molte lingue nel sud-est asiatico e in Africa non dispongono del volume di dati necessario per addestrare un modello affidabile. Il gruppo di ricerca dovrà determinare un modo per compensare questa mancanza di dati. Il team di ricerca deve anche determinare come controllare eventuali schemi razzisti, sessisti o altrimenti profani che il modello potrebbe aver appreso. Sebbene il gruppo di ricerca abbia utilizzato un filtro per volgarità, il filtro funziona principalmente sui dati in inglese.

Il sistema di traduzione automatica non è stato ancora utilizzato sulla piattaforma di social media di Facebook. Il modello attuale è solo a scopo di ricerca. Tuttavia, Facebook si sta attrezzando per progettare modelli simili e fargli gestire le circa 20 miliardi di richieste di traduzione che il sito riceve ogni giorno.