Conectează-te cu noi

Facebook creează un model de traducere automată care poate traduce direct între 100 de limbi diferite

Inteligența artificială

Facebook creează un model de traducere automată care poate traduce direct între 100 de limbi diferite

mm

Facebook s-a dezvoltat recent un nou model de traducere automată care poate traduce text între orice pereche de limbi dintr-un set de 100 de limbi. În timp ce există alte sisteme de traducere automată, majoritatea celorlalte sisteme de traducere AI funcționează prin traducerea mai întâi a textului în engleză și apoi conversia textului de acolo.  După cum a raportat Engadget, traducătorul AI al Facebook funcționează fără să folosească limba engleză ca intermediar și se pare că poate obține o precizie de aproximativ 90%.

Datele de antrenament ale Facebook pentru modelul AI au fost compuse din aproximativ 7.5 miliarde de perechi de propoziții, distribuite în 100 de limbi diferite. Datele au fost compilate de pe web folosind o serie de crawler-uri web, iar limbile prezente în datele colectate au fost identificate folosind un model de limbă numit FastText. Odată colectate datele, a fost rulat printr-un instrument numit LASER 2.0 pentru a extrage semnificația diferitelor eșantioane de propoziții și pentru a potrivi propoziții în diferite limbi pe baza semnificației lor. LASER 2.0 a fost dezvoltat de Facebook și folosește algoritmi de învățare nesupravegheați pentru a crea înglobări. Înglobările de propoziții conțin informații despre relațiile dintre diferitele propoziții bazate pe caracteristici precum frecvența de utilizare și cât de apropiate apar propozițiile unele față de altele. LASER 2.0 este apoi capabil să creeze pais de propoziții care au semnificații foarte asemănătoare.

Datele de antrenament nu au fost împerecheate doar pe baza semnificațiilor propoziției. Limbile în sine au fost grupate. Scopul a fost de a proiecta un sistem care să nu necesite ca limba engleză să fie folosită ca mijloc între două limbi, Angela Fan de la Facebook, care a condus proiectul, remarcând că multe regiuni de pe glob vorbesc două limbi care nu sunt engleza. Inginerii Facebook au efectuat instruire concentrându-se pe împerecherea limbilor care sunt în mod obișnuit traduse între ele și de la cealaltă. Au fost create paisprezece grupuri de limbi diferite, bazate pe variabile precum cultura, asemănările lingvistice și geografia. De exemplu, unul dintre grupurile lingvistice create de cercetători conținea cele mai comune limbi din India, care includ limbile Urdu, Tamil, Hindi și Bengali. Acest lucru a fost făcut pentru ca limbile împerecheate în mod obișnuit să primească traduceri de înaltă calitate.

Metoda de instruire axată pe grup lingvistic a condus la unele rezultate interesante. Sa constatat că modelul de traducere rezultat a avut o acuratețe mai mare decât modelele existente în prezent pentru anumite perechi de limbi. Când traducea între engleză și belarusă, de exemplu, AI a putut să aplice anumite modele pe care le-a învățat atunci când traducea rusă, deoarece belarusa are asemănări lingvistice cu rusa. În mod similar, eforturile de traducere între spaniolă și portugheză s-au îmbunătățit, deoarece spaniola este a doua cea mai vorbită limbă și a existat un volum substanțial de date de instruire pentru sarcină.

Există aproximativ șaizeci de limbi pe care sistemul de traducere nu le acoperă încă, iar acuratețea modelului în limbile fără multe date de instruire trebuie îmbunătățită înainte de a fi gata de utilizare. Multe limbi din Asia de Sud-Est și Africa nu au volumul de date necesar pentru a pregăti un model de încredere. Echipa de cercetare va trebui să stabilească o modalitate de a compensa această lipsă de date. Echipa de cercetare trebuie, de asemenea, să determine cum să controleze orice tipare rasiste, sexiste sau profane pe care modelul le-ar fi putut învăța. În timp ce echipa de cercetare a folosit un filtru de blasfemie, filtrul funcționează în principal pe datele în limba engleză.

Sistemul de traducere automată nu a fost încă folosit pe platforma de socializare a Facebook. Modelul actual este doar în scop de cercetare. Cu toate acestea, Facebook se pregătește să proiecteze modele similare și să le pună să gestioneze cele aproximativ 20 de miliarde de cereri de traducere pe care site-ul le primește în fiecare zi.