Connect with us

Inteligență artificială

Facebook Creează Un Model De Traducere Automată Care Poate Traduce Direct Între 100 De Limbi Diferite

mm

Facebook a dezvoltat recent un nou model de traducere automată care poate traduce text între orice pereche de limbi dintr-un set de 100 de limbi. În timp ce există și alte sisteme de traducere automată, majoritatea sistemelor de traducere AI funcționează prin traducerea textului mai întâi în engleză și apoi convertirea textului de acolo. După cum a raportat Engadget, traducătorul AI al Facebook funcționează fără a utiliza limba engleză ca intermediar și se pare că este capabil să atingă o acuratețe de aproximativ 90%.

Datele de antrenare ale modelului AI al Facebook au fost compuse din aproximativ 7,5 miliarde de perechi de propoziții, distribuite în 100 de limbi diferite. Datele au fost colectate de pe web folosind o serie de crawlere web, iar limbile prezente în datele colectate au fost identificate folosind un model de limbă numit FastText. Odată ce datele au fost colectate, au fost rulate printr-un instrument numit LASER 2.0 pentru a extrage sensul diferitelor mostre de propoziții și pentru a asocia propozițiile în diferite limbi pe baza sensului lor. LASER 2.0 a fost dezvoltat de Facebook și utilizează algoritmi de învățare nesupravegheată pentru a crea încorporări. Încorporările de propoziții conțin informații despre relațiile dintre diferitele propoziții pe baza unor caracteristici precum frecvența de utilizare și modul în care propozițiile apar una lângă alta. LASER 2.0 poate crea perechi de propoziții care au sensuri foarte asemănătoare.

Datele de antrenare nu au fost perecheate doar pe baza sensului propozițiilor. Limbile însele au fost grupate împreună. Scopul a fost de a proiecta un sistem care să nu necesite utilizarea limbii engleze ca mijlocitor între două limbi, cu Angela Fan de la Facebook, care a condus proiectul, notând că multe regiuni din întreaga lume vorbesc două limbi care nu sunt engleza. Inginerii de la Facebook au efectuat antrenamentul prin focalizarea pe perechile de limbi care sunt traduse în mod obișnuit unele în altele. Au fost create paisprezece grupuri de limbi diferite, pe baza unor variabile precum cultura, asemănările lingvistice și geografia. De exemplu, unul dintre grupurile lingvistice create de cercetători a conținut limbile cele mai comune din India, care includ limbile urdu, tamil, hindi și bengali. Acest lucru a fost făcut astfel încât limbile pereche să primească traduceri de înaltă calitate.

Metoda de antrenare axată pe grupuri de limbi a condus la unele rezultate interesante. S-a constatat că modelul de traducere rezultat a avut o acuratețe mai mare decât modelele existente pentru anumite perechi de limbi. De exemplu, atunci când s-a tradus între engleză și bielorusă, AI a putut aplica anumite modele pe care le-a învățat atunci când a tradus din rusă, deoarece bielorusa are asemănări lingvistice cu rusa. În mod similar, eforturile de traducere între spaniolă și portugheză s-au îmbunătățit, deoarece spaniola este a doua limbă vorbită cel mai mult și a existat un volum substanțial de date de antrenare pentru această sarcină.

Există aproximativ șaizeci de limbi pe care sistemul de traducere nu le acoperă încă, iar acuratețea modelului pentru limbile fără multe date de antrenare trebuie îmbunătățită înainte de a fi gata pentru utilizare. Multe limbi din Asia de Sud-Est și Africa lipsesc volumul de date necesar pentru a antrena un model fiabil. Echipa de cercetare trebuie să determine o modalitate de a compensa lipsa acestor date. Echipa de cercetare trebuie, de asemenea, să determine cum să controleze orice model rasist, sexist sau altfel profan pe care modelul l-ar fi putut învăța. Deși echipa de cercetare a utilizat un filtru de profanitate, filtrul funcționează în principal pe datele în engleză.

Sistemul de traducere automată nu a fost încă implementat pe platforma de socializare a Facebook. Modelul actual este doar pentru scopuri de cercetare. Cu toate acestea, Facebook se pregătește să proiecteze modele similare și să le facă să gestioneze aproximativ 20 de miliarde de solicitări de traducere pe care site-ul le primește în fiecare zi.

Blogger și programator cu specializări în Machine Learning și Deep Learning subiecte. Daniel speră să ajute pe alții să folosească puterea inteligenței artificiale pentru binele social.