Connect with us

Facebook створила модель машинного перекладу, яка може безпосередньо перекладати між 100 різними мовами

Штучний інтелект

Facebook створила модель машинного перекладу, яка може безпосередньо перекладати між 100 різними мовами

mm

Facebook недавно розробила нову модель машинного перекладу, яка може перекладати текст між будь-якою парою мов з набору з 100 мов. Хоча інші системи машинного перекладу існують, більшість інших систем штучного інтелекту перекладу працюють, спочатку перекладаючи текст англійською, а потім перетворюючи текст з цього місця. Як повідомляє Engadget, штучний інтелект перекладач Facebook працює без використання англійської мови як посередника, і, як повідомляється,能够 досягти приблизної точності 90%.

Тренувальні дані моделі штучного інтелекту Facebook складалися з близько 7,5 мільярдів пар пропозицій, розподілених по 100 різним мовам. Дані були зібрані з вебу за допомогою серії веб-кравлерів, а мови, присутні в зібраних даних, були ідентифіковані за допомогою мови моделі FastText. Після збору даних їх було пройдено через інструмент під назвою LASER 2.0 для витягування значення різних зразків пропозицій та зіставлення пропозицій різними мовами на основі їхнього значення. LASER 2.0 був розроблений Facebook і використовує алгоритми несупервізованого навчання для створення вкладень. Вкладення пропозицій містять інформацію про відносини між різними пропозиціями на основі функцій, таких як частота використання та те, як близько пропозиції знаходяться одна до одної. LASER 2.0 потім能够 створити пари пропозицій, які мають високо подібні значення.

Тренувальні дані не були лише спарені на основі значень пропозицій. Самі мови були згруповані разом. Метою було створити систему, яка не потребує англійської мови як посередника між двома мовами, з тим, що Анджела Фан з Facebook, яка очолювала проєкт, зазначила, що багато регіонів по всьому світу говорять двома мовами, які не є англійською. Інженери Facebook провели навчання, зосередившись на спарюванні мов, які часто перекладаються одна на одну. Було створено чотирнадцять різних мовних груп, заснованих на таких факторах, як культура, лінгвістична схожість та географія. Наприклад, одна з лінгвістичних груп, створених дослідниками, містила найпоширеніші мови в Індії, які включають мови урду, тамільську, гінді та бенгальську. Це було зроблено для того, щоб спільно перекладені мови мали високоякісні переклади.

Метод навчання, орієнтований на мовну групу, призвів до деяких цікавих результатів. Було виявлено, що результатуюча модель перекладу мала вищу точність, ніж існуючі моделі для певних пар мов. Наприклад, при перекладі англійської мови на білоруську штучний інтелект能够 застосувати певні закономірності, які він вивчив під час перекладу російської мови, оскільки білоруська мова має лінгвістичну схожість з російською. Аналогічно, переклад з іспанської на португальську покращився, оскільки іспанська мова є другою за поширеністю мовою, і було велике обсяг даних для цього завдання.

Є близько шістдесяти мов, яких система перекладу ще не покриває, і точність моделі для мов без великої кількості тренувальних даних потрібно покращити, перш ніж вона буде готова до використання. Багато мов у Південно-Східній Азії та Африці не мають обсягу даних, необхідного для навчання надійної моделі. Команда дослідників повинна визначити спосіб компенсації цього дефіциту даних. Команда дослідників також повинна визначити, як контролювати будь-які расистські, сексистські або інші непристойні закономірності, які модель могла вивчити. Хоча команда дослідників використала фільтр непристойностей, фільтр працює в основному з англійськими даними.

Система машинного перекладу ще не була використана на соціальній платформі Facebook. Поточна модель призначена лише для дослідницьких цілей. Однак Facebook готується розробити подібні моделі та використовувати їх для обробки близько 20 мільярдів запитів на переклад, які сайт отримує щодня.

Блогер і програміст з спеціалізацією у темах Machine Learning і Deep Learning. Даніель сподівається допомогти іншим використовувати силу штучного інтелекту для соціальної добробути.