Artificial Intelligence
Facebook tworzy model tłumaczenia maszynowego, który może bezpośrednio tłumaczyć między 100 różnymi językami

Niedawno rozwinął się Facebook nowy model tłumaczenia maszynowego który może przetłumaczyć tekst pomiędzy dowolną parą języków z zestawu 100 języków. Chociaż istnieją inne systemy tłumaczenia maszynowego, większość innych systemów tłumaczenia AI działa w ten sposób, że najpierw tłumaczy tekst na język angielski, a następnie konwertuje go na tej podstawie. Jak donosi Engadget, tłumacz AI Facebooka działa bez pośrednictwa języka angielskiego i według doniesień jest w stanie osiągnąć dokładność na poziomie około 90%.
Dane szkoleniowe Facebooka dotyczące modelu sztucznej inteligencji składały się z około 7.5 miliarda par zdań rozmieszczonych w 100 różnych językach. Dane zostały zebrane z Internetu przy użyciu szeregu robotów indeksujących, a języki obecne w zebranych danych zostały zidentyfikowane przy użyciu modelu językowego o nazwie FastText. Po zebraniu danych przeprowadzono go za pomocą narzędzia o nazwie LASER 2.0 wyodrębnić znaczenie różnych próbek zdań i dopasować zdania w różnych językach na podstawie ich znaczenia. LASER 2.0 został opracowany przez Facebooka i wykorzystuje algorytmy uczenia się bez nadzoru do tworzenia osadzania. Osadzone zdania zawierają informacje o związkach między różnymi zdaniami w oparciu o takie cechy, jak częstotliwość użycia i stopień bliskości zdań. LASER 2.0 jest następnie w stanie utworzyć pais zdań o bardzo podobnym znaczeniu.
Dane szkoleniowe nie zostały sparowane tylko na podstawie znaczeń zdań. Same języki zostały zgrupowane razem. Celem było zaprojektowanie systemu, który nie wymagałby używania języka angielskiego jako medium między dwoma językami, a Angela Fan z Facebooka, która kierowała projektem, zauważyła, że w wielu regionach na całym świecie mówi się dwoma językami, które nie są angielskie. Inżynierowie Facebooka przeprowadzili szkolenia, koncentrując się na parowaniu języków, które są powszechnie tłumaczone między sobą. Utworzono czternaście różnych grup językowych w oparciu o takie zmienne, jak kultura, podobieństwa językowe i geografia. Przykładowo jedna z grup językowych utworzonych przez badaczy obejmowała języki najpopularniejsze w całych Indiach, do których zaliczają się języki urdu, tamilski, hindi i bengalski. Zrobiono to, aby powszechnie sparowane języki otrzymywały tłumaczenia wysokiej jakości.
Metoda szkolenia skupiona na grupach językowych doprowadziła do kilku interesujących wyników. Stwierdzono, że powstały model tłumaczenia miał większą dokładność niż obecnie istniejące modele dla niektórych par językowych. Na przykład podczas tłumaczenia między angielskim i białoruskim sztuczna inteligencja była w stanie zastosować pewne wzorce, których nauczyła się podczas tłumaczenia z rosyjskiego, ponieważ język białoruski ma podobieństwa językowe z rosyjskim. Podobnie poprawiły się wysiłki związane z tłumaczeniem między językiem hiszpańskim i portugalskim, ponieważ hiszpański jest drugim najczęściej używanym językiem, a do wykonania tego zadania dostępna była znaczna ilość danych szkoleniowych.
Istnieje około sześćdziesiąt języków, których system tłumaczeń nie obejmuje jeszcze, a dokładność modelu w przypadku języków nieposiadających dużej ilości danych szkoleniowych wymaga poprawy, zanim będzie on gotowy do użycia. W wielu językach w Azji Południowo-Wschodniej i Afryce brakuje danych potrzebnych do wytrenowania niezawodnego modelu. Zespół badawczy będzie musiał znaleźć sposób na zrekompensowanie tego braku danych. Zespół badawczy musi także określić, w jaki sposób kontrolować wszelkie rasistowskie, seksistowskie lub w inny sposób bluźniercze wzorce, których modelka mogła się nauczyć. Chociaż zespół badawczy zastosował filtr wulgaryzmów, filtr ten działa głównie na danych w języku angielskim.
System tłumaczenia maszynowego nie został jeszcze zastosowany na platformie mediów społecznościowych Facebooka. Obecny model służy wyłącznie celom badawczym. Facebook przygotowuje się jednak do zaprojektowania podobnych modeli i umożliwienia im obsługi około 20 miliardów próśb o tłumaczenie, które witryna otrzymuje każdego dnia.