Sztuczna inteligencja
Uczenie wielomodalne staje się coraz bardziej popularne wśród deweloperów AI

Venture Beat (VB) poświęcił jeden ze swoich cotygodniowych raportów zaletom uczenia wielomodalnego w rozwoju sztucznej inteligencji. Ich inspiracją był raport ABI Research na ten temat.
Kluczowym pojęciem jest fakt, że “zbiory danych są podstawowymi elementami budulcowymi systemów AI,” i że bez zbiorów danych, “modele nie mogą nauczyć się relacji, które informują o ich przewidywaniach.” Raport ABI przewiduje, że “podczas gdy całkowita liczba zainstalowanych urządzeń AI wzrośnie z 2,69 miliarda w 2019 roku do 4,47 miliarda w 2024 roku, w porównywalnie krótkim czasie tylko nieliczne będą interoperacyjne.”
Mogłoby to stanowić znaczne marnowanie czasu, energii i zasobów, “zamiast łączyć gigabajty do petabajtów danych przepływających przez nie w jeden model AI lub ramę, będą one działać niezależnie i heterogenicznie, aby zrozumieć dane, które otrzymują.”
Aby pokonać to, ABI proponuje uczenie wielomodalne, metodykę, która mogłaby skonsolidować dane “z różnych czujników i wejść w jeden system. Uczenie wielomodalne może przenosić uzupełniające informacje lub trendy, które często stają się widoczne tylko wtedy, gdy są one wszystkie uwzględnione w procesie uczenia.”
VB przedstawia przykład, który uwzględnia obrazy i podpisów. “Jeśli różne słowa są sparowane z podobnymi obrazami, to te słowa są prawdopodobnie używane do opisu tych samych rzeczy lub obiektów. Odwrotnie, jeśli niektóre słowa pojawiają się obok różnych obrazów, to oznacza to, że te obrazy reprezentują ten sam obiekt. Biorąc to pod uwagę, powinno być możliwe dla modelu AI przewidzieć obiekty obrazu z opisów tekstowych, i rzeczywiście, wiele literatury akademickiej udowodniło, że jest to możliwe.”
Pomimo możliwych zalet, ABI zauważa, że nawet giganci technologiczni, tacy jak IBM, Microsoft, Amazon i Google, nadal koncentrują się głównie na systemach unimodalnych. Jednym z powodów jest to, że taka zmiana stanowiłaby wyzwanie.
Jednakże, badacze ABI przewidują, że “całkowita liczba urządzeń wysłanych wzrośnie z 3,94 miliona w 2017 roku do 514,12 miliona w 2023 roku, napędzana przez przyjęcie w segmentach robotyki, konsumenckiej, opieki zdrowotnej i mediów oraz rozrywki.” Wśród przykładów firm, które już wdrożyły uczenie wielomodalne, wymieniają Waymo, które używa takich podejść do budowy “hiper-świadomych samochodów autonomicznych” oraz Intel Labs, gdzie zespół inżynierski firmy “bada techniki agregacji danych czujników w środowiskach rzeczywistych.”
Główny inżynier Intel Labs, Omesh Tickoo, wyjaśnił VB, że “To, co zrobiliśmy, to użyliśmy technik do ustalenia kontekstu, takiego jak godzina dnia, i zbudowaliśmy system, który mówi nam, kiedy dane czujnika nie są najwyższej jakości. Biorąc pod uwagę ten wskaźnik ufności, waży on różne czujniki względem siebie w różnych odstępach czasu i wybiera odpowiednią mieszankę, aby dać nam odpowiedź, której szukamy.”
VB zauważa, że uczenie unimodalne pozostanie dominujące tam, gdzie jest bardzo skuteczne – w aplikacjach takich jak rozpoznawanie obrazów i przetwarzanie języka naturalnego. Jednocześnie przewiduje, że “wraz ze spadkiem cen elektroniki i wzrostem skali obliczeniowej, uczenie wielomodalne prawdopodobnie będzie tylko rosło w znaczeniu.”












