Connect with us

Sztuczna inteligencja

Nauka wielomodalna staje się coraz bardziej popularna wśród deweloperów AI

mm

Venture Beat (VB) poświęcił jeden ze swoich cotygodniowych raportów zaletom nauki wielomodalnej w rozwoju sztucznej inteligencji. Ich inspiracją był raport firmy ABI Research na ten temat.

Kluczowym pojęciem jest fakt, że „zbiory danych są podstawowymi elementami budulcowymi systemów AI”, a bez zbiorów danych „modele nie mogą nauczyć się relacji, które informują ich przewidywania.” Raport ABI przewiduje, że „podczas gdy łączna liczba urządzeń AI wzrośnie z 2,69 miliarda w 2019 roku do 4,47 miliarda w 2024 roku, porównywalnie niewiele z nich będzie interoperacyjnych w krótkim terminie.”

Mogłoby to stanowić znaczne marnowanie czasu, energii i zasobów, „zamiast łączyć gigabajty do petabajtów danych przepływających przez nie w jedną model lub ramę AI, będą one działać niezależnie i heterogenicznie, aby zrozumieć dane, które otrzymują.”

Aby przezwyciężyć to, ABI proponuje naukę wielomodalną, metodologię, która mogłaby skonsolidować dane „z różnych czujników i wejść w jeden system. Nauka wielomodalna może przenosić uzupełniające informacje lub trendy, które często stają się widoczne tylko wtedy, gdy są one wszystkie uwzględnione w procesie uczenia.”

VB przedstawia przykład, który uwzględnia obrazy i podpisy tekstowe. „Jeśli różne słowa są sparowane z podobnymi obrazami, te słowa są prawdopodobnie używane do opisu tych samych rzeczy lub obiektów. Odwrotnie, jeśli niektóre słowa pojawiają się obok różnych obrazów, to sugeruje, że te obrazy reprezentują ten sam obiekt. Biorąc to pod uwagę, powinno być możliwe dla modelu AI przewidzieć obiekty obrazu z opisów tekstowych, a rzeczywiście, literatura akademicka udowodniła, że tak jest w istocie.”

Pomimo możliwych zalet, ABI zauważa, że nawet giganci technologiczni, tacy jak IBM, Microsoft, Amazon i Google, nadal koncentrują się głównie na systemach unimodalnych. Jednym z powodów jest to, że taka zmiana stanowiłaby wyzwanie.

Jednakże, badacze ABI przewidują, że „łączna liczba urządzeń wysyłanych wzrośnie z 3,94 miliona w 2017 roku do 514,12 miliona w 2023 roku, napędzana przez przyjęcie w segmentach robotyki, konsumenckiej, opieki zdrowotnej i mediów oraz rozrywki.” Wśród przykładów firm, które już wdrożyły naukę wielomodalną, wymieniają Waymo, które stosuje takie podejście do budowy „hiper-świadomych samochodów autonomicznych” oraz Intel Labs, gdzie zespół inżynierów firmy bada „techniki agregacji danych czujników w środowiskach rzeczywistych.”

Główny inżynier Intel Labs, Omesh Tickoo, wyjaśnił VB, że „To, co zrobiliśmy, to użyliśmy technik, aby ustalić kontekst, taki jak pora dnia, i zbudowaliśmy system, który mówi nam, kiedy dane czujnika nie są najwyższej jakości. Biorąc pod uwagę tę wartość ufności, waży on różne czujniki przeciwko sobie w różnych przedziałach czasowych i wybiera odpowiednią mieszankę, aby dać nam odpowiedź, której szukamy.”

VB zauważa, że nauka unimodalna pozostanie dominująca tam, gdzie jest bardzo skuteczna – w aplikacjach takich jak rozpoznawanie obrazów i przetwarzanie języka naturalnego. Jednocześnie przewiduje, że „w miarę jak elektronika staje się tańsza, a obliczenia bardziej skalowalne, nauka wielomodalna prawdopodobnie będzie rosła w znaczeniu.”

Były dyplomata i tłumacz dla UN, obecnie wolny strzelec/journalista/pisarz/badacz, koncentrujący się na nowoczesnej technologii, sztucznej inteligencji i nowoczesnej kulturze.