Kontakt z nami

Uczenie się multimodalne staje się coraz popularniejsze wśród twórców sztucznej inteligencji

Artificial Intelligence

Uczenie się multimodalne staje się coraz popularniejsze wśród twórców sztucznej inteligencji

mm

Beat Venture (VB) poświęciła jeden ze swoich cotygodniowych raportów zaletom uczenia się multimodalnego w rozwoju sztucznej inteligencji. Ich zachętą było: raport by ABI Research na temat.

Kluczowa koncepcja polega na tym, że „zbiory danych to podstawowe elementy składowe systemów sztucznej inteligencji” oraz że bez zbiorów danych „modele nie mogą nauczyć się relacji, które wpływają na ich przewidywania”. Raport ABI przewiduje, że „chociaż całkowita baza zainstalowanych urządzeń AI wzrośnie z 2.69 miliarda w 2019 r. do 4.47 miliarda w 2024 r., w perspektywie krótkoterminowej stosunkowo niewiele z nich będzie interoperacyjnych”.

Może to oznaczać znaczną stratę czasu, energii i zasobów”,zamiast łączyć gigabajty lub petabajty danych przepływających przez nie w jeden model lub strukturę sztucznej inteligencji, będą pracować niezależnie i heterogenicznie, aby nadać sens dostarczanym im danym”.

Aby temu zaradzić, ABI proponuje nauka multimodalna, metodologii, która mogłaby konsolidować dane „z różnych czujników i wejść do jednego systemu. Uczenie się multimodalne może nieść uzupełniające się informacje lub trendy, które często stają się oczywiste dopiero wtedy, gdy wszystkie zostaną uwzględnione w procesie uczenia się”.

VB przedstawia realny przykład uwzględniający obrazy i podpisy tekstowe. „ Jeśli różne słowa zostaną połączone z podobnymi obrazami, prawdopodobnie zostaną użyte do opisania tych samych rzeczy lub przedmiotów. I odwrotnie, jeśli niektóre słowa pojawiają się obok różnych obrazów, oznacza to, że obrazy te przedstawiają ten sam obiekt. Biorąc to pod uwagę, model sztucznej inteligencji powinien mieć możliwość przewidywania obiektów obrazów na podstawie opisów tekstowych i rzeczywiście, literatura akademicka dowodzi, że tak jest.

Pomimo możliwych zalet, ABI zauważa, że ​​lubią je nawet giganci technologiczni  IBM, Microsoft, Amazon i Google w dalszym ciągu koncentrują się głównie na systemach unimodalnych. Jednym z powodów są wyzwania, jakie stanowiłaby taka zmiana.

Mimo to badacze ABI przewidują, że „łączna liczba dostarczonych urządzeń wzrośnie z 3.94 mln w 2017 r. do 514.12 mln w 2023 r., co będzie spowodowane przyjęciem ich w segmentach robotyki, konsumentów, opieki zdrowotnej oraz mediów i rozrywki”. Wśród przykładów firm, które już wdrażają nauczanie multimodalne, wymieniają Waymo która wykorzystuje takie podejścia do budowy „hiperświadomych pojazdów autonomicznych” oraz Laboratoria Intel, gdzie zespół inżynierów firmy „bada techniki zestawiania danych z czujników w środowiskach rzeczywistych”.

Główny inżynier Intel Labs, Omesh Tickoo, wyjaśnił to VB „Wykorzystując techniki ustalania kontekstu, np. pory dnia, zbudowaliśmy system, który informuje, kiedy dane z czujnika nie są najwyższej jakości. Biorąc pod uwagę tę wartość pewności, porównuje różne czujniki w różnych odstępach czasu i wybiera odpowiednią mieszankę, aby dać nam odpowiedź, której szukamy.

VB to zauważa Uczenie się unimodalne pozostanie dominujące tam, gdzie jest bardzo skuteczne – w zastosowaniach takich jak rozpoznawanie obrazów i przetwarzanie języka naturalnego. Jednocześnie przewiduje, że „w miarę jak elektronika stanie się tańsza, a obliczenia będą bardziej skalowalne, znaczenie uczenia się multimodalnego prawdopodobnie będzie jeszcze rosło”.

Były dyplomata i tłumacz ONZ, obecnie niezależny dziennikarz/pisarz/badacz zajmujący się nowoczesnymi technologiami, sztuczną inteligencją i współczesną kulturą.