Umělá inteligence
Vícemodalní učení se stává prominentním mezi vývojáři AI

Venture Beat (VB) věnoval jednu ze svých týdenních zpráv výhodám vícemodálního učení při vývoji umělé inteligence. Jejich podnět byl zpráva od ABI Research na toto téma.
Klíčový koncept spočívá v tom, že „soubory dat jsou základními stavebními kameny systémů AI,” a že bez souborů dat „modely nemohou naučit vztahy, které informují jejich předpovědi.” Zpráva ABI předpovídá, že „zatímco celková instalovaná základna zařízení AI poroste z 2,69 miliardy v roce 2019 na 4,47 miliardy v roce 2024, relativně málo z nich bude v krátkodobém horizontu interoperabilních.”
To by mohlo představovat značnou ztrátu času, energie a zdrojů, „namísto toho, aby kombinovaly gigabajty až petabajty dat proudících skrz ně do jednoho modelu AI nebo rámce, budou pracovat nezávisle a heterogenně, aby daly smysl datům, kterým jsou krmeny.”
ABI navrhuje, aby se tento problém překonal více-modalním učením, metodologií, která by mohla konsolidovat data „z různých senzorů a vstupů do jednoho systému. Více-modalní učení může nést komplementární informace nebo trendy, které se často stávají zjevnými pouze tehdy, když jsou všechny zahrnuty do procesu učení.”
VB představuje životaschopný příklad, který zvažuje obrázky a textové popisky. „Pokud jsou různé slova spárována se podobnými obrázky, tato slova se pravděpodobně používají k popisu stejné věci nebo objektu. Naopak, pokud některá slova vypadají vedle různých obrázků, to znamená, že tyto obrázky reprezentují stejný objekt. Daní tomu by mělo být možné, aby model AI předpovídal objekty obrázků z textových popisů, a skutečně, řada akademických prací prokázala, že tomu tak je.”
Navzdory možným výhodám ABI uvádí, že i technologičtí giganti jako IBM, Microsoft, Amazon a Google se stále převážně soustředí na unimodální systémy. Jedním z důvodů je, že takový přechod by představoval výzvy.
Přesto výzkumníci ABI předpovídají, že „celkový počet dodaných zařízení poroste z 3,94 milionu v roce 2017 na 514,12 milionu v roce 2023, podnícený přijetím v segmentech robotiky, spotřební elektroniky, zdravotní péče a médií a zábavy.” Mezi příklady firem, které již implementují vícemodální učení, citují Waymo, které používá takové přístupy k výstavbě „hyper-aware samořídících vozidel,” a Intel Labs, kde inženýrský tým společnosti „vyšetřuje techniky pro sběr dat senzorů v reálném prostředí.”
Hlavní inženýr Intel Labs Omesh Tickoo vysvětlil VB, že „to, co jsme udělali, bylo pomocí technik pro stanovení kontextu, jako je čas dne, a postavili jsme systém, který vám řekne, kdy data senzoru nejsou nejvyšší kvality. Daní této důvěrné hodnoty, váží různé senzory proti sobě v různých intervalech a zvolí správnou směs, aby nám dala odpověď, kterou hledáme.”
VB uvádí, že unimodální učení zůstane převládající tam, kde je vysoce efektivní – v aplikacích, jako je rozpoznávání obrázků a zpracování přirozeného jazyka. Současně předpovídá, že „jak se elektronika stává levnější a výpočetní kapacity se stávají škálovatelnějšími, vícemodální učení se pravděpodobně bude zvyšovat na významu.”






