Connect with us

Inteligență artificială

Învățarea Multimodală Devine Prominentă Printre Dezvoltatorii de IA

mm

Venture Beat (VB) a dedicat unul dintre rapoartele sale săptămânale avantajelor învățării multimodale în dezvoltarea inteligenței artificiale. Promptul lor a fost un raport de la ABI Research pe această temă.

Conceptul cheie constă în faptul că “seturile de date sunt blocuri de construcție fundamentale ale sistemelor de IA,” și că fără seturi de date, “modelele nu pot învăța relațiile care informează predicțiile lor.” Raportul ABI prezice că “în timp ce baza totală instalată de dispozitive de IA va crește de la 2,69 miliarde în 2019 la 4,47 miliarde în 2024, comparativ puține vor fi interoperabile în termen scurt.”

Acest lucru poate reprezenta o pierdere considerabilă de timp, energie și resurse, “în loc să combine gigabații până la petabați de date care curg prin ele într-un singur model sau cadru de IA, acestea vor funcționa independent și eterogen pentru a da sens datelor pe care le primesc.”

Pentru a depăși acest lucru, ABI propune învățarea multimodală, o metodologie care ar putea consolida datele “de la diverse senzori și intrări într-un singur sistem. Învățarea multimodală poate transporta informații complementare sau tendințe, care adesea devin evidente doar atunci când sunt incluse în procesul de învățare.”

VB prezintă un exemplu viabil care ia în considerare imagini și subtitluri de text. “ Dacă diferite cuvinte sunt asociate cu imagini similare, aceste cuvinte sunt probabil folosite pentru a descrie aceleași lucruri sau obiecte. Invers, dacă unele cuvinte apar lângă imagini diferite, acest lucru implică faptul că aceste imagini reprezintă același obiect. Având în vedere acest lucru, ar trebui să fie posibil pentru un model de IA să prevadă obiectele din imagini din descrierile de text, și, într-adevăr, o serie de lucrări academice au demonstrat că acest lucru este valabil.”

În ciuda avantajelor posibile, ABI notează că chiar și giganții tehnologiei, cum ar fi IBM, Microsoft, Amazon și Google, continuă să se concentreze în principal pe sisteme unimodale. Unul dintre motivele pentru care se întâmplă acest lucru este reprezentat de provocările pe care o astfel de schimbare le-ar implica.

Încă, cercetătorii ABI anticipă că “numărul total de dispozitive livrate va crește de la 3,94 milioane în 2017 la 514,12 milioane în 2023, stimulat de adoptarea în segmentele de robotică, consumatori, îngrijire a sănătății și mass-media și divertisment.” Printre exemplele de companii care implementează deja învățarea multimodală, ei menționează Waymo, care utilizează astfel de abordări pentru a construi “vehicule autonome hiper-conștiente,” și Intel Labs, unde echipa de ingineri a companiei “investighează tehnici pentru colectarea datelor de la senzori în medii reale.”

Inginerul principal al Intel Labs, Omesh Tickoo, a explicat pentru VB că “Ce am făcut a fost să utilizăm tehnici pentru a determina contextul, cum ar fi ora din zi, și am construit un sistem care ne spune când datele unui senzor nu sunt de cea mai bună calitate. Având în vedere această valoare de încredere, el cântărește diferiți senzori împotriva altora la intervale diferite și alege amestecul potrivit pentru a ne oferi răspunsul pe care îl căutăm.”

VB notează că învățarea unimodală va rămâne predominantă acolo unde este foarte eficientă – în aplicații precum recunoașterea imaginilor și procesarea limbajului natural. În același timp, ei prevăd că “pe măsură ce electronica devine mai ieftină și computerea mai scalabilă, învățarea multimodală va crește probabil în prominență.”

Foster diplomat și traducător pentru UN, în prezent jurnalist/scenarist/cercetător freelancer, axat pe tehnologia modernă, inteligența artificială și cultura modernă.