peň Výskumníci Google objavili problém s nedostatočnými špecifikáciami, ktoré zadržiavajú mnohé modely AI – Unite.AI
Spojte sa s nami

Umelá inteligencia

Výskumníci Google objavili problém s nedostatočnou špecifikáciou, ktorý zadržiava mnoho modelov AI

mm
Aktualizované on

Nedávno tím výskumníkov zo spoločnosti Google identifikoval bežnú príčinu zlyhaní modelov AI, pričom poukázal na nedostatočnú špecifikáciu ako jeden z hlavných dôvodov, prečo modely strojového učenia často fungujú úplne inak v reálnom svete ako počas testovania a vývoja.

Modely strojového učenia často zlyhávajú pri riešení úloh v reálnom svete, aj keď modely fungujú optimálne v laboratóriu. Existuje mnoho dôvodov, prečo dochádza k nesúladu medzi tréningom/rozvojom a výkonom v reálnom svete. Jedným z najčastejších dôvodov zlyhania modelov AI počas úloh v reálnom svete je koncept známy ako posun údajov. Posun údajov sa vzťahuje na zásadný rozdiel medzi typom údajov použitých na vývoj modelu strojového učenia a údajmi vloženými do modelu počas aplikácie. Napríklad modely počítačového videnia trénované na vysokokvalitných obrazových údajoch budú mať problémy s výkonom, keď budú napájané dátami zachytenými kamerami nízkej kvality, ktoré sa nachádzajú v každodennom prostredí modelu.

Podľa MIT Technology Review, tím 40 rôznych výskumníkov v Google identifikoval ďalší dôvod, prečo sa výkon modelu strojového učenia môže tak drasticky líšiť. Problémom je „nedostatočná špecifikácia“, štatistický koncept, ktorý popisuje problémy, pri ktorých pozorované javy majú mnoho možných príčin, z ktorých nie všetky sú zahrnuté v modeli. Podľa vedúceho štúdie Alexa D'Amoura je problém svedkom mnohých modelov strojového učenia, ktoré hovoria, že tento fenomén sa „vyskytuje všade“.

Typická metóda trénovania modelu strojového učenia zahŕňa napájanie modelu veľkým množstvom údajov, ktoré môže analyzovať a extrahovať z nich relevantné vzory. Potom model dostane príklady, ktoré nevidel, a požiada, aby predpovedal povahu týchto príkladov na základe vlastností, ktoré sa naučil. Keď model dosiahne určitú úroveň presnosti, tréning sa zvyčajne považuje za dokončený.

Podľa výskumného tímu Google je potrebné urobiť viac, aby sa zabezpečilo, že modely sa budú môcť skutočne zovšeobecniť na údaje, ktoré nie sú trénovaním. Klasická metóda trénovania modelov strojového učenia vytvorí rôzne modely, ktoré môžu všetky prejsť ich testami, no tieto modely sa budú líšiť v malých veciach, ktoré sa zdajú byť nevýznamné, ale nie sú. Rôzne uzly v modeloch budú mať priradené rôzne náhodné hodnoty alebo trénovacie dáta môžu byť vybrané alebo reprezentované rôznymi spôsobmi. Tieto variácie sú malé a často ľubovoľné, a ak nemajú obrovský vplyv na výkon modelov počas tréningu, je ľahké ich prehliadnuť. Keď sa však vplyv všetkých týchto malých zmien nahromadí, môžu viesť k veľkým odchýlkam vo výkonnosti v reálnom svete.

Táto nedostatočná špecifikácia je problematická, pretože to znamená, že aj keď je tréningový proces schopný produkovať dobré modely, môže tiež produkovať zlý model a rozdiel by nebol objavený, kým model neukončil výrobu a nezačal používať.

S cieľom posúdiť vplyv nedostatočnej špecifikácie výskumný tím preskúmal množstvo rôznych modelov. Každý model bol trénovaný pomocou rovnakého tréningového procesu a potom boli modely podrobené sérii testov, aby sa zdôraznili rozdiely vo výkone. V jednom prípade bolo na dátovom súbore ImageNet vyškolených 50 rôznych verzií systému rozpoznávania obrázkov. Modely boli všetky rovnaké okrem hodnôt neurónovej siete, ktoré im boli náhodne priradené počas začiatku tréningu. Záťažové testy použité na určenie rozdielov v modeloch boli vykonané pomocou ImageNet-C, variácie pôvodného súboru údajov pozostávajúceho z obrázkov zmenených úpravou kontrastu alebo jasu. Modely boli tiež testované na ObjectNet, sérii obrázkov zobrazujúcich každodenné predmety v neobvyklých orientáciách a kontextoch. Aj keď všetkých 50 modelov malo približne rovnaký výkon na tréningovom súbore údajov, výkon značne kolísal, keď modely prechádzali záťažovými testami.

Výskumný tím zistil, že k podobným výsledkom došlo, keď trénovali a záťažovo testovali dva rôzne systémy NLP, ako aj keď testovali rôzne iné modely počítačového videnia. V každom prípade sa modely od seba divoko rozchádzali, aj keď tréningový proces pre všetky modely bol rovnaký.

Podľa D'Amoura musia výskumníci a inžinieri strojového učenia vykonať oveľa viac záťažových testov pred uvoľnením modelov do voľnej prírody. To môže byť ťažké, pretože záťažové testy musia byť prispôsobené konkrétnym úlohám pomocou údajov z reálneho sveta, údajov, ktoré môžu byť pre určité úlohy a kontexty ťažko dostupné. Jedným z potenciálnych riešení problému nedostatočnej špecifikácie je vyrobiť veľa modelov naraz a potom ich otestovať na sérii úloh v reálnom svete, pričom sa vyberie model, ktorý trvalo vykazuje najlepšie výsledky. Vývoj modelov týmto spôsobom si vyžaduje veľa času a zdrojov, ale kompromis by mohol stáť za to, najmä v prípade modelov AI používaných v lekárskom kontexte alebo v iných oblastiach, kde je bezpečnosť prvoradá. Ako vysvetlil D'Amour cez MIT Technology Review:

„Musíme sa zdokonaliť v presnej špecifikácii toho, aké sú naše požiadavky na naše modely. Pretože často sa stáva, že tieto požiadavky objavíme až potom, čo model vo svete zlyhá.“