Umelá inteligencia

Model AI dokáže snímať rozmazané obrázky a 60-krát zvýšiť rozlíšenie

uverejnené

Pred 4 rokov

Júna 14, 2020

Výskumníci z Duke University vyvinuli model AI, ktorý je schopný snímať veľmi rozmazané, pixelované obrázky a vykresľovať ich s vysokými detailmi. Podľa TechXplore, model je schopný zachytiť relatívne málo pixelov a zväčšiť obraz tak, aby vytvoril realisticky vyzerajúce tváre, ktoré majú približne 64-násobok rozlíšenia pôvodného obrazu. Model halucinuje alebo si predstavuje črty, ktoré sú medzi riadkami pôvodného obrazu.

Výskum je príkladom super-rozlíšenia. Ako Cynthia Rudin z tímu počítačovej vedy Duke University vysvetlil TechXplore, tento výskumný projekt vytvára rekord v super-rozlíšení, pretože nikdy predtým neboli obrázky vytvorené s takým nadšením z tak malej vzorky počiatočných pixelov. Výskumníci boli opatrní, aby zdôraznili, že model v skutočnosti nevytvára tvár osoby na pôvodnom obrázku nízkej kvality. Namiesto toho generuje nové tváre a vypĺňa detaily, ktoré tam predtým neboli. Z tohto dôvodu sa tento model nedal použiť na nič také, ako sú bezpečnostné systémy, pretože by nedokázal premeniť neostré obrázky na obrázky skutočnej osoby.

Tradičné techniky s vysokým rozlíšením fungujú tak, že odhadujú, aké pixely sú potrebné na premenu obrázka na obrázok s vysokým rozlíšením, na základe obrázkov, o ktorých sa model vopred dozvedel. Keďže pridané pixely sú výsledkom odhadov, nie všetky pixely sa budú zhodovať s okolitými pixelmi a určité oblasti obrázka môžu vyzerať neostré alebo zdeformované. Vedci z Duke University použili inú metódu trénovania svojho modelu AI. Model vytvorený výskumníkmi Duke funguje tak, že najskôr nasníma obrázky s nízkym rozlíšením a v priebehu času pridá k obrázku detaily, pričom ako príklady odkazuje na tváre vygenerované AI s vysokým rozlíšením. Model odkazuje na tváre vygenerované AI a pokúša sa nájsť tie, ktoré sa podobajú na cieľové obrázky, keď sa vygenerované tváre zmenšia na veľkosť cieľového obrázka.

Výskumný tím vytvoril model generatívnej adverznej siete na zvládnutie vytvárania nových obrázkov. GAN sú vlastne dve neurónové siete, ktoré sú obe trénované na rovnakom súbore údajov a postavené proti sebe. Jedna sieť je zodpovedná za generovanie falošných obrázkov, ktoré napodobňujú skutočné obrázky v súbore tréningových údajov, zatiaľ čo druhá sieť je zodpovedná za detekciu falošných obrázkov od tých pravých. Prvá sieť je upozornená, keď boli jej obrázky identifikované ako falošné, a zlepšuje sa, kým falošné obrázky nebudú, dúfajme, nerozoznateľné od pravých obrázkov.

Výskumníci nazvali svoj model s vysokým rozlíšením PULSEa model neustále vytvára obrázky vysokej kvality, aj keď sú dané obrázky také rozmazané, že iné metódy s vysokým rozlíšením z nich nedokážu vytvoriť obrázky vysokej kvality. Model je dokonca schopný vytvoriť realisticky vyzerajúce tváre z obrázkov, kde sú črty tváre takmer nerozoznateľné. Napríklad, keď sa zobrazí obrázok tváre s rozlíšením 16 × 16, môže vytvoriť obrázok s rozlíšením 1024 1024 x 1440 XNUMX. Počas tohto procesu sa pridá viac ako milión pixelov, ktoré vyplnia detaily, ako sú pramene vlasov, vrásky a dokonca aj osvetlenie. Keď výskumníci nechali ľudí ohodnotiť XNUMX obrázkov vygenerovaných PULSE v porovnaní s obrázkami vytvorenými inými technikami s vysokým rozlíšením, obrázky vygenerované PULSE boli trvalo najlepšie.

Zatiaľ čo vedci použili svoj model na obrázkoch tvárí ľudí, rovnaké techniky, ktoré používajú, sa dali použiť na takmer akýkoľvek objekt. Snímky rôznych objektov s nízkym rozlíšením by sa mohli použiť na vytvorenie obrázkov tejto sady objektov s vysokým rozlíšením, čím by sa otvorili možné aplikácie pre rôzne priemyselné odvetvia a oblasti od mikroskopu, satelitných snímok, vzdelávania, výroby a medicíny.