csonk Az AI-modell homályos képeket készíthet, és 60-szor javítja a felbontást - Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Az AI-modell homályos képeket készíthet, és 60-szor javítja a felbontást

mm

Közzététel:

 on

A Duke Egyetem kutatói kifejlesztettek egy mesterséges intelligencia-modellt, amely képes nagyon elmosódott, pixelezett képeket készíteni, és azokat nagy részletességgel visszaadni.  A TechXplore szerint, a modell viszonylag kevés képpont felvételére és a képek felnagyítására képes, hogy valósághű arcokat hozzon létre, amelyek körülbelül 64-szerese az eredeti kép felbontásának. A modell olyan vonásokat hallucinál vagy képzel el, amelyek az eredeti kép sorai között vannak.

A kutatás a szuperfelbontás példája. Cynthia Rudinként, a Duke Egyetem számítástechnikai csapatától elmagyarázta a TechXplore-nak, ez a kutatási projekt rekordot dönt a szuperfelbontásban, mivel még soha nem készült ilyen kép ilyen kis kezdőpixelből. A kutatók gondosan hangsúlyozták, hogy a modell valójában nem az eredeti, rossz minőségű képen lévő személy arcát hozza létre. Ehelyett új arcokat generál, olyan részleteket töltve ki, amelyek korábban nem voltak ott. Emiatt a modell nem használható semmire, mint a biztonsági rendszerekre, mivel az életlen képeket nem tudna valódi személy képévé alakítani.

A hagyományos szuperfelbontású technikák úgy működnek, hogy a modell által korábban megismert képek alapján kitalálják, milyen pixelekre van szükség ahhoz, hogy a képet nagy felbontású képpé alakítsák. Mivel a hozzáadott képpontok találgatások eredménye, nem minden pixel egyezik a környező képpontokkal, és a kép bizonyos részei homályosnak vagy elvetemültnek tűnhetnek. A Duke Egyetem kutatói más módszert alkalmaztak mesterséges intelligencia modelljük képzésére. A Duke kutatói által megalkotott modell úgy működik, hogy először kis felbontású képeket készít, és idővel részletezi a képet, példaként hivatkozva a nagy felbontású AI által generált arcokra. A modell hivatkozik a mesterséges intelligencia által generált arcokra, és megpróbál olyanokat találni, amelyek hasonlítanak a célképekhez, amikor a generált arcokat a célkép méretére kicsinyítik.

A kutatócsoport létrehozta a Generatív Adversarial Network modellt az új képek létrehozásának kezelésére. A GAN valójában két neurális hálózat, amelyek ugyanazon az adathalmazon vannak kiképezve, és egymással szembeállítva. Az egyik hálózat felelős a hamis képek létrehozásáért, amelyek utánozzák a képzési adathalmaz valós képeit, míg a második hálózat a valódiak hamis képeinek észleléséért. Az első hálózat értesítést kap, ha képeit hamisnak találták, és addig fejlődik, amíg a hamis képeket remélhetőleg már nem lehet megkülönböztetni a valódi képektől.

A kutatók szuperfelbontású modelljüket elnevezték IMPULZUS, és a modell folyamatosan jó minőségű képeket készít, még akkor is, ha az adott képek annyira elmosódottak, hogy más szuperfelbontású módszerekkel nem lehet jó minőségű képeket készíteni belőlük. A modell még arra is képes, hogy valósághű arcokat készítsen olyan képekről, ahol az arc vonásai szinte megkülönböztethetetlenek. Például, ha egy 16×16-os felbontású arcképet adunk meg, 1024 x 1024-es képet tud létrehozni. A folyamat során több mint egymillió pixelt adnak hozzá, kitöltve olyan részleteket, mint a hajszálak, a ráncok és még a megvilágítás is. Amikor a kutatók 1440 PULSE generált képeket értékeltek az egyéb szuperfelbontású technikák által generált képekhez képest, a PULSE által generált képek következetesen a legjobb pontszámot érték el.

Míg a kutatók modelljüket az emberek arcának képeire használták, ugyanazok a technikák, amelyeket ők is használnak, szinte bármilyen tárgyra alkalmazhatók. Különböző objektumok kis felbontású képei felhasználhatók nagy felbontású képek készítésére az objektumkészletről, ami lehetséges alkalmazásokat nyithat meg különféle iparágak és területek számára a mikroszkópiától, a műholdfelvételektől, az oktatástól, a gyártástól és az orvostudománytól.