Mesterséges Intelligencia

Az AI-rendszerek az emberi nyelvet részesíthetik előnyben a numerikus adatok helyett

korszerűsített on December 9, 2022

Új kutatás A Columbia Engineering azt sugallja, hogy a mesterséges intelligencia (AI) rendszerek az emberi nyelvet részesítik előnyben a számadatok, például az 1-esek és a 0-k helyett. Az új tanulmány Hod Lipson gépészmérnök professzortól és Boyuan Chen doktorandusztól származik, és bebizonyította, hogy az AI-rendszerek magasabb teljesítményszintet érhetnek el, ha emberi nyelvű hangfájlokkal programozzák őket.

Egymás melletti összehasonlításban a kutatók azt találták, hogy a hangfájlok által betanított neurális hálózat magasabb teljesítményszintet ért el az objektumok azonosításában, mint az egyszerű bináris bemenetekkel programozott hálózat.

Lipson James és Sally Scapa innovációs professzor és a Columbia Data Science Institute tagja.

"Ahhoz, hogy megértsük, miért jelentős ez a megállapítás, hasznos megérteni, hogyan programozzák általában a neurális hálózatokat, és miért radikális kísérlet az emberi hang hangjának használata" - mondta.

A bináris számok használata kompakt és pontos, míg az emberi nyelv bonyolultabb és nem bináris, ha digitális fájlba rögzítik. A programozók általában nem térnek el a számoktól, amikor neurális hálózatot fejlesztenek, mivel az nagyon hatékony.

A csapat azután kezdett bele ebbe a kutatásba, hogy úgy gondolta, hogy a neurális hálózatok még nem használják ki teljes potenciáljukat, és úgy vélték, hogy gyorsabbak és jobbak lehetnek, ha az emberi hangra és konkrét szavakra tanítják őket.

A hálózatok képzése

Amikor egy új gépi tanulási technikát tesztelnek, az AI-kutatók gyakran képeznek ki egy neurális hálózatot, hogy felismerjen bizonyos tárgyakat és állatokat egy fényképgyűjteményben.

A csapat, amelyben Chen, Lipson, Yu Li és Susan Raghupathi voltak, ellenőrzött kísérletet állítottak fel hipotézisük tesztelésére, és két új neurális hálózatot hoztak létre. Arra törekedtek, hogy megtanítsák őket 10 különböző típusú objektum felismerésére az 50,000 XNUMX „tanítóképnek” nevezett fénykép közül.

Az egyik mesterséges intelligencia rendszert hagyományosabb módon, numerikus értékekkel, míg a kísérleti neurális hálózatot nagyon eltérően. Egy adattáblázatot tápláltak be egy állat vagy tárgy fényképét tartalmazó sorokkal, a második oszlopban pedig egy emberi hang hangfájl volt, amely az állat vagy tárgy szót szólaltatta meg. A kísérleti hálózatban nem szerepeltek 1-esek vagy 0-k.

Mindkét AI-rendszert összesen 15 órán át képezték ki. Az eredmények azt mutatták, hogy az eredeti hálózat tíz 1-es és 0-s sorozattal válaszolt, míg a kísérleti neurális hálózat olyan hangot produkált, amely egyértelműen megpróbálta „megmondani”, hogy mi a képen látható objektum. Bár az eredeti hang nem volt érthető, végül eljutott arra a pontra, hogy többnyire helyes.

A két hálózat egyformán jól teljesített, az esetek 92%-ában helyesen azonosították az állatot vagy tárgyat. A kutatók ezután úgy döntöttek, hogy másodszor is lefuttatják a kísérletet, de ezúttal kevesebb fényképet használtak a folyamat során.

A hagyományos hálózat a tartalék adatok miatt gyengén teljesített, ahogy az várható is volt, körülbelül 35%-os pontosságra esett vissza. A kísérleti hálózat azonban kétszer jobban teljesített, 70%-os pontossággal, annak ellenére, hogy kevesebb adattal rendelkezett.

A kategorikus címkeábrázoláson túl a képosztályozáshoz

Beyond Categorical Label Representation for Image Classification

Watch this video on YouTube

Meglepő eredmények

A következő alkalommal a csapat bonyolultabb képeket használt, például egy sérült kutyáról készült képet. Még a keményebb képek mellett is a hanggal betanított neurális hálózat az esetek körülbelül 50%-ában volt helyes, míg a hagyományos hálózat csak 20%-ban volt pontos.

Boyuan Chen a tanulmány vezető kutatója.

„Eredményeink egyenesen ellentétesek azzal, hogy hány szakértőt képeztek ki a számítógépekről és a számokról való gondolkodásra; gyakori feltevés, hogy a bináris bemenetek hatékonyabb módja az információ továbbításának a géphez, mint a hasonló információgazdagságú hangfolyamok” – magyarázta Chen. „Valójában, amikor benyújtottuk ezt a kutatást egy nagy mesterségesintelligencia-konferenciának, egy névtelen lektor egyszerűen azért utasította el írásunkat, mert úgy érezte, hogy eredményeink „túl meglepőek és nem intuitívak”.

„Ha belegondolunk abba, hogy az emberi nyelv több tízezer éven át optimalizálási folyamaton megy keresztül, akkor teljesen logikus, hogy kimondott szavaink jó egyensúlyt találtak a zaj és a jel között” – mondta Lipson. „Ezért a Shannon Entropy lencséjén keresztül nézve logikus, hogy egy emberi nyelvvel betanított neurális hálózat jobban teljesít, mint egy egyszerű 1-es és 0-ás neurális hálózat.”

A tanulmányt 3. május 2021-án mutatják be a tanulási reprezentációk nemzetközi konferenciáján.

„A nagyobb adathalmazok gyűjtése helyett új és jobb módszerek alkalmazásán kellene gondolkodnunk az AI-rendszerek betanításán” – mondta Chen. "Ha újragondoljuk, hogyan jelenítjük meg a képzési adatokat a gépen, jobban végezhetnénk tanárként."

„Az emberi evolúció egyik legnagyobb titka az, hogy őseink hogyan sajátították el a nyelvet, és hogyan tanultak meg a gyerekek olyan könnyedén beszélni” – teszi hozzá Lipson. "Ha az emberi kisgyermekek az ismétlődő szóbeli oktatással tanulnak a legjobban, akkor talán az AI-rendszerek is képesek erre."

Kapcsolódó témák:AI mesterséges intelligencia Mesterséges idegi hálózat

Up Next

A Pexip együttműködik az NVIDIA-val, hogy magával ragadó videotalálkozó-élményeket teremtsen

Ne hagyd ki

A Habana Labs AI-gyorsítói a Voyager szuperszámítógépben

Alex McFarland

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.