stubbur Tölva fær að bera kennsl á 200 fuglategundir úr einni mynd - Unite.AI
Tengja við okkur

Artificial Intelligence

Tölva fær að bera kennsl á 200 fuglategundir úr einni mynd

Uppfært on

Vísindamenn frá Duke háskólanum notuðu vélanám til að þjálfa tölvu til að bera kennsl á allt að 200 mismunandi tegundir fugla. Tölvan þarf aðeins eina mynd til að ljúka auðkenningarferlinu. Fyrir manneskju þarf oft margra ára fuglaskoðun til að geta greint mismunandi tegundir hver frá annarri. 

Rannsókninni var stýrt af Duke tölvunarfræði Ph.D. nemandi Chaofan Chen, ásamt grunnnámi Oscar Li. Það var einnig unnið af öðrum liðsmönnum spágreiningarstofunnar undir stjórn Duke prófessorsins Cynthia Rudin. 

AI sýnir hugsun sína

Þó að auðkenningarferlið sé áhrifamikið, þá er mikilvægari þáttur í þróuninni. Gervigreindin er fær um að sýna hugsun sína og gerir jafnvel óreyndum fuglaskoðara kleift að skilja ferlið. 

Djúptauganetið, eða reiknirit sem byggjast á starfsemi heilans, var þjálfað með 11,788 myndum. Á myndunum voru 200 mismunandi fuglategundir, þar á meðal allt frá öndum til kólibrífugla. 

Hópur vísindamanna þurfti ekki að þjálfa netið sérstaklega til að bera kennsl á gogg eða vængjafjaðrir. Þess í stað getur netkerfið tekið mynd af fugli og auðkennt ákveðin mynstur á myndinni. Það getur síðan tekið þessi mynstur og greint fyrri mynstur sem það hefur þegar kynnst í dæmigerðum tegundareiginleikum. 

Samkvæmt teyminu býr netkerfið síðan til röð hitakorta sem auðkenna ákveðna eiginleika. Til dæmis getur það greint muninn á venjulegum varnarfugli og hettupeysu, ásamt mismunandi eiginleikum eins og grímuklæddu höfði og gulum maga. Það sýnir síðan að þessir eiginleikar eru það sem leiddu til auðkenningarinnar. 

Ólíkt öðrum kerfum

Tauganetið gat greint réttu tegundina í allt að 84% tilvika. Þetta er svipað og sum af bestu kerfum. Munurinn er sá að þessi kerfi útskýra ekki hugsunarferlið eins og þetta. 

Að sögn Rudins er byltingarkenndasti þátturinn í þessu verkefni að það veitir sjónmynd fyrir það sem djúpt taugakerfi sjá þegar þau horfa á mynd. 

Þessi tækni er nú einnig notuð á samfélagsmiðlum, til að bera kennsl á grunaða glæpamenn í eftirlitsmyndavélum og hjálpa sjálfstýrðum ökutækjum að bera kennsl á umferðarljós og gangandi vegfarendur. 

Djúpnámshugbúnaður þarf oft ekki að vera sérstaklega forritaður til að læra af gögnum, sem er ekki raunin fyrir hefðbundinn hugbúnað. Hins vegar er ferlið ekki alltaf skýrt eða sýnt og því er oft erfitt að útskýra hvernig reikniritin „hugsa“ þegar mynd er flokkuð. 

Í framtíðinni

Rudin og fleiri vinna nú að nýjum djúpnámslíkönum fyrir gervigreind, sem ýtir sviðinu áfram. Nýju líkönin geta útskýrt rökstuðning þeirra og auðkenningarferli. Þetta hjálpar rannsakendum að sjá frá upphafi til enda og það gerir það auðveldara að greina ástæðuna á bak við mistök eða vandamál. 

Rudin og teymi hennar munu vinna að því að nota reikniritið á læknasviðinu. Það gæti greint ákveðin vandamál innan læknisfræðilegra mynda eins og brjóstamyndatökur. Þetta myndi hjálpa læknum að greina hnúða, kölkun og önnur merki um brjóstakrabbamein. 

Að sögn Rudins líkir netið eftir því hvernig læknar gera greiningu. 

„Þetta er rökhugsun sem byggir á málefnum,“ sagði Rudin. „Við erum að vona að við getum útskýrt betur fyrir læknum eða sjúklingum hvers vegna ímynd þeirra var flokkuð af netinu sem annað hvort illkynja eða góðkynja.

Teymið mun kynna erindi þar á meðal rannsóknir sínar á þrjátíu og þriðju ráðstefnunni um taugaupplýsingavinnslukerfi (NeurlIPS2019) í Vancouver þann 12. desember. 

Rannsóknin inniheldur einnig höfunda Daniel Tao og Alina Barnerr frá Duke og Jonathan Su við MIT Lincoln Laboratory. 

 

Alex McFarland er blaðamaður og rithöfundur gervigreindar sem skoðar nýjustu þróunina í gervigreind. Hann hefur unnið með fjölmörgum AI sprotafyrirtækjum og útgáfum um allan heim.