Îstîxbaratê ya sûnî

Bi Fêrbûna Makîneyê re Kêmkirina Wêneyên Rêzeya Bilind

Demê on September 28, 2021

Lêkolîna nû ya ji Keyaniya Yekbûyî rêgezek fêrbûna makîneyê ya pêşkeftî pêşniyar kir da ku mezinahiya wêneyan biguhezîne, li ser bingeha nirxa têgihîştî ya beşên cûrbecûr yên naveroka wêneyê, li şûna kêmkirina bêserûber pîvanê (û ji ber vê yekê kalîteyê û taybetmendiyên jêbirin) ji bo hemî pîxelên di nav de. wêne.

Wekî beşek ji eleqeyek mezin a li ser pergalên berhevkirina AI-ê-rêvekirî, ew nêzîkatiyek e ku di dawiyê de dikare kodekên nû ji bo berhevkirina wêneya giştî agahdar bike, her çend kar ji hêla wênekêşiya tenduristiyê ve tê motîv kirin, ku li wir kêmkirina kêfî ya wêneyên bijîjkî yên bi rezîliya bilind dikare bibe sedema windabûnê. agahdariya jiyanê.

Mîmariya temsîlî ya pergala nû. Modula deformasyonê ya navberî nexşeyek deformasyonê ya ku bi deverên balkêş ên wêneyê re têkildar çêdike. Tûrbûn û arastekirina xalên sor van deveran nîşan dide. Nexşe ne tenê ji bo daxistina nimûneyê, lê ji bo ji nû ve avakirina deverên berjewendiya seretayî tê bikar anîn dema ku naveroka wêneyê li aliyê din ê pêvajoya perwerdehiyê bi rengek neyeksan ji nû ve nûvekirin. Çavkanî: https://arxiv.org/pdf/2109.11071.pdf

Sîstema derbas dibe dabeşkirina semantîk ji wêneyan re - blokên berfireh, ku di wêneya jorîn de wekî blokên rengîn têne xuyang kirin, ku di hundurê wêneyê de hebûnên naskirî dihewîne, wek mînak 'rê', 'bike', 'birîn', et al. Dûrxistina nexşeyên dabeşkirina semantîkî wê hingê têne bikar anîn da ku hesab bikin ka kîjan beşên wêneyê divê pir zêde neyên xwarê.

Binivîse Fêrbûna Downample ji bo Segmentkirina Wêneyên Çareseriya Ultra-Blind, ji kaxezek nû hevkariyek di navbera lêkolînerên Navenda Têgihîştina Wêne ya Bijîjkî ya Zanîngeha Koleja Londonê û lêkolînerên ji beşa Zanistiya Tenduristiyê ya Microsoft Cambridge de ye.

Cihana (Edil) Kêm-Res ya Perwerdehiya Vîzyona Komputerê

Perwerdehiya pergalên dîtina komputerê ji hêla kapasîteya GPU ve bi girîngî ve girêdayî ye. Dibe ku berhevokên daneyan bi hezaran wêneyan hebin ku pêdivî ye ku taybetmendî jê werin derxistin, lê tewra GPU-yên qada pîşesazî jî bi 24 GB VRAM-ya herî bilind e, bi kêmasiyên berdewam bandor li hebûna û lêçûnê dike.

Ev tê vê wateyê ku pêdivî ye ku dane bi navgînên tixûbdar ên Tensor ên GPU-yê ve di beşên birêkûpêk de, bi 8-16 wêneyên ku ji gelek xebatên perwerdehiya vîzyona komputerê ne, têne xwarin.

Gelek çareseriyên eşkere nînin: her çend VRAM bêsînor bûya û mîmarên CPU-yê dikaribû bi wî rengî rêwiyanek ji GPU-yê re bêyî ku girêkek mîmarî çêbike bicîh bîne, dê mezinahiyên pir zêde yên komê li ber hesabê veguhertinên berfirehtir taybetmendiyên asta bilind derxînin. ku dibe ku ji bo bikêrhatina algorîtmaya paşîn krîtîk be.

Zêdekirina çareseriya wêneyên têketinê dê were vê wateyê ku hûn neçar in ku pîvanên piçûktir bikar bînin da ku daneyan li 'cihê nepenî' ya perwerdehiya GPU-yê bicîh bikin. Berevajî vê yekê, îhtîmal e ku modelek 'ecentrîk' û zêde zêde çêbike.

Zêdekirina GPU-yên zêde jî, bi kêmanî di mîmarên herî gelemperî de, arîkar nake: dema ku sazûmanên pir-GPU dikarin demên perwerdehiyê bilezînin, ew jî dikarin yekparebûna encamên perwerdehiyê têk bibin, mîna du kargehên cîran ku li ser heman hilberê dixebitin, tenê bi têlefonek. rêzê ji bo koordînasyona hewldanên xwe.

Wêneyên Bi Aqilmendî Veguheztin

Tiştê ku maye ev e ku beşên herî têkildar ên wêneyek tîpîk ji bo danehevek dîtina kompîturê, bi rêbaza nû, di veguheztina mezinahiya otomatîkî de ku diqewime dema ku pêdivî ye ku wêneyên pir rezîliya bilind werin kêm kirin da ku li boriyek ML-ê bicîh bibin, bêkêmasî were parastin.

Ev pirsgirêkek cuda cuda ye di berhevokên fêrbûna makîneyê de hunerên windayî, cihê ku kalîte di lûleyên guhezbarkirina otomatîkî de winda dibe ji ber ku kodek berhevokê agahdariya pir zêde (bi gelemperî ku nayê vegerandin) diavêje.

Belê, di vê rewşê de, tewra hilanîna li ser formatek wêneyek bê windahî (wek PNG bi berhevkirina LZW) nikare agahdariya ku bi gelemperî têne avêtin dema ku mezinahî (mînakek) wêneyek Rezonansê ya Magnetic (MRI) ji pirê caran pîvaz dike, vegerîne. pîvanên tomar-şikandina ji bo çareseriyek 256 × 256 an 512 × 512 pixelên tîpîk ên pêbawertir.

Ji bo ku tişt xirabtir bibin, li gorî hewcedariyên çarçovê ve girêdayî, sînorên reş bi gelemperî dê li wêneyên çavkaniya çargoşe wekî peywirek hilberandina daneya rûtîn werin zêdekirin, da ku ji bo hilberandina tora neuralî formek têketina rastîn a çargoşe were hilberandin, û cîhê berdest ji bo potansiyel bêtir kêm bike. daneyên girîng.

Lekolînwanên ji UCL û Microsoft di şûna wê de pêşniyar dikin ku pêvajoyek mezinbûnê aqilmendtir bikin, bi bandor bi karanîna tiştê ku her gav qonaxek gelemperî di rê de ye ji bo ronîkirina deverên berjewendiyê, barkirina hin barê şîrovekirinê ji pergala fêrbûna makîneyê ya ku tê de ye. wêne dê di dawiyê de derbas bibin.

Rêbaz, lêkolîner îdîa dikin, li ser pêşkêşiyek 2019-an (wêneya jêrîn) çêtir dike ku bi balkişandina kalîteyê-balkêşiyê li destkeftiyên wekhev digeriya. sînor ji tiştên.

Ji 'Efficient Segmentation: Learning Downsampling Near Semantic Boundaries', Marin et al., 2019. Çavkanî: https://arxiv.org/pdf/1907.07156.pdf

Ji "Segmentation Efficient: Fêrbûna Downsampling Nêzîkî Sînorên Semantîk", Marin et al., 2019. Çavkanî: https://arxiv.org/pdf/1907.07156.pdf

Wekî ku xebata nû destnîşan dike, ev nêzîkatî dihesibîne ku deverên balkêş li ser sînoran kom dibin, di heman demê de mînakên ji wênekêşana bijîjkî, wek herêmên kanserê yên binavkirî, bi çarçoweya asta bilind ve girêdayî ne, û dibe ku di nav deverên berfireh de di wêneyekê de wekî hûrguliyên ku bi hêsanî têne avêtin xuya bikin. , ji bilî li kevanan.

Downsampler hîn dibe

Lêkolîna nû pêşniyar dike a dakêşana fêrbûnê jê re modulek deformasyonê tê gotin, ku bi modulek dabeşkirina paralel re bi hev re tê perwerde kirin, û ji ber vê yekê dikare li ser qadên balkêş ên ku ji hêla dabeşkirina semantîkî ve têne nas kirin agahdar bibin, û van di dema pêvajoya dakêşanê de pêşîn bikin.

Nivîskaran pergalê li ser gelek danehevên populer ceriband, di nav de Cityscapes, DeepGlobe û databasek Histolojiya Penceşêra Prostatê ya herêmî, 'PCa-Histo'.

Sê nêzîkatî: li milê çepê, daxistina nimûneyên 'uniform'; di navîn de, ji kaxeza 2019-an nêzîkatiya 'deviya herî baş'; li milê rastê, mîmariya li pişt pergala nû, ku ji hêla naskirina yekîtiyê ve di qatek dabeşkirina semantîkî de tê agahdar kirin.

Nêzîkatiyek bi heman rengî ji bo dabeşkerek hatiye ceribandin di sala 2019 de pêşniyar kirin, lê nivîskarên kaxeza heyî îdia dikin ku ev rêbaz bi têra xwe deverên girîng rêkûpêk nake, potansiyel di çarçoveyek wênekêşiya bijîjkî de deverên girîng winda dike.

results

Modula deformasyonê di pergala nû de Tora Neuralî ya Convolutional (CNN) piçûk e, dema ku qata dabeşkirinê mîmariyek kûr a CNN-ê ye ku bikar tîne. HRNetV2-W48. Tora Parskirina Dîmenê ya Pyramîd (PSP-net) ji bo ceribandinên CityScapes wekî qatek kontrolê ya hişmendiyê hate bikar anîn.

Daneyên navborî bi çarçoweya nû ve hatin ceribandin, bi karanîna ji nû ve nimûneyek yekgirtî (rêbaza adetî), rêbaza deştê ya çêtirîn ji sala 2019-an ve, û bi karanîna nêzîkatiya nû ya dabeşkirina semantîk.

Nivîskar radigihînin ku rêbaza nû nîşan dide 'avantaja zelal li ser naskirin û cihêkirina çînên klînîkî yên herî girîng', bi zêdebûna rastbûna 15-20%. Ew bêtir dibînin ku dûrahiya di navbera van çînan de bi gelemperî wekî 'sînorê ji saxlem heya penceşêrê' tê pênase kirin.

Di sê rêbazan de analîzkirina yekîtiyê (IoU) ya çîn-aqilmendî: çep, vesazkirina standard; navîn, qiraxa çêtirîn; û rast, nêzîkatiya nû.CityScapes bi tenê 64 x 128, bi PCaHisto daket 80 x 800, û DeepGlobe daket 300 pixelên çargoşe.

Di raporê de tê gotin ku rêbaza wan 'dikare stratejiyek kêmkirina nimûneyê fêr bibe, agahdariya çêtir biparêze û danûstendinek çêtir bike.', bi dawî kir ku çarçoveya nû 'dikare bi bandor fêr bibe ku meriv budceya tixûbdar a pixelan li kuderê "veberhênan bike" di dakêşanê de da ku di rastbûna dabeşkirinê de vegera giştî ya herî bilind bi dest bixe'.

Wêneyê sereke ji bo gotara vê taybetmendiyê ji thispersondoesnotexist.com hate peyda kirin. Ji bo xeletiya nivîsê 3:35 GMT + 2 hate nûve kirin.