кочан Намаляване на изображения с висока разделителна способност с машинно обучение - Unite.AI
Свържете се с нас

Изкуствен интелект

Намаляване на изображения с висока разделителна способност с машинно обучение

mm
Обновено on

Ново изследване от Обединеното кралство предложи подобрен метод за машинно обучение за преоразмеряване на изображения въз основа на възприеманата стойност на различните части от съдържанието на изображението, вместо безразборно намаляване на размерите (и следователно на качеството и функциите за извличане) за всички пиксели в изображението.

Като част от нарастващия интерес към системите за компресиране, управлявани от AI, това е подход, който евентуално може да информира нови кодеци за общо компресиране на изображения, въпреки че работата е мотивирана от здравни изображения, където произволното намаляване на семплирането на медицински изображения с висока разделителна способност може да доведе до загуба на животоспасяваща информация.

Представителна архитектура на новата система. Модулът за интерстициална деформация създава карта на деформация, която съответства на областите на интерес в изображението. Плътността и посоката на червените точки показват тези области. Картата се използва не само за намаляване на дискретизацията, но и за реконструиране на областите от първичен интерес, когато съдържанието на изображението е неравномерно премащабирано от другата страна на процеса на обучение. Източник: https://arxiv.org/pdf/2109.11071.pdf

Представителна архитектура на новата система. Модулът за интерстициална деформация създава карта на деформация, която съответства на областите на интерес в изображението. Плътността и посоката на червените точки показват тези области. Картата се използва не само за намаляване на дискретизацията, но и за реконструиране на областите от първичен интерес, когато съдържанието на изображението е неравномерно премащабирано от другата страна на процеса на обучение.  Източник: https://arxiv.org/pdf/2109.11071.pdf

Системата се прилага семантична сегментация към изображенията – широки блокове, представени като цветни блокове в изображението по-горе, които обхващат разпознати обекти в картината, като напр. "път", "велосипед", "лезия", et al. След това разположението на картите за семантично сегментиране се използва за изчисляване кои части от снимката не трябва да бъдат прекомерно намалени.

озаглавен Научете се да намалявате дискретизацията за сегментиране на изображения с ултрависока разделителна способност- нова хартия е сътрудничество между изследователи от Центъра за изчисления на медицински изображения в University College London и изследователи от отдела за разузнаване в здравеопазването в Microsoft Cambridge.

Светът (сравнително) с ниска разделителна способност на обучението по компютърно зрение

Обучението на системи за компютърно зрение е значително ограничено от капацитета на GPU. Наборите от данни могат да съдържат много хиляди изображения, от които трябва да бъдат извлечени функции, но дори графичните процесори с промишлен обхват са склонни да достигнат своя връх при 24gb VRAM, с продължаващ недостиг засягащи наличността и цената.

Това означава, че данните трябва да се подават през ограничените Tensor ядра на GPU в управляеми партиди, с 8-16 изображения, типични за много работни потоци за обучение на компютърно зрение.

Няма много очевидни решения: дори ако VRAM беше неограничен и архитектурите на CPU можеха да поемат този вид пропускателна способност от GPU, без да образуват архитектурно тясно място, много големите размери на партиди ще са склонни да извличат характеристики на високо ниво за сметка на по-детайлни трансформации което може да е критично за полезността на крайния алгоритъм.

Увеличаването на разделителната способност на входните изображения ще означава, че трябва да използвате по-малки размери на партиди, за да поберете данните в „латентното пространство“ на обучението на GPU. Това, обратно, вероятно ще доведе до модел, който е „ексцентричен“ и преустроен.

Добавянето на допълнителни графични процесори също не помага, поне в най-често срещаните архитектури: докато настройките с множество графични процесори могат да ускорят времето за обучение, те също могат да компрометират целостта на резултатите от обучението, като две съседни фабрики, работещи върху един и същ продукт, само с телефон линия за координиране на усилията им.

Интелигентно преоразмерени изображения

Това, което остава, е, че най-подходящите секции от типично изображение за набор от данни за компютърно зрение могат, с новия метод, да бъдат запазени непокътнати при автоматичното преоразмеряване, което се случва, когато изображения с много висока разделителна способност трябва да бъдат намалени, за да паснат на ML тръбопровод.

Това е отделно предизвикателство към проблема за артефакти със загуба в набори от данни за машинно обучение, където качеството се губи при автоматизирани тръбопроводи за преоразмеряване, тъй като кодекът за компресиране изхвърля твърде много (обикновено невъзстановима) информация.

По-скоро в този случай дори записването във формат на изображение без загуби (като PNG с LZW компресия) не може да възстанови информацията, която обикновено се изхвърля при преоразмеряване (например) сканиране с магнитен резонанс (MRI) от често рекордни размери до по-достоверна типична разделителна способност 256×256 или 512×512 пиксела.

За да влошат нещата, в зависимост от изискванията на рамката, черни граници често ще се добавят към правоъгълни изходни изображения като рутинна задача за обработка на данни, за да се създаде истински квадратен входен формат за обработка на невронни мрежи, като допълнително се намалява наличното пространство за потенциално важни данни.

Изследователите от UCL и Microsoft вместо това предлагат да направят процеса на преоразмеряване по-интелигентен, като ефективно използват това, което винаги е било общ етап в процес на подготовка, за да подчертаят областите на интерес, освобождавайки част от интерпретативната тежест от системата за машинно обучение, чрез която изображенията в крайна сметка ще преминат.

Методът, твърдят изследователите, подобрява предложение от 2019 г. (изображение по-долу), което търси подобни печалби чрез фокусиране на вниманието върху качеството границите на обекти.

От „Ефективно сегментиране: Научаване на намаляване на семплирането близо до семантичните граници“, Марин и др., 2019 г. Източник: https://arxiv.org/pdf/1907.07156.pdf

От „Ефективно сегментиране: Научаване на намаляване на дискретизацията близо до семантичните граници“, Марин и др., 2019 г. Източник: https://arxiv.org/pdf/1907.07156.pdf

Както се отбелязва в новата работа, този подход предполага, че областите на интерес се събират на граници, докато примерите от медицински изображения, като анотирани ракови региони, зависят от контекста на по-високо ниво и могат да изглеждат като лесно изхвърляни детайли в рамките на по-широки области в изображението , а не по краищата.

Обучаем Downsampler

Новото изследване предлага a обучаем понижаващ семплер наречен модул за деформация, който се обучава съвместно с модул за паралелно сегментиране и следователно може да бъде информиран за областите на интерес, идентифицирани чрез семантично сегментиране, и да ги приоритизира по време на процеса на понижаване на дискретизацията.

Авторите тестваха системата върху няколко популярни набора от данни, включително Градски пейзажи, DeepGlobe и локален набор от хистологични данни за рак на простатата, „PCa-Histo“.

Три подхода: отляво, съществуващо „равномерно“ намаляване на дискретизацията; в средата, подходът „оптимално предимство“ от документа от 2019 г.; вдясно, архитектурата зад новата система, информирана от разпознаване на обекти в слой за семантично сегментиране.

Три подхода: отляво, съществуващо „равномерно“ намаляване на дискретизацията; в средата, подходът „оптимално предимство“ от документа от 2019 г.; вдясно, архитектурата зад новата система, информирана от разпознаване на обекти в слой за семантично сегментиране.

Подобен подход е изпробван за класификатор предложен през 2019 г, но авторите на настоящия документ твърдят, че този метод не регулира адекватно областите на акцент, потенциално липсващи жизненоважни области в контекста на медицински изображения.

Резултати

Модулът за деформация в новата система е малка конволюционна невронна мрежа (CNN), докато сегментационният слой е дълбока CNN архитектура, използваща HRNetV2-W48. Pyramid Scene Parsing Network (PSP-net) беше използван като слой за проверка на разума за тестовете на CityScapes.

Гореспоменатите набори от данни бяха тествани с новата рамка, като се използва унифицирано повторно вземане на проби (обичайният метод), методът на оптималния край от 2019 г. и новият подход използва семантично сегментиране.

Авторите съобщават, че новият метод показва „ясно предимство при идентифицирането и разграничаването на клинично най-важните класове“, с увеличение на точността от 15-20%. Освен това те отбелязват, че разстоянието между тези класове често се определя като „прагът от здрави до рак“.

Анализ на класово пресичане върху обединение (IoU) в трите метода: ляво, стандартно повторно вземане на проби; среден, оптимален ръб; и вдясно, новият подход. CityScapes беше намален до 64 x 128, с PCaHisto до 80 x 800 и DeepGlobe до 300 квадратни пиксела.

Анализ на класово пресичане върху обединение (IoU) в трите метода: ляво, стандартно повторно вземане на проби; среден, оптимален ръб; и вдясно, новият подход. CityScapes беше намален до 64 x 128, с PCaHisto до 80 x 800 и DeepGlobe до 300 квадратни пиксела.

В доклада се посочва, че методът им „може да научи стратегия за намаляване на дискретизацията, да запази по-добре информацията и да даде възможност за по-добър компромис.“, заключвайки това новата рамка „може ефективно да научи къде да „инвестира“ ограничения бюджет от пиксели при намаляване на дискретизацията, за да постигне най-висока обща възвръщаемост в точността на сегментиране“.

 

Основното изображение за статията на тази функция е получено от thispersondoesnotexist.com. Актуализирано в 3:35 GMT+2 за текстова грешка.