stub Зургийн ангилал хэрхэн ажилладаг вэ? - Нэгдсэн.AI
бидэнтэй хамт холбоно
AI мастер анги:

AI 101

Зургийн ангилал хэрхэн ажилладаг вэ?

mm
шинэчлэгдсэн on

Таны утас зүгээр л зургийг нь авснаар тухайн объектыг хэрхэн тодорхойлох вэ? Сошиал медиа вэбсайтууд хэрхэн автоматаар хүмүүсийг зурган дээр тэмдэглэдэг вэ? Үүнийг хиймэл оюун ухаанаар ажилладаг дүрсийг таних, ангилах замаар гүйцэтгэдэг.

Зургийг таних, ангилах нь хиймэл оюун ухааны хамгийн гайхалтай амжилтуудыг бий болгох боломжийг олгодог. Гэсэн хэдий ч компьютерууд зургийг хэрхэн илрүүлж, ангилж сурах вэ? Энэ нийтлэлд бид компьютерийн зургийг тайлбарлах, илрүүлэхэд ашигладаг ерөнхий аргуудыг авч үзэх бөгөөд дараа нь эдгээр зургийг ангилах хамгийн алдартай аргуудыг авч үзэх болно.

Пикселийн түвшний болон объектод суурилсан ангилал

Зургийн ангиллын техникийг үндсэндээ хоёр өөр ангилалд хувааж болно. пиксел дээр суурилсан ангилал болон объектод суурилсан ангилал.

Пиксел нь зургийн үндсэн нэгж бөгөөд пикселийн шинжилгээ нь зургийн ангиллыг хийх үндсэн арга юм. Гэсэн хэдий ч ангиллын алгоритмууд нь зургийг ангилахын тулд зөвхөн тус тусдаа пикселийн спектрийн мэдээллийг ашиглах эсвэл спектрийн мэдээллийн хамт орон зайн мэдээллийг (ойролцоох пиксел) шалгаж болно. Пиксел дээр суурилсан ангиллын аргууд нь зөвхөн спектрийн мэдээллийг (пикселийн эрчим) ашигладаг бол объектод суурилсан ангиллын аргууд нь пикселийн спектрийн мэдээлэл болон орон зайн мэдээллийг хоёуланг нь харгалзан үздэг.

Пиксел дээр суурилсан ангилалд ашигладаг өөр өөр ангиллын арга байдаг. Үүнд, дундаж хүртэлх хамгийн бага зай, хамгийн их магадлалтай, хамгийн бага-Махаланобис-зай орно. Эдгээр аргууд нь ангиудын дундаж болон хэлбэлзлийг мэддэг байхыг шаарддаг бөгөөд тэдгээр нь бүгд ангийн дундаж ба зорилтот пикселүүдийн хоорондох "зай"-ыг судлах замаар ажилладаг.

Пиксел дээр суурилсан ангиллын аргууд нь ойролцоох бусад пикселийн мэдээллийг ашиглах боломжгүй гэдгээрээ хязгаарлагддаг. Үүний эсрэгээр объектод суурилсан ангиллын аргууд нь бусад пикселүүдийг багтааж болох тул объектуудыг ангилахад орон зайн мэдээллийг ашигладаг. "Объект" нь зөвхөн пикселийн зэргэлдээх бүс нутгийг хэлдэг бөгөөд тухайн пикселийн бүсэд зорилтот объект байгаа эсэхээс үл хамаарна гэдгийг анхаарна уу.

Обьект илрүүлэх зургийн өгөгдлийг урьдчилан боловсруулж байна

Хамгийн сүүлийн үеийн, найдвартай зургийн ангиллын системүүд нь объектын түвшний ангиллын схемийг голчлон ашигладаг бөгөөд эдгээр аргуудын хувьд зургийн өгөгдлийг тодорхой аргаар бэлтгэх ёстой. Объект/бүс нутгийг сонгож, урьдчилан боловсруулах шаардлагатай.

Зургийн өмнө болон тухайн зургийн доторх объектууд/бүс нутгуудыг компьютерт тайлбарлах ёстой тухайн дүрсийг бүрдүүлсэн өгөгдлийг ангилж болно. Зургийг урьдчилан боловсруулж, ангиллын алгоритмд оруулахад бэлэн болгох шаардлагатай бөгөөд энэ нь объект илрүүлэх замаар хийгддэг. Энэ нь машин сургалтын ангилагчийг сургахын тулд өгөгдлийг бэлтгэх, зургийг бэлтгэх чухал хэсэг юм.

Объект илрүүлэх нь төрөл бүрийн арга, техник. Эхлээд сонирхох олон объект эсвэл нэг сонирхол татахуйц объект байгаа эсэхээс үл хамааран зургийн урьдчилсан боловсруулалтыг хэрхэн зохицуулахад нөлөөлдөг. Хэрэв зөвхөн нэг л сонирхол татахуйц объект байгаа бол зураг нь зургийн нутагшуулалтад ордог. Зургийг бүрдүүлсэн пикселүүд нь тоон утгуудыг компьютерээр тайлбарлаж, тохирох өнгө, өнгийг харуулахад ашигладаг. Хязгаарлах хайрцаг гэж нэрлэгддэг объектыг сонирхсон объектын эргэн тойронд зурсан бөгөөд энэ нь компьютерт зургийн аль хэсэг нь чухал болохыг болон объектыг ямар пикселийн утгыг тодорхойлдог болохыг мэдэхэд тусалдаг. Хэрэв зураг дээр олон сонирхолтой объект байгаа бол эдгээр хязгаарлах хайрцгийг зургийн доторх бүх объектод хэрэглэхийн тулд объект илрүүлэх техникийг ашигладаг.

Зураг: Адриан Роузброк Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Intersection_over_Union_-_object_detection_bounding_boxes.jpg)

Урьдчилан боловсруулах өөр нэг арга бол зургийн сегментчилэл юм. Зургийн сегментчилэл нь ижил төстэй шинж чанарт үндэслэн зургийг бүхэлд нь хэсэг болгон хуваах замаар ажилладаг. Зургийн өөр өөр бүсүүд нь зургийн бусад хэсгүүдтэй харьцуулахад ижил пикселийн утгатай байх тул эдгээр пикселүүд нь зураг доторх холбогдох объектуудын хэлбэр, хил хязгаарт тохирсон зургийн маскуудад нэгтгэгддэг. Зургийн сегментчилэл нь компьютерт зургийн онцлогийг тусгаарлахад тусалдаг бөгөөд энэ нь объектыг хязгаарлах хайрцаг шиг ангилахад тусалдаг боловч тэдгээр нь илүү нарийвчлалтай, пикселийн түвшний шошго өгдөг.

Объект илрүүлэх эсвэл зургийн сегментчилэл дууссаны дараа тухайн бүс нутагт шошгыг хэрэглэнэ. Эдгээр шошго нь тухайн объектыг бүрдүүлсэн пикселийн утгуудын хамт өөр өөр шошготой холбоотой хэв маягийг сурах машин сургалтын алгоритмд ордог.

Машин сургалтын алгоритмууд

Өгөгдлийг бэлтгэж, шошго хийсний дараа өгөгдлийг машин сургалтын алгоритмд оруулдаг бөгөөд энэ нь өгөгдөл дээр сургадаг. Бид машин сургалтын хамгийн түгээмэл төрлүүдийн заримыг авч үзэх болно дүрс ангилах алгоритмууд Доорх.

K-хамгийн ойрын хөршүүд

K-Nearest Neighbors бол хамгийн ойрын сургалтын жишээнүүдийг судалж, өгөгдсөн тестийн жишээнд хамгийн их магадлалтай шошгыг олохын тулд тэдгээрийн шошгыг хардаг ангиллын алгоритм юм. KNN ашиглан зургийн ангиллыг хийх үед сургалтын зургийн онцлог векторууд болон шошго нь хадгалагдаж, туршилтын явцад зөвхөн шинж чанарын векторыг алгоритм руу шилжүүлдэг. Дараа нь сургалтын болон туршилтын онцлог векторуудыг ижил төстэй байдлын үүднээс бие биетэйгээ харьцуулна.

KNN-д суурилсан ангиллын алгоритмууд нь маш энгийн бөгөөд олон ангиллыг хялбархан зохицуулдаг. Гэсэн хэдий ч KNN ижил төстэй байдлыг бүх шинж чанарт үндэслэн тооцдог. Энэ нь зургийг ангилахад зөвхөн дэд хэсэг нь чухал ач холбогдолтой зургуудаар хангагдсан тохиолдолд буруу ангилалд өртөмтгий болно гэсэн үг юм.

Вектор машиныг дэмжих

Дэмжлэгийн вектор машинууд нь цэгүүдийг орон зайд байрлуулж, дараа нь цэгүүдийн хооронд хуваах шугам татдаг ангиллын арга бөгөөд объектуудыг хуваах хавтгайн аль тал дээр байрлаж байгаагаас хамааран өөр өөр ангилалд байрлуулдаг. Дэмжлэгийн вектор машинууд нь цөмийн трик гэгддэг техникийг ашиглан шугаман бус ангиллыг хийх чадвартай. Хэдийгээр SVM ангилагч нь ихэвчлэн маш нарийвчлалтай байдаг ч SVM ангилагчдын томоохон сул тал нь хэмжээ, хурдаар хязгаарлагдах хандлагатай байдаг бөгөөд хэмжээ нэмэгдэх тусам хурд нь буурдаг.

Олон давхаргат хүлээн авагчид (мэдрэлийн сүлжээ)

Мэдрэлийн сүлжээний загвар гэж нэрлэгддэг олон давхаргат перцептронууд нь хүний ​​тархинаас санаа авсан машин сургалтын алгоритмууд юм. Олон давхаргат перцептронууд нь хүний ​​тархины мэдрэлийн эсүүд хоорондоо холбогддогтой адил бие биетэйгээ нийлсэн янз бүрийн давхаргаас бүрддэг. Мэдрэлийн сүлжээ нь оролтын функцууд нь өгөгдлийн ангиудтай хэрхэн холбоотой талаар таамаглал дэвшүүлдэг бөгөөд сургалтын явцад эдгээр таамаглалыг тохируулдаг. Олон давхаргат перцептрон гэх мэт энгийн мэдрэлийн сүлжээний загварууд нь шугаман бус харилцааг судлах чадвартай бөгөөд үүний үр дүнд тэдгээр нь бусад загваруудаас хамаагүй илүү нарийвчлалтай байж чаддаг. Гэсэн хэдий ч MLP загварууд нь гүдгэр бус алдагдлын функцүүд гэх мэт зарим анхаарал татахуйц асуудлуудтай тулгардаг.

Гүн суралцах алгоритмууд (CNNs)

Фото: APhex34 Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Typical_cnn.png)

Сүүлийн үед хамгийн түгээмэл хэрэглэгддэг дүрс ангилах алгоритм бол Convolutional Neural Network (CNN) юм. CNN нь олон давхаргат мэдрэлийн сүлжээг объектын ангилалд хамгийн чухал, хамааралтай шинж чанаруудыг ялгах чадвартай тусгай давхаргатай хослуулсан мэдрэлийн сүлжээний тохируулсан хувилбарууд юм. CNN нь зургийн онцлогийг автоматаар олж, үүсгэж, сурч чаддаг. Энэ нь зургийг машин сургалтын алгоритмд бэлтгэхийн тулд гараар шошголох, сегментлэх хэрэгцээг эрс багасгадаг. Мөн тэдгээр нь гүдгэр бус алдагдлын функцийг шийдэж чаддаг тул MLP сүлжээнүүдээс давуу талтай.

Convolutional Neural Network нь "хувиралт" үүсгэдэг учраас нэрээ авсан. CNN нь шүүлтүүр авч, зураг дээр гулсуулах замаар ажилладаг. Та үүнийг хөдлөх цонхоор ландшафтын хэсгүүдийг үзэж, цонхоор нэг удаад үзэх боломжтой шинж чанарууд дээр анхаарлаа төвлөрүүлэх гэж бодож болно. Шүүлтүүр нь пикселийн утгуудаар үржүүлсэн тоон утгуудыг агуулдаг. Үр дүн нь анхны дүрсийг төлөөлөх тоогоор дүүрэн шинэ хүрээ буюу матриц юм. Сонгосон тооны шүүлтүүрийн хувьд энэ үйл явц давтагдаж, дараа нь хүрээг нэгтгэж, анхны зургаас арай жижиг, нарийн төвөгтэй шинэ зураг үүсгэдэг. Зургийн хамгийн чухал утгуудыг сонгохын тулд нэгтгэх гэж нэрлэгддэг техникийг ашигладаг бөгөөд гол зорилго нь мэдрэлийн сүлжээнд зураг дээрх объектуудыг танихад туслах болно.

Эвдэрсэн мэдрэлийн сүлжээ хоёр өөр хэсгээс бүрдэнэ. Хувиралт давхаргууд нь зургийн онцлог шинж чанаруудыг задалж, тэдгээрийг мэдрэлийн сүлжээний давхаргууд тайлбарлаж, суралцах боломжтой формат болгон хувиргадаг. Эртний эвдрэлийн давхаргууд нь энгийн шугам, хил хязгаар гэх мэт зургийн хамгийн үндсэн элементүүдийг гаргаж авах үүрэгтэй. Дунд зэргийн эргэлтийн давхаргууд нь энгийн муруй, булан гэх мэт илүү төвөгтэй хэлбэрийг барьж эхэлдэг. Сүүлчийн, гүнзгий эргэлтийн давхаргууд нь CNN-ийн мэдрэлийн сүлжээний хэсэгт дамждаг зургийн өндөр түвшний шинж чанаруудыг гаргаж авдаг бөгөөд ангилагчийн сурдаг зүйл юм.

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.