AI 101

რა არის კომპიუტერული ხედვა?

განახლებულია on ივლისი 21, 2023

რა არის კომპიუტერული ხედვა?

კომპიუტერული ხედვის ალგორითმები მსოფლიოში ერთ-ერთი ყველაზე ტრანსფორმაციული და ძლიერი AI სისტემაა. კომპიუტერული ხედვის სისტემები იხილეთ გამოყენება ავტონომიურ მანქანებში, რობოტების ნავიგაციაში, სახის ამოცნობის სისტემებში და სხვა. თუმცა, რა არის ზუსტად კომპიუტერული ხედვის ალგორითმები? როგორ მუშაობენ ისინი? ამ კითხვებზე პასუხის გასაცემად, ჩვენ ღრმად ჩავუღრმავდებით კომპიუტერული ხედვის თეორიას, კომპიუტერული ხედვის ალგორითმებს და კომპიუტერული ხედვის სისტემების აპლიკაციებს.

როგორ მუშაობს კომპიუტერული ხედვის სისტემები?

იმისათვის, რომ სრულად გავიგოთ, თუ როგორ მუშაობს კომპიუტერული ხედვის სისტემები, მოდით, ჯერ ერთი წუთით განვიხილოთ, თუ როგორ ცნობენ ადამიანები ობიექტებს. ნეიროფსიქოლოგიას აქვს საუკეთესო ახსნა იმისა, თუ როგორ ვცნობთ ობიექტებს, არის მოდელი, რომელიც აღწერს საწყის ფაზას ობიექტის აღიარება როგორც ერთი, სადაც ობიექტების ძირითადი კომპონენტები, როგორიცაა ფორმა, ფერი და სიღრმე, პირველ რიგში განიმარტება ტვინის მიერ. თვალიდან ტვინში შემავალი სიგნალები ანალიზდება, რათა თავიდან ამოიღონ ობიექტის კიდეები და ეს კიდეები გაერთიანებულია უფრო რთულ წარმოდგენაში, რომელიც სრულდება ობიექტის ფორმაში.

კომპიუტერული ხედვის სისტემები მოქმედებენ ადამიანის ვიზუალური სისტემის მსგავსად, ჯერ საგნის კიდეების გარჩევით და შემდეგ ამ კიდეების შეერთებით ობიექტის ფორმაში. დიდი განსხვავება ისაა, რომ იმის გამო, რომ კომპიუტერები სურათებს განმარტავენ, როგორც რიცხვებს, კომპიუტერულ ხედვის სისტემას სჭირდება გარკვეული გზა ინდივიდუალური პიქსელების ინტერპრეტაციისთვის, რომლებიც ქმნიან სურათს. კომპიუტერული ხედვის სისტემა მიანიჭებს მნიშვნელობებს გამოსახულების პიქსელებს და პიქსელების ერთ რეგიონსა და პიქსელების მეორე რეგიონს შორის მნიშვნელობების სხვაობის შემოწმებით, კომპიუტერს შეუძლია განასხვავოს კიდეები. მაგალითად, თუ გამოსახულება არის ნაცრისფერი, მაშინ მნიშვნელობები მერყეობს შავიდან (გამოსახულია 0-ით) თეთრამდე (გამოსახულია 255-ით). პიქსელების მნიშვნელობების დიაპაზონის უეცარი ცვლილება ერთმანეთთან ახლოს მიუთითებს ზღვარზე.

პიქსელების მნიშვნელობების შედარების ეს ძირითადი პრინციპი ასევე შეიძლება გაკეთდეს ფერადი სურათებით, კომპიუტერით ადარებს განსხვავებებს სხვადასხვა RGB ფერის არხებს შორის. ასე რომ, იცოდეთ, რომ ჩვენ ვიცით, როგორ იკვლევს კომპიუტერული ხედვის სისტემა პიქსელების მნიშვნელობებს გამოსახულების ინტერპრეტაციისთვის, მოდით გადავხედოთ კომპიუტერული ხედვის სისტემის არქიტექტურას.

კონვოლუციური ნერვული ქსელები (CNN)

კომპიუტერული ხედვის ამოცანებში გამოყენებული ხელოვნური ინტელექტის ძირითადი ტიპი არის ერთი კონვოლუციურ ნერვულ ქსელებზე დაფუძნებული. რა არის კონვოლუცია ზუსტად?

კონვოლუცია არის მათემატიკური პროცესები, რომლებსაც ქსელი იყენებს პიქსელებს შორის მნიშვნელობების სხვაობის დასადგენად. თუ წარმოგიდგენიათ პიქსელების მნიშვნელობების ბადე, წარმოიდგინეთ, რომ პატარა ბადე გადაადგილდება ამ მთავარ ბადეზე. მეორე ბადის ქვეშ არსებული მნიშვნელობები ანალიზდება ქსელის მიერ, ამიტომ ქსელი ერთდროულად მხოლოდ რამდენიმე პიქსელს იკვლევს. ამას ხშირად უწოდებენ "მოცურების ფანჯრების" ტექნიკას. მოცურების ფანჯრის მიერ გაანალიზებული მნიშვნელობები შეჯამებულია ქსელის მიერ, რაც ხელს უწყობს გამოსახულების სირთულის შემცირებას და ქსელს გაუადვილებს შაბლონების ამოღებას.

კონვოლუციური ნერვული ქსელებია დაყოფილია ორ განსხვავებულ ნაწილად, კონვოლუციური განყოფილება და სრულად დაკავშირებული განყოფილება. ქსელის კონვოლუციური ფენები არის მახასიათებლების ამომყვანები, რომელთა ამოცანაა სურათის შიგნით არსებული პიქსელების ანალიზი და მათი წარმოდგენების ფორმირება, საიდანაც ნერვული ქსელის მჭიდროდ დაკავშირებულ ფენებს შეუძლიათ ისწავლონ შაბლონები. კონვოლუციური ფენები იწყება მხოლოდ პიქსელების შესწავლით და გამოსახულების დაბალი დონის მახასიათებლების მოპოვებით, როგორიცაა კიდეები. მოგვიანებით კონვოლუციური ფენები უერთდება კიდეებს უფრო რთულ ფორმებად. დასასრულისთვის, ქსელს იმედია ექნება გამოსახულების კიდეებისა და დეტალების წარმოდგენა, რომელიც მას შეუძლია გადასცეს სრულად დაკავშირებულ ფენებს.

სურათის ანოტაცია

მიუხედავად იმისა, რომ კონვოლუციურ ნერვულ ქსელს შეუძლია სურათებიდან შაბლონების ამოღება თავისთავად, კომპიუტერული ხედვის სისტემის სიზუსტე შეიძლება მნიშვნელოვნად გაუმჯობესდეს სურათების ანოტაციით. გამოსახულების ანოტაცია არის სურათზე მეტამონაცემების დამატების პროცესი, რომელიც ეხმარება კლასიფიკატორს გამოსახულების მნიშვნელოვანი ობიექტების აღმოჩენაში. გამოსახულების ანოტაციის გამოყენება მნიშვნელოვანია, როდესაც კომპიუტერული ხედვის სისტემები უნდა იყოს ძალიან ზუსტი, მაგალითად, ავტონომიური მანქანის ან რობოტის მართვისას.

არსებობს სურათების ანოტაციის სხვადასხვა გზა კომპიუტერული ხედვის კლასიფიკატორის მუშაობის გასაუმჯობესებლად. გამოსახულების ანოტაცია ხშირად კეთდება შემოსაზღვრული ყუთებით, ყუთით, რომელიც გარს აკრავს სამიზნე ობიექტის კიდეებს და ეუბნება კომპიუტერს ყურადღების ფოკუსირება ყუთში. სემანტიკური სეგმენტაცია არის გამოსახულების ანოტაციის სხვა ტიპი, რომელიც მოქმედებს გამოსახულების კლასის მინიჭებით გამოსახულების ყველა პიქსელზე. სხვა სიტყვებით რომ ვთქვათ, ყოველი პიქსელი, რომელიც შეიძლება ჩაითვალოს „ბალახად“ ან „ხეებად“, დაიწერება, როგორც ამ კლასების კუთვნილება. ტექნიკა უზრუნველყოფს პიქსელის დონის სიზუსტეს, მაგრამ სემანტიკური სეგმენტაციის ანოტაციების შექმნა უფრო რთული და შრომატევადია, ვიდრე მარტივი შეზღუდვის ველების შექმნა. არსებობს სხვა ანოტაციის მეთოდები, როგორიცაა ხაზები და წერტილები.

დაკავშირებული თემები:AI კომპიუტერული ხედვა კონვოლუციური ნერვული ქსელები სურათის ანოტაცია

შემდეგი

რა არის გაუგებრობის მატრიცა?

არ გამოტოვოთ

რა არის ნერვული ქსელები?

დანიელ ნელსონი

ბლოგერი და პროგრამისტი სპეციალობით მანქანა სწავლა მდე ღრმა სწავლება თემები. დანიელი იმედოვნებს, რომ დაეხმარება სხვებს გამოიყენონ ხელოვნური ინტელექტის ძალა სოციალური სიკეთისთვის.