AI 101

คอมพิวเตอร์วิทัศน์คืออะไร?

วันที่อัพเดท on กรกฎาคม 21, 2023

คอมพิวเตอร์วิทัศน์คืออะไร?

อัลกอริธึมการมองเห็นของคอมพิวเตอร์เป็นหนึ่งในระบบ AI ที่เปลี่ยนแปลงและทรงพลังที่สุดในโลกในขณะนี้ ระบบการมองเห็นด้วยคอมพิวเตอร์ ดูการใช้งานในยานยนต์ไร้คนขับ การนำทางด้วยหุ่นยนต์ ระบบจดจำใบหน้า และอื่นๆ อย่างไรก็ตาม อัลกอริทึมการมองเห็นของคอมพิวเตอร์คืออะไรกันแน่? พวกเขาทำงานอย่างไร? เพื่อตอบคำถามเหล่านี้ เราจะเจาะลึกทฤษฎีเบื้องหลังการมองเห็นของคอมพิวเตอร์ อัลกอริทึมการมองเห็นของคอมพิวเตอร์ และแอปพลิเคชันสำหรับระบบการมองเห็นของคอมพิวเตอร์

ระบบวิทัศน์ของคอมพิวเตอร์ทำงานอย่างไร

เพื่อให้เข้าใจถึงวิธีการทำงานของระบบการมองเห็นของคอมพิวเตอร์อย่างเต็มที่ ก่อนอื่นเรามาคุยกันว่ามนุษย์รู้จักวัตถุได้อย่างไร ประสาทวิทยาที่อธิบายได้ดีที่สุดสำหรับวิธีที่เรารู้จักวัตถุคือแบบจำลองที่อธิบายระยะเริ่มต้นของ การรับรู้วัตถุ เป็นองค์ประกอบพื้นฐานของวัตถุ เช่น รูปร่าง สี และความลึก จะถูกตีความโดยสมองก่อน สัญญาณจากดวงตาที่เข้าสู่สมองได้รับการวิเคราะห์เพื่อดึงขอบของวัตถุออกมาก่อน และขอบเหล่านี้จะถูกรวมเข้าด้วยกันเพื่อเป็นตัวแทนที่ซับซ้อนยิ่งขึ้นซึ่งจะทำให้รูปร่างของวัตถุสมบูรณ์

ระบบการมองเห็นของคอมพิวเตอร์ทำงานคล้ายกับระบบการมองเห็นของมนุษย์มาก โดยขั้นแรกจะแยกแยะขอบของวัตถุ จากนั้นจึงรวมขอบเหล่านี้เข้าด้วยกันเป็นรูปร่างของวัตถุ ข้อแตกต่างที่สำคัญคือเนื่องจากคอมพิวเตอร์ตีความภาพเป็นตัวเลข ระบบการมองเห็นของคอมพิวเตอร์จึงต้องการวิธีบางอย่างในการตีความแต่ละพิกเซลที่ประกอบเป็นรูปภาพ ระบบการมองเห็นของคอมพิวเตอร์จะกำหนดค่าให้กับพิกเซลในภาพ และโดยการตรวจสอบความแตกต่างของค่าระหว่างบริเวณพิกเซลหนึ่งกับบริเวณอื่นของพิกเซล คอมพิวเตอร์จะสามารถมองเห็นขอบได้ ตัวอย่างเช่น หากภาพที่เป็นปัญหาเป็นโทนสีเทา ค่าจะมีตั้งแต่สีดำ (แสดงด้วย 0) ไปจนถึงสีขาว (แสดงด้วย 255) การเปลี่ยนแปลงอย่างกะทันหันของช่วงค่าพิกเซลที่อยู่ใกล้กันจะบ่งชี้ถึงขอบ

หลักการพื้นฐานในการเปรียบเทียบค่าพิกเซลนี้สามารถทำได้กับภาพสี โดยคอมพิวเตอร์จะเปรียบเทียบความแตกต่างระหว่างช่องสี RGB ต่างๆ ดังนั้นโปรดทราบว่าเราทราบวิธีที่ระบบการมองเห็นด้วยคอมพิวเตอร์ตรวจสอบค่าพิกเซลเพื่อตีความภาพ มาดูสถาปัตยกรรมของระบบการมองเห็นด้วยคอมพิวเตอร์กัน

Convolutional Neural Networks (ซีเอ็นเอ็น)

ประเภทหลักของ AI ที่ใช้ในงานการมองเห็นด้วยคอมพิวเตอร์คือประเภทหนึ่ง ขึ้นอยู่กับโครงข่ายประสาทเทียม. Convolution คืออะไรกันแน่?

Convolutions เป็นกระบวนการทางคณิตศาสตร์ที่เครือข่ายใช้เพื่อกำหนดความแตกต่างของค่าระหว่างพิกเซล หากคุณนึกภาพกริดที่มีค่าพิกเซล ให้นึกภาพกริดขนาดเล็กที่กำลังเคลื่อนผ่านกริดหลักนี้ เครือข่ายกำลังวิเคราะห์ค่าที่อยู่ใต้กริดที่สอง ดังนั้นเครือข่ายจึงตรวจสอบพิกเซลเพียงหยิบมือเดียวในแต่ละครั้ง สิ่งนี้มักเรียกว่าเทคนิค "หน้าต่างบานเลื่อน" ค่าที่วิเคราะห์โดยหน้าต่างเลื่อนจะถูกสรุปโดยเครือข่าย ซึ่งช่วยลดความซับซ้อนของภาพและทำให้เครือข่ายแยกรูปแบบได้ง่ายขึ้น

เครือข่ายประสาทแบบ Convolutional คือ แบ่งออกเป็นสองส่วนที่แตกต่างกัน, ส่วน convolutional และส่วนที่เชื่อมต่ออย่างสมบูรณ์ เลเยอร์การบิดเบี้ยวของเครือข่ายคือตัวแยกคุณลักษณะ ซึ่งมีหน้าที่วิเคราะห์พิกเซลภายในภาพและรูปแบบที่เป็นตัวแทนของพวกมัน ซึ่งเลเยอร์ที่เชื่อมต่ออย่างหนาแน่นของโครงข่ายประสาทเทียมสามารถเรียนรู้รูปแบบได้ เลเยอร์ Convolutional เริ่มต้นด้วยการตรวจสอบพิกเซลและแยกคุณสมบัติระดับต่ำของภาพเช่นขอบ เลเยอร์การบิดในภายหลังจะรวมขอบเข้าด้วยกันเป็นรูปร่างที่ซับซ้อนมากขึ้น ในตอนท้าย หวังว่าเครือข่ายจะมีการแสดงขอบและรายละเอียดของภาพที่สามารถส่งไปยังเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ได้

คำอธิบายประกอบรูปภาพ

แม้ว่าโครงข่ายประสาทเทียมแบบม้วนสามารถแยกรูปแบบออกจากรูปภาพได้ด้วยตัวเอง แต่ความแม่นยำของระบบคอมพิวเตอร์วิทัศน์สามารถปรับปรุงได้อย่างมากโดยการใส่คำอธิบายประกอบรูปภาพ คำอธิบายประกอบรูปภาพ เป็นขั้นตอนการเพิ่มเมทาดาทาให้กับรูปภาพซึ่งช่วยลักษณนามในการตรวจจับวัตถุที่สำคัญในภาพ การใช้คำอธิบายประกอบภาพมีความสำคัญเมื่อใดก็ตามที่ระบบการมองเห็นด้วยคอมพิวเตอร์จำเป็นต้องมีความแม่นยำสูง เช่น เมื่อควบคุมยานพาหนะอัตโนมัติหรือหุ่นยนต์

มีหลายวิธีที่สามารถใส่คำอธิบายประกอบรูปภาพเพื่อปรับปรุงประสิทธิภาพของตัวแยกประเภทการมองเห็นของคอมพิวเตอร์ คำอธิบายประกอบรูปภาพมักทำโดยใช้กล่องขอบ ซึ่งเป็นกล่องที่ล้อมรอบขอบของวัตถุเป้าหมายและบอกให้คอมพิวเตอร์โฟกัสความสนใจภายในกล่อง การแบ่งส่วนความหมายเป็นคำอธิบายประกอบรูปภาพอีกประเภทหนึ่ง ซึ่งดำเนินการโดยการกำหนดคลาสรูปภาพให้กับทุกพิกเซลในรูปภาพ กล่าวอีกนัยหนึ่ง ทุกพิกเซลที่อาจพิจารณาได้ว่าเป็น "หญ้า" หรือ "ต้นไม้" จะถูกระบุว่าเป็นของคลาสเหล่านั้น เทคนิคนี้ให้ความแม่นยำระดับพิกเซล แต่การสร้างคำอธิบายประกอบการแบ่งกลุ่มความหมายนั้นซับซ้อนและใช้เวลานานกว่าการสร้างกล่องขอบเขตแบบธรรมดา วิธีการอธิบายประกอบอื่นๆ เช่น เส้นและจุด ก็มีอยู่เช่นกัน

หัวข้อที่เกี่ยวข้อง:AI วิสัยทัศน์คอมพิวเตอร์โครงข่ายประสาทเทียม คำอธิบายประกอบภาพ

ต่อไป

เมทริกซ์ความสับสนคืออะไร?

อย่าพลาด

โครงข่ายประสาทเทียมคืออะไร?

แดเนียล เนลสัน

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม