- คำศัพท์ (A ถึง D)
- การควบคุมความสามารถของ AI
- AIOps
- อัลบั้ม
- ประสิทธิภาพของสินทรัพย์
- ตัวเข้ารหัสอัตโนมัติ
- การขยายพันธุ์หลัง
- ทฤษฎีบทเบย์
- ข้อมูลขนาดใหญ่
- Chatbot: คู่มือสำหรับผู้เริ่มต้น
- การคิดเชิงคำนวณ
- วิสัยทัศน์คอมพิวเตอร์
- เมทริกซ์ความสับสน
- เครือข่ายประสาทเทียม
- cybersecurity
- ผ้าข้อมูล
- การเล่าเรื่องข้อมูล
- ข้อมูลวิทยาศาสตร์
- คลังข้อมูล
- ต้นไม้ตัดสินใจ
- Deepfakes
- การเรียนรู้ลึก ๆ
- การเรียนรู้การเสริมแรงเชิงลึก
- devops
- DevSecOps
- แบบจำลองการแพร่กระจาย
- ดิจิตอลแฝด
- การลดขนาด
- คำศัพท์ (E ถึง K)
- เอดจ์ไอ
- อารมณ์ AI
- การเรียนรู้ทั้งมวล
- การแฮ็กอย่างมีจริยธรรม
- ETL
- AI ที่อธิบายได้
- สหพันธ์การเรียนรู้
- ฟินอ๊อฟ
- กำเนิด AI
- เครือข่ายผู้ให้กำเนิด
- กำเนิดเทียบกับการเลือกปฏิบัติ
- ไล่โทนสี
- โคตรไล่ระดับ
- การเรียนรู้ไม่กี่ช็อต
- การจำแนกรูปภาพ
- การดำเนินงานด้านไอที (ITOps)
- ระบบอัตโนมัติของเหตุการณ์
- วิศวกรรมอิทธิพล
- K-หมายถึงการจัดกลุ่ม
- K-เพื่อนบ้านที่ใกล้ที่สุด
- คำศัพท์ (L ถึง Q)
- คำศัพท์ (R ถึง Z)
- การเรียนรู้เสริมแรง
- AI ที่มีความรับผิดชอบ
- อาร์แอลเอชเอฟ
- ระบบอัตโนมัติของกระบวนการหุ่นยนต์
- มีโครงสร้าง vs ไม่มีโครงสร้าง
- การวิเคราะห์ความเชื่อมั่น
- อยู่ภายใต้การดูแล vs ไม่ได้รับการดูแล
- สนับสนุนเครื่องเวกเตอร์
- ข้อมูลสังเคราะห์
- สื่อสังเคราะห์
- การจัดประเภทข้อความ
- TinyML
- ถ่ายทอดการเรียนรู้
- เครือข่ายประสาทหม้อแปลง
- การทดสอบของทัวริง
- การค้นหาความคล้ายคลึงกันของเวกเตอร์
AI 101
คอมพิวเตอร์วิทัศน์คืออะไร?
สารบัญ
คอมพิวเตอร์วิทัศน์คืออะไร?
อัลกอริธึมการมองเห็นของคอมพิวเตอร์เป็นหนึ่งในระบบ AI ที่เปลี่ยนแปลงและทรงพลังที่สุดในโลกในขณะนี้ ระบบการมองเห็นด้วยคอมพิวเตอร์ ดูการใช้งานในยานยนต์ไร้คนขับ การนำทางด้วยหุ่นยนต์ ระบบจดจำใบหน้า และอื่นๆ อย่างไรก็ตาม อัลกอริทึมการมองเห็นของคอมพิวเตอร์คืออะไรกันแน่? พวกเขาทำงานอย่างไร? เพื่อตอบคำถามเหล่านี้ เราจะเจาะลึกทฤษฎีเบื้องหลังการมองเห็นของคอมพิวเตอร์ อัลกอริทึมการมองเห็นของคอมพิวเตอร์ และแอปพลิเคชันสำหรับระบบการมองเห็นของคอมพิวเตอร์
ระบบวิทัศน์ของคอมพิวเตอร์ทำงานอย่างไร
เพื่อให้เข้าใจถึงวิธีการทำงานของระบบการมองเห็นของคอมพิวเตอร์อย่างเต็มที่ ก่อนอื่นเรามาคุยกันว่ามนุษย์รู้จักวัตถุได้อย่างไร ประสาทวิทยาที่อธิบายได้ดีที่สุดสำหรับวิธีที่เรารู้จักวัตถุคือแบบจำลองที่อธิบายระยะเริ่มต้นของ การรับรู้วัตถุ เป็นองค์ประกอบพื้นฐานของวัตถุ เช่น รูปร่าง สี และความลึก จะถูกตีความโดยสมองก่อน สัญญาณจากดวงตาที่เข้าสู่สมองได้รับการวิเคราะห์เพื่อดึงขอบของวัตถุออกมาก่อน และขอบเหล่านี้จะถูกรวมเข้าด้วยกันเพื่อเป็นตัวแทนที่ซับซ้อนยิ่งขึ้นซึ่งจะทำให้รูปร่างของวัตถุสมบูรณ์
ระบบการมองเห็นของคอมพิวเตอร์ทำงานคล้ายกับระบบการมองเห็นของมนุษย์มาก โดยขั้นแรกจะแยกแยะขอบของวัตถุ จากนั้นจึงรวมขอบเหล่านี้เข้าด้วยกันเป็นรูปร่างของวัตถุ ข้อแตกต่างที่สำคัญคือเนื่องจากคอมพิวเตอร์ตีความภาพเป็นตัวเลข ระบบการมองเห็นของคอมพิวเตอร์จึงต้องการวิธีบางอย่างในการตีความแต่ละพิกเซลที่ประกอบเป็นรูปภาพ ระบบการมองเห็นของคอมพิวเตอร์จะกำหนดค่าให้กับพิกเซลในภาพ และโดยการตรวจสอบความแตกต่างของค่าระหว่างบริเวณพิกเซลหนึ่งกับบริเวณอื่นของพิกเซล คอมพิวเตอร์จะสามารถมองเห็นขอบได้ ตัวอย่างเช่น หากภาพที่เป็นปัญหาเป็นโทนสีเทา ค่าจะมีตั้งแต่สีดำ (แสดงด้วย 0) ไปจนถึงสีขาว (แสดงด้วย 255) การเปลี่ยนแปลงอย่างกะทันหันของช่วงค่าพิกเซลที่อยู่ใกล้กันจะบ่งชี้ถึงขอบ
หลักการพื้นฐานในการเปรียบเทียบค่าพิกเซลนี้สามารถทำได้กับภาพสี โดยคอมพิวเตอร์จะเปรียบเทียบความแตกต่างระหว่างช่องสี RGB ต่างๆ ดังนั้นโปรดทราบว่าเราทราบวิธีที่ระบบการมองเห็นด้วยคอมพิวเตอร์ตรวจสอบค่าพิกเซลเพื่อตีความภาพ มาดูสถาปัตยกรรมของระบบการมองเห็นด้วยคอมพิวเตอร์กัน
Convolutional Neural Networks (ซีเอ็นเอ็น)
ประเภทหลักของ AI ที่ใช้ในงานการมองเห็นด้วยคอมพิวเตอร์คือประเภทหนึ่ง ขึ้นอยู่กับโครงข่ายประสาทเทียม. Convolution คืออะไรกันแน่?
Convolutions เป็นกระบวนการทางคณิตศาสตร์ที่เครือข่ายใช้เพื่อกำหนดความแตกต่างของค่าระหว่างพิกเซล หากคุณนึกภาพกริดที่มีค่าพิกเซล ให้นึกภาพกริดขนาดเล็กที่กำลังเคลื่อนผ่านกริดหลักนี้ เครือข่ายกำลังวิเคราะห์ค่าที่อยู่ใต้กริดที่สอง ดังนั้นเครือข่ายจึงตรวจสอบพิกเซลเพียงหยิบมือเดียวในแต่ละครั้ง สิ่งนี้มักเรียกว่าเทคนิค "หน้าต่างบานเลื่อน" ค่าที่วิเคราะห์โดยหน้าต่างเลื่อนจะถูกสรุปโดยเครือข่าย ซึ่งช่วยลดความซับซ้อนของภาพและทำให้เครือข่ายแยกรูปแบบได้ง่ายขึ้น
เครือข่ายประสาทแบบ Convolutional คือ แบ่งออกเป็นสองส่วนที่แตกต่างกัน, ส่วน convolutional และส่วนที่เชื่อมต่ออย่างสมบูรณ์ เลเยอร์การบิดเบี้ยวของเครือข่ายคือตัวแยกคุณลักษณะ ซึ่งมีหน้าที่วิเคราะห์พิกเซลภายในภาพและรูปแบบที่เป็นตัวแทนของพวกมัน ซึ่งเลเยอร์ที่เชื่อมต่ออย่างหนาแน่นของโครงข่ายประสาทเทียมสามารถเรียนรู้รูปแบบได้ เลเยอร์ Convolutional เริ่มต้นด้วยการตรวจสอบพิกเซลและแยกคุณสมบัติระดับต่ำของภาพเช่นขอบ เลเยอร์การบิดในภายหลังจะรวมขอบเข้าด้วยกันเป็นรูปร่างที่ซับซ้อนมากขึ้น ในตอนท้าย หวังว่าเครือข่ายจะมีการแสดงขอบและรายละเอียดของภาพที่สามารถส่งไปยังเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ได้
คำอธิบายประกอบรูปภาพ
แม้ว่าโครงข่ายประสาทเทียมแบบม้วนสามารถแยกรูปแบบออกจากรูปภาพได้ด้วยตัวเอง แต่ความแม่นยำของระบบคอมพิวเตอร์วิทัศน์สามารถปรับปรุงได้อย่างมากโดยการใส่คำอธิบายประกอบรูปภาพ คำอธิบายประกอบรูปภาพ เป็นขั้นตอนการเพิ่มเมทาดาทาให้กับรูปภาพซึ่งช่วยลักษณนามในการตรวจจับวัตถุที่สำคัญในภาพ การใช้คำอธิบายประกอบภาพมีความสำคัญเมื่อใดก็ตามที่ระบบการมองเห็นด้วยคอมพิวเตอร์จำเป็นต้องมีความแม่นยำสูง เช่น เมื่อควบคุมยานพาหนะอัตโนมัติหรือหุ่นยนต์
มีหลายวิธีที่สามารถใส่คำอธิบายประกอบรูปภาพเพื่อปรับปรุงประสิทธิภาพของตัวแยกประเภทการมองเห็นของคอมพิวเตอร์ คำอธิบายประกอบรูปภาพมักทำโดยใช้กล่องขอบ ซึ่งเป็นกล่องที่ล้อมรอบขอบของวัตถุเป้าหมายและบอกให้คอมพิวเตอร์โฟกัสความสนใจภายในกล่อง การแบ่งส่วนความหมายเป็นคำอธิบายประกอบรูปภาพอีกประเภทหนึ่ง ซึ่งดำเนินการโดยการกำหนดคลาสรูปภาพให้กับทุกพิกเซลในรูปภาพ กล่าวอีกนัยหนึ่ง ทุกพิกเซลที่อาจพิจารณาได้ว่าเป็น "หญ้า" หรือ "ต้นไม้" จะถูกระบุว่าเป็นของคลาสเหล่านั้น เทคนิคนี้ให้ความแม่นยำระดับพิกเซล แต่การสร้างคำอธิบายประกอบการแบ่งกลุ่มความหมายนั้นซับซ้อนและใช้เวลานานกว่าการสร้างกล่องขอบเขตแบบธรรมดา วิธีการอธิบายประกอบอื่นๆ เช่น เส้นและจุด ก็มีอยู่เช่นกัน
บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม
คุณอาจชอบ
สไตล์ทันใจ: การรักษาสไตล์ในการสร้างข้อความเป็นรูปภาพ
อาร์ลิงตัน เวอร์จิเนีย: ปรากฏตัวในฐานะขุมพลังแห่งนวัตกรรม AI
POKELLMON: เอเจนต์ Human-Parity สำหรับการต่อสู้โปเกมอนกับ LLM
การสร้างแบบจำลองภาพอัตโนมัติแบบถดถอย: การสร้างภาพที่ปรับขนาดได้ผ่านการทำนายระดับถัดไป
InstructIR: การฟื้นฟูภาพคุณภาพสูงตามคำสั่งของมนุษย์
DynamiCrafter: การสร้างภาพเคลื่อนไหวในโดเมนแบบเปิดด้วย Video Diffusion Priors