การเฝ้าระวัง
AI เปิดเผยการเคลื่อนไหวที่ซ่อนอยู่ที่เปิดเผยโดยผนังที่ว่างเปล่า

การทำงานร่วมกันในการวิจัย ซึ่งรวมถึงผู้ร่วมให้ข้อมูลจาก NVIDIA และ MIT ได้พัฒนาวิธีการเรียนรู้ของเครื่องจักรที่สามารถระบุคนซ่อนอยู่ได้โดยการตรวจสอบการสะท้อนแสงทางอ้อมบนผนังใกล้เคียง แม้ว่าคนเหล่านั้นจะไม่ได้อยู่ใกล้แหล่งกำเนิดแสงเลย วิธีการนี้มีความแม่นยำเกือบ 94% เมื่อพยายามระบุจำนวนคนซ่อนอยู่ และสามารถระบุการเคลื่อนไหวเฉพาะของคนซ่อนอยู่ได้โดยการขยายการสะท้อนแสงให้มากขึ้น ซึ่งไม่สามารถมองเห็นได้ด้วยตาเปล่าและวิธีการขยายภาพมาตรฐาน

การเปลี่ยนแปลงของแสงเล็กน้อยที่ขยายโดยวิธีการใหม่ ซึ่งใช้เครือข่ายประสาทเทียมแบบโคนโวลูชันเพื่อระบุพื้นที่ที่เปลี่ยนแปลง Source: https://www.youtube.com/watch?v=K4PapXyX-bI
เอกสารวิจัยใหม่ เอกสาร มีชื่อเรื่อง สิ่งที่คุณสามารถเรียนรู้ได้โดยการมองผนังที่ว่างเปล่า โดยมีส่วนร่วมจาก NVIDIA และ MIT รวมถึง Israel Institute of Technology
วิธีการก่อนหน้านี้ในการ ‘มองเห็นรอบผนัง’ ต้องอาศัยแหล่งกำเนิดแสงควบคุมหรือความรู้เกี่ยวกับแหล่งกำเนิดที่ทราบก่อน แต่วิธีการใหม่นี้สามารถใช้ได้กับห้องใหม่ใดๆ โดยไม่ต้องปรับแต่งใหม่ เครือข่ายประสาทเทียมแบบโคนโวลูชันสองเครือข่ายที่ใช้ในการระบุคนซ่อนอยู่ใช้ข้อมูลที่ได้รับจากเพียง 20 ฉาก
โครงการนี้มุ่งเน้นไปที่สถานการณ์ที่มีความเสี่ยงสูงและสำคัญต่อความปลอดภัย เช่น การค้นหาและช่วยเหลือ การบังคับใช้กฎหมายทั่วไป การตอบสนองต่อเหตุฉุกเฉิน การตรวจจับคนตกในผู้สูงอายุ และวิธีการตรวจจับคนเดินข้ามถนนสำหรับยานพาหนะอัตโนมัติ
การประเมินแบบพาสซีฟ
เช่นเดียวกับโครงการวิชาการคอมพิวเตอร์วิชันทั่วไป งานหลักคือการระบุ จำแนกประเภท และใช้การเปลี่ยนแปลงสถานะที่รับรู้ในกระแสภาพ การเชื่อมต่อการเปลี่ยนแปลงเหล่านี้จะนำไปสู่รูปแบบการ签名ที่สามารถใช้เพื่อระบุจำนวนคนหรือตรวจจับการเคลื่อนไหวของคนหนึ่งหรือหลายคน
งานนี้เปิดโอกาสให้สามารถประเมินฉากได้อย่างสมบูรณ์แบบโดยไม่ต้องใช้พื้นผิวสะท้อน สัญญาณ Wi-Fi เรดาร์ เสียง หรือ ‘สถานการณ์พิเศษ’ อื่นๆ ที่จำเป็นในการวิจัยล่าสุดซึ่งพยายามที่จะกำหนดการมีอยู่ของมนุษย์ที่ซ่อนอยู่ในสภาพแวดล้อมที่อันตรายหรือวิกฤต

สถานการณ์การรวบรวมข้อมูลตัวอย่างที่ใช้ในการวิจัยใหม่ ผู้เข้าร่วมทดลองถูกวางตำแหน่งอย่างระมัดระวังเพื่อไม่ให้โยนเงาหรือปิดบังแสงโดยตรง และไม่อนุญาตให้ใช้พื้นผิวสะท้อนหรือ ‘เวกเตอร์’ อื่นๆ Source: https://arxiv.org/pdf/2108.13027.pdf
โดยทั่วไปแล้ว แสงในสถานการณ์ที่คาดการณ์ไว้สำหรับการใช้งานจะกลบการเปลี่ยนแปลงเล็กน้อยที่เกิดจากแสงสะท้อนจากคนซ่อนอยู่ในฉาก นักวิจัยคำนวณว่าส่วนสนับสนุนการเปลี่ยนแปลงแสงจากคนเหล่านั้นจะน้อยกว่า 1% ของแสงเห็นได้ทั้งหมด
การกำจัดแสงแบบคงที่
เพื่อแยกการเคลื่อนไหวออกจากภาพผนังที่ดูเหมือนคงที่ จำเป็นต้องคำนวณค่าเฉลี่ยของวิดีโอตามเวลาและลบออกจากแต่ละเฟรม รูปแบบการเคลื่อนไหวที่ได้ผลมักจะอยู่ต่ำกว่าขีดจำกัดของอุปกรณ์วิดีโอคุณภาพดี และโดยทั่วไปการเคลื่อนไหวส่วนใหญ่เกิดขึ้นในพื้นที่พิกเซลลบ
เพื่อแก้ไขปัญหานี้ นักวิจัยลดความละเอียดของวิดีโอเป็น 16 เท่าและเพิ่มความละเอียดของวิดีโอที่ได้ผลเป็น 50 เท่า ในขณะเดียวกันก็เพิ่มระดับพื้นฐานสีเทาเข้าไปเพื่อแยกความแตกต่างของพิกเซลลบ (ซึ่งไม่สามารถคำนวณได้จากเสียงรบกวนของเซ็นเซอร์วิดีโอ)

ความแตกต่างระหว่างผนังที่มองเห็นได้ด้วยตาเปล่าและรูปแบบการเปลี่ยนแปลงของคนซ่อนอยู่
ช่วงเวลาในการรับรู้การเคลื่อนไหวนั้นเปราะบางและสามารถได้รับผลกระทบจากการสั่นของแสงได้ถึง 60 Hz ดังนั้นการเปลี่ยนแปลงนี้จึงต้องได้รับการประเมินและลบออกจากวิดีโอ trướcที่การเคลื่อนไหวที่เกิดจากคนจะปรากฏขึ้น
ในที่สุด ระบบจะสร้างแผนภูมิเวลา-พื้นที่ที่แสดงจำนวนคนซ่อนอยู่ในห้องที่เฉพาะเจาะจง:

แผนภูมิเวลา-พื้นที่ที่แสดงจำนวนคนซ่อนอยู่ในห้อง
การเคลื่อนไหวของมนุษย์ที่แตกต่างกันจะสร้างรูปแบบการเปลี่ยนแปลงที่เฉพาะเจาะจงซึ่งสามารถจำแนกและรู้จักได้:

แผนภูมิเวลา-พื้นที่ที่แสดงการเคลื่อนไหวที่แตกต่างกัน
เพื่อสร้างกระบวนการทำงานอัตโนมัติของเครื่องจักรที่ใช้การเรียนรู้ของเครื่องจักรในการระบุคนซ่อนอยู่ ใช้ฟุตเทจที่หลากหลายจากสถานการณ์ที่เหมาะสม 20 สถานการณ์ในการฝึกเครือข่ายประสาทเทียมสองเครือข่ายที่ทำงานบนการกำหนดค่าที่คล้ายคลึงกัน – หนึ่งในการนับจำนวนคนในฉาก และอีกหนึ่งในการระบุการเคลื่อนไหวที่เกิดขึ้น
การทดสอบ
นักวิจัยทดสอบระบบที่ฝึกอบรมแล้วใน 10 สภาพแวดล้อมที่ไม่เคยเห็นมาก่อนซึ่งออกแบบมาเพื่อสร้างข้อจำกัดที่คาดการณ์ไว้สำหรับการใช้งานสุดท้าย ระบบสามารถบรรลุความแม่นยำได้ถึง 94.4% (ใน 256 เฟรม – โดยทั่วไปคือ 8 วินาทีของวิดีโอ) ในการจำแนกจำนวนคนซ่อนอยู่ และความแม่นยำได้ถึง 93.7% (ภายใต้เงื่อนไขเดียวกัน) ในการจำแนกการเคลื่อนไหว แม้ว่าความแม่นยำจะลดลงเมื่อมีเฟรมน้อยกว่า แต่ก็ไม่ได้ลดลงแบบเส้นตรง และแม้แต่ 64 เฟรมก็สามารถบรรลุความแม่นยำได้ถึง 79.4% สำหรับการประเมิน ‘จำนวนคน’ (เทียบกับเกือบ 95% สำหรับเฟรมสี่เท่า)
แม้ว่าวิธีการนี้จะทนทานต่อการเปลี่ยนแปลงของสภาพอากาศ แต่ก็ยากที่จะทำงานในฉากที่มีแสงจากโทรทัศน์ หรือในสถานการณ์ที่คนสวมเสื้อผ้าสีเดียวกับผนังสะท้อน
รายละเอียดเพิ่มเติมเกี่ยวกับการวิจัย รวมถึงวิดีโอคุณภาพสูงของการแยกออกสามารถดูได้ในวิดีโอที่อยู่ด้านล่าง













