Connect with us

นักวิจัยใช้การเรียนรู้ลึกเพื่อแปลงรูปภาพสถานที่สำคัญให้เป็น 4D

ปัญญาประดิษฐ์

นักวิจัยใช้การเรียนรู้ลึกเพื่อแปลงรูปภาพสถานที่สำคัญให้เป็น 4D

mm

นักวิจัยที่มหาวิทยาลัยคอร์เนลล์ ได้พัฒนาวิธีการใหม่ที่ใช้การเรียนรู้ลึกเพื่อแปลงรูปภาพสถานที่สำคัญให้เป็น 4D ทีมงานได้พึ่งพารูปภาพที่นักท่องเที่ยวถ่ายไว้ของสถานที่สำคัญ เช่น Trevi Fountain ในกรุงโรม และผลลัพธ์ที่ได้คือรูปภาพ 3 มิติที่สามารถเคลื่อนย้ายและแสดงการเปลี่ยนแปลงของสถานที่ตามเวลา

วิธีการใหม่นี้สามารถรับและสร้างสรรค์รูปภาพที่ไม่มีการระบุและไม่มีวันที่หลายหมื่นรูป และเป็นก้าวสำคัญสำหรับการมองเห็นของคอมพิวเตอร์

งานวิจัยนี้มีชื่อว่า “Crowdsampling the Plenoptic Function” และได้นำเสนอในการประชุมสัมมนา European Conference on Computer Vision ซึ่งจัดขึ้นระหว่างวันที่ 23-28 สิงหาคม

Noah Snavely เป็นรองศาสตราจารย์ภาควิชาวิทยาการคอมพิวเตอร์ที่ Cornell Tech และเป็นนักวิจัยหลักของงานวิจัยนี้ ผู้ร่วมให้การสนับสนุนอื่นๆ ได้แก่ นักศึกษาระดับ博士ของ Cornell Zhengqi Li ผู้เขียนเอกสารวิจัย และ Abe Davis ผู้ช่วยศาสตราจารย์ภาควิชาวิทยาการคอมพิวเตอร์ในคณะคอมพิวเตอร์และวิทยาศาสตร์ข้อมูลของ Cornell Tech และนักศึกษาระดับ博士ของ Cornell Tech Wenqi Xian

“มันเป็นวิธีการใหม่ในการสร้างแบบจำลองของสถานที่ที่ไม่เพียงแต่ทำให้คุณสามารถมองเห็นสถานที่จากมุมมองที่ต่างออกไป แต่ยังให้คุณสามารถควบคุมการเปลี่ยนแปลงของเวลา” Snavely กล่าว

“หากคุณไปเที่ยว Trevi Fountain ในวันหยุดของคุณ รูปลักษณ์ของสถานที่จะขึ้นอยู่กับเวลาที่คุณไป — ในเวลากลางคืน จะมีแสงสว่างจากด้านล่าง ในช่วงบ่าย จะมีแสงแดดส่องสว่าง เว้นแต่ว่าคุณจะไปในวันที่มีเมฆมาก” เขายังคงกล่าวต่อไป “เราสามารถเรียนรู้รูปลักษณ์ทั้งหมดของสถานที่ตามเวลาและสภาพอากาศจากคอลเลกชันรูปภาพที่ไม่มีการจัดระเบียบเหล่านี้ เพื่อให้คุณสามารถสำรวจสถานที่ได้อย่างเต็มที่และเคลื่อนย้ายไปรอบๆ สถานที่”

ข้อจำกัดของการมองเห็นของคอมพิวเตอร์แบบดั้งเดิม

เนื่องจากมีเนื้อสัมผัสที่หลากหลายที่ต้องถูกสร้างสรรค์ใหม่ จึงเป็นเรื่องที่ยากสำหรับการมองเห็นของคอมพิวเตอร์แบบดั้งเดิมที่จะแสดงสถานที่ได้อย่างแม่นยำผ่านรูปภาพ

“โลกแห่งความเป็นจริงมีความหลากหลายในด้านรูปลักษณ์และมีสิ่งของที่มีเนื้อสัมผัสต่างๆ — สิ่งของที่มีเงา น้ำ โครงสร้างบาง” Snavely กล่าว

นอกจากสิ่งเหล่านี้แล้ว การมองเห็นของคอมพิวเตอร์แบบดั้งเดิมยังต้องเผชิญกับข้อมูลที่ไม่สอดคล้องกัน ฟังก์ชัน Plenoptic คือวิธีการที่สิ่งของดูเหมือนจากทุกมุมมองในพื้นที่และเวลา แต่เพื่อสร้างสิ่งนี้ขึ้นมา ต้องใช้เว็บแคมหลายร้อยตัวที่ตั้งอยู่ในสถานที่ และต้องบันทึกตลอดทั้งวันและคืน ซึ่งสามารถทำได้ แต่เป็นงานที่ต้องใช้ทรัพยากรมากเมื่อพิจารณาจากจำนวนสถานที่ที่ต้องการใช้วิธีนี้

การเรียนรู้จากภาพอื่นๆ

เพื่อหลีกเลี่ยงปัญหานี้ ทีมนักวิจัยได้พัฒนาวิธีการใหม่นี้

“อาจไม่มีรูปภาพที่ถ่ายในเวลา 16.00 น. จากมุมมองนี้ในเซตข้อมูล ดังนั้นเราจึงต้องเรียนรู้จากภาพที่ถ่ายในเวลา 21.00 น. ที่สถานที่หนึ่ง และภาพที่ถ่ายในเวลา 16.03 น. ที่สถานที่อื่น” Snavely กล่าว “และเราก็ไม่รู้ว่าภาพเหล่านี้ถ่ายเมื่อไหร่ แต่การใช้การเรียนรู้ลึกช่วยให้เราสามารถอนุมานได้ว่าสถานที่จะดูเหมือนอย่างไรในเวลาและสถานที่ใดๆ”

นักวิจัยได้แนะนำการนำเสนอใหม่ของสถานที่ที่เรียกว่า Deep Multiplane Images เพื่อแทรกแซงรูปลักษณ์ในสี่มิติ ซึ่งประกอบด้วย 3 มิติและเปลี่ยนแปลงตามเวลา

ตาม Snavely “เรใช้แนวคิดที่คิดค้นขึ้นสำหรับการสร้างเอฟเฟกต์ 3 มิติในแอนิเมชั่น 2 มิติเพื่อสร้างเอฟเฟกต์ 3 มิติในสถานที่จริง เพื่อสร้างภาพลึกหลายชั้นนี้โดยการปรับให้เหมาะสมกับการวัดที่แตกต่างกันจากภาพของนักท่องเที่ยว มันสนุกที่มันเกิดจากเทคนิคเก่าแบบคลาสสิกที่ใช้ในแอนิเมชั่น”

การศึกษานี้แสดงให้เห็นว่าโมเดลที่ได้รับการฝึกอบรมสามารถสร้างสถานที่ได้ด้วยภาพที่มีอยู่ในระบบมากกว่า 50,000 รูปจากหลายสถานที่ ทีมงานเชื่อว่ามันสามารถมีผลกระทบในหลายๆ ด้าน รวมถึงการวิจัยการมองเห็นของคอมพิวเตอร์และการท่องเที่ยวเสมือนจริง

“คุณสามารถรู้สึกได้ว่าคุณอยู่ที่นั่นจริงๆ” Snavely กล่าว “มันทำงานได้ดีสำหรับสถานที่ต่างๆ”

โครงการนี้ได้รับการสนับสนุนจาก Eric Schmidt อดีต CEO ของ Google และนักบุญ Wendt Schmidt

https://www.youtube.com/watch?v=MAVFKWX8LYo&feature=emb_title

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก