ปัญญาประดิษฐ์
นักวิจัยใช้การเรียนรู้เชิงลึกเพื่อเปลี่ยนภาพถ่าย Landmark 4D
นักวิจัยที่ Cornell University ได้พัฒนาวิธีการใหม่ที่ใช้การเรียนรู้เชิงลึกเพื่อเปลี่ยนภาพถ่ายสถานที่สำคัญของโลก 4 มิติ ทีมงานใช้ภาพถ่ายสถานที่ท่องเที่ยวที่เผยแพร่ต่อสาธารณะ เช่น น้ำพุเทรวีในกรุงโรม และผลลัพธ์ที่ได้คือภาพ 3 มิติที่ควบคุมได้และสามารถแสดงการเปลี่ยนแปลงของรูปลักษณ์เมื่อเวลาผ่านไป
วิธีการที่พัฒนาขึ้นใหม่นี้รับและสังเคราะห์ภาพถ่ายที่ไม่ติดแท็กและไม่ระบุวันที่จำนวนนับหมื่น และเป็นก้าวสำคัญสำหรับการมองเห็นของคอมพิวเตอร์
ผลงานนี้มีชื่อว่า“ฝูงชนสุ่มตัวอย่างฟังก์ชั่น Plenoptic” และนำเสนอในการประชุม Virtual European Conference on Computer Vision ซึ่งจัดขึ้นระหว่างวันที่ 23-28 ส.ค.
Noah Snavely เป็นรองศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ Cornell Tech และผู้เขียนอาวุโสของบทความนี้ ผู้ร่วมให้ข้อมูลอื่นๆ ได้แก่ นักศึกษาปริญญาเอกของ Cornell Zhengqi Li ผู้เขียนบทความคนแรก เช่นเดียวกับ Abe Davis ผู้ช่วยศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ในคณะวิทยาการคอมพิวเตอร์และสารสนเทศ และนักศึกษาปริญญาเอก Cornell Tech Wenqi Xian
“เป็นวิธีการสร้างแบบจำลองฉากแบบใหม่ที่ไม่เพียงแต่ช่วยให้คุณขยับศีรษะและดูน้ำพุจากมุมมองต่างๆ ได้ แต่ยังให้คุณควบคุมการเปลี่ยนเวลาได้ด้วย” สนาฟลีกล่าว
“ถ้าคุณไปที่น้ำพุเทรวีในช่วงวันหยุดของคุณจริงๆ รูปลักษณ์ของน้ำพุจะขึ้นอยู่กับช่วงเวลาที่คุณไป ในเวลากลางคืน น้ำพุจะสว่างไสวด้วยแสงไฟจากด้านล่าง ในตอนบ่ายจะมีแสงแดด เว้นแต่คุณจะไปในวันที่มีเมฆมาก” เขากล่าวต่อ “เราเรียนรู้ลักษณะที่ปรากฏทั้งหมดตามเวลาของวันและสภาพอากาศจากคอลเลกชั่นภาพถ่ายที่ไม่มีการรวบรวมกันเหล่านี้ เพื่อให้คุณสามารถสำรวจช่วงทั้งหมดและเคลื่อนที่ไปรอบ ๆ ฉากได้พร้อม ๆ กัน”
ข้อ จำกัด การมองเห็นของคอมพิวเตอร์แบบดั้งเดิม
เนื่องจากอาจมีพื้นผิวที่แตกต่างกันมากมายที่ต้องทำซ้ำ จึงเป็นเรื่องยากสำหรับการมองเห็นด้วยคอมพิวเตอร์แบบดั้งเดิมในการแสดงสถานที่อย่างแม่นยำผ่านภาพถ่าย
“โลกแห่งความเป็นจริงมีรูปร่างหน้าตาที่หลากหลายและมีวัสดุประเภทต่างๆ กัน เช่น สิ่งที่แวววาว น้ำ โครงสร้างที่บาง” สเนฟลีกล่าว
นอกจากอุปสรรคเหล่านั้นแล้ว การมองเห็นด้วยคอมพิวเตอร์แบบดั้งเดิมยังต่อสู้กับข้อมูลที่ไม่สอดคล้องกันอีกด้วย ฟังก์ชั่น Plenoptic คือการที่บางสิ่งปรากฏขึ้นจากทุกมุมมองที่เป็นไปได้ในอวกาศและเวลา แต่เพื่อจำลองสิ่งนี้ จำเป็นต้องใช้เว็บแคมหลายร้อยตัวในที่เกิดเหตุ ไม่เพียงเท่านั้น พวกเขายังต้องบันทึกภาพตลอดทั้งวันทั้งคืน สิ่งนี้สามารถทำได้ แต่เป็นงานที่หนักทรัพยากรมากเมื่อพิจารณาถึงจำนวนฉากที่ต้องใช้วิธีนี้
เรียนรู้จากภาพถ่ายอื่นๆ
เพื่อแก้ไขปัญหานี้ ทีมนักวิจัยได้พัฒนาวิธีการใหม่
“อาจไม่มีภาพถ่ายในเวลา 4 น. จากมุมมองนี้ในชุดข้อมูล ดังนั้นเราต้องเรียนรู้จากภาพที่ถ่ายเวลา 9 น. ที่สถานที่แห่งหนึ่ง และภาพที่ถ่ายเวลา 4 น. จากอีกที่หนึ่ง” Snavely กล่าว “และเราไม่ทราบรายละเอียดว่าภาพถ่ายเหล่านี้ถูกถ่ายเมื่อใด แต่การใช้การเรียนรู้เชิงลึกช่วยให้เราอนุมานได้ว่าฉากนั้นจะเป็นอย่างไรในเวลาและสถานที่ใดก็ตาม”
นักวิจัยได้แนะนำการแสดงฉากใหม่ที่เรียกว่า Deep Multiplane Images เพื่อสอดแทรกลักษณะที่ปรากฏเป็น 3 มิติ ซึ่งเป็น XNUMX มิติและเปลี่ยนแปลงตลอดเวลา
Snavely กล่าวว่า “เราใช้แนวคิดเดียวกันกับที่คิดค้นขึ้นสำหรับการสร้างเอฟเฟกต์ 3 มิติในแอนิเมชัน 2 มิติ เพื่อสร้างเอฟเฟกต์ 3 มิติในฉากในโลกแห่งความเป็นจริง เพื่อสร้างภาพหลายเลเยอร์ที่ลึกล้ำนี้โดยปรับให้พอดีกับการวัดที่แตกต่างกันเหล่านี้จากภาพถ่ายของนักท่องเที่ยว มันน่าสนใจที่มันเกิดจากเทคนิคคลาสสิกเก่าแก่ที่ใช้ในแอนิเมชั่น”
การศึกษาแสดงให้เห็นว่าโมเดลที่ผ่านการฝึกอบรมสามารถสร้างฉากที่มีรูปภาพ 50,000 ภาพที่เผยแพร่ต่อสาธารณะจากไซต์ต่างๆ ทีมงานเชื่อว่าสิ่งนี้อาจมีความหมายในหลายด้าน รวมถึงการวิจัยการมองเห็นด้วยคอมพิวเตอร์และการท่องเที่ยวเสมือนจริง
“คุณสามารถสัมผัสได้ถึงการอยู่ที่นั่นจริงๆ” สนาเวลีกล่าว “มันทำงานได้ดีอย่างน่าประหลาดใจสำหรับฉากต่างๆ”
โครงการนี้ได้รับการสนับสนุนจาก Eric Schmidt อดีต CEO และผู้ใจบุญของ Google รวมถึง Wendt Schmidt