ปัญญาประดิษฐ์

นักวิจัยใช้การเรียนรู้เชิงลึกเพื่อเปลี่ยนภาพถ่าย Landmark 4D

วันที่อัพเดท on December 9, 2022

นักวิจัยที่ Cornell University ได้พัฒนาวิธีการใหม่ที่ใช้การเรียนรู้เชิงลึกเพื่อเปลี่ยนภาพถ่ายสถานที่สำคัญของโลก 4 มิติ ทีมงานใช้ภาพถ่ายสถานที่ท่องเที่ยวที่เผยแพร่ต่อสาธารณะ เช่น น้ำพุเทรวีในกรุงโรม และผลลัพธ์ที่ได้คือภาพ 3 มิติที่ควบคุมได้และสามารถแสดงการเปลี่ยนแปลงของรูปลักษณ์เมื่อเวลาผ่านไป

วิธีการที่พัฒนาขึ้นใหม่นี้รับและสังเคราะห์ภาพถ่ายที่ไม่ติดแท็กและไม่ระบุวันที่จำนวนนับหมื่น และเป็นก้าวสำคัญสำหรับการมองเห็นของคอมพิวเตอร์

ผลงานนี้มีชื่อว่า“ฝูงชนสุ่มตัวอย่างฟังก์ชั่น Plenoptic” และนำเสนอในการประชุม Virtual European Conference on Computer Vision ซึ่งจัดขึ้นระหว่างวันที่ 23-28 ส.ค.

Noah Snavely เป็นรองศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ Cornell Tech และผู้เขียนอาวุโสของบทความนี้ ผู้ร่วมให้ข้อมูลอื่นๆ ได้แก่ นักศึกษาปริญญาเอกของ Cornell Zhengqi Li ผู้เขียนบทความคนแรก เช่นเดียวกับ Abe Davis ผู้ช่วยศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ในคณะวิทยาการคอมพิวเตอร์และสารสนเทศ และนักศึกษาปริญญาเอก Cornell Tech Wenqi Xian

“เป็นวิธีการสร้างแบบจำลองฉากแบบใหม่ที่ไม่เพียงแต่ช่วยให้คุณขยับศีรษะและดูน้ำพุจากมุมมองต่างๆ ได้ แต่ยังให้คุณควบคุมการเปลี่ยนเวลาได้ด้วย” สนาฟลีกล่าว

“ถ้าคุณไปที่น้ำพุเทรวีในช่วงวันหยุดของคุณจริงๆ รูปลักษณ์ของน้ำพุจะขึ้นอยู่กับช่วงเวลาที่คุณไป ในเวลากลางคืน น้ำพุจะสว่างไสวด้วยแสงไฟจากด้านล่าง ในตอนบ่ายจะมีแสงแดด เว้นแต่คุณจะไปในวันที่มีเมฆมาก” เขากล่าวต่อ “เราเรียนรู้ลักษณะที่ปรากฏทั้งหมดตามเวลาของวันและสภาพอากาศจากคอลเลกชั่นภาพถ่ายที่ไม่มีการรวบรวมกันเหล่านี้ เพื่อให้คุณสามารถสำรวจช่วงทั้งหมดและเคลื่อนที่ไปรอบ ๆ ฉากได้พร้อม ๆ กัน”

ข้อ จำกัด การมองเห็นของคอมพิวเตอร์แบบดั้งเดิม

เนื่องจากอาจมีพื้นผิวที่แตกต่างกันมากมายที่ต้องทำซ้ำ จึงเป็นเรื่องยากสำหรับการมองเห็นด้วยคอมพิวเตอร์แบบดั้งเดิมในการแสดงสถานที่อย่างแม่นยำผ่านภาพถ่าย

“โลกแห่งความเป็นจริงมีรูปร่างหน้าตาที่หลากหลายและมีวัสดุประเภทต่างๆ กัน เช่น สิ่งที่แวววาว น้ำ โครงสร้างที่บาง” สเนฟลีกล่าว

นอกจากอุปสรรคเหล่านั้นแล้ว การมองเห็นด้วยคอมพิวเตอร์แบบดั้งเดิมยังต่อสู้กับข้อมูลที่ไม่สอดคล้องกันอีกด้วย ฟังก์ชั่น Plenoptic คือการที่บางสิ่งปรากฏขึ้นจากทุกมุมมองที่เป็นไปได้ในอวกาศและเวลา แต่เพื่อจำลองสิ่งนี้ จำเป็นต้องใช้เว็บแคมหลายร้อยตัวในที่เกิดเหตุ ไม่เพียงเท่านั้น พวกเขายังต้องบันทึกภาพตลอดทั้งวันทั้งคืน สิ่งนี้สามารถทำได้ แต่เป็นงานที่หนักทรัพยากรมากเมื่อพิจารณาถึงจำนวนฉากที่ต้องใช้วิธีนี้

เรียนรู้จากภาพถ่ายอื่นๆ

เพื่อแก้ไขปัญหานี้ ทีมนักวิจัยได้พัฒนาวิธีการใหม่

“อาจไม่มีภาพถ่ายในเวลา 4 น. จากมุมมองนี้ในชุดข้อมูล ดังนั้นเราต้องเรียนรู้จากภาพที่ถ่ายเวลา 9 น. ที่สถานที่แห่งหนึ่ง และภาพที่ถ่ายเวลา 4 น. จากอีกที่หนึ่ง” Snavely กล่าว “และเราไม่ทราบรายละเอียดว่าภาพถ่ายเหล่านี้ถูกถ่ายเมื่อใด แต่การใช้การเรียนรู้เชิงลึกช่วยให้เราอนุมานได้ว่าฉากนั้นจะเป็นอย่างไรในเวลาและสถานที่ใดก็ตาม”

นักวิจัยได้แนะนำการแสดงฉากใหม่ที่เรียกว่า Deep Multiplane Images เพื่อสอดแทรกลักษณะที่ปรากฏเป็น 3 มิติ ซึ่งเป็น XNUMX มิติและเปลี่ยนแปลงตลอดเวลา

Snavely กล่าวว่า “เราใช้แนวคิดเดียวกันกับที่คิดค้นขึ้นสำหรับการสร้างเอฟเฟกต์ 3 มิติในแอนิเมชัน 2 มิติ เพื่อสร้างเอฟเฟกต์ 3 มิติในฉากในโลกแห่งความเป็นจริง เพื่อสร้างภาพหลายเลเยอร์ที่ลึกล้ำนี้โดยปรับให้พอดีกับการวัดที่แตกต่างกันเหล่านี้จากภาพถ่ายของนักท่องเที่ยว มันน่าสนใจที่มันเกิดจากเทคนิคคลาสสิกเก่าแก่ที่ใช้ในแอนิเมชั่น”

การศึกษาแสดงให้เห็นว่าโมเดลที่ผ่านการฝึกอบรมสามารถสร้างฉากที่มีรูปภาพ 50,000 ภาพที่เผยแพร่ต่อสาธารณะจากไซต์ต่างๆ ทีมงานเชื่อว่าสิ่งนี้อาจมีความหมายในหลายด้าน รวมถึงการวิจัยการมองเห็นด้วยคอมพิวเตอร์และการท่องเที่ยวเสมือนจริง

“คุณสามารถสัมผัสได้ถึงการอยู่ที่นั่นจริงๆ” สนาเวลีกล่าว “มันทำงานได้ดีอย่างน่าประหลาดใจสำหรับฉากต่างๆ”

โครงการนี้ได้รับการสนับสนุนจาก Eric Schmidt อดีต CEO และผู้ใจบุญของ Google รวมถึง Wendt Schmidt

การสุ่มตัวอย่างฝูงชน ฟังก์ชั่น Plenoptic

Watch this video on YouTube

หัวข้อที่เกี่ยวข้อง:AI ปัญญาประดิษฐ์การเรียนรู้ลึก ๆ

ต่อไป

ระบบปัญญาประดิษฐ์สามารถเคลื่อนย้ายโมเลกุลเดี่ยวได้

อย่าพลาด

สตาร์ทอัพ AI Diffbot อ่านอินเทอร์เน็ตสาธารณะทั้งหมดเพื่อติดตามการสร้างข้อความตามข้อเท็จจริง

อเล็กซ์ แมคฟาร์แลนด์

Alex McFarland เป็นนักข่าวและนักเขียนด้าน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมมือกับสตาร์ทอัพด้าน AI และสิ่งพิมพ์ต่างๆ มากมายทั่วโลก