เชื่อมต่อกับเรา

มุมมองส่วนตัวเกี่ยวกับแนวโน้มวรรณกรรมเกี่ยวกับวิสัยทัศน์คอมพิวเตอร์ในปี 2024

ปัญญาประดิษฐ์

มุมมองส่วนตัวเกี่ยวกับแนวโน้มวรรณกรรมเกี่ยวกับวิสัยทัศน์คอมพิวเตอร์ในปี 2024

mm

การตีพิมพ์

 on

ภาพ ChatGPT: 'ภาพมุมมองออร์โธกราฟิกแบบพาโนรามาของกลุ่มนักวิทยาศาสตร์ที่ทำงานในเสื้อคลุมสีขาวในห้องปฏิบัติการวิจัยคอมพิวเตอร์ ภาพแอเรียล ภาพฉายออร์โธกราฟิก สไตล์การ์ตูน'

ฉันติดตามงานวิจัยด้านวิสัยทัศน์คอมพิวเตอร์ (CV) และการสังเคราะห์ภาพที่ Arxiv และที่อื่นๆ อย่างต่อเนื่องมาเป็นเวลาประมาณห้าปี ดังนั้นแนวโน้มต่างๆ จึงเห็นได้ชัดเจนขึ้นตามกาลเวลา และมีการเปลี่ยนแปลงไปในทิศทางใหม่ทุกปี

ดังนั้น ในขณะที่ปี 2024 กำลังจะสิ้นสุดลง ฉันจึงคิดว่าควรพิจารณาคุณลักษณะใหม่หรือลักษณะเฉพาะที่กำลังพัฒนาบางประการในการส่ง Arxiv ใน Computer Vision and Pattern Recognition ส่วนการสังเกตเหล่านี้แม้จะได้รับข้อมูลจากการศึกษาสถานการณ์ดังกล่าวเป็นเวลาหลายร้อยชั่วโมง แต่ก็เป็นเพียงข้อมูลเล่าต่อๆ กันมาเท่านั้น

การเติบโตขึ้นอย่างต่อเนื่องของเอเชียตะวันออก

ภายในสิ้นปี 2023 ฉันสังเกตเห็นว่าวรรณกรรมส่วนใหญ่ในหมวด "การสังเคราะห์เสียง" มาจากจีนและภูมิภาคอื่นๆ ในเอเชียตะวันออก เมื่อสิ้นปี 2024 ฉันต้องสังเกต (โดยไม่เป็นทางการ) ว่าตอนนี้สิ่งนี้ใช้ได้กับแวดวงการวิจัยการสังเคราะห์ภาพและวิดีโอด้วย

ซึ่งไม่ได้หมายความว่าจีนและประเทศเพื่อนบ้านจะผลิตผลงานที่ดีที่สุดเสมอไป (อันที่จริงมีบางอย่าง หลักฐานตรงกันข้าม); และไม่ได้คำนึงถึงความเป็นไปได้สูงในประเทศจีน (เช่นเดียวกับในประเทศตะวันตก) ที่ระบบใหม่ที่กำลังพัฒนาบางระบบที่น่าสนใจและทรงพลังที่สุดนั้นเป็นกรรมสิทธิ์และไม่รวมอยู่ในเอกสารการวิจัย

แต่สิ่งนี้ชี้ให้เห็นว่าเอเชียตะวันออกกำลังเอาชนะเอเชียตะวันตกด้วยปริมาตรในเรื่องนี้ ซึ่งขึ้นอยู่กับว่าคุณเชื่อมั่นในความสามารถในการดำรงอยู่ของเอเชียตะวันออกมากเพียงใด ความพากเพียรแบบเอดิสันซึ่งมักจะพิสูจน์ได้ว่าไม่มีประสิทธิภาพ เมื่อเผชิญกับอุปสรรคที่ยากจะแก้ไข.

มี มีสิ่งกีดขวางมากมายเช่นนี้ ใน AI เชิงสร้างสรรค์ และไม่ใช่เรื่องง่ายที่จะรู้ว่าสิ่งใดสามารถแก้ไขได้ด้วยการจัดการกับสถาปัตยกรรมที่มีอยู่ และสิ่งใดที่จะต้องพิจารณาใหม่ตั้งแต่ต้น

แม้ว่านักวิจัยจากเอเชียตะวันออกดูเหมือนว่าจะผลิตบทความเกี่ยวกับวิทัศน์คอมพิวเตอร์มากขึ้น แต่ฉันสังเกตเห็นว่ามีการดำเนินโครงการในลักษณะ "แฟรงเกนสไตน์" มากขึ้น ซึ่งเป็นโครงการที่ผสมผสานผลงานก่อนหน้านี้เข้ากับความแปลกใหม่ด้านสถาปัตยกรรมที่จำกัด (หรืออาจเป็นเพียงข้อมูลประเภทอื่น)

ในปีนี้ จำนวนผลงานที่ส่งเข้าประกวดจากเอเชียตะวันออก (โดยหลักแล้วเป็นผลงานจากจีนหรือความร่วมมือที่เกี่ยวข้องกับจีน) ที่เพิ่มขึ้นมากดูเหมือนว่าจะขับเคลื่อนโดยโควตา มากกว่าขับเคลื่อนโดยผลงานที่มีคุณภาพ ซึ่งส่งผลให้อัตราส่วนสัญญาณต่อสัญญาณรบกวนเพิ่มขึ้นอย่างมีนัยสำคัญในสาขาที่มีผู้สมัครเกินอยู่แล้ว

ในขณะเดียวกัน หนังสือพิมพ์เอเชียตะวันออกจำนวนมากขึ้นก็ดึงดูดความสนใจและชื่นชมฉันในปี 2024 เช่นกัน ดังนั้น หากทั้งหมดนี้เป็นเพียงเกมตัวเลข ก็ถือว่าไม่ได้ล้มเหลว แต่ก็ไม่ใช่เรื่องถูกเช่นกัน

เพิ่มปริมาณการส่งผลงาน

ปริมาณเอกสารจากทุกประเทศต้นทางเพิ่มขึ้นอย่างเห็นได้ชัดในปี 2024

วันเผยแพร่ผลงานที่มีการเปลี่ยนแปลงบ่อยที่สุดตลอดทั้งปี ขณะนี้คือวันอังคาร ซึ่งจำนวนการส่งผลงานไปยังส่วน Computer Vision และ Pattern Recognition มักจะอยู่ที่ประมาณ 300-350 ชิ้นในวันเดียว ซึ่งเป็นช่วง "พีค" (พฤษภาคม-สิงหาคม และตุลาคม-ธันวาคม ซึ่งเป็นช่วงการประชุมและช่วง "กำหนดเส้นตายโควตาประจำปี" ตามลำดับ)

นอกเหนือจากประสบการณ์ของฉันเองแล้ว Arxiv เองก็รายงานว่า จำนวนการส่งผลงานสูงสุดเป็นประวัติการณ์ในเดือนตุลาคม 2024โดยมีการส่งผลงานใหม่รวมทั้งสิ้น 6000 ชิ้น และส่วน Computer Vision เป็นส่วนที่มีการส่งผลงานมากที่สุดเป็นอันดับสอง รองจาก Machine Learning

อย่างไรก็ตาม เนื่องจากส่วนการเรียนรู้ของเครื่องใน Arxiv มักถูกใช้เป็นหมวดหมู่ "เพิ่มเติม" หรือหมวดหมู่รวม จึงถือได้ว่าวิสัยทัศน์คอมพิวเตอร์และการจดจำรูปแบบเป็นหมวดหมู่ของ Arxiv ที่ได้รับการส่งเข้ามามากที่สุด

ของอาร์ซิฟ สถิติของตัวเอง แสดงให้เห็นอย่างชัดเจนว่าวิทยาการคอมพิวเตอร์เป็นผู้นำที่ชัดเจนในการส่งผลงาน:

สาขาวิชาวิทยาการคอมพิวเตอร์ (CS) ครองสถิติการส่งผลงานของ Arxiv ในช่วง 5 ปีที่ผ่านมา แหล่งที่มา: https://info.arxiv.org/about/reports/submission_category_by_year.html

สาขาวิชาวิทยาการคอมพิวเตอร์ (CS) ครองสถิติการส่งผลงานที่ Arxiv ในช่วงห้าปีที่ผ่านมา แหล่งที่มา: https://info.arxiv.org/about/reports/submission_category_by_year.html

มหาวิทยาลัยสแตนฟอร์ด ดัชนี AI ปี 2024แม้ว่าจะยังไม่สามารถรายงานสถิติล่าสุดได้ แต่ยังเน้นย้ำถึงการเพิ่มขึ้นอย่างเห็นได้ชัดของการส่งเอกสารวิชาการเกี่ยวกับการเรียนรู้ของเครื่องจักรในช่วงไม่กี่ปีที่ผ่านมา:

แม้จะไม่มีตัวเลขสำหรับปี 2024 แต่รายงานของมหาวิทยาลัยสแตนฟอร์ดก็แสดงให้เห็นถึงปริมาณการส่งบทความเกี่ยวกับการเรียนรู้ของเครื่องจักรที่เพิ่มขึ้นอย่างมาก แหล่งที่มา: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

แม้จะไม่มีตัวเลขสำหรับปี 2024 แต่รายงานของ Stanford กลับแสดงให้เห็นถึงปริมาณการส่งเอกสารเกี่ยวกับการเรียนรู้ของเครื่องจักรที่เพิ่มขึ้นอย่างมาก แหล่งที่มา: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

การแพร่กระจาย>โครงตาข่ายขยายตัว

แนวโน้มที่ชัดเจนอีกประการหนึ่งที่เกิดขึ้นกับฉันก็คือการเพิ่มขึ้นของเอกสารที่เกี่ยวข้องกับการใช้ประโยชน์ แบบจำลองการแพร่กระจายแฝง (LDMs) เป็น เครื่องกำเนิดไฟฟ้า ของโมเดล CGI 'ดั้งเดิม' ที่ใช้ตาข่าย

โครงการประเภทนี้รวมถึงของ Tencent ทันทีMesh3D, 3Dtopia, การจัดจำหน่าย2, V3D, MVแก้ไขและ การแพร่กระจายของ GIMท่ามกลางข้อเสนอที่คล้ายคลึงกันอีกมากมาย

การสร้างและปรับแต่งตาข่ายโดยใช้กระบวนการที่ใช้การแพร่กระจายใน 3Dtopia แหล่งที่มา: https://arxiv.org/pdf/2403.02234

การสร้างและปรับแต่งตาข่ายผ่านกระบวนการที่ใช้การแพร่กระจายใน 3Dtopia แหล่งที่มา: https://arxiv.org/pdf/2403.02234

งานวิจัยใหม่นี้อาจถือได้ว่าเป็นการยอมรับโดยปริยายต่อความซับซ้อนของระบบกำเนิด เช่น โมเดลการแพร่กระจาย ซึ่งมีเพียงสองปีเท่านั้นที่ได้รับการยกย่องว่าสามารถทดแทนระบบทั้งหมดที่โมเดลการแพร่กระจาย>ตาข่ายกำลังพยายามเพิ่มจำนวนขึ้นในปัจจุบัน ทำให้การแพร่กระจายกลายเป็นเพียงเครื่องมือในเทคโนโลยีและเวิร์กโฟลว์ที่มีมายาวนานถึงสามสิบปีหรือมากกว่านั้น

Stability.ai ผู้ริเริ่มโอเพนซอร์ส การแพร่กระจายที่เสถียร รุ่นที่เพิ่งออกวางตลาด เสถียรเป็นศูนย์123ซึ่งสามารถใช้สิ่งอื่น ๆ ได้ สนามประสาทเรเดียนซ์ (NeRF) การตีความภาพที่สร้างโดย AI เป็นสะพานเพื่อสร้างแบบจำลอง CGI ที่ใช้ตาข่ายอย่างชัดเจนซึ่งสามารถนำไปใช้ในพื้นที่ CGI เช่น Unity ในวิดีโอเกม ความจริงเสริม และในแพลตฟอร์มอื่นๆ ที่ต้องการพิกัด 3 มิติที่ชัดเจน ตรงกันข้ามกับพิกัดโดยนัย (ที่ซ่อนอยู่) ของ ฟังก์ชั่นต่อเนื่อง.

คลิกเพื่อเล่น รูปภาพที่สร้างใน Stable Diffusion สามารถแปลงเป็นตาข่าย CGI แบบมีเหตุผลได้ ที่นี่เราจะเห็นผลลัพธ์ของเวิร์กโฟลว์รูปภาพ>CGI โดยใช้ Stable Zero 123 ที่มา : https://www.youtube.com/watch?v=RxsssDD48Xc

ความหมายสามมิติ

พื้นที่ AI เชิงสร้างสรรค์จะแยกความแตกต่างระหว่างการนำระบบการมองเห็นและระบบเชิงสร้างสรรค์แบบ 2 มิติและ 3 มิติมาใช้ ตัวอย่างเช่น กรอบงานการกำหนดจุดสังเกตบนใบหน้าแม้ว่า เป็นตัวแทนของ วัตถุ 3 มิติ (หน้า) ในทุกกรณี ไม่จำเป็นจะต้องคำนวณพิกัด 3 มิติที่สามารถระบุที่อยู่ได้เสมอไป

ที่เป็นที่นิยม ระบบ FANAlignซึ่งใช้กันอย่างแพร่หลายในสถาปัตยกรรม deepfake ยุคปี 2017 (และอื่นๆ) สามารถรองรับแนวทางทั้งสองนี้:

ด้านบน จุดสังเกต 2 มิติถูกสร้างขึ้นโดยอิงจากเส้นสายและลักษณะเฉพาะของใบหน้าที่จดจำได้เท่านั้น ด้านล่าง จุดสังเกตเหล่านี้ได้รับการทำให้เป็นพื้นที่ X/Y/Z 3 มิติ แหล่งที่มา: https://github.com/1adrianb/face-alignment

ด้านบน จุดสังเกต 2 มิติถูกสร้างขึ้นโดยอิงจากเส้นสายและลักษณะเฉพาะของใบหน้าที่จดจำได้เท่านั้น ด้านล่าง จุดสังเกตเหล่านี้ได้รับการทำให้สมเหตุสมผลเป็นพื้นที่ X/Y/Z 3 มิติ ที่มา: https://github.com/1adrianb/face-alignment

ดังนั้น เมื่อ ‘Deepfake’ กลายมาเป็น คำศัพท์ที่คลุมเครือและถูกแทรกแซง'3D' กลายมาเป็นศัพท์ที่น่าสับสนในงานวิจัยด้านวิชันคอมพิวเตอร์เช่นกัน

สำหรับผู้บริโภค โดยทั่วไปแล้วจะหมายถึงสื่อที่รองรับระบบสเตอริโอ (เช่น ภาพยนตร์ที่ผู้ชมต้องสวมแว่นตาพิเศษ) ส่วนผู้ปฏิบัติงานด้านเอฟเฟกต์ภาพและนักสร้างแบบจำลอง จะเป็นการแยกแยะระหว่างผลงานศิลปะ 2 มิติ (เช่น ภาพร่างแนวคิด) กับโมเดลที่ใช้ตาข่ายซึ่งสามารถปรับเปลี่ยนได้ใน "โปรแกรม 3 มิติ" เช่น Maya หรือ Cinema4D

แต่ในวิสัยทัศน์คอมพิวเตอร์ มันหมายความเพียงแค่ว่า ระบบพิกัดคาร์ทีเซียน มีอยู่ที่ไหนสักแห่งใน พื้นที่แฝง ของแบบจำลอง – ไม่ ซึ่งผู้ใช้สามารถจัดการหรือจัดการได้โดยตรงโดยจำเป็น อย่างน้อยที่สุดก็ไม่ใช่โดยไม่มีระบบ CGI เชิงตีความของบุคคลที่สาม เช่น 3DMM or เปลวไฟ.

ดังนั้นจึงมีความคิดที่ว่า การแพร่กระจาย>3D เป็นสิ่งที่ไม่แม่นยำ; ไม่เพียงแต่สามารถ ใด ประเภทของภาพ (รวมถึงรูปถ่ายจริง) ที่สามารถนำไปใช้เป็นอินพุตเพื่อสร้างแบบจำลอง CGI เชิงสร้างสรรค์ แต่คำว่า 'ตาข่าย' ซึ่งมีความคลุมเครือน้อยกว่าจะเหมาะสมกว่า

อย่างไรก็ตาม เพื่อเพิ่มความคลุมเครือ การแพร่กระจาย is จำเป็นต้องตีความภาพต้นฉบับเป็นตาข่ายในโครงการที่เพิ่งเกิดขึ้นส่วนใหญ่ ดังนั้นคำอธิบายที่ดีกว่าอาจเป็น ภาพต่อตาข่ายในขณะที่ ภาพ>การแพร่กระจาย>ตาข่าย เป็นคำอธิบายที่แม่นยำยิ่งขึ้น

แต่นั่นเป็นการขายที่ยากในการประชุมคณะกรรมการหรือในการเผยแพร่ประชาสัมพันธ์ที่ออกแบบมาเพื่อดึงดูดนักลงทุน

หลักฐานแห่งความขัดแย้งทางสถาปัตยกรรม

เมื่อเทียบกับปี 2023 ผลงานในช่วง 12 เดือนที่ผ่านมาแสดงให้เห็นถึงความสิ้นหวังที่เพิ่มขึ้นเกี่ยวกับการลบออก ข้อจำกัดเชิงปฏิบัติที่ยาก เกี่ยวกับการสร้างแบบแพร่กระจาย

อุปสรรคสำคัญยังคงอยู่ที่การสร้างวิดีโอที่มีความสอดคล้องทั้งในเชิงเรื่องราวและเวลา รวมทั้งการรักษาความสม่ำเสมอของรูปลักษณ์ของตัวละครและวัตถุ ไม่เพียงแค่ในคลิปวิดีโอที่แตกต่างกันเท่านั้น แต่รวมถึงในระยะเวลาสั้นๆ ของคลิปวิดีโอที่สร้างขึ้นเพียงคลิปเดียวด้วย

นวัตกรรมยุคสุดท้ายในการสังเคราะห์แบบแพร่กระจายคือ การถือกำเนิดของ LoRA ในปี 2022 แม้ว่าระบบใหม่ๆ เช่น Flux จะได้รับการปรับปรุงให้ดีขึ้นในปัญหาที่ไม่ค่อยปกติบางประการ เช่น ความไม่สามารถทำซ้ำเนื้อหาข้อความภายในภาพที่สร้างขึ้นของ Stable Diffusion ได้ และคุณภาพของภาพโดยรวมก็ได้รับการปรับปรุงแล้ว แต่เอกสารส่วนใหญ่ที่ฉันศึกษาในปี 2024 นั้นเป็นเพียงการเคลื่อนย้ายอาหารบนจานเท่านั้น

ความขัดแย้งเหล่านี้เคยเกิดขึ้นมาก่อนแล้ว โดยมี Generative Adversarial Networks (GANs) และ Neural Radiance Fields (NeRF) ซึ่งทั้งสองอย่างนี้ไม่สามารถใช้ศักยภาพเริ่มต้นได้อย่างเต็มที่ และทั้งสองอย่างนี้ถูกนำมาใช้อย่างแพร่หลายในระบบทั่วไปมากขึ้น (เช่น การใช้ NeRF ใน Stable Zero 123 ดูข้างต้น) ซึ่งดูเหมือนว่าจะเกิดขึ้นกับโมเดลการแพร่กระจายด้วยเช่นกัน

การวิจัยการสาดสีแบบเกาส์เซียน

ดูเหมือนว่าในช่วงปลายปี 2023 วิธีการแรสเตอร์ไรเซชัน การสาดแบบเกาส์เซียน 3 มิติ (3DGS) ซึ่งเปิดตัวเป็นเทคนิคถ่ายภาพทางการแพทย์ในช่วงต้นทศวรรษ 1990 ถูกกำหนดให้แซงหน้าอย่างกะทันหัน ตามการเข้ารหัสอัตโนมัติ ระบบการสังเคราะห์ภาพของมนุษย์ที่ท้าทาย (เช่น การจำลองและการสร้างใบหน้าใหม่ รวมถึงการถ่ายโอนตัวตน)

กระดาษ ASH ปี 2023 สัญญาว่า มนุษย์ 3DGS แบบเต็มตัวในขณะที่ อวตารแบบเกาส์เซียน เสนอรายละเอียดที่ได้รับการปรับปรุงอย่างมาก (เมื่อเปรียบเทียบกับตัวเข้ารหัสอัตโนมัติและวิธีการแข่งขันอื่น ๆ) พร้อมการแสดงซ้ำข้ามแพลตฟอร์มที่น่าประทับใจ

อย่างไรก็ตาม ในปีนี้ มีช่วงเวลาแห่งความก้าวหน้าเพียงเล็กน้อยสำหรับการสังเคราะห์ 3DGS ในมนุษย์ โดยบทความส่วนใหญ่ที่กล่าวถึงปัญหานี้ล้วนเป็นผลงานที่ดัดแปลงมาจากบทความที่กล่าวข้างต้น หรือไม่สามารถเกินขีดความสามารถของตนได้

ในทางกลับกัน การเน้นย้ำถึง 3DGS อยู่ที่การปรับปรุงความเป็นไปได้ทางสถาปัตยกรรมพื้นฐาน ซึ่งนำไปสู่เอกสารจำนวนมากที่เสนอสภาพแวดล้อมภายนอก 3DGS ที่ได้รับการปรับปรุง ความใส่ใจเป็นพิเศษ ได้รับการชำระให้กับ Simultaneous Localization and Mapping แล้ว (สแลม) แนวทาง 3DGS ในโครงการต่างๆ เช่น การสาดสีแบบเกาส์เซียน SLAM, สแปลท-สแลม, เกาส์เซียน-สแลม, ดรอยด์-สแปลต, หมู่คนอื่น ๆ อีกมากมาย

โครงการเหล่านั้นที่พยายามจะดำเนินการต่อหรือขยายการสังเคราะห์ของมนุษย์โดยใช้สแปลต ได้แก่ มิกส์, GEM, EVA, อ็อคฟิวชั่น, แฟกเฮด, มนุษย์สแปลต, GGหัว, เอชจีเอ็มและ โทโป4ดีแม้ว่าจะมีอย่างอื่นด้วย แต่การออกนอกบ้านเหล่านี้ไม่มีครั้งใดเลยที่ตรงกับผลกระทบเริ่มแรกของเอกสารที่ออกมาในช่วงปลายปี 2023

ยุคของ 'Weinstein' ของตัวอย่างทดสอบกำลังอยู่ในช่วงขาลง (ช้าๆ)

งานวิจัยจากเอเชียตะวันออกเฉียงใต้โดยทั่วไป (และโดยเฉพาะประเทศจีน) มักนำเสนอตัวอย่างการทดสอบที่อาจทำได้ยากในการตีพิมพ์ซ้ำในบทความวิจารณ์ เพราะมีเนื้อหาที่ "เผ็ดร้อน" เกินไปเล็กน้อย

ว่าเป็นเพราะว่านักวิจัยในส่วนนั้นของโลกกำลังพยายามดึงดูดความสนใจให้กับผลงานของพวกเขาหรือไม่นั้นเป็นเรื่องที่ถกเถียงกันอยู่ แต่ในช่วง 18 เดือนที่ผ่านมา มีงานวิจัยจำนวนมากขึ้นเรื่อยๆ ที่เกี่ยวข้องกับปัญญาประดิษฐ์ (ภาพและ/หรือวิดีโอ) ที่เลือกใช้ผู้หญิงและเด็กผู้หญิงที่อายุน้อยและสวมเสื้อผ้าบางเบาในตัวอย่างโครงการ ตัวอย่างที่ไม่เหมาะสำหรับการทำงาน ได้แก่ ยูนิแอนิเมท, การควบคุมถัดไปและแม้แต่กระดาษที่ 'แห้งมาก' เช่น การประเมินความสม่ำเสมอของการเคลื่อนไหวด้วยวิดีโอ Fréchet ระยะการเคลื่อนไหว (ฟ.ว.ด.)

สิ่งนี้สอดคล้องกับแนวโน้มทั่วไปของ subreddit และชุมชนอื่นๆ ที่มารวมตัวกันรอบ Latent Diffusion Models (LDMs) โดยที่กฎข้อที่ 34 ยังคงมีให้เห็นอยู่มาก

การเผชิญหน้าระหว่างดาราดัง

ตัวอย่างที่ไม่เหมาะสมประเภทนี้ทับซ้อนกับการรับรู้ที่เพิ่มขึ้นว่ากระบวนการ AI ไม่ควรใช้ประโยชน์จากรูปลักษณ์ของคนดังโดยพลการ โดยเฉพาะในการศึกษาที่ใช้ตัวอย่างโดยไม่วิจารณญาณ ที่ คนดังที่น่าดึงดูด มักเป็นผู้หญิง และวางไว้ในบริบทที่น่าสงสัย

ตัวอย่างหนึ่งคือ เอนี่เดรสซิ่งซึ่งนอกจากจะมีตัวละครหญิงสไตล์อนิเมะที่อายุน้อยมากแล้ว ยังใช้อัตลักษณ์ของคนดังคลาสสิกอย่างมาริลีน มอนโร และคนดังในปัจจุบันอย่างแอนน์ แฮธาเวย์ (ซึ่งประณามการใช้ลักษณะนี้) ค่อนข้างพูดออกมา).

การใช้ชื่อคนดังในปัจจุบันและ "คนดังคลาสสิก" ตามอำเภอใจยังคงพบเห็นได้ทั่วไปในหนังสือพิมพ์จากเอเชียตะวันออกเฉียงใต้ แม้ว่าการปฏิบัตินี้จะเริ่มลดน้อยลงบ้างแล้ว แหล่งที่มา: https://crayon-shinchan.github.io/AnyDressing/

การใช้ชื่อคนดังในปัจจุบันและ 'คลาสสิก' ตามอำเภอใจยังคงพบเห็นได้ทั่วไปในหนังสือพิมพ์จากเอเชียตะวันออกเฉียงใต้ แม้ว่าการปฏิบัตินี้จะลดลงบ้างแล้วก็ตาม ที่มา: https://crayon-shinchan.github.io/AnyDressing/

In ตะวันตก เอกสาร แนวทางปฏิบัตินี้ลดลงอย่างเห็นได้ชัดตลอดปี 2024 นำโดยการเผยแพร่เอกสารขนาดใหญ่จาก FAANG และหน่วยงานวิจัยระดับสูงอื่นๆ เช่น OpenAI ผู้เล่นองค์กรใหญ่เหล่านี้ตระหนักดีถึงศักยภาพในการฟ้องร้องในอนาคต จึงดูเหมือนไม่เต็มใจที่จะเป็นตัวแทนแม้แต่น้อย สวม ผู้คนที่มีความเหมือนจริง

แม้ว่าระบบที่พวกเขากำลังสร้าง (เช่น ภาพ และ วีโอ2) มีความสามารถในการสร้างผลลัพธ์ดังกล่าวได้อย่างชัดเจน ตัวอย่างจากโครงการ AI เชิงสร้างสรรค์ของตะวันตกในปัจจุบันมีแนวโน้มไปทางรูปภาพและวิดีโอที่ 'น่ารัก' เหมือนดิสนีย์ และ 'ปลอดภัย' อย่างยิ่ง

แม้จะอวดอ้างความสามารถของ Imagen ในการสร้างผลงานที่ "เหมือนจริง" แต่ตัวอย่างที่ Google Research โปรโมตนั้นมักจะเป็นผลงานแนวแฟนตาซีและ "ครอบครัว" โดยหลีกเลี่ยงมนุษย์ที่เหมือนจริงอย่างระมัดระวัง หรือให้ตัวอย่างเพียงเล็กน้อยเท่านั้น แหล่งที่มา: https://imagen.research.google/

แม้จะโอ้อวดถึงความสามารถของ Imagen ในการสร้างผลลัพธ์ที่ "เหมือนจริง" แต่ตัวอย่างที่ Google Research โปรโมตนั้นมักจะเป็นภาพในจินตนาการแบบ "ครอบครัว" โดยจะหลีกเลี่ยงภาพมนุษย์ที่เหมือนจริงอย่างระมัดระวัง หรือให้ตัวอย่างเพียงเล็กน้อยเท่านั้น ที่มา: https://imagen.research.google/

การล้างหน้า

ในวรรณกรรม CV ของตะวันตก แนวทางที่ไม่จริงใจนี้มีหลักฐานชัดเจนสำหรับ การปรับแต่ง ระบบ – วิธีการที่มีความสามารถในการสร้างภาพเหมือนที่สม่ำเสมอของบุคคลใดบุคคลหนึ่งจากตัวอย่างต่างๆ (เช่น LoRA และรุ่นเก่ากว่า) ดรีมบูธ).

ตัวอย่าง ได้แก่ การฝังภาพแบบมุมฉาก, LoRA-นักแต่งเพลง, Google's อินสทรูทบูธและอีกมากมาย

InstructBooth ของ Google เพิ่มปัจจัยความน่ารักขึ้นเป็น 11 เท่า แม้ว่าประวัติศาสตร์จะชี้ให้เห็นว่าผู้ใช้สนใจที่จะสร้างมนุษย์ที่ดูเหมือนจริงมากกว่าตัวละครที่มีขนหรือขนปุยก็ตาม แหล่งที่มา: https://sites.google.com/view/instructbooth

InstructBooth ของ Google เพิ่มปัจจัยความน่ารักขึ้นเป็น 11 เท่า ถึงแม้ว่าประวัติศาสตร์จะชี้ให้เห็นว่าผู้ใช้สนใจในการสร้างตัวละครที่ดูเหมือนจริงมากกว่าตัวละครที่มีขนหรือขนปุยก็ตาม ที่มา: https://sites.google.com/view/instructbooth

อย่างไรก็ตาม การเพิ่มขึ้นของ 'ตัวอย่างน่ารัก' พบเห็นได้ในงานวิจัย CV และการสังเคราะห์อื่นๆ ในโครงการต่างๆ เช่น คอม4ดี, V3D, การออกแบบแก้ไข, UniEdit, เฟสเชน (ซึ่งยอมรับความคาดหวังของผู้ใช้ที่สมจริงยิ่งขึ้น หน้า GitHub), และ ดีพีจี-ที2ไอ, หมู่คนอื่น ๆ อีกมากมาย

ความสะดวกที่ระบบดังกล่าว (เช่น LoRA) สามารถสร้างโดยผู้ใช้ตามบ้านด้วยฮาร์ดแวร์ราคาไม่แพง ส่งผลให้มีนางแบบคนดังให้ดาวน์โหลดฟรีจำนวนมาก ที่โดเมน civit.ai และชุมชน การใช้งานที่ผิดกฎหมายดังกล่าวยังคงเป็นไปได้ผ่านโอเพนซอร์สของสถาปัตยกรรม เช่น การแพร่กระจายที่เสถียร และ การไหล.

แม้ว่ามักจะเป็นไปได้ที่จะเจาะผ่านคุณสมบัติความปลอดภัยของระบบแปลงข้อความเป็นภาพเชิงสร้างสรรค์ (T2I) และแปลงข้อความเป็นวิดีโอ (T2V) เพื่อผลิตสื่อที่ถูกห้ามตามเงื่อนไขการใช้งานของแพลตฟอร์ม แต่ช่องว่างระหว่างความสามารถที่จำกัดของระบบที่ดีที่สุด (เช่น RunwayML และ Sora) กับความสามารถที่ไม่จำกัดของระบบที่มีประสิทธิภาพเพียงอย่างเดียว (เช่น การแพร่กระจายวิดีโอที่เสถียร, วิดีโอฟันเฟือง และการใช้งานในพื้นที่ ฮุนหยวน) ไม่ได้ปิดจริงๆ อย่างที่หลายคนเชื่อ

ในทางกลับกัน ระบบที่เป็นกรรมสิทธิ์และระบบโอเพ่นซอร์สเหล่านี้ต่างก็มีความเสี่ยงที่จะไร้ประโยชน์เท่าๆ กัน กล่าวคือ ระบบ T2V ราคาแพงและไฮเปอร์สเกลอาจกลายเป็นระบบที่จำกัดอย่างมากเนื่องจากเกรงว่าจะถูกฟ้องร้อง ในขณะเดียวกันการขาดโครงสร้างพื้นฐานด้านใบอนุญาตและการดูแลชุดข้อมูลในระบบโอเพ่นซอร์สอาจทำให้ระบบเหล่านี้ไม่สามารถนำไปใช้ในตลาดได้ เนื่องจากกฎระเบียบที่เข้มงวดยิ่งขึ้นเริ่มมีผลบังคับใช้

 

เผยแพร่ครั้งแรกวันอังคารที่ 24 ธันวาคม 2024

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านการสังเคราะห์ภาพของมนุษย์ อดีตหัวหน้าฝ่ายเนื้อหาการวิจัยที่ Metaphysic.ai
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai