ปัญญาประดิษฐ์

MambaOut: เราต้องการ Mamba สำหรับการมองเห็นหรือไม่?

Published May 24, 2024

Updated April 27, 2026

Kunal Kejriwal

ในเฟรมเวิร์กการเรียนรู้ของเครื่องและปัญญาประดิษฐ้สมัยใหม่ ทรานส์ฟอร์เมอร์เป็นหนึ่งในส่วนประกอบที่ใช้กันอย่างกว้างขวางที่สุดในโดเมนต่างๆ รวมถึงซีรีส์ GPT และ BERT ในการประมวลผลภาษา自然 และ Vision Transformers ในงานวิชาการด้านการมองเห็น แม้ว่าการรวมทรานส์ฟอร์เมอร์เข้าไปในโครงสร้างแบบจำลองจะช่วยเพิ่มประสิทธิภาพของแบบจำลองอย่างมีนัยสำคัญ แต่โมดูลความสนใจในทรานส์ฟอร์เมอร์มีความซับซ้อนตามความยาวของลำดับ ทำให้เกิดปัญหาการคำนวณที่ท้าทาย ในช่วงหลายปีที่ผ่านมา โมเดลต่างๆ ได้สำรวจกลยุทธ์ต่างๆ เพื่อแก้ไขปัญหาการคำนวณ รวมถึงวิธีการเช่นการแปลงเคอร์เนล การบีบอัดหน่วยความจำ การจำกัดช่วงการผสมโทเค็น และการเข้าใกล้ค่าลอการิทึม ล่าสุด โมเดลเครือข่ายประสาทรับบำบัดแบบเรียกซ้ำ เช่น Mamba และ RWKV ได้รับความสนใจอย่างมากเนื่องจากผลลัพธ์ที่น่าหวังในโมเดลภาษาขนาดใหญ่

Mamba ซึ่งเป็นครอบครัวของโมเดลมีโครงสร้างที่มีการผสมโทเค็นแบบเครือข่ายประสาทรับบำบัดแบบเรียกซ้ำของโมเดลพื้นที่สถานะ ถูกนำเสนอเพื่อแก้ไขความซับซ้อนแบบทวีคูณของกลไกความสนใจและถูกนำไปใช้กับงานวิชาการด้านการมองเห็นต่อมา นักวิจัยได้สำรวจวิธีการรวม Mamba และ SSM หรือโมเดลพื้นที่สถานะเข้ากับงานวิชาการด้านการรู้จำภาพ และ Vision Mamba ที่รวม Mamba เพื่อพัฒนามอเดลการมองเห็นแบบไอโซโทรปิกที่คล้ายกับ Vision Transformer เป็นตัวอย่างที่ดี ในทางกลับกัน LocalMamba รวมการบิดเบือนแบบอุปนัยท้องถิ่นเพื่อเพิ่มประสิทธิภาพของโมเดลการมองเห็นของ Mamba และเฟรมเวิร์ก VMamba ใช้โมเดล Mamba พื้นฐานเพื่อสร้างโมเดลแบบ階層ที่คล้ายกับ ResNet และ AlexNet อย่างไรก็ตาม โครงสร้าง Mamba จริงๆ แล้วจำเป็นสำหรับงานวิชาการด้านการรู้จำภาพหรือไม่? คำถามนี้เกิดขึ้นเนื่องจากประสิทธิภาพของครอบครัวโมเดล Mamba สำหรับงานวิชาการด้านการมองเห็นยังต่ำกว่าเมื่อเทียบกับโมเดลที่ใช้ความสนใจและโมเดลที่ใช้การถ่ายทอดแบบโครงข่ายในแบบดั้งเดิม

MambaOut พยายามที่จะตอบว่า Mamba เหมาะสมกับงานที่มีลักษณะการเรียกซ้ำและลำดับยาวหรือไม่ โครงสร้าง MambaOut สมมติว่า Mamba ไม่จำเป็นสำหรับงานวิชาการด้านการมองเห็นเนื่องจากการจำแนกประเภทภาพไม่สอดคล้องกับลักษณะการเรียกซ้ำหรือลำดับยาว แม้ว่างานวิชาการด้านการแบ่งส่วนและตรวจจับไม่ใช่การเรียกซ้ำ แต่ก็มีลักษณะของลำดับยาว ซึ่งนำไปสู่สมมติฐานของ MambaOut ว่า Mamba มีศักยภาพสำหรับงานเหล่านี้ โครงสร้าง MambaOut ถูกสร้างขึ้นโดยการวางบล็อก Mamba ทับกันโดยการเอาโมเดลพื้นที่สถานะออก และผลการทดลองสนับสนุนสมมติฐานที่นำเสนอโดยโครงสร้าง MambaOut เนื่องจากสามารถเอาชนะโมเดล Mamba ที่มีการมองเห็นทั้งหมดในเฟรมเวิร์กการจำแนกประเภทภาพ ImageNet ซึ่งบ่งชี้ว่า Mamba ไม่จำเป็นสำหรับงานวิชาการด้านการมองเห็น ในทางกลับกัน สำหรับงานวิชาการด้านการตรวจจับและแบ่งส่วน โครงสร้าง MambaOut ไม่สามารถทำซ้ำประสิทธิภาพที่นำเสนอโดยโมเดล Mamba ที่มีคุณภาพสูงสุด ซึ่งแสดงถึงศักยภาพของครอบครัวโมเดล Mamba สำหรับงานวิชาการด้านการมองเห็นลำดับยาว

บทความนี้มีจุดมุ่งหมายเพื่อครอบคลุมโครงสร้าง MambaOut อย่างลึกซึ้ง และเราจะสำรวจกลไก วิธีการ โครงสร้างของโครงสร้างพร้อมกับการเปรียบเทียบกับเฟรมเวิร์กที่มีคุณภาพสูงสุด ดังนั้น มาเริ่มต้นกัน

MambaOut: Mamba จริงๆ แล้วจำเป็นสำหรับการมองเห็นหรือไม่?

ด้วยความก้าวหน้าของการประยุกต์ใช้และการทำงานของเครื่องจักร ทรานส์ฟอร์เมอร์ได้กลายเป็นโครงสร้างหลักสำหรับงานต่างๆ รวมถึง Vision Transformers, ซีรีส์โมเดล GPT, BERT และอื่นๆ อย่างไรก็ตาม โทเค็นผสมของทรานส์ฟอร์เมอร์ทำให้เกิดความซับซ้อนแบบทวีคูณเมื่อเทียบกับความยาวของลำดับ และทำให้เกิดปัญหาการคำนวณที่ท้าทาย เพื่อแก้ไขปัญหานี้ โทเค็นผสมหลายตัวที่มีความซับซ้อนเชิงเส้นต่อความยาวของโทเค็น เช่น Linformer, Longformer, Performer, Dynamic Convolution และ Big Bird ได้ถูกนำเสนอ อย่างไรก็ตาม ในช่วงไม่นานมานี้ โมเดลเครือข่ายประสาทรับบำบัดแบบเรียกซ้ำได้รับความสนใจเนื่องจากความสามารถในการฝึกอบรมแบบขนานและประสิทธิภาพที่ดีในการจัดการลำดับยาว โดยได้รับแรงบันดาลใจจากผลลัพธ์ที่น่าประทับใจของโมเดล RNN-แบบ นักวิจัยพยายามที่จะแนะนำและใช้ครอบครัวโมเดล Mamba ในงานวิชาการด้านการรู้จำภาพ เนื่องจากโทเค็นผสมของโมเดล Mamba เป็นโมเดลพื้นที่สถานะที่มีโครงสร้างภายใต้แนวคิดของเครือข่ายประสาทรับบำบัดแบบเรียกซ้ำ อย่างไรก็ตาม ผลการทดลองบ่งชี้ว่าโครงสร้างที่ใช้โมเดลพื้นที่สถานะสำหรับการมองเห็นทำงานต่ำกว่าเมื่อเทียบกับโมเดลที่ใช้ความสนใจและโมเดลที่ใช้การถ่ายทอดแบบโครงข่ายในแบบดั้งเดิม

MambaOut เป็นความพยายามที่จะสำรวจธรรมชาติของครอบครัวโมเดล Mamba และสรุปได้ว่า Mamba เหมาะสมกับงานที่มีลักษณะการเรียกซ้ำหรือลำดับยาว เนื่องจากโมเดลพื้นที่สถานะมีกลไก RNN ที่มีอยู่ในตัว อย่างไรก็ตาม ส่วนใหญ่ของงานวิชาการด้านการมองเห็นไม่มีลักษณะทั้งสองนี้ และตามการทดลองบางอย่าง MambaOut เสนอสมมติฐานสองประการ ประการแรก โมเดลพื้นที่สถานะไม่จำเป็นสำหรับการจำแนกประเภทภาพ เนื่องจากการจำแนกประเภทภาพไม่สอดคล้องกับลักษณะการเรียกซ้ำหรือลำดับยาว ประการที่สอง โมเดลพื้นที่สถานะอาจมีประโยชน์สำหรับการแบ่งส่วนแบบอินสแตนซ์และการตรวจจับวัตถุ เนื่องจากมีลักษณะของลำดับยาว แม้ว่าจะไม่ใช่การเรียกซ้ำก็ตาม ผลการทดลองที่ดำเนินการเพื่อวิเคราะห์กลไก RNN-แบบของโมเดลพื้นที่สถานะสรุปได้ว่าโครงสร้าง Mamba เหมาะสมกับงานที่มีลักษณะการเรียกซ้ำหรือลำดับยาว และไม่จำเป็นสำหรับงานวิชาการด้านการมองเห็น

งานใดที่ Mamba เหมาะสม?

โทเค็นผสมของโครงสร้าง Mamba เป็นโมเดลพื้นที่สถานะที่เลือกซึ่งกำหนดพารามิเตอร์ขึ้นอยู่กับอินพุตสี่ตัว คุณสมบัติการเรียกซ้ำของโครงสร้างนี้ทำให้โมเดลพื้นที่สถานะแบบ RNN-แบบแตกต่างจากความสนใจแบบสาเหตุ สถานะที่ซ่อนอยู่สามารถมองได้ว่าเป็นหน่วยความจำขนาดคงที่ที่เก็บข้อมูลในอดีต ความจำที่มีขนาดคงที่หมายความว่าความจำนี้มีการสูญเสีย แต่ก็รับประกันว่าความซับซ้อนในการรวมความจำกับอินพุตปัจจุบันจะยังคงที่ ในทางกลับกัน ความสนใจแบบสาเหตุเก็บคีย์และค่าจากโทเค็นก่อนหน้าทั้งหมด และขยายโดยการเพิ่มคีย์และค่าของโทเค็นปัจจุบันเมื่อมีอินพุตใหม่ และความจำนี้ไม่มีการสูญเสียในทางทฤษฎี อย่างไรก็ตาม ขนาดของความจำจะเติบโตเมื่อมีโทเค็นมากขึ้น ทำให้ความซับซ้อนในการรวมความจำกับอินพุตปัจจุบันเพิ่มขึ้น ความแตกต่างระหว่างกลไกความจำระหว่างความสนใจแบบสาเหตุและโมเดล RNN-แบบแสดงไว้ในรูปต่อไปนี้

เนื่องจากความจำของโมเดลพื้นที่สถานะมีการสูญเสียโดยธรรมชาติ จึงต่ำกว่าความจำที่ไม่มีการสูญเสียของความสนใจแบบสาเหตุ และด้วยเหตุนี้ โมเดล Mamba จึงไม่สามารถแสดงความสามารถในการจัดการลำดับสั้นได้ ซึ่งเป็นพื้นที่ที่กลไกความสนใจแบบสาเหตุทำงานได้ดี อย่างไรก็ตาม ในสถานการณ์ที่เกี่ยวข้องกับลำดับยาว โมเดล Mamba แสดงให้เห็นถึงประสิทธิภาพในการรวมความจำกับอินพุตปัจจุบัน และสามารถจัดการลำดับยาวได้อย่างราบรื่น ซึ่งบ่งชี้ว่าครอบครัวโมเดล Mamba เหมาะสมกับการประมวลผลลำดับยาว

นอกจากนี้ ยังควรทราบว่าในขณะที่คุณสมบัติการเรียกซ้ำของโมเดลพื้นที่สถานะช่วยให้โมเดล Mamba สามารถจัดการลำดับยาวได้อย่างมีประสิทธิภาพ แต่ก็แนะนำข้อจำกัดบางประการ เนื่องจากสามารถเข้าถึงข้อมูลได้เฉพาะจากช่วงเวลาและช่วงเวลาก่อนหน้าเท่านั้น และการผสมโทเค็นแบบนี้เรียกว่าโหมดสาเหตุ และแสดงไว้ในรูปต่อไปนี้ เนื่องจากมีลักษณะสาเหตุ โหมดนี้จึงเหมาะสมกับงานสร้างแบบอัตโนมัติ

โหมดที่มองเห็นทั้งหมดเหมาะสมกับงานที่ต้องเข้าใจทั้งหมด เนื่องจากโมเดลสามารถเข้าถึงอินพุตทั้งหมดได้ ในทางกลับกัน ความสนใจแบบสาเหตุเป็นโหมดที่มองเห็นทั้งหมดโดยค่าเริ่มต้น และสามารถเปลี่ยนเป็นโหมดสาเหตุได้ง่ายโดยการนำหน้ากากสาเหตุมาใช้กับแผนที่ความสนใจ และโมเดล RNN-แบบทำงานในโหมดสาเหตุโดยธรรมชาติเนื่องจากคุณสมบัติการเรียกซ้ำ ดังนั้น โครงสร้าง Mamba จึงเหมาะสมกับงานที่เกี่ยวข้องกับการประมวลผลลำดับยาวหรืองานที่ต้องการโหมดผสมโทเค็นแบบสาเหตุ

งานวิชาการด้านการรู้จำภาพ โค้ดการผสมโทเค็นแบบสาเหตุ และลำดับขนาดใหญ่

ตามที่กล่าวไว้ก่อนหน้านี้ โหมดผสมโทเค็นที่มองเห็นทั้งหมดช่วยให้สามารถผสมได้ไม่จำกัด ในทางกลับกัน โหมดสาเหตุจำกัดโทเค็นปัจจุบันให้สามารถเข้าถึงข้อมูลจากโทเค็นก่อนหน้าเท่านั้น นอกจากนี้ การรู้จำภาพถูกจัดประเภทเป็นงานที่ต้องเข้าใจทั้งหมด เนื่องจากโมเดลสามารถมองเห็นภาพทั้งหมดได้ ซึ่งทำให้ไม่จำเป็นต้องมีข้อจำกัดในการผสมโทเค็น และการบังคับใช้ข้อจำกัดในการผสมโทเค็นเพิ่มเติมอาจทำให้ประสิทธิภาพของโมเดลลดลงได้ โดยทั่วไป โหมดที่มองเห็นทั้งหมดเหมาะสมกับงานที่ต้องเข้าใจ และโหมดสาเหตุเหมาะสมกับงานสร้างแบบอัตโนมัติมากกว่า นอกจากนี้ ยังได้รับการสนับสนุนจากข้อเท็จจริงที่ว่าโมเดล BeRT และ ViT ใช้สำหรับงานที่ต้องเข้าใจมากกว่าโมเดล GPT

การยืนยันทางทดลองและผลลัพธ์

ขั้นตอนต่อไปคือการยืนยันสมมติฐานที่นำเสนอโดยโครงสร้าง MambaOut ทางทดลอง ตามที่แสดงไว้ในรูปต่อไปนี้ บล็อก Mamba มีพื้นฐานมาจากบล็อกเครือข่ายประสาทรับบำบัดแบบคอนโวลูชันแบบเกต และโครงสร้างเมตาของบล็อก Mamba และ Gated CNN สามารถถือได้ว่าเป็นการรวมกันอย่างง่ายของโทเค็นผสมของ MetaFormer และ MLP

บล็อก Mamba ขยายบล็อกเครือข่ายประสาทรับบำบัดแบบคอนโวลูชันแบบเกตด้วยโมเดลพื้นที่สถานะเพิ่มเติม และการมีอยู่ของ SSm คือสิ่งที่ทำให้บล็อก Gated CNN และบล็อก Mamba แตกต่างกัน นอกจากนี้ เพื่อปรับปรุงความเร็วในการปฏิบัติงาน โครงสร้าง MambaOut จะทำการคอนโวลูชันแบบความลึกเฉพาะบนช่องบางส่วนเท่านั้น และตามที่แสดงไว้ในอัลกอริทึมที่ต่อไปนี้ การใช้บล็อก Gated CNN นั้นง่ายและเป็นไปได้

งานจำแนกประเภทภาพ

ImageNet ทำหน้าที่เป็นมาตรฐานสำหรับงานจำแนกประเภทภาพ เนื่องจากมีคลาสทั่วไปมากกว่า 1,000 คลาส ภาพฝึกอบรมมากกว่า 1.3 ล้านภาพ และภาพตรวจสอบมากกว่า 50,000 ภาพ การเพิ่มภาพที่ใช้ในการทดลองประกอบด้วยการทำการปรับขนาดแบบสุ่ม การผสมภาพ การเปลี่ยนสี การลบภาพแบบสุ่ม การผสมภาพ และการเพิ่มภาพแบบสุ่ม ตารางต่อไปนี้สรุปประสิทธิภาพของครอบครัวโมเดล Mamba โมเดล MambaOut และโมเดลอื่นๆ ที่ใช้ความสนใจและโมเดลที่ใช้การถ่ายทอดแบบโครงข่ายในเฟรมเวิร์กการจำแนกประเภทภาพ ImageNet ตามที่เห็นได้ โครงสร้าง MambaOut ที่ไม่มีโมเดลพื้นที่สถานะสามารถเอาชนะโมเดล Mamba ที่มีการมองเห็นทั้งหมดได้อย่างต่อเนื่องในทุกขนาดของโมเดล

ตัวอย่างเช่น โมเดล MambaOut-Small ให้คะแนนความแม่นยำอันดับ 1 มากกว่า 84% ซึ่งสูงกว่าโมเดล Mamba ที่ใกล้เคียงที่สุดถึง 0.4% ผลลัพธ์นี้สนับสนุนสมมติฐานแรกที่ระบุว่าการนำโมเดลพื้นที่สถานะมาใช้สำหรับงานจำแนกประเภทภาพไม่จำเป็น

งานตรวจจับวัตถุและแบ่งส่วนแบบอินสแตนซ์

COCO ทำหน้าที่เป็นมาตรฐานสำหรับงานตรวจจับวัตถุและแบ่งส่วนแบบอินสแตนซ์ แม้ว่าโครงสร้าง MambaOut จะสามารถเอาชนะโมเดล Mamba ที่มีการมองเห็นบางตัว แต่ก็ยังต่ำกว่าโมเดล Mamba ที่มีคุณภาพสูงสุด รวมถึง LocalVMamba และ VMamba ความแตกต่างในประสิทธิภาพของ MambaOut เทียบกับโมเดล Mamba ที่มีคุณภาพสูงสุดเน้นย้ำถึงประโยชน์ของการรวมครอบครัวโมเดล Mamba ในงานวิชาการด้านการมองเห็นลำดับยาว อย่างไรก็ตาม ควรทราบว่าช่องว่างที่สำคัญยังคงอยู่ระหว่างโมเดลที่มีคุณภาพสูงสุดและโมเดล Mamba ที่มีการมองเห็น

ความคิดสุดท้าย

ครอบครัวโมเดล Mamba ดูเหมือนจะเหมาะสมกับงานที่มีลักษณะการเรียกซ้ำและลำดับยาว โครงสร้าง MambaOut สมมติว่า Mamba ไม่จำเป็นสำหรับงานวิชาการด้านการมองเห็น เนื่องจากการจำแนกประเภทภาพไม่สอดคล้องกับลักษณะการเรียกซ้ำหรือลำดับยาว แม้ว่างานวิชาการด้านการแบ่งส่วนและตรวจจับไม่ใช่การเรียกซ้ำ แต่ก็มีลักษณะของลำดับยาว ซึ่งนำไปสู่สมมติฐานของ MambaOut ว่า Mamba มีศักยภาพสำหรับงานเหล่านี้ โครงสร้าง MambaOut ถูกสร้างขึ้นโดยการวางบล็อก Mamba ทับกันโดยการเอาโมเดลพื้นที่สถานะออก และผลการทดลองสนับสนุนสมมติฐานที่นำเสนอโดยโครงสร้าง MambaOut เนื่องจากสามารถเอาชนะโมเดล Mamba ที่มีการมองเห็นทั้งหมดในเฟรมเวิร์กการจำแนกประเภทภาพ ImageNet ซึ่งบ่งชี้ว่า Mamba ไม่จำเป็นสำหรับงานวิชาการด้านการมองเห็น ในทางกลับกัน สำหรับงานวิชาการด้านการตรวจจับและแบ่งส่วน โครงสร้าง MambaOut ไม่สามารถทำซ้ำประสิทธิภาพที่นำเสนอโดยโมเดล Mamba ที่มีคุณภาพสูงสุด ซึ่งแสดงถึงศักยภาพของครอบครัวโมเดล Mamba สำหรับงานวิชาการด้านการมองเห็นลำดับยาว

Kunal Kejriwal

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล