เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

MambaOut: เราต้องการ Mamba เพื่อการมองเห็นจริงหรือ?

mm

การตีพิมพ์

 on

ในเฟรมเวิร์กแมชชีนเลิร์นนิงและปัญญาประดิษฐ์สมัยใหม่ หม้อแปลงเป็นหนึ่งในองค์ประกอบที่ใช้กันอย่างแพร่หลายในโดเมนต่างๆ รวมถึงซีรีส์ GPT และ BERT ในการประมวลผลภาษาธรรมชาติ และ Vision Transformers ในงานคอมพิวเตอร์วิทัศน์ แม้ว่าการรวมหม้อแปลงไว้ในสถาปัตยกรรมโมเดลจะช่วยเพิ่มประสิทธิภาพการทำงานของโมเดลได้อย่างมาก แต่โมดูลความสนใจใน Transformers จะปรับขนาดตามความยาวลำดับแบบกำลังสอง ซึ่งนำไปสู่ความท้าทายในการคำนวณสูง ในช่วงหลายปีที่ผ่านมา โมเดลต่างๆ ได้สำรวจกลยุทธ์ที่แตกต่างกันเพื่อรับมือกับความท้าทายด้านการคำนวณ รวมถึงวิธีการต่างๆ เช่น เคอร์เนลไลเซชัน การบีบอัดหน่วยความจำประวัติ การจำกัดช่วงการผสมโทเค็น และวิธีการอันดับต่ำ เมื่อเร็วๆ นี้ Recurrent Neural Networks เช่น วิธีการต่างๆ รวมถึง Mamba และ RWKV ได้รับความสนใจอย่างมาก เนื่องจากผลลัพธ์ที่น่าหวังในโมเดลภาษาขนาดใหญ่ 

Mamba ซึ่งเป็นตระกูลของโมเดลมีสถาปัตยกรรมที่มีโครงข่ายประสาทเทียมที่เกิดซ้ำ เช่น โทเค็นมิกเซอร์ของโมเดลพื้นที่สถานะ เพิ่งถูกนำมาใช้เพื่อจัดการกับความซับซ้อนกำลังสองของกลไกความสนใจ และถูกนำไปใช้กับงานการมองเห็นในภายหลัง นักวิจัยได้สำรวจวิธีการรวม Mamba และ SSM หรือ State Space Model เข้ากับงานการจดจำภาพแล้ว และ Vision Mamba ที่รวม Mamba เพื่อพัฒนาแบบจำลองการมองเห็นแบบไอโซโทรปิกที่คล้ายกับ Vision Transformer ก็เป็นตัวอย่างที่ดีในสิ่งเดียวกัน ในทางกลับกัน LocalMamba รวมเอาอคติแบบเหนี่ยวนำในท้องถิ่นเพื่อปรับปรุงโมเดล Visual Mamba และเฟรมเวิร์ก VMamba ใช้โมเดล Mamba พื้นฐานเพื่อสร้างโมเดลแบบลำดับชั้นที่คล้ายคลึงกับ ResNet และ AlexNet อย่างไรก็ตาม กรอบงาน Mamba จำเป็นจริงๆ สำหรับงานบริบทการจดจำภาพหรือไม่ คำถามเกิดขึ้นเนื่องจากประสิทธิภาพของโมเดลตระกูล Mamba สำหรับงานด้านการมองเห็นยังทำได้ไม่ดีนักเมื่อเปรียบเทียบกับโมเดลที่อิงตามความสนใจและแบบ Convolutional แบบดั้งเดิม 

MambaOut เป็นงานที่พยายามเจาะลึกสาระสำคัญของเฟรมเวิร์ก Mamba และตอบคำถามว่า Mamba เหมาะสมอย่างยิ่งสำหรับงานที่มีลักษณะการถดถอยอัตโนมัติและลำดับยาวหรือไม่ กรอบงาน MambaOut ตั้งสมมติฐานว่า Mamba ไม่จำเป็นสำหรับงานการมองเห็น เนื่องจากการจำแนกภาพไม่สอดคล้องกับลักษณะลำดับยาวหรือลักษณะการถอยอัตโนมัติ แม้ว่างานการแบ่งส่วนและการตรวจจับจะไม่เป็นแบบถดถอยอัตโนมัติ แต่ก็แสดงคุณลักษณะแบบลำดับยาว ซึ่งทำให้เฟรมเวิร์ก MambaOut ตั้งสมมติฐานถึงศักยภาพของ Mamba สำหรับงานเหล่านี้ เฟรมเวิร์ก MambaOut ถูกสร้างขึ้นโดยการซ้อนบล็อก Mamba ซ้อนกันในขณะที่ลบโมเดลพื้นที่สถานะ ซึ่งเป็นตัวผสมโทเค็นหลัก ผลการทดลองสนับสนุนสมมติฐานที่เสนอโดยเฟรมเวิร์ก MambaOut เนื่องจากสามารถเหนือกว่าโมเดล Visual Mamba ทั้งหมดบนเฟรมเวิร์กการจัดหมวดหมู่รูปภาพ ImageNet ซึ่งบ่งชี้ว่า Mamba นั้นไม่จำเป็นสำหรับงานการมองเห็น ในทางกลับกัน สำหรับงานการตรวจจับและการแบ่งส่วน เฟรมเวิร์ก MambaOut ไม่สามารถจำลองประสิทธิภาพที่นำเสนอโดยโมเดล Mamba อันล้ำสมัย ซึ่งแสดงให้เห็นถึงศักยภาพของตระกูลโมเดล Mamba สำหรับงานภาพลำดับยาว 

บทความนี้มีจุดมุ่งหมายเพื่อครอบคลุมกรอบงาน MambaOut ในเชิงลึก และเราสำรวจกลไก วิธีการ สถาปัตยกรรมของกรอบงาน ควบคู่ไปกับการเปรียบเทียบกับกรอบงานที่ทันสมัย มาเริ่มกันเลย 

MambaOut: Mamba จำเป็นสำหรับการมองเห็นจริงหรือ?

ด้วยความก้าวหน้าของแอปพลิเคชันและความสามารถของแมชชีนเลิร์นนิง Transformers ได้กลายเป็นแกนหลักสำหรับงานต่างๆ โดยขับเคลื่อนโมเดลที่โดดเด่น ได้แก่ วิสัยทัศน์ Transformers, โมเดลซีรีส์ GPT, BERT และอื่นๆ อีกมากมาย อย่างไรก็ตาม ตัวผสมโทเค็นของหม้อแปลงต้องมีความซับซ้อนกำลังสองเมื่อเทียบกับความยาวของลำดับ และก่อให้เกิดความท้าทายที่สำคัญสำหรับลำดับที่ยาวกว่า เพื่อแก้ไขปัญหานี้ จึงมีการนำโทเค็นมิกเซอร์จำนวนมากที่มีความซับซ้อนเชิงเส้นไปจนถึงความยาวของโทเค็น เช่น Linformer, Longformer, Performer, Dynamic Convolution และ Big Bird อย่างไรก็ตาม ในช่วงไม่กี่ครั้งที่ผ่านมา โมเดลเช่น Recurrent Neural Network กำลังได้รับความโดดเด่นเนื่องจากความสามารถในการฝึกอบรมแบบขนาน และมอบประสิทธิภาพที่มีประสิทธิภาพในลำดับที่ยาวขึ้น ด้วยประสิทธิภาพที่โดดเด่นที่นำเสนอโดยโมเดลที่คล้ายกับ RNN นักวิจัยกำลังพยายามที่จะแนะนำและใช้โมเดลตระกูล Mamba ในงานจดจำภาพ เนื่องจากตัวผสมโทเค็นของโมเดล Mamba นั้นเป็นโมเดลพื้นที่สถานะที่มีโครงสร้างภายใต้จิตวิญญาณของ Recurrent Neural Networks . อย่างไรก็ตาม ผลการทดลองบ่งชี้ว่ากรอบงานตามแบบจำลองอวกาศของรัฐสำหรับการมองเห็นทำงานได้ไม่มีประสิทธิภาพในงานการมองเห็นในโลกแห่งความเป็นจริง เมื่อเปรียบเทียบกับแบบจำลองที่อิงความสนใจและล้ำสมัย 

MambaOut เป็นความพยายามที่จะตรวจสอบธรรมชาติของ Mamba ตระกูลของแบบจำลอง และสรุปว่า Mamba เหมาะสำหรับงานที่เป็นแบบถดถอยอัตโนมัติหรือแบบลำดับยาว เนื่องจากแบบจำลองพื้นที่สถานะมีกลไก RNN โดยธรรมชาติ อย่างไรก็ตาม งานการมองเห็นส่วนใหญ่ไม่มีคุณลักษณะทั้งสองนี้ และบนพื้นฐานของการทดลองบางอย่าง MambaOut เสนอสมมติฐานสองข้อต่อไปนี้ ประการแรก แบบจำลองพื้นที่สถานะไม่จำเป็นสำหรับการจำแนกภาพ เนื่องจากงานการจำแนกภาพไม่สอดคล้องกับลักษณะการถอยอัตโนมัติหรือลำดับยาว ประการที่สอง แบบจำลองพื้นที่ของรัฐอาจเป็นประโยชน์ในเชิงสมมุติฐานสำหรับการแบ่งส่วนอินสแตนซ์และการแบ่งส่วนความหมายพร้อมกับการตรวจจับวัตถุ เนื่องจากแบบจำลองเหล่านี้เป็นไปตามคุณลักษณะลำดับยาว แม้ว่าจะไม่เป็นแบบถดถอยอัตโนมัติก็ตาม ผลการทดลองที่ดำเนินการเพื่อวิเคราะห์กลไก Recurrent Neural Network ของแบบจำลองพื้นที่สถานะ สรุปว่าเฟรมเวิร์ก Mamba เหมาะสำหรับงานที่มีลักษณะการถอยอัตโนมัติหรือลำดับยาว และไม่จำเป็นสำหรับงานจำแนกประเภทรูปภาพ เมื่อมาถึงเฟรมเวิร์ก MambaOut เอง มันเป็นซีรีส์ของโมเดล Mamba ที่ใช้บล็อก Gated Convolutional Neural Network โดยไม่มีโมเดลพื้นที่สถานะ และผลการทดลองบ่งชี้ว่าเฟรมเวิร์ก MambaOut มีความสามารถเหนือกว่าโมเดล Mamba ในงานจำแนกประเภทรูปภาพ แต่ล้มเหลวในการทำซ้ำ ประสิทธิภาพในงานตรวจจับภาพและการแบ่งส่วน 

Mamba เหมาะกับงานอะไรบ้าง?

ตัวผสมโทเค็นของเฟรมเวิร์ก Mamba คือโมเดลพื้นที่สถานะแบบเลือกซึ่งกำหนดพารามิเตอร์ที่ขึ้นอยู่กับอินพุตสี่ตัว คุณสมบัติที่เกิดซ้ำของกรอบงานทำให้โมเดลพื้นที่รัฐที่คล้ายกับ RNN แตกต่างจากความสนใจเชิงสาเหตุ สถานะที่ซ่อนอยู่สามารถมองเห็นได้เป็นหน่วยความจำขนาดคงที่ที่เก็บข้อมูลประวัติ ขนาดคงที่หมายความว่าหน่วยความจำสูญเสียไป แต่ยังช่วยให้แน่ใจว่าความซับซ้อนในการคำนวณของการรวมหน่วยความจำเข้ากับอินพุตปัจจุบันจะยังคงที่ ในทางกลับกัน ชั้นความสนใจเชิงสาเหตุจะเก็บคีย์และค่าทั้งหมดจากโทเค็นก่อนหน้า และขยายโดยการเพิ่มคีย์และค่าของโทเค็นปัจจุบันพร้อมกับอินพุตใหม่แต่ละรายการ และตามทฤษฎีแล้ว หน่วยความจำนี้จะไม่สูญเสียข้อมูล อย่างไรก็ตาม ขนาดหน่วยความจำจะเพิ่มขึ้นเมื่อมีการป้อนโทเค็นมากขึ้น ซึ่งเพิ่มความซับซ้อนในการรวมหน่วยความจำเข้ากับอินพุตปัจจุบัน ความแตกต่างระหว่างกลไกหน่วยความจำระหว่างความสนใจเชิงสาเหตุและแบบจำลองที่คล้าย RNN แสดงไว้ในรูปต่อไปนี้ 

เนื่องจากความทรงจำของแบบจำลองพื้นที่รัฐสูญเสียโดยเนื้อแท้ มันจึงขาดความทรงจำที่ไม่สูญเสียของการใส่ใจเชิงสาเหตุ และผลที่ตามมาคือ โมเดลแมมบ้า ไม่สามารถแสดงความแข็งแกร่งในการจัดการกับลำดับสั้นๆ ซึ่งเป็นบริเวณที่กลไกการสนใจเชิงสาเหตุทำงานได้ดีอย่างง่ายดาย อย่างไรก็ตาม ในสถานการณ์ที่เกี่ยวข้องกับลำดับที่ยาว วิธีสนใจเชิงสาเหตุจะสะดุดลงเนื่องจากความซับซ้อนกำลังสอง ในสถานการณ์นี้ เฟรมเวิร์ก Mamba แสดงให้เห็นประสิทธิภาพในการผสานหน่วยความจำเข้ากับอินพุตปัจจุบัน และสามารถจัดการกับลำดับที่ยาวได้อย่างราบรื่น ซึ่งบ่งชี้ว่าโมเดลตระกูล Mamba นั้นเหมาะสมอย่างยิ่งสำหรับการประมวลผลลำดับที่ยาว 

นอกจากนี้ ยังเป็นที่น่าสังเกตว่าในด้านหนึ่งที่ลักษณะการเกิดซ้ำของแบบจำลองพื้นที่สถานะทำให้แบบจำลอง Mamba สามารถจัดการลำดับที่ยาวได้อย่างมีประสิทธิภาพ โดยจะทำให้เกิดข้อจำกัดบางประการเนื่องจากสามารถเข้าถึงข้อมูลได้เฉพาะจากการก้าวเวลาปัจจุบันและก่อนหน้าเท่านั้น และประเภทของ การผสมโทเค็นเรียกว่าโหมดเชิงสาเหตุ และแสดงไว้ในรูปต่อไปนี้ เนื่องจากลักษณะที่เป็นเหตุ วิธีนี้จึงเหมาะสำหรับ งานการสร้างแบบถดถอยอัตโนมัติ

โหมดที่มองเห็นได้อย่างสมบูรณ์เหมาะสำหรับการทำความเข้าใจงานที่โมเดลสามารถเข้าถึงอินพุตทั้งหมดในคราวเดียว นอกจากนี้ ความสนใจยังอยู่ในโหมดที่มองเห็นได้อย่างสมบูรณ์ตามค่าเริ่มต้น และสามารถเปลี่ยนเป็นโหมดเชิงสาเหตุได้อย่างง่ายดายโดยการใช้มาสก์เชิงสาเหตุกับแผนผังความสนใจ และแบบจำลองที่คล้ายกับ RNN จะทำงานโดยธรรมชาติในโหมดเชิงสาเหตุเนื่องจากคุณสมบัติที่เกิดซ้ำ เพื่อสรุปสิ่งต่างๆ เฟรมเวิร์ก Mamba เหมาะสำหรับงานที่เกี่ยวข้องกับการประมวลผลลำดับที่ยาว หรืองานที่ต้องใช้โหมดการผสมโทเค็นเชิงสาเหตุ

งานการรู้จำภาพ รหัสการผสมโทเค็นเชิงสาเหตุ และลำดับที่มีขนาดใหญ่มาก

ตามที่กล่าวไว้ก่อนหน้านี้ โหมดการผสมโทเค็นที่มองเห็นได้อย่างเต็มที่ช่วยให้สามารถผสมได้ไม่จำกัด ในขณะที่โหมดสาเหตุจะจำกัดโทเค็นปัจจุบันให้เข้าถึงเฉพาะข้อมูลจากโทเค็นก่อนหน้าเท่านั้น นอกจากนี้ การจดจำภาพยังจัดอยู่ในประเภทงานทำความเข้าใจซึ่งโมเดลสามารถเห็นภาพทั้งหมดได้ในคราวเดียว และทำให้ไม่จำเป็นต้องมีข้อจำกัดในการผสมโทเค็น และการกำหนดข้อจำกัดเพิ่มเติมเกี่ยวกับการผสมโทเค็นอาจทำให้ประสิทธิภาพของโมเดลลดลงได้ โดยทั่วไป โหมดที่มองเห็นได้เต็มที่มีความเหมาะสมสำหรับการทำความเข้าใจงาน ในขณะที่โหมดสบาย ๆ เหมาะกับงานที่มีการถดถอยอัตโนมัติมากกว่า นอกจากนี้ คำกล่าวอ้างนี้ยังได้รับการสนับสนุนเพิ่มเติมโดยข้อเท็จจริงที่ว่าโมเดล BeRT และ ViT ใช้เพื่อทำความเข้าใจงานมากกว่าโมเดล GPT

การยืนยันการทดลองและผลลัพธ์

ขั้นตอนต่อไปคือการตรวจสอบสมมติฐานที่เสนอโดยกรอบงาน MambaOut แบบทดลอง ดังที่แสดงในภาพต่อไปนี้ บล็อก Mamba ขึ้นอยู่กับบล็อก Gated Convolutional Neural Network และสถาปัตยกรรมเมตาของบล็อก Mamba และ Gated CNN สามารถถือเป็นการรวมโทเค็นมิกเซอร์ของเฟรมเวิร์ก MetaFormer และ MLP ได้อย่างง่ายดาย . 

บล็อก Mamba จะขยายเครือข่าย Gated Convolutional Neural Network ด้วย State Space Model เพิ่มเติม และการมีอยู่ของ SSm คือสิ่งที่ทำให้ Gated CNN และบล็อก Mamba แตกต่าง นอกจากนี้ เพื่อปรับปรุงความเร็วในทางปฏิบัติ กรอบงาน MambaOut ดำเนินการเฉพาะการบิดเชิงลึกบนช่องสัญญาณบางส่วนเท่านั้น และตามที่แสดงให้เห็นในอัลกอริธึมต่อไปนี้ การใช้งานบล็อก Gated CNN นั้นเรียบง่าย แต่มีประสิทธิภาพและสวยงาม 

งานจำแนกภาพ

ImageNet ทำหน้าที่เป็นเกณฑ์มาตรฐานสำหรับงานจัดหมวดหมู่รูปภาพ เนื่องจากประกอบด้วยคลาสทั่วไปมากกว่าหนึ่งพันคลาส รูปภาพฝึกหัดมากกว่า 1.3 ล้านรูป และรูปภาพตรวจสอบความถูกต้องมากกว่า 50,000 รูป การเพิ่มข้อมูลที่ใช้สำหรับการทดลองประกอบด้วยการครอบตัดแบบสุ่ม, การผสม, การกระวนกระวายใจของสี, การลบแบบสุ่ม, CutMix และการเพิ่มแรนด์ ตารางต่อไปนี้สรุปประสิทธิภาพของโมเดลตระกูล Mamba, โมเดล MambaOut และโมเดลตามความสนใจและการบิดเบี้ยวอื่นๆ บนชุดข้อมูล ImageNet ดังที่เห็นได้ กรอบงาน MambaOut ที่ไม่มีโมเดลพื้นที่สถานะมีประสิทธิภาพเหนือกว่าโมเดล Visual Mamba ที่มี SSM อย่างสม่ำเสมอในทุกขนาดโมเดล 

ตัวอย่างเช่น โมเดล MambaOut-Small ส่งกลับคะแนนความแม่นยำสูงสุด 1 อันดับแรกที่มากกว่า 84% ซึ่งสูงกว่าคู่แข่ง Mamba ที่ใกล้ที่สุด 0.4% ผลลัพธ์นี้สนับสนุนสมมติฐานแรกที่อ้างว่าไม่จำเป็นต้องแนะนำแบบจำลองพื้นที่สถานะสำหรับงานจำแนกภาพ 

งานการตรวจจับวัตถุและการแบ่งส่วนอินสแตนซ์

COCO ทำหน้าที่เป็นเกณฑ์มาตรฐานสำหรับการตรวจจับอ็อบเจ็กต์และงานการแบ่งส่วนอินสแตนซ์ แม้ว่าเฟรมเวิร์ก MambaOut จะสามารถเหนือกว่าประสิทธิภาพของโมเดล Mamba แบบวิชวลบางรุ่น แต่ก็ยังขาดโมเดล Mamba แบบวิชวลที่ทันสมัย ​​รวมถึง LocalVMamba และ VMamba ความแตกต่างในประสิทธิภาพของ MambaOut กับโมเดลภาพล้ำสมัยเน้นที่ประโยชน์ของการรวมกลุ่มโมเดล Mamba ในงานภาพลำดับยาว อย่างไรก็ตาม เป็นที่น่าสังเกตว่ายังมีช่องว่างด้านประสิทธิภาพที่สำคัญระหว่างโมเดล Convolution-Attention-Hybrid ที่ล้ำสมัย และโมเดล Visual Mamba 

ข้อคิด

ในบทความนี้ เราได้พูดคุยถึงแนวคิดของกลุ่มโมเดล Mamba และสรุปได้ว่าเหมาะสำหรับงานที่เกี่ยวข้องกับคุณลักษณะการถอยอัตโนมัติและลำดับยาว MambaOut เป็นงานที่พยายามเจาะลึกสาระสำคัญของเฟรมเวิร์ก Mamba และตอบคำถามว่า Mamba เหมาะสมอย่างยิ่งสำหรับงานที่มีลักษณะการถดถอยอัตโนมัติและลำดับยาวหรือไม่ กรอบงาน MambaOut ตั้งสมมติฐานว่า Mamba ไม่จำเป็นสำหรับงานการมองเห็น เนื่องจากการจำแนกภาพไม่สอดคล้องกับลักษณะลำดับยาวหรือลักษณะการถอยอัตโนมัติ แม้ว่างานการแบ่งส่วนและการตรวจจับจะไม่เป็นแบบถดถอยอัตโนมัติ แต่ก็แสดงคุณลักษณะแบบลำดับยาว ซึ่งทำให้เฟรมเวิร์ก MambaOut ตั้งสมมติฐานถึงศักยภาพของ Mamba สำหรับงานเหล่านี้ เฟรมเวิร์ก MambaOut ถูกสร้างขึ้นโดยการซ้อนบล็อก Mamba ซ้อนกันในขณะที่ลบโมเดลพื้นที่สถานะ ซึ่งเป็นตัวผสมโทเค็นหลัก ผลการทดลองสนับสนุนสมมติฐานที่เสนอโดยเฟรมเวิร์ก MambaOut เนื่องจากสามารถเหนือกว่าโมเดล Visual Mamba ทั้งหมดบนเฟรมเวิร์กการจัดหมวดหมู่รูปภาพ ImageNet ซึ่งบ่งชี้ว่า Mamba นั้นไม่จำเป็นสำหรับงานการมองเห็น ในทางกลับกัน สำหรับงานการตรวจจับและการแบ่งส่วน เฟรมเวิร์ก MambaOut ไม่สามารถจำลองประสิทธิภาพที่นำเสนอโดยโมเดล Mamba อันล้ำสมัย ซึ่งแสดงให้เห็นถึงศักยภาพของตระกูลโมเดล Mamba สำหรับงานภาพลำดับยาว 

 

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ