ปัญญาประดิษฐ์

การสร้างประโยคโดยใช้การเรียนรู้แบบเสริมแรงเชิงลึก – ผู้นำทางความคิด

วันที่อัพเดท on December 9, 2022

เมื่อเขียนหรือพูดคุยเราทุกคนต่างก็สงสัยว่ามีวิธีที่ดีกว่าในการสื่อสารความคิดกับผู้อื่นหรือไม่ ฉันควรใช้คำอะไร ฉันควรจัดโครงสร้างความคิดอย่างไร พวกเขามีแนวโน้มที่จะตอบสนองอย่างไร? ที่ พระศรีเราใช้เวลามากมายในการคิดเกี่ยวกับภาษา ว่าอะไรใช้ได้ผลและอะไรไม่ได้ผล

ลองนึกภาพว่าคุณกำลังเขียนหัวเรื่องสำหรับแคมเปญอีเมลที่จะไปถึง 10 ล้านคนในรายการของคุณเพื่อโปรโมตส่วนลด 20% สำหรับแล็ปท็อปเครื่องใหม่

คุณจะเลือกสายไหน:

ตอนนี้คุณสามารถรับส่วนลดพิเศษ 20% สำหรับการสั่งซื้อครั้งต่อไปของคุณ
เตรียมตัวให้พร้อม – ลดเพิ่มอีก 20%

แม้ว่าพวกมันจะให้ข้อมูลเดียวกัน แต่อันหนึ่งก็มีอัตราการเปิดที่สูงกว่าอีกอันเกือบ 15% (และฉันพนันได้เลยว่าคุณไม่สามารถเอาชนะแบบจำลองของเราในการทำนายว่าอันไหน?) ในขณะที่ภาษามักจะผ่านการทดสอบ ทดสอบ A / B or โจรหลายอาวุธการสร้างการถอดความโดยอัตโนมัติยังคงเป็นปัญหาการวิจัยที่ท้าทายอย่างยิ่ง

ประโยคสองประโยคถือเป็นการถอดความของประโยคอื่นหากมีความหมายเหมือนกันและสามารถใช้แทนกันได้ สิ่งสำคัญอีกประการหนึ่งที่มักจะมองข้ามคือประโยคที่สร้างโดยเครื่องจักรนั้นคล่องแคล่วหรือไม่

Reinforcement Learning (RL) ต่างจากการเรียนรู้แบบมีผู้สอนตรงที่เรียนรู้ผ่านการโต้ตอบกับสภาพแวดล้อมและสังเกตผลตอบแทนที่ได้รับ ความแตกต่างที่ค่อนข้างเหมาะสมนี้มีความหมายอย่างมากต่อวิธีการทำงานของอัลกอริทึมและวิธีการฝึกฝนโมเดล การเรียนรู้การเสริมแรงเชิงลึก ใช้โครงข่ายประสาทเทียมเป็นตัวประมาณฟังก์ชันเพื่อให้ตัวแทนเรียนรู้วิธีที่จะมีประสิทธิภาพเหนือกว่ามนุษย์ในสภาพแวดล้อมที่ซับซ้อน เช่น Go, อาตาริ และ StarCraft II.

แม้จะประสบความสำเร็จนี้ แต่การเรียนรู้แบบเสริมกำลังยังไม่ได้ถูกนำไปใช้อย่างกว้างขวางกับปัญหาในโลกแห่งความเป็นจริง รวมถึงการประมวลผลภาษาธรรมชาติ (NLP)

เป็นส่วนหนึ่งของฉัน วิทยานิพนธ์ วท.ม. สาขาวิทยาศาสตร์ข้อมูลเราสาธิตวิธีการใช้ Deep RL เพื่อประสิทธิภาพที่เหนือกว่าวิธีการเรียนรู้ภายใต้การดูแลในการสร้างการถอดความข้อความป้อนเข้าโดยอัตโนมัติ ปัญหาในการสร้างการถอดความที่ดีที่สุดสามารถมองได้จากการหาชุดคำที่เพิ่มความคล้ายคลึงกันทางความหมายระหว่างประโยคในขณะที่ยังคงความคล่องแคล่วในผลลัพธ์ ตัวแทน RL นั้นเหมาะสมอย่างยิ่งสำหรับการค้นหาชุดการดำเนินการที่ดีที่สุดเพื่อให้ได้รางวัลสูงสุดที่คาดหวังในสภาพแวดล้อมการควบคุม

ตรงกันข้ามกับปัญหาส่วนใหญ่ในการเรียนรู้ของเครื่อง ปัญหาที่ใหญ่ที่สุดในแอปพลิเคชัน Natural Language Generation (NLG) ส่วนใหญ่ไม่ได้อยู่ที่การสร้างแบบจำลอง แต่อยู่ในการประเมิน แม้ว่าปัจจุบันการประเมินโดยมนุษย์ถือเป็นมาตรฐานทองคำในการประเมิน NLG แต่ก็มีข้อเสียที่สำคัญ เช่น มีราคาแพง ใช้เวลานาน ท้าทายในการปรับแต่ง และขาดความสามารถในการทำซ้ำในการทดลองและชุดข้อมูล (ฮัน, 2016). ด้วยเหตุนี้ นักวิจัยจึงค้นหามาตรวัดอัตโนมัติซึ่งเรียบง่าย ใช้งานได้ทั่วไป และสะท้อนถึงวิจารณญาณของมนุษย์ (ปาปินี และคณะ, 2002).

วิธีการประเมินอัตโนมัติที่พบบ่อยที่สุดในการประเมินคำบรรยายภาพที่สร้างโดยคอมพิวเตอร์สรุปได้ด้านล่างพร้อมข้อดีและข้อเสีย:

การสร้างประโยคโดยใช้ Reinforcement Learning Pipeline

เราพัฒนาระบบชื่อ ParaPhase ซึ่งสร้างการถอดความคุณภาพสูง ระบบประกอบด้วยหลายขั้นตอนเพื่อใช้การเรียนรู้เสริมแรงด้วยวิธีการคำนวณที่มีประสิทธิภาพ บทสรุปโดยย่อของไปป์ไลน์ระดับสูงแสดงอยู่ด้านล่างพร้อมรายละเอียดเพิ่มเติมใน วิทยานิพนธ์.

ชุด

มีชุดข้อมูลถอดความหลายชุดที่ใช้ในการวิจัย ได้แก่: คลังข้อมูล Microsoft Paraphrase, การแข่งขันความคล้ายคลึงของข้อความเชิงความหมายของ ACL, Quora คำถามที่ซ้ำกันและ ลิงก์ที่แชร์ใน Twitter. เราเลือกแล้ว เอ็มเอส-โคโค่ ด้วยขนาด ความสะอาด และใช้เป็นเกณฑ์มาตรฐานสำหรับเอกสารการสร้างการถอดความที่โดดเด่นสองฉบับ MS-COCO มีรูปภาพ 120k ของฉากทั่วไปพร้อมคำอธิบายภาพ 5 ภาพต่อภาพซึ่งจัดทำโดยผู้ให้คำอธิบายประกอบที่แตกต่างกัน 5 คน

แม้ว่าจะได้รับการออกแบบมาเพื่อการวิจัยด้านคอมพิวเตอร์วิทัศน์เป็นหลัก แต่คำบรรยายมีแนวโน้มที่จะมีความหมายที่คล้ายคลึงกันสูงและเป็นการถอดความที่น่าสนใจ เนื่องจากคำบรรยายภาพจัดทำโดยบุคคลต่างๆ จึงมีรายละเอียดที่แตกต่างกันเล็กน้อยในฉาก ดังนั้นประโยคที่สร้างขึ้นจึงมีแนวโน้มที่จะทำให้เกิดภาพหลอนในรายละเอียด

แบบจำลองภายใต้การดูแล

ในขณะที่การเรียนรู้แบบเสริมกำลังได้รับการปรับปรุงอย่างมากในแง่ของประสิทธิภาพตัวอย่าง เวลาการฝึกอบรม และแนวปฏิบัติที่ดีที่สุดโดยรวม การฝึกอบรมโมเดล RL ตั้งแต่เริ่มต้นยังคงค่อนข้างช้าและไม่เสถียร (อรุลกุมาราน et al., 2017). ดังนั้น แทนที่จะฝึกตั้งแต่เริ่มต้น เราฝึกโมเดลภายใต้การดูแลก่อน แล้วจึงปรับแต่งอย่างละเอียดโดยใช้ RL

เราใช้ไฟล์ ตัวเข้ารหัส-ตัวถอดรหัส กรอบแบบจำลองและประเมินประสิทธิภาพของแบบจำลองภายใต้การดูแลพื้นฐานหลาย ๆ แบบ เมื่อปรับแต่งโมเดลอย่างละเอียดโดยใช้ RL เราจะปรับแต่งเฉพาะเครือข่ายตัวถอดรหัสและถือว่าเครือข่ายตัวเข้ารหัสเป็นแบบคงที่ ด้วยเหตุนี้ เราจึงพิจารณากรอบหลักสองกรอบ:

ฝึกอบรมแบบจำลองภายใต้การดูแลตั้งแต่เริ่มต้นโดยใช้ตัวถอดรหัสมาตรฐาน/ตัวเข้ารหัสวานิลลากับ GRU
การใช้โมเดลการฝังประโยคที่ผ่านการฝึกอบรมล่วงหน้าสำหรับตัวเข้ารหัส ได้แก่ การฝังคำแบบรวม (GloVe), InferSent และ BERT

โมเดลที่ได้รับการดูแลมักจะทำงานค่อนข้างคล้ายกันในโมเดลต่างๆ ที่มี BERT และตัวเข้ารหัส-ตัวถอดรหัสวานิลลาเพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

แม้ว่าการแสดงจะมีความสมเหตุสมผล แต่ก็มีแหล่งที่มาของข้อผิดพลาดทั่วไปสามประการ ได้แก่ การพูดติดอ่าง การสร้างประโยคที่ไม่ต่อเนื่อง และภาพหลอน นี่คือปัญหาหลักที่ RL มุ่งแก้ไข

โมเดลการเรียนรู้เสริมแรง

การใช้อัลกอริทึม RL เป็นสิ่งที่ท้าทายมาก โดยเฉพาะอย่างยิ่งเมื่อคุณไม่ทราบว่าสามารถแก้ปัญหาได้หรือไม่ อาจมีปัญหาในการปรับใช้สภาพแวดล้อมของคุณ เอเจนต์ของคุณ ไฮเปอร์พารามิเตอร์ของคุณ ฟังก์ชันการให้รางวัลของคุณ หรือการรวมกันของทั้งหมดข้างต้น! ปัญหาเหล่านี้จะรุนแรงขึ้นเมื่อทำ RL แบบลึก ขณะที่คุณได้รับความสนุกจากความซับซ้อนที่เพิ่มขึ้นของ การดีบักโครงข่ายประสาทเทียม.

เช่นเดียวกับการดีบักทั้งหมด สิ่งสำคัญคือ เริ่มต้นง่ายๆ เราใช้สภาพแวดล้อม RL ของของเล่นที่เข้าใจกันดีสองรูปแบบ (CartPole และ FrozenLake) เพื่อทดสอบอัลกอริทึม RL และค้นหากลยุทธ์ที่ทำซ้ำได้สำหรับการถ่ายโอนความรู้จากโมเดลภายใต้การดูแล

เราพบว่าการใช้ อัลกอริทึมนักแสดง-นักวิจารณ์ มีประสิทธิภาพดีกว่า REINFORCE ในสภาพแวดล้อมเหล่านี้ ในแง่ของการถ่ายทอดความรู้ไปยังโมเดลนักแสดง-นักวิจารณ์ เราพบว่าการเริ่มให้น้ำหนักนักแสดงกับโมเดลที่ได้รับการฝึกอบรมภายใต้การดูแลและการฝึกนักวิจารณ์ล่วงหน้านั้นได้ผลดีที่สุด เราพบว่าเป็นการท้าทายที่จะสรุปแนวทางการกลั่นตามนโยบายที่ซับซ้อนในสภาพแวดล้อมใหม่ เนื่องจากพวกเขาแนะนำไฮเปอร์พารามิเตอร์ใหม่จำนวนมากซึ่งต้องการการปรับแต่งในการทำงาน

ด้วยข้อมูลเชิงลึกเหล่านี้ เราจึงหันไปพัฒนาแนวทางสำหรับงานสร้างการถอดความ เราต้องสร้างสภาพแวดล้อมก่อน

สภาพแวดล้อมช่วยให้เราสามารถทดสอบผลกระทบของการใช้เมตริกการประเมินที่แตกต่างกันเป็นฟังก์ชันการให้รางวัลได้อย่างง่ายดาย

จากนั้นเราให้คำจำกัดความของเอเจนต์ ด้วยข้อดีหลายประการ เราจึงใช้สถาปัตยกรรมแบบนักแสดง-นักวิจารณ์ ตัวแสดงใช้เพื่อเลือกคำถัดไปในลำดับ และมีการเริ่มน้ำหนักของคำโดยใช้แบบจำลองที่มีการควบคุม นักวิจารณ์ให้ค่าประมาณของรางวัลที่รัฐน่าจะได้รับเพื่อช่วยให้นักแสดงได้เรียนรู้

การออกแบบฟังก์ชั่นรางวัลที่เหมาะสม

องค์ประกอบที่สำคัญที่สุดในการออกแบบระบบ RL คือฟังก์ชันการให้รางวัล เนื่องจากเป็นสิ่งที่ตัวแทน RL พยายามเพิ่มประสิทธิภาพ หากฟังก์ชันการให้รางวัลไม่ถูกต้อง ผลลัพธ์จะเสียหายแม้ว่าส่วนอื่นๆ ของระบบจะทำงานก็ตาม!

ตัวอย่างคลาสสิกของสิ่งนี้คือ นักวิ่งชายฝั่ง ซึ่งนักวิจัยของ OpenAI ได้ตั้งค่าฟังก์ชันการให้รางวัลเป็นการเพิ่มคะแนนรวมสูงสุดแทนที่จะชนะการแข่งขัน ผลลัพธ์ของสิ่งนี้คือเจ้าหน้าที่ค้นพบลูปที่สามารถได้รับคะแนนสูงสุดโดยการกดปุ่ม turbos โดยไม่เคยจบการแข่งขัน

เนื่องจากการประเมินคุณภาพของการถอดความนั้นเป็นปัญหาที่ยังไม่ได้แก้ไข การออกแบบฟังก์ชันการให้รางวัลที่จับวัตถุประสงค์นี้โดยอัตโนมัตินั้นยากยิ่งกว่า แง่มุมส่วนใหญ่ของภาษาไม่ได้แยกย่อยอย่างสวยงามเป็นเมตริกเชิงเส้นและขึ้นอยู่กับงาน (โนวิโคว่า et al., 2017).

ตัวแทน RL มักจะค้นพบกลยุทธ์ที่น่าสนใจเพื่อเพิ่มรางวัลสูงสุด ซึ่งใช้ประโยชน์จากจุดอ่อนในตัวชี้วัดการประเมินแทนที่จะสร้างข้อความคุณภาพสูง สิ่งนี้มีแนวโน้มที่จะส่งผลให้เมตริกมีประสิทธิภาพต่ำซึ่งตัวแทนไม่ได้เพิ่มประสิทธิภาพโดยตรง

เราพิจารณาสามแนวทางหลัก:

เมตริกการทับซ้อนของคำ

เมตริกการประเมิน NLP ทั่วไปจะพิจารณาสัดส่วนของการทับซ้อนของคำระหว่างการถอดความที่สร้างขึ้นและประโยคประเมิน ยิ่งซ้อนทับกันมากเท่าไหร่ รางวัลก็จะยิ่งมากขึ้นเท่านั้น ความท้าทายของแนวทางระดับคำคือตัวแทนมีคำเชื่อมมากเกินไป เช่น “a is on of” และไม่มีการวัดความคล่องแคล่ว ส่งผลให้การถอดความมีคุณภาพต่ำมาก

ความคล้ายคลึงกันระดับประโยคและเมตริกความคล่องแคล่ว

คุณสมบัติหลักของการถอดความที่สร้างขึ้นคือต้องมีความคล่องแคล่วและมีความหมายคล้ายกับประโยคอินพุต ดังนั้นเราจึงพยายามให้คะแนนอย่างชัดเจนทีละรายการ จากนั้นจึงรวมเมตริกเข้าด้วยกัน สำหรับความคล้ายคลึงทางความหมาย เราใช้ความคล้ายโคไซน์ระหว่างการฝังประโยคจากแบบจำลองที่ได้รับการฝึกอบรมมาแล้ว รวมถึง BERT เพื่อความคล่องแคล่ว เราใช้คะแนนตามความฉงนสนเท่ห์ของประโยคจาก GPT-2 ยิ่งคะแนนความคล้ายคลึงกันและความคล่องแคล่วของโคไซน์มากเท่าใด รางวัลก็จะยิ่งมากขึ้นเท่านั้น

เราลองใช้โมเดลการฝังประโยคและโมเดลความคล่องแคล่วผสมผสานกันหลายๆ แบบ และแม้ว่าประสิทธิภาพจะสมเหตุสมผล แต่ปัญหาหลักที่เจ้าหน้าที่เผชิญคือการสร้างสมดุลระหว่างความคล้ายคลึงกันทางความหมายและความคล่องแคล่วอย่างเพียงพอ สำหรับการกำหนดค่าส่วนใหญ่ เจ้าหน้าที่ให้ความสำคัญกับความคล่องแคล่ว ซึ่งส่งผลให้รายละเอียดถูกลบออก และเอนทิตีส่วนใหญ่ถูกวางไว้ "ตรงกลาง" ของบางสิ่งหรือถูกย้าย "บนโต๊ะ" หรือ "ข้างถนน"

การเรียนรู้การเสริมแรงแบบหลายวัตถุประสงค์เป็นคำถามการวิจัยแบบเปิดและเป็นสิ่งที่ท้าทายมากในกรณีนี้

การใช้รูปแบบฝ่ายตรงข้ามเป็นฟังก์ชั่นรางวัล

เนื่องจากมนุษย์ได้รับการพิจารณาว่าเป็นมาตรฐานทองคำในการประเมิน เราจึงฝึกแบบจำลองแยกต่างหากที่เรียกว่า discriminator เพื่อทำนายว่าประโยคสองประโยคเป็นการถอดความของอีกประโยคหนึ่งหรือไม่ (คล้ายกับวิธีที่มนุษย์ประเมิน) เป้าหมายของโมเดล RL คือเพื่อโน้มน้าวโมเดลนี้ว่าประโยคที่สร้างขึ้นเป็นการถอดความของอินพุต ผู้เลือกปฏิบัติสร้างคะแนนว่าประโยคทั้งสองน่าจะเป็นประโยคที่ถอดความจากกันและกันได้มากน้อยเพียงใด ซึ่งใช้เป็นรางวัลในการฝึกอบรมเจ้าหน้าที่

ทุก ๆ การเดา 5,000 ครั้ง ผู้จำแนกจะได้รับการบอกว่าการถอดความมาจากชุดข้อมูลใดและสร้างขึ้นเพื่อให้สามารถปรับปรุงการคาดเดาในอนาคตได้ กระบวนการดำเนินต่อไปหลายรอบโดยตัวแทนพยายามหลอกผู้เลือกปฏิบัติและผู้เลือกปฏิบัติพยายามแยกความแตกต่างระหว่างการถอดความที่สร้างขึ้นและการถอดความการประเมินจากชุดข้อมูล

หลังจากการฝึกอบรมหลายๆ รอบ เจ้าหน้าที่จะสร้างประโยคที่มีประสิทธิภาพดีกว่าโมเดลที่ได้รับการดูแลและฟังก์ชันการให้รางวัลอื่นๆ

บทสรุปและข้อจำกัด

แนวทางของฝ่ายตรงข้าม (รวมถึงการเล่นด้วยตัวเองสำหรับเกม) เป็นวิธีการที่มีแนวโน้มสูงสำหรับการฝึกอัลกอริทึม RL ให้มีประสิทธิภาพเกินระดับของมนุษย์ในงานบางอย่าง โดยไม่ต้องกำหนดฟังก์ชันการให้รางวัลที่ชัดเจน

ในขณะที่ RL สามารถทำได้ดีกว่าการเรียนรู้แบบมีผู้สอนในกรณีนี้ จำนวนโอเวอร์เฮดเพิ่มเติมในแง่ของโค้ด การคำนวณ และความซับซ้อนนั้นไม่คุ้มกับประสิทธิภาพที่เพิ่มขึ้นสำหรับแอปพลิเคชันส่วนใหญ่ RL เหมาะที่สุดสำหรับสถานการณ์ที่ไม่สามารถใช้การเรียนรู้ภายใต้การดูแลได้ง่าย และกำหนดฟังก์ชันรางวัลได้ง่าย (เช่น เกม Atari) แนวทางและอัลกอริทึมนั้นมีความเป็นผู้ใหญ่มากกว่าในการเรียนรู้แบบมีผู้สอน และสัญญาณข้อผิดพลาดนั้นแข็งแกร่งกว่ามาก ซึ่งส่งผลให้การฝึกอบรมเร็วขึ้นและมีเสถียรภาพมากขึ้น

ข้อควรพิจารณาอีกประการหนึ่งคือ เช่นเดียวกับวิธีการทางประสาทอื่นๆ ที่เอเจนต์สามารถล้มเหลวอย่างมากในกรณีที่อินพุตแตกต่างจากอินพุตที่เคยเห็นก่อนหน้านี้ โดยต้องมีการตรวจสอบความสมบูรณ์เพิ่มเติมอีกชั้นหนึ่งสำหรับแอปพลิเคชันการผลิต

การระเบิดของความสนใจในแนวทาง RL และความก้าวหน้าในโครงสร้างพื้นฐานด้านการคำนวณในช่วงไม่กี่ปีที่ผ่านมาจะปลดล็อกโอกาสมากมายสำหรับการนำ RL ไปใช้ในอุตสาหกรรม โดยเฉพาะอย่างยิ่งใน NLP

หัวข้อที่เกี่ยวข้อง:การเรียนรู้การเสริมแรงอย่างล้ำลึก การประมวลผลภาษาธรรมชาติ NLP พระศรี

ต่อไป

ปรับปรุงความปลอดภัยของรถยนต์ขับเคลื่อนด้วยตนเองด้วยวิธีการฝึกอบรมใหม่

อย่าพลาด

นักวิจัยเชื่อว่า AI สามารถใช้เพื่อช่วยปกป้องความเป็นส่วนตัวของผู้คนได้

แอนดรูว์ กิบส์-ไชโย

Andrew Gibbs-Bravo เป็นนักวิทยาศาสตร์ข้อมูลที่ พระศรี มุ่งเน้นไปที่การพัฒนาเทคโนโลยีที่อยู่เบื้องหลังการเขียนคำโฆษณาที่ขับเคลื่อนด้วย AI ชั้นนำระดับโลกของ Phrasee เขายังเป็นผู้จัดร่วมของ London Reinforcement Learning Community Meetup และสนใจในทุกสิ่งเกี่ยวกับ RL, NLP และแมชชีนเลิร์นนิง