ปัญญาประดิษฐ์

วิธีการปรับปรุงการประมวลผลภาษาผ่านโมเดล BERT แบบโอเพ่นซอร์สของ Google

วันที่อัพเดท on December 9, 2022

การแทนตัวเข้ารหัสแบบสองทิศทางจาก Transformers หรือที่เรียกว่า BERT; เป็นรูปแบบการฝึกอบรมที่ได้ปรับปรุงประสิทธิภาพและผลกระทบของแบบจำลอง NLP อย่างมาก ขณะนี้ Google ได้สร้างโมเดล BERT แบบโอเพ่นซอร์ส ซึ่งช่วยให้สามารถปรับปรุงโมเดล NLP ในทุกอุตสาหกรรมได้ ในบทความ เราจะมาดูกันว่า BERT ทำให้ NLP เป็นหนึ่งในโซลูชัน AI ที่ทรงพลังและมีประโยชน์มากที่สุดในโลกปัจจุบันได้อย่างไร

การนำโมเดล BERT ไปใช้กับการค้นหา

เครื่องมือค้นหาของ Google มีชื่อเสียงระดับโลกในด้านความสามารถในการนำเสนอเนื้อหาที่เกี่ยวข้อง และได้สร้างโปรแกรมประมวลผลภาษาธรรมชาติแบบโอเพ่นซอร์สไปทั่วโลก

ความสามารถของระบบในการอ่านและตีความภาษาธรรมชาติมีความสำคัญมากขึ้นเรื่อยๆ ในขณะที่โลกสร้างข้อมูลใหม่อย่างทวีคูณ คลังความหมายคำ วลี และความสามารถทั่วไปของ Google ในการนำเสนอเนื้อหาที่เกี่ยวข้องนั้นเป็นโอเพ่นซอร์ส นอกเหนือจากการประมวลผลภาษาธรรมชาติแล้ว โมเดล BERT ยังมีความสามารถในการดึงข้อมูลจากข้อมูลที่ไม่มีโครงสร้างจำนวนมาก และสามารถนำไปใช้เพื่อสร้างอินเทอร์เฟซการค้นหาสำหรับไลบรารีใดก็ได้ ในบทความนี้ เราจะมาดูกันว่าเทคโนโลยีนี้สามารถนำมาใช้ในภาคพลังงานได้อย่างไร

BERT (การแทนตัวเข้ารหัสแบบสองทิศทางจาก Transformers) เป็นแนวทางก่อนการฝึกอบรมที่เสนอโดย ภาษา Google AI กลุ่มซึ่งพัฒนาขึ้นเพื่อเอาชนะปัญหาทั่วไปของโมเดล NLP ในยุคแรกๆ นั่นคือการขาดข้อมูลการฝึกอบรมที่เพียงพอ

ให้เราอธิบายอย่างละเอียดโดยไม่ต้องลงรายละเอียดมากเกินไป:

รูปแบบการฝึกอบรม

งาน NLP ระดับต่ำ (เช่น การจดจำชื่อเอนทิตี การแบ่งส่วนหัวข้อ) และระดับสูง (เช่น การวิเคราะห์ความรู้สึก การรู้จำคำพูด) จำเป็นต้องมีชุดข้อมูลที่มีคำอธิบายประกอบเฉพาะงาน แม้ว่าจะหาซื้อได้ยากและมีราคาแพงในการประกอบ ชุดข้อมูลที่ติดฉลากมีบทบาทสำคัญในประสิทธิภาพของโมเดลโครงข่ายประสาทเทียมทั้งแบบตื้นและลึก ผลการอนุมานคุณภาพสูงจะเกิดขึ้นได้ก็ต่อเมื่อมีตัวอย่างการฝึกอบรมที่มีคำอธิบายประกอบนับล้านหรือพันล้านตัวอย่างเท่านั้น และนั่นเป็นปัญหาที่ทำให้งาน NLP หลายอย่างไม่สามารถเข้าถึงได้ นั่นคือจนกระทั่ง BERT ได้รับการพัฒนา

BERT เป็นรูปแบบการแสดงภาษาสำหรับวัตถุประสงค์ทั่วไป ซึ่งได้รับการฝึกฝนเกี่ยวกับกลุ่มข้อความขนาดใหญ่ที่ไม่มีคำอธิบายประกอบ เมื่อโมเดลสัมผัสกับเนื้อหาข้อความจำนวนมาก เรียนรู้ เพื่อทำความเข้าใจบริบทและความสัมพันธ์ระหว่างคำในประโยค ซึ่งแตกต่างจากรูปแบบการเรียนรู้ก่อนหน้านี้ที่แสดงความหมายในระดับคำเท่านั้น (ธนาคาร จะมีความหมายเหมือนกันใน "บัญชีธนาคาร" และ "ธนาคารหญ้า") BERT ใส่ใจในบริบทอย่างแท้จริง นั่นคือสิ่งที่มาก่อนและหลังคำในประโยค บริบทกลายเป็นความสามารถหลักที่ขาดหายไปของโมเดล NLP โดยมีผลกระทบโดยตรงต่อประสิทธิภาพของโมเดล การออกแบบโมเดลที่คำนึงถึงบริบท เช่น BERT เป็นที่รู้จักกันว่าเป็นจุดเริ่มต้นของยุคใหม่ใน NLP

การฝึกอบรม BERT กับเนื้อหาข้อความจำนวนมากเป็นเทคนิคที่เรียกว่า ก่อนการฝึกอบรม. ซึ่งหมายความว่าน้ำหนักของโมเดลได้รับการปรับสำหรับงานทำความเข้าใจข้อความทั่วไป และสามารถสร้างโมเดลที่มีความละเอียดมากขึ้นบนโมเดลได้ ผู้เขียนได้พิสูจน์ความเหนือชั้นของเทคนิคดังกล่าว เมื่อพวกเขาใช้แบบจำลองที่ใช้ BERT กับงาน NLP 11 งาน และได้ผลลัพธ์ที่ล้ำสมัย

โมเดลฝึกหัด

สิ่งที่ดีที่สุดคือ: โมเดล BERT ที่ผ่านการฝึกอบรมล่วงหน้าเป็นโอเพ่นซอร์สและเผยแพร่สู่สาธารณะ ซึ่งหมายความว่าทุกคนสามารถจัดการกับงาน NLP และสร้างแบบจำลองของตนบน BERT ได้ ไม่มีอะไรสามารถเอาชนะได้ใช่มั้ย? โอ้ เดี๋ยวก่อน นี่หมายความว่าโมเดล NLP สามารถฝึก (ปรับละเอียด) ในชุดข้อมูลขนาดเล็กได้แล้ว โดยไม่จำเป็นต้องฝึกตั้งแต่เริ่มต้น เริ่มต้นยุคใหม่อย่างแท้จริง

โมเดลที่ผ่านการฝึกอบรมล่วงหน้าเหล่านี้ช่วยให้บริษัทต่างๆ ลดค่าใช้จ่ายและเวลาในการปรับใช้สำหรับโมเดล NLP เพื่อใช้ภายในหรือภายนอก Michael Alexis ซีอีโอของบริษัทสร้างวัฒนธรรมทีมเสมือน teambuilding.com ได้เน้นย้ำถึงประสิทธิภาพของโมเดล NLP ที่ผ่านการฝึกอบรมมาเป็นอย่างดี

“ประโยชน์สูงสุดของ NLP คือการอนุมานและการประมวลผลข้อมูลที่ปรับขนาดได้และสอดคล้องกัน” – ไมเคิล อเล็กซิส ซีอีโอของ การสร้างทีม.com

ไมเคิลระบุว่าสามารถนำ NLP ไปใช้กับโครงการส่งเสริมวัฒนธรรม เช่น เรือตัดน้ำแข็งหรือการสำรวจได้อย่างไร บริษัทสามารถได้รับข้อมูลเชิงลึกอันมีค่าเกี่ยวกับวัฒนธรรมของบริษัทโดยการวิเคราะห์การตอบสนองของพนักงาน สิ่งนี้ทำได้ไม่เพียงผ่านการวิเคราะห์ข้อความเท่านั้น แต่ยังวิเคราะห์คำอธิบายประกอบของข้อความด้วย โดยพื้นฐานแล้ว ตัวแบบยัง "อ่านระหว่างบรรทัด" เพื่อสรุปอารมณ์ ความรู้สึก และมุมมองโดยรวม BERT สามารถช่วยเหลือในสถานการณ์เช่นนี้ได้ด้วยการฝึกแบบจำลองล่วงหน้าด้วยพื้นฐานของตัวบ่งชี้ที่สามารถออกไปเพื่อเปิดเผยความแตกต่างของภาษาและให้ข้อมูลเชิงลึกที่แม่นยำยิ่งขึ้น

การปรับปรุงแบบสอบถาม

ความสามารถในการจำลองบริบทได้เปลี่ยน BERT ให้เป็นฮีโร่ของ NLP และได้ปฏิวัติการค้นหาของ Google เอง ด้านล่างนี้คือคำพูดจากทีมผลิตภัณฑ์ Google Search และประสบการณ์การทดสอบของพวกเขา ขณะที่พวกเขากำลังปรับ BERT เพื่อทำความเข้าใจจุดประสงค์ของข้อความค้นหา

“นี่คือตัวอย่างบางส่วนที่แสดงให้เห็นถึงความสามารถของ BERT ในการทำความเข้าใจจุดประสงค์เบื้องหลังการค้นหาของคุณ นี่คือการค้นหา “2019 นักท่องเที่ยวบราซิลไปสหรัฐอเมริกาต้องการวีซ่า” คำว่า "ถึง" และความสัมพันธ์กับคำอื่นๆ ในแบบสอบถามมีความสำคัญอย่างยิ่งต่อการทำความเข้าใจความหมาย เป็นเรื่องเกี่ยวกับชาวบราซิลที่เดินทางไปสหรัฐอเมริกา ไม่ใช่ในทางกลับกัน ก่อนหน้านี้ อัลกอริทึมของเราจะไม่เข้าใจความสำคัญของการเชื่อมต่อนี้ และเราได้แสดงผลลัพธ์เกี่ยวกับพลเมืองสหรัฐฯ ที่เดินทางไปบราซิล ด้วย BERT การค้นหาสามารถเข้าใจความแตกต่างนี้และรู้ว่าคำทั่วไป “ถึง” มีความสำคัญมากที่นี่ และเราสามารถให้ผลลัพธ์ที่เกี่ยวข้องมากขึ้นสำหรับข้อความค้นหานี้”
- ทำความเข้าใจการค้นหาได้ดียิ่งขึ้นกว่าเดิมโดย Pandu Nayak, Google Fellow และรองประธานฝ่ายการค้นหา

ตัวอย่างการค้นหา BERT ก่อนและหลัง แหล่งที่มา บล็อก

ในชิ้นสุดท้ายของเราเมื่อ NLP และ OCRเราได้แสดงตัวอย่างการใช้ NLP ในภาคอสังหาริมทรัพย์ เราได้กล่าวถึงวิธีการที่ “เครื่องมือ NLP เป็นเครื่องมือดึงข้อมูลในอุดมคติ” ให้เราดูที่ภาคส่วนพลังงานและดูว่าเทคโนโลยี NLP ที่ก่อกวนเช่น BERT ช่วยให้เกิดกรณีการใช้งานแอปพลิเคชันใหม่ได้อย่างไร

โมเดล NLP สามารถดึงข้อมูลจากข้อมูลที่ไม่มีโครงสร้างจำนวนมากได้

วิธีหนึ่งที่สามารถใช้โมเดล NLP คือการดึงข้อมูลสำคัญจากข้อมูลข้อความที่ไม่มีโครงสร้าง อีเมล สมุดรายวัน บันทึกย่อ บันทึก และรายงานคือตัวอย่างทั้งหมดของแหล่งข้อมูลข้อความซึ่งเป็นส่วนหนึ่งของการดำเนินงานประจำวันของธุรกิจ เอกสารเหล่านี้บางส่วนอาจพิสูจน์ได้ว่ามีความสำคัญในความพยายามขององค์กรในการเพิ่มประสิทธิภาพการดำเนินงานและลดต้นทุน

เมื่อตั้งใจปฏิบัติ การบำรุงรักษาเชิงคาดการณ์ของกังหันลม รายงานความล้มเหลว อาจมี ข้อมูลที่สำคัญเกี่ยวกับพฤติกรรมของส่วนประกอบต่างๆ แต่เนื่องจากผู้ผลิตกังหันลมแต่ละรายมีบรรทัดฐานในการรวบรวมข้อมูลที่แตกต่างกัน (เช่น รายงานการบำรุงรักษามีรูปแบบและภาษาที่แตกต่างกัน) การระบุรายการข้อมูลที่เกี่ยวข้องด้วยตนเองจึงอาจกลายเป็นเรื่องราคาแพงสำหรับเจ้าของโรงงานได้อย่างรวดเร็ว เครื่องมือ NLP สามารถแยกแนวคิด คุณลักษณะ และเหตุการณ์ที่เกี่ยวข้องออกจากเนื้อหาที่ไม่มีโครงสร้าง จากนั้นสามารถใช้การวิเคราะห์ข้อความเพื่อค้นหาความสัมพันธ์และรูปแบบในแหล่งข้อมูลต่างๆ สิ่งนี้ทำให้เจ้าของโรงงานมีโอกาสดำเนินการบำรุงรักษาเชิงคาดการณ์ตามมาตรการเชิงปริมาณที่ระบุในรายงานความล้มเหลว

โมเดล NLP สามารถจัดเตรียมอินเตอร์เฟสการค้นหาด้วยภาษาธรรมชาติได้

ในทำนองเดียวกัน นักธรณีศาสตร์ที่ทำงานให้กับบริษัทน้ำมันและก๊าซมักจะต้องตรวจสอบเอกสารจำนวนมากที่เกี่ยวข้องกับปฏิบัติการขุดเจาะในอดีต บันทึกหลุมเจาะ และข้อมูลคลื่นไหวสะเทือน เนื่องจากเอกสารดังกล่าวยังมีรูปแบบที่แตกต่างกันและมักจะกระจายอยู่ตามสถานที่หลายแห่ง (ทั้งที่เป็นเอกสารจริงและดิจิทัล) พวกเขาจึงเสียเวลามากในการค้นหาข้อมูลผิดที่ ทางออกที่ใช้การได้ในกรณีเช่นนี้คือ อินเทอร์เฟซการค้นหาที่ขับเคลื่อนด้วย NLP ซึ่งจะช่วยให้ผู้ใช้สามารถค้นหาข้อมูลในภาษาธรรมชาติ จากนั้น แบบจำลอง NLP สามารถเชื่อมโยงข้อมูลในเอกสารหลายร้อยฉบับและส่งคืนชุดคำตอบสำหรับคำถาม จากนั้นผู้ปฏิบัติงานสามารถตรวจสอบความถูกต้องของผลลัพธ์ตามความรู้ของผู้เชี่ยวชาญของตนเอง และข้อเสนอแนะจะช่วยปรับปรุงแบบจำลองต่อไป

อย่างไรก็ตาม ยังมีข้อควรพิจารณาทางเทคนิคสำหรับการปรับใช้โมเดลดังกล่าว แง่หนึ่งก็คือศัพท์แสงเฉพาะอุตสาหกรรมอาจสร้างความสับสนให้กับรูปแบบการเรียนรู้แบบดั้งเดิมที่ไม่มีความเข้าใจความหมายที่เหมาะสม ประการที่สอง ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากขนาดของชุดข้อมูลการฝึก นี่คือเวลาที่แบบจำลองที่ผ่านการฝึกอบรมล่วงหน้า เช่น BERT สามารถพิสูจน์ได้ว่าเป็นประโยชน์ การแสดงตามบริบทสามารถจำลองความหมายของคำที่เหมาะสมและขจัดความสับสนที่เกิดจากคำศัพท์เฉพาะทางอุตสาหกรรม การใช้โมเดลที่ฝึกไว้ล่วงหน้า ทำให้สามารถฝึกเครือข่ายบนชุดข้อมูลที่มีขนาดเล็กลงได้ สิ่งนี้ช่วยประหยัดเวลา พลังงาน และทรัพยากรที่อาจจำเป็นสำหรับการฝึกอบรมตั้งแต่เริ่มต้น

แล้วธุรกิจของคุณเองล่ะ?

คุณนึกถึงงาน NLP ที่อาจช่วยคุณลดต้นทุนและเพิ่มประสิทธิภาพการดำเนินงานได้หรือไม่?

พื้นที่ บลูออเร้นจ์ดิจิตอล ทีมวิทยาศาสตร์ข้อมูลยินดีที่จะปรับแต่ง BERT เพื่อประโยชน์ของคุณเช่นกัน!

หัวข้อที่เกี่ยวข้อง:โครงข่ายประสาทเทียม BERT ข้อมูลขนาดใหญ่Google เครื่องเรียนรู้การประมวลผลภาษาธรรมชาติ เครือข่ายประสาทเทียม NLP

ต่อไป

กองทัพสหรัฐเข้าใกล้ยานรบออฟโรดอัตโนมัติมากขึ้น

อย่าพลาด

การสร้างใหม่ล่าสุดของ Quantum Stat คือ NLP Model Forge

จอช มิรามันต์

Josh Miramant เป็น CEO และผู้ก่อตั้ง บลูออเร้นจ์ดิจิตอลหน่วยงานวิทยาศาสตร์ข้อมูลและแมชชีนเลิร์นนิงอันดับต้น ๆ ที่มีสำนักงานในนิวยอร์กซิตี้และวอชิงตัน ดี.ซี. Miramant เป็นนักพูดยอดนิยม นักคิดเรื่องอนาคต และเป็นที่ปรึกษาด้านธุรกิจและเทคโนโลยีเชิงกลยุทธ์แก่บริษัทระดับองค์กรและสตาร์ทอัพ เขาช่วยองค์กรต่างๆ เพิ่มประสิทธิภาพและทำให้ธุรกิจของพวกเขาเป็นแบบอัตโนมัติ ใช้เทคนิคการวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล และเข้าใจความหมายของเทคโนโลยีใหม่ๆ เช่น ปัญญาประดิษฐ์ ข้อมูลขนาดใหญ่ และอินเทอร์เน็ตในทุกสิ่ง