ต้นขั้ว วิธีการปรับปรุงการประมวลผลภาษาผ่านโมเดลโอเพ่นซอร์ส BERT ของ Google - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

วิธีการปรับปรุงการประมวลผลภาษาผ่านโมเดล BERT แบบโอเพ่นซอร์สของ Google

mm
วันที่อัพเดท on
การปรับปรุงการค้นหาของ BERT

การแทนตัวเข้ารหัสแบบสองทิศทางจาก Transformers หรือที่เรียกว่า BERT; เป็นรูปแบบการฝึกอบรมที่ได้ปรับปรุงประสิทธิภาพและผลกระทบของแบบจำลอง NLP อย่างมาก ขณะนี้ Google ได้สร้างโมเดล BERT แบบโอเพ่นซอร์ส ซึ่งช่วยให้สามารถปรับปรุงโมเดล NLP ในทุกอุตสาหกรรมได้ ในบทความ เราจะมาดูกันว่า BERT ทำให้ NLP เป็นหนึ่งในโซลูชัน AI ที่ทรงพลังและมีประโยชน์มากที่สุดในโลกปัจจุบันได้อย่างไร 

การนำโมเดล BERT ไปใช้กับการค้นหา

เครื่องมือค้นหาของ Google มีชื่อเสียงระดับโลกในด้านความสามารถในการนำเสนอเนื้อหาที่เกี่ยวข้อง และได้สร้างโปรแกรมประมวลผลภาษาธรรมชาติแบบโอเพ่นซอร์สไปทั่วโลก

ความสามารถของระบบในการอ่านและตีความภาษาธรรมชาติมีความสำคัญมากขึ้นเรื่อยๆ ในขณะที่โลกสร้างข้อมูลใหม่อย่างทวีคูณ คลังความหมายคำ วลี และความสามารถทั่วไปของ Google ในการนำเสนอเนื้อหาที่เกี่ยวข้องนั้นเป็นโอเพ่นซอร์ส นอกเหนือจากการประมวลผลภาษาธรรมชาติแล้ว โมเดล BERT ยังมีความสามารถในการดึงข้อมูลจากข้อมูลที่ไม่มีโครงสร้างจำนวนมาก และสามารถนำไปใช้เพื่อสร้างอินเทอร์เฟซการค้นหาสำหรับไลบรารีใดก็ได้ ในบทความนี้ เราจะมาดูกันว่าเทคโนโลยีนี้สามารถนำมาใช้ในภาคพลังงานได้อย่างไร 

BERT (การแทนตัวเข้ารหัสแบบสองทิศทางจาก Transformers) เป็นแนวทางก่อนการฝึกอบรมที่เสนอโดย ภาษา Google AI กลุ่มซึ่งพัฒนาขึ้นเพื่อเอาชนะปัญหาทั่วไปของโมเดล NLP ในยุคแรกๆ นั่นคือการขาดข้อมูลการฝึกอบรมที่เพียงพอ

ให้เราอธิบายอย่างละเอียดโดยไม่ต้องลงรายละเอียดมากเกินไป:

รูปแบบการฝึกอบรม

งาน NLP ระดับต่ำ (เช่น การจดจำชื่อเอนทิตี การแบ่งส่วนหัวข้อ) และระดับสูง (เช่น การวิเคราะห์ความรู้สึก การรู้จำคำพูด) จำเป็นต้องมีชุดข้อมูลที่มีคำอธิบายประกอบเฉพาะงาน แม้ว่าจะหาซื้อได้ยากและมีราคาแพงในการประกอบ ชุดข้อมูลที่ติดฉลากมีบทบาทสำคัญในประสิทธิภาพของโมเดลโครงข่ายประสาทเทียมทั้งแบบตื้นและลึก ผลการอนุมานคุณภาพสูงจะเกิดขึ้นได้ก็ต่อเมื่อมีตัวอย่างการฝึกอบรมที่มีคำอธิบายประกอบนับล้านหรือพันล้านตัวอย่างเท่านั้น และนั่นเป็นปัญหาที่ทำให้งาน NLP หลายอย่างไม่สามารถเข้าถึงได้ นั่นคือจนกระทั่ง BERT ได้รับการพัฒนา

BERT เป็นรูปแบบการแสดงภาษาสำหรับวัตถุประสงค์ทั่วไป ซึ่งได้รับการฝึกฝนเกี่ยวกับกลุ่มข้อความขนาดใหญ่ที่ไม่มีคำอธิบายประกอบ เมื่อโมเดลสัมผัสกับเนื้อหาข้อความจำนวนมาก เรียนรู้ เพื่อทำความเข้าใจบริบทและความสัมพันธ์ระหว่างคำในประโยค ซึ่งแตกต่างจากรูปแบบการเรียนรู้ก่อนหน้านี้ที่แสดงความหมายในระดับคำเท่านั้น (ธนาคาร จะมีความหมายเหมือนกันใน "บัญชีธนาคาร" และ "ธนาคารหญ้า") BERT ใส่ใจในบริบทอย่างแท้จริง นั่นคือสิ่งที่มาก่อนและหลังคำในประโยค บริบทกลายเป็นความสามารถหลักที่ขาดหายไปของโมเดล NLP โดยมีผลกระทบโดยตรงต่อประสิทธิภาพของโมเดล การออกแบบโมเดลที่คำนึงถึงบริบท เช่น BERT เป็นที่รู้จักกันว่าเป็นจุดเริ่มต้นของยุคใหม่ใน NLP

การฝึกอบรม BERT กับเนื้อหาข้อความจำนวนมากเป็นเทคนิคที่เรียกว่า ก่อนการฝึกอบรม. ซึ่งหมายความว่าน้ำหนักของโมเดลได้รับการปรับสำหรับงานทำความเข้าใจข้อความทั่วไป และสามารถสร้างโมเดลที่มีความละเอียดมากขึ้นบนโมเดลได้ ผู้เขียนได้พิสูจน์ความเหนือชั้นของเทคนิคดังกล่าว เมื่อพวกเขาใช้แบบจำลองที่ใช้ BERT กับงาน NLP 11 งาน และได้ผลลัพธ์ที่ล้ำสมัย

โมเดลฝึกหัด

สิ่งที่ดีที่สุดคือ: โมเดล BERT ที่ผ่านการฝึกอบรมล่วงหน้าเป็นโอเพ่นซอร์สและเผยแพร่สู่สาธารณะ ซึ่งหมายความว่าทุกคนสามารถจัดการกับงาน NLP และสร้างแบบจำลองของตนบน BERT ได้ ไม่มีอะไรสามารถเอาชนะได้ใช่มั้ย? โอ้ เดี๋ยวก่อน นี่หมายความว่าโมเดล NLP สามารถฝึก (ปรับละเอียด) ในชุดข้อมูลขนาดเล็กได้แล้ว โดยไม่จำเป็นต้องฝึกตั้งแต่เริ่มต้น เริ่มต้นยุคใหม่อย่างแท้จริง

โมเดลที่ผ่านการฝึกอบรมล่วงหน้าเหล่านี้ช่วยให้บริษัทต่างๆ ลดค่าใช้จ่ายและเวลาในการปรับใช้สำหรับโมเดล NLP เพื่อใช้ภายในหรือภายนอก Michael Alexis ซีอีโอของบริษัทสร้างวัฒนธรรมทีมเสมือน teambuilding.com ได้เน้นย้ำถึงประสิทธิภาพของโมเดล NLP ที่ผ่านการฝึกอบรมมาเป็นอย่างดี 

“ประโยชน์สูงสุดของ NLP คือการอนุมานและการประมวลผลข้อมูลที่ปรับขนาดได้และสอดคล้องกัน” – ไมเคิล อเล็กซิส ซีอีโอของ การสร้างทีม.com

ไมเคิลระบุว่าสามารถนำ NLP ไปใช้กับโครงการส่งเสริมวัฒนธรรม เช่น เรือตัดน้ำแข็งหรือการสำรวจได้อย่างไร บริษัทสามารถได้รับข้อมูลเชิงลึกอันมีค่าเกี่ยวกับวัฒนธรรมของบริษัทโดยการวิเคราะห์การตอบสนองของพนักงาน สิ่งนี้ทำได้ไม่เพียงผ่านการวิเคราะห์ข้อความเท่านั้น แต่ยังวิเคราะห์คำอธิบายประกอบของข้อความด้วย โดยพื้นฐานแล้ว ตัวแบบยัง "อ่านระหว่างบรรทัด" เพื่อสรุปอารมณ์ ความรู้สึก และมุมมองโดยรวม BERT สามารถช่วยเหลือในสถานการณ์เช่นนี้ได้ด้วยการฝึกแบบจำลองล่วงหน้าด้วยพื้นฐานของตัวบ่งชี้ที่สามารถออกไปเพื่อเปิดเผยความแตกต่างของภาษาและให้ข้อมูลเชิงลึกที่แม่นยำยิ่งขึ้น  

การปรับปรุงแบบสอบถาม

ความสามารถในการจำลองบริบทได้เปลี่ยน BERT ให้เป็นฮีโร่ของ NLP และได้ปฏิวัติการค้นหาของ Google เอง ด้านล่างนี้คือคำพูดจากทีมผลิตภัณฑ์ Google Search และประสบการณ์การทดสอบของพวกเขา ขณะที่พวกเขากำลังปรับ BERT เพื่อทำความเข้าใจจุดประสงค์ของข้อความค้นหา

“นี่คือตัวอย่างบางส่วนที่แสดงให้เห็นถึงความสามารถของ BERT ในการทำความเข้าใจจุดประสงค์เบื้องหลังการค้นหาของคุณ นี่คือการค้นหา “2019 นักท่องเที่ยวบราซิลไปสหรัฐอเมริกาต้องการวีซ่า” คำว่า "ถึง" และความสัมพันธ์กับคำอื่นๆ ในแบบสอบถามมีความสำคัญอย่างยิ่งต่อการทำความเข้าใจความหมาย เป็นเรื่องเกี่ยวกับชาวบราซิลที่เดินทางไปสหรัฐอเมริกา ไม่ใช่ในทางกลับกัน ก่อนหน้านี้ อัลกอริทึมของเราจะไม่เข้าใจความสำคัญของการเชื่อมต่อนี้ และเราได้แสดงผลลัพธ์เกี่ยวกับพลเมืองสหรัฐฯ ที่เดินทางไปบราซิล ด้วย BERT การค้นหาสามารถเข้าใจความแตกต่างนี้และรู้ว่าคำทั่วไป “ถึง” มีความสำคัญมากที่นี่ และเราสามารถให้ผลลัพธ์ที่เกี่ยวข้องมากขึ้นสำหรับข้อความค้นหานี้”
- ทำความเข้าใจการค้นหาได้ดียิ่งขึ้นกว่าเดิมโดย Pandu Nayak, Google Fellow และรองประธานฝ่ายการค้นหา

ตัวอย่างการค้นหาของ BERT

ตัวอย่างการค้นหา BERT ก่อนและหลัง แหล่งที่มา บล็อก

ในชิ้นสุดท้ายของเราเมื่อ NLP และ OCRเราได้แสดงตัวอย่างการใช้ NLP ในภาคอสังหาริมทรัพย์ เราได้กล่าวถึงวิธีการที่ “เครื่องมือ NLP เป็นเครื่องมือดึงข้อมูลในอุดมคติ” ให้เราดูที่ภาคส่วนพลังงานและดูว่าเทคโนโลยี NLP ที่ก่อกวนเช่น BERT ช่วยให้เกิดกรณีการใช้งานแอปพลิเคชันใหม่ได้อย่างไร 

โมเดล NLP สามารถดึงข้อมูลจากข้อมูลที่ไม่มีโครงสร้างจำนวนมากได้

วิธีหนึ่งที่สามารถใช้โมเดล NLP คือการดึงข้อมูลสำคัญจากข้อมูลข้อความที่ไม่มีโครงสร้าง อีเมล สมุดรายวัน บันทึกย่อ บันทึก และรายงานคือตัวอย่างทั้งหมดของแหล่งข้อมูลข้อความซึ่งเป็นส่วนหนึ่งของการดำเนินงานประจำวันของธุรกิจ เอกสารเหล่านี้บางส่วนอาจพิสูจน์ได้ว่ามีความสำคัญในความพยายามขององค์กรในการเพิ่มประสิทธิภาพการดำเนินงานและลดต้นทุน 

เมื่อตั้งใจปฏิบัติ การบำรุงรักษาเชิงคาดการณ์ของกังหันลม รายงานความล้มเหลว อาจมี ข้อมูลที่สำคัญเกี่ยวกับพฤติกรรมของส่วนประกอบต่างๆ แต่เนื่องจากผู้ผลิตกังหันลมแต่ละรายมีบรรทัดฐานในการรวบรวมข้อมูลที่แตกต่างกัน (เช่น รายงานการบำรุงรักษามีรูปแบบและภาษาที่แตกต่างกัน) การระบุรายการข้อมูลที่เกี่ยวข้องด้วยตนเองจึงอาจกลายเป็นเรื่องราคาแพงสำหรับเจ้าของโรงงานได้อย่างรวดเร็ว เครื่องมือ NLP สามารถแยกแนวคิด คุณลักษณะ และเหตุการณ์ที่เกี่ยวข้องออกจากเนื้อหาที่ไม่มีโครงสร้าง จากนั้นสามารถใช้การวิเคราะห์ข้อความเพื่อค้นหาความสัมพันธ์และรูปแบบในแหล่งข้อมูลต่างๆ สิ่งนี้ทำให้เจ้าของโรงงานมีโอกาสดำเนินการบำรุงรักษาเชิงคาดการณ์ตามมาตรการเชิงปริมาณที่ระบุในรายงานความล้มเหลว

โมเดล NLP สามารถจัดเตรียมอินเตอร์เฟสการค้นหาด้วยภาษาธรรมชาติได้

ในทำนองเดียวกัน นักธรณีศาสตร์ที่ทำงานให้กับบริษัทน้ำมันและก๊าซมักจะต้องตรวจสอบเอกสารจำนวนมากที่เกี่ยวข้องกับปฏิบัติการขุดเจาะในอดีต บันทึกหลุมเจาะ และข้อมูลคลื่นไหวสะเทือน เนื่องจากเอกสารดังกล่าวยังมีรูปแบบที่แตกต่างกันและมักจะกระจายอยู่ตามสถานที่หลายแห่ง (ทั้งที่เป็นเอกสารจริงและดิจิทัล) พวกเขาจึงเสียเวลามากในการค้นหาข้อมูลผิดที่ ทางออกที่ใช้การได้ในกรณีเช่นนี้คือ อินเทอร์เฟซการค้นหาที่ขับเคลื่อนด้วย NLP ซึ่งจะช่วยให้ผู้ใช้สามารถค้นหาข้อมูลในภาษาธรรมชาติ จากนั้น แบบจำลอง NLP สามารถเชื่อมโยงข้อมูลในเอกสารหลายร้อยฉบับและส่งคืนชุดคำตอบสำหรับคำถาม จากนั้นผู้ปฏิบัติงานสามารถตรวจสอบความถูกต้องของผลลัพธ์ตามความรู้ของผู้เชี่ยวชาญของตนเอง และข้อเสนอแนะจะช่วยปรับปรุงแบบจำลองต่อไป 

อย่างไรก็ตาม ยังมีข้อควรพิจารณาทางเทคนิคสำหรับการปรับใช้โมเดลดังกล่าว แง่หนึ่งก็คือศัพท์แสงเฉพาะอุตสาหกรรมอาจสร้างความสับสนให้กับรูปแบบการเรียนรู้แบบดั้งเดิมที่ไม่มีความเข้าใจความหมายที่เหมาะสม ประการที่สอง ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากขนาดของชุดข้อมูลการฝึก นี่คือเวลาที่แบบจำลองที่ผ่านการฝึกอบรมล่วงหน้า เช่น BERT สามารถพิสูจน์ได้ว่าเป็นประโยชน์ การแสดงตามบริบทสามารถจำลองความหมายของคำที่เหมาะสมและขจัดความสับสนที่เกิดจากคำศัพท์เฉพาะทางอุตสาหกรรม การใช้โมเดลที่ฝึกไว้ล่วงหน้า ทำให้สามารถฝึกเครือข่ายบนชุดข้อมูลที่มีขนาดเล็กลงได้ สิ่งนี้ช่วยประหยัดเวลา พลังงาน และทรัพยากรที่อาจจำเป็นสำหรับการฝึกอบรมตั้งแต่เริ่มต้น

แล้วธุรกิจของคุณเองล่ะ? 

คุณนึกถึงงาน NLP ที่อาจช่วยคุณลดต้นทุนและเพิ่มประสิทธิภาพการดำเนินงานได้หรือไม่?

พื้นที่ บลูออเร้นจ์ดิจิตอล ทีมวิทยาศาสตร์ข้อมูลยินดีที่จะปรับแต่ง BERT เพื่อประโยชน์ของคุณเช่นกัน!

Josh Miramant เป็น CEO และผู้ก่อตั้ง บลูออเร้นจ์ดิจิตอลหน่วยงานวิทยาศาสตร์ข้อมูลและแมชชีนเลิร์นนิงอันดับต้น ๆ ที่มีสำนักงานในนิวยอร์กซิตี้และวอชิงตัน ดี.ซี. Miramant เป็นนักพูดยอดนิยม นักคิดเรื่องอนาคต และเป็นที่ปรึกษาด้านธุรกิจและเทคโนโลยีเชิงกลยุทธ์แก่บริษัทระดับองค์กรและสตาร์ทอัพ เขาช่วยองค์กรต่างๆ เพิ่มประสิทธิภาพและทำให้ธุรกิจของพวกเขาเป็นแบบอัตโนมัติ ใช้เทคนิคการวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล และเข้าใจความหมายของเทคโนโลยีใหม่ๆ เช่น ปัญญาประดิษฐ์ ข้อมูลขนาดใหญ่ และอินเทอร์เน็ตในทุกสิ่ง