ต้นขั้ว NLP (การประมวลผลภาษาธรรมชาติ) คืออะไร? - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

NLP (การประมวลผลภาษาธรรมชาติ) คืออะไร?

mm
วันที่อัพเดท on

การประมวลผลภาษาธรรมชาติ (NLP) เป็นการศึกษาและประยุกต์ใช้เทคนิคและเครื่องมือที่ทำให้คอมพิวเตอร์สามารถประมวลผล วิเคราะห์ ตีความ และให้เหตุผลเกี่ยวกับภาษามนุษย์ NLP เป็นสาขาสหวิทยาการและผสมผสานเทคนิคที่จัดตั้งขึ้นในสาขาต่างๆ เช่น ภาษาศาสตร์และวิทยาการคอมพิวเตอร์ เทคนิคเหล่านี้ใช้ร่วมกับ AI เพื่อสร้างแชทบอทและผู้ช่วยดิจิทัล เช่น Google Assistant และ Alexa ของ Amazon

เราใช้เวลาสักพักเพื่อสำรวจเหตุผลเบื้องหลังการประมวลผลภาษาธรรมชาติ เทคนิคบางอย่างที่ใช้ใน NLP และกรณีการใช้งานทั่วไปบางประการสำหรับ NLP

เหตุใดการประมวลผลภาษาธรรมชาติ (NLP) จึงมีความสำคัญ

เพื่อให้คอมพิวเตอร์แปลภาษามนุษย์ได้ จะต้องแปลงให้อยู่ในรูปแบบที่คอมพิวเตอร์สามารถจัดการได้ อย่างไรก็ตาม การดำเนินการนี้ไม่ง่ายเหมือนการแปลงข้อมูลข้อความเป็นตัวเลข เพื่อให้ได้ความหมายจากภาษามนุษย์ รูปแบบจะต้องดึงมาจากคำหลายร้อยหรือหลายพันคำที่ประกอบกันเป็นเอกสารข้อความ นี่ไม่ใช่งานง่าย มีกฎที่เข้มงวดและรวดเร็วไม่กี่ข้อที่สามารถใช้กับการตีความภาษามนุษย์ได้ ตัวอย่างเช่น คำชุดเดียวกันอาจหมายถึงสิ่งที่แตกต่างกันขึ้นอยู่กับบริบท ภาษามนุษย์เป็นสิ่งที่ซับซ้อนและมักคลุมเครือ และถ้อยแถลงสามารถเปล่งออกมาด้วยความจริงใจหรือประชดประชัน

อย่างไรก็ตาม มีหลักเกณฑ์ทั่วไปบางประการที่สามารถนำมาใช้ในการตีความคำและอักขระ เช่น อักขระ "s" ที่ใช้ในการแสดงว่ารายการนั้นเป็นพหูพจน์ หลักเกณฑ์ทั่วไปเหล่านี้ต้องใช้ร่วมกันเพื่อแยกความหมายจากข้อความ เพื่อสร้างคุณสมบัติที่อัลกอริธึมการเรียนรู้ของเครื่องสามารถตีความได้

การประมวลผลภาษาธรรมชาติเกี่ยวข้องกับการประยุกต์อัลกอริธึมต่างๆ ที่สามารถรับข้อมูลที่ไม่มีโครงสร้างและแปลงเป็นข้อมูลที่มีโครงสร้าง หากใช้อัลกอริธึมเหล่านี้ในลักษณะที่ไม่ถูกต้อง คอมพิวเตอร์มักจะล้มเหลวในการรับความหมายที่ถูกต้องจากข้อความ สิ่งนี้มักจะเห็นได้ในการแปลข้อความระหว่างภาษา ซึ่งความหมายที่แท้จริงของประโยคมักจะสูญหายไป แม้ว่าการแปลด้วยเครื่องจะมีการปรับปรุงอย่างมากในช่วงไม่กี่ปีที่ผ่านมา แต่ข้อผิดพลาดในการแปลด้วยเครื่องยังคงเกิดขึ้นบ่อยครั้ง

เทคนิคการประมวลผลภาษาธรรมชาติ (NLP)

รูปภาพ: Tamur ผ่าน WikiMedia Commons, โดเมนสาธารณะ (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

หลายคน เทคนิค ที่ใช้ในการประมวลผลภาษาธรรมชาติสามารถจัดอยู่ในหนึ่งในสองประเภท: วากยสัมพันธ์หรือความหมาย เทคนิควากยสัมพันธ์คือเทคนิคที่เกี่ยวข้องกับการจัดลำดับคำ ในขณะที่เทคนิคความหมายเป็นเทคนิคที่เกี่ยวข้องกับความหมายของคำ

เทคนิคไวยากรณ์ NLP

ตัวอย่างของไวยากรณ์รวมถึง:

  • เล็มมาไลเซชั่น
  • การแบ่งส่วนทางสัณฐานวิทยา
  • การแท็กส่วนของคำพูด
  • วจีวิภาค
  • ทำลายประโยค
  • อารมณ์
  • การแบ่งส่วนคำ

การย่อคำหมายถึงการกลั่นคำที่ผันคำต่างๆ ให้อยู่ในรูปแบบเดียว การใช้คำควบกล้ำนำสิ่งต่างๆ เช่นกาลและพหูพจน์มาทำให้ง่ายขึ้น ตัวอย่างเช่น "เท้า" อาจกลายเป็น "เท้า" และ "แถบ" อาจกลายเป็น "แถบ" รูปแบบคำที่เรียบง่ายนี้ช่วยให้อัลกอริทึมตีความคำในเอกสารได้ง่ายขึ้น

การแบ่งส่วนทางสัณฐานวิทยาเป็นกระบวนการของการแบ่งคำออกเป็นรูปแบบหรือหน่วยพื้นฐานของคำ หน่วยเหล่านี้เป็นเหมือนฟรี สัณฐาน (ซึ่งสามารถแยกเป็นคำได้) และคำนำหน้าหรือคำต่อท้าย

การติดแท็กบางส่วนของคำพูด เป็นเพียงกระบวนการในการระบุว่าคำพูดทุกคำในเอกสารอินพุตอยู่ส่วนใดของคำพูด

วจีวิภาค หมายถึงการวิเคราะห์คำทั้งหมดในประโยคและเชื่อมโยงกับป้ายกำกับไวยากรณ์ที่เป็นทางการหรือทำการวิเคราะห์ทางไวยากรณ์สำหรับคำทั้งหมด

การทำลายประโยคหรือ การแบ่งส่วนขอบเขตประโยค หมายถึงการตัดสินใจว่าประโยคเริ่มต้นและสิ้นสุดที่ใด

อารมณ์ เป็นกระบวนการย่อคำลงเหลือรูปรากของคำ ตัวอย่างเช่น การเชื่อมต่อ การเชื่อมต่อ และการเชื่อมต่อทั้งหมดจะเกิดจาก "การเชื่อมต่อ"

การแบ่งส่วนคำ คือกระบวนการแบ่งข้อความขนาดใหญ่ออกเป็นหน่วยย่อยๆ ซึ่งอาจเป็นคำหรือหน่วยที่มีคำหรือหน่วยที่มีคำหรือหน่วยคำ

เทคนิค NLP เชิงความหมาย

เทคนิค NLP เชิงความหมายประกอบด้วยเทคนิคต่างๆ เช่น:

  • ชื่อการรับรู้เอนทิตี
  • การสร้างภาษาธรรมชาติ
  • แก้ความกำกวมของ Word-Sense

การรับรู้ชื่อนิติบุคคล เกี่ยวข้องกับการติดแท็กข้อความบางส่วนที่สามารถวางไว้ในกลุ่มที่กำหนดไว้ล่วงหน้าหลายกลุ่ม หมวดหมู่ที่กำหนดไว้ล่วงหน้าประกอบด้วยสิ่งต่างๆ เช่น วันที่ เมือง สถานที่ บริษัท และบุคคล

การสร้างภาษาตามธรรมชาติ เป็นกระบวนการใช้ฐานข้อมูลเพื่อแปลงข้อมูลที่มีโครงสร้างให้เป็นภาษาธรรมชาติ ตัวอย่างเช่น สถิติเกี่ยวกับสภาพอากาศ เช่น อุณหภูมิและความเร็วลมสามารถสรุปได้ด้วยภาษาธรรมชาติ

การแก้ความกำกวมของคำคือกระบวนการกำหนดความหมายให้กับคำภายในข้อความตามบริบทของคำที่ปรากฏ

โมเดลการเรียนรู้เชิงลึกสำหรับ NLP

เพอร์เซ็ปตรอนหลายชั้นปกติไม่สามารถจัดการการตีความข้อมูลตามลำดับซึ่งลำดับของข้อมูลมีความสำคัญ เพื่อจัดการกับความสำคัญของคำสั่งในข้อมูลตามลำดับ จึงมีการใช้โครงข่ายประสาทเทียมประเภทหนึ่งที่เก็บรักษาข้อมูลจากขั้นตอนเวลาก่อนหน้าในการฝึกอบรม

โครงข่ายประสาทกำเริบ เป็นประเภทของโครงข่ายประสาทเทียมที่ วนซ้ำข้อมูลจากขั้นตอนเวลาก่อนหน้าโดยคำนึงถึงสิ่งเหล่านี้เมื่อคำนวณน้ำหนักของการก้าวเวลาปัจจุบัน โดยพื้นฐานแล้ว RNN มีพารามิเตอร์สามตัวที่ใช้ระหว่างการส่งผ่านการฝึกล่วงหน้า: เมทริกซ์ที่อิงตามสถานะที่ซ่อนไว้ก่อนหน้า เมทริกซ์ที่อิงตามอินพุตปัจจุบัน และเมทริกซ์ที่อยู่ระหว่างสถานะที่ซ่อนอยู่และเอาต์พุต เนื่องจาก RNN สามารถนำข้อมูลจากช่วงเวลาก่อนหน้ามาพิจารณาได้ พวกเขาจึงสามารถแยกรูปแบบที่เกี่ยวข้องจากข้อมูลข้อความโดยคำนึงถึงคำก่อนหน้าในประโยคเมื่อตีความความหมายของคำ

สถาปัตยกรรมการเรียนรู้เชิงลึกอีกประเภทหนึ่งที่ใช้ในการประมวลผลข้อมูลข้อความคือ เครือข่าย Long Short-Term Memory (LSTM). เครือข่าย LSTM นั้นคล้ายกับ RNN ในโครงสร้าง แต่เนื่องจากความแตกต่างบางประการในสถาปัตยกรรมของพวกเขา พวกเขามักจะทำงานได้ดีกว่า RNN พวกเขาหลีกเลี่ยงปัญหาเฉพาะที่มักเกิดขึ้นเมื่อใช้ RNN ที่เรียกว่า ปัญหาการไล่ระดับสีที่ระเบิดได้

โครงข่ายประสาทเทียมเชิงลึกเหล่านี้สามารถเป็นแบบทิศทางเดียวหรือสองทิศทางก็ได้ เครือข่ายแบบสองทิศทางไม่เพียงแต่สามารถคำนึงถึงคำที่อยู่ก่อนหน้าคำปัจจุบันเท่านั้น แต่ยังรวมถึงคำที่อยู่หลังคำนั้นด้วย แม้ว่าสิ่งนี้จะนำไปสู่ความแม่นยำสูงกว่า แต่ก็มีราคาแพงกว่าในการคำนวณ

กรณีการใช้งานสำหรับการประมวลผลภาษาธรรมชาติ (NLP)

รูปภาพ: mohammed_hassan ผ่าน Pixabay, ใบอนุญาตของ Pixabay (https://pixabay.com/illustrator/chatbot-chat-application-artificial-3589528/)

เนื่องจากการประมวลผลภาษาธรรมชาติเกี่ยวข้องกับการวิเคราะห์และการจัดการภาษามนุษย์ จึงมีการใช้งานที่หลากหลายอย่างไม่น่าเชื่อ แอปพลิเคชันที่เป็นไปได้สำหรับ NLP ได้แก่ แชทบอท ผู้ช่วยดิจิทัล การวิเคราะห์ความรู้สึก การจัดการเอกสาร การสรรหาบุคลากรที่มีความสามารถ และการดูแลสุขภาพ

แชทบอทและผู้ช่วยดิจิทัล เช่น Alexa และ Google Assistant ของ Amazon เป็นตัวอย่างของแพลตฟอร์มการจดจำและสังเคราะห์เสียงที่ใช้ NLP เพื่อตีความและตอบสนองต่อคำสั่งเสียง ผู้ช่วยดิจิตอลเหล่านี้ช่วยให้ผู้คนมีงานที่หลากหลาย โดยปล่อยให้พวกเขาถ่ายโอนงานด้านความรู้ความเข้าใจบางส่วนไปยังอุปกรณ์อื่น และเพิ่มพลังสมองบางส่วนสำหรับสิ่งอื่นที่สำคัญกว่า แทนที่จะมองหาเส้นทางที่ดีที่สุดเพื่อไปธนาคารในช่วงเช้าที่วุ่นวาย เราสามารถให้ผู้ช่วยดิจิทัลของเราดำเนินการแทนได้

การวิเคราะห์ความเชื่อมั่น เป็นการใช้เทคนิค NLP เพื่อศึกษาปฏิกิริยาและความรู้สึกของผู้คนต่อปรากฏการณ์หนึ่งๆ ซึ่งสื่อสารผ่านการใช้ภาษา การจับความรู้สึกของคำแถลง เช่น การตีความว่าบทวิจารณ์ผลิตภัณฑ์นั้นดีหรือไม่ดี สามารถให้ข้อมูลที่สำคัญแก่บริษัทเกี่ยวกับวิธีรับผลิตภัณฑ์ของตน

การจัดระเบียบเอกสารข้อความโดยอัตโนมัติเป็นอีกหนึ่งแอปพลิเคชันของ NLP บริษัทต่างๆ เช่น Google และ Yahoo ใช้อัลกอริทึม NLP เพื่อจัดประเภทเอกสารอีเมล โดยใส่ไว้ในถังขยะที่เหมาะสม เช่น "โซเชียล" หรือ "โปรโมชัน" พวกเขายังใช้เทคนิคเหล่านี้เพื่อ ระบุสแปม และป้องกันไม่ให้เข้าถึงกล่องจดหมายของคุณ

กลุ่มต่างๆ ได้พัฒนาเทคนิค NLP เพื่อใช้ในการระบุการจ้างงานที่มีศักยภาพ โดยค้นหาตามทักษะที่เกี่ยวข้อง ผู้จัดการการจ้างงานยังใช้เทคนิค NLP เพื่อช่วยจัดเรียงรายชื่อผู้สมัคร

นอกจากนี้ยังมีการใช้เทคนิค NLP เพื่อยกระดับการดูแลสุขภาพ NLP สามารถใช้เพื่อปรับปรุงการตรวจหาโรค สามารถวิเคราะห์บันทึกสุขภาพและแยกอาการโดยอัลกอริทึม NLP ซึ่งสามารถใช้เพื่อแนะนำการวินิจฉัยที่เป็นไปได้ ตัวอย่างหนึ่งคือแพลตฟอร์ม Comprehend Medical ของ Amazon ซึ่งวิเคราะห์บันทึกด้านสุขภาพและแยกโรคและการรักษา การประยุกต์ใช้ด้านการดูแลสุขภาพของ NLP ยังขยายไปถึงสุขภาพจิตด้วย มีแอพ เช่น WoeBot ซึ่งพูดถึงผู้ใช้ผ่านเทคนิคการจัดการความวิตกกังวลที่หลากหลายตามการบำบัดพฤติกรรมทางปัญญา

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม

โพสต์ล่าสุด