Connect with us

อะไรคือ NLP (Natural Language Processing)?

ปัญญาประดิษฐ์

อะไรคือ NLP (Natural Language Processing)?

mm

Natural Language Processing (NLP) คือการศึกษาและประยุกต์ใช้เทคนิคและเครื่องมือที่ทำให้คอมพิวเตอร์สามารถประมวลผล วิเคราะห์ ตีความ และให้เหตุผลเกี่ยวกับภาษาของมนุษย์ NLP เป็นสาขาวิชาที่ผสมผสานระหว่างสาขาวิชาภาษาศาสตร์และวิทยาการคอมพิวเตอร์ เทคนิคเหล่านี้ถูกใช้ร่วมกับ AI เพื่อสร้างชัตบอทและผู้ช่วยดิจิทัล เช่น Google Assistant และ Amazon’s Alexa

มาใช้เวลาสักครู่เพื่อสำรวจเหตุผลเบื้องหลังของ Natural Language Processing เทคนิคที่ใช้ใน NLP และกรณีการใช้งานทั่วไปของ NLP

ทำไม Natural Language Processing (NLP) จึงมีความสำคัญ

เพื่อให้คอมพิวเตอร์สามารถตีความภาษาของมนุษย์ได้ ภาษาต้องถูกแปลงให้เป็นรูปแบบที่คอมพิวเตอร์สามารถจัดการได้ แต่นี่ไม่ใช่เรื่องง่ายๆ เช่น การแปลงข้อมูลข้อความเป็นตัวเลข เพื่อให้ได้ความหมายจากภาษาของมนุษย์ รูปแบบต่างๆ ต้องถูกถอดรหัสจากคำพูดหลายร้อยหรือหลายพันคำที่ประกอบขึ้นเป็นเอกสารข้อความ สิ่งนี้ไม่ใช่เรื่องง่าย มีกฎเกณฑ์ที่ชัดเจนที่สามารถนำมาใช้ในการตีความภาษาของมนุษย์ได้ ตัวอย่างเช่น ชุดคำที่เหมือนกันสามารถมีความหมายต่างกันขึ้นอยู่กับบริบท ภาษาของมนุษย์เป็นสิ่งที่ซับซ้อนและคลุมเครือ และคำพูดสามารถถูกกล่าวด้วยความจริงใจหรือการดูถูก

尽管如此 มีแนวทางทั่วไปที่สามารถใช้ได้เมื่อตีความคำและตัวอักษร เช่น ตัวอักษร “s” ที่ใช้เพื่อแสดงว่าสิ่งของเป็นพหูพจน์ แนวทางทั่วไปเหล่านี้ต้องถูกใช้ร่วมกันเพื่อถอดรหัสความหมายจากข้อความ เพื่อสร้างคุณลักษณะที่อัลกอริทึมการเรียนรู้ของเครื่องสามารถตีความได้

Natural Language Processing เกี่ยวข้องกับการประยุกต์ใช้อัลกอริทึมที่สามารถนำข้อมูลที่ไม่มีโครงสร้างมาแปลงเป็นข้อมูลที่มีโครงสร้าง หากอัลกอริทึมเหล่านี้ถูกนำไปใช้ในลักษณะที่ไม่ถูกต้อง คอมพิวเตอร์มักจะล้มเหลวในการถอดรหัสความหมายที่ถูกต้องจากข้อความ สิ่งนี้สามารถเห็นได้ในการแปลข้อความระหว่างภาษา โดยที่ความหมายที่แน่นอนของประโยคมักจะสูญหายไป แม้ว่าการแปลภาษาโดยเครื่องจะดีขึ้นอย่างมากในช่วงหลายปีที่ผ่านมา แต่ข้อผิดพลาดในการแปลภาษาโดยเครื่องยังคงเกิดขึ้นบ่อยๆ

เทคนิค Natural Language Processing (NLP)

Photo: Tamur via WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

เทคนิคหลายอย่างที่ใช้ใน NLP สามารถแบ่งออกเป็นสองประเภท: สyntax หรือ Semantics เทคนิค Syntax คือเทคนิคที่เกี่ยวข้องกับการจัดเรียงคำ ในขณะที่เทคนิค Semantics คือเทคนิคที่เกี่ยวข้องกับความหมายของคำ

เทคนิค Syntax NLP

ตัวอย่างของ Syntax ได้แก่:

  • Lemmatization
  • Morphological Segmentation
  • Part-of-Speech Tagging
  • Parsing
  • Sentence Breaking
  • Stemming
  • Word Segmentation

Lemmatization หมายถึงการทำให้คำที่มีหลายรูปแบบกลายเป็นรูปแบบเดียว Lemmatization จะทำให้คำที่มีหลายรูปแบบ เช่น คำที่มีหลายท่อน หรือคำที่มีหลายรูปแบบ กลายเป็นคำที่มีรูปแบบเดียว เช่น “feet” จะกลายเป็น “foot” และ “stripes” จะกลายเป็น “stripe” รูปแบบคำที่เรียบง่ายนี้จะทำให้อัลกอริทึมสามารถตีความคำในเอกสารได้ง่ายขึ้น

Morphological Segmentation คือกระบวนการแบ่งคำออกเป็นหน่วยพื้นฐานของคำ เช่น คำที่สามารถใช้ได้獨立 หรือคำที่มีหน่วยพื้นฐานของคำ

Part-of-speech tagging คือกระบวนการระบุประเภทของคำในเอกสาร

Parsing คือกระบวนการวิเคราะห์คำในประโยคและจับคู่คำเหล่านั้นเข้ากับฉลากไวยากรณ์ที่เหมาะสม

Sentence breaking หรือ sentence boundary segmentation คือกระบวนการตัดสินใจว่าประโยคเริ่มต้นและลงท้ายที่ไหน

Stemming คือกระบวนการลดคำให้เหลือรากของคำ ตัวอย่างเช่น connected, connection, และ connections จะถูกลดให้เหลือ “connect”

Word Segmentation คือกระบวนการแบ่งข้อความออกเป็นหน่วยเล็กๆ เช่น คำหรือคำที่ถูกลดรูป

เทคนิค Semantic NLP

เทคนิค Semantic NLP ได้แก่:

  • Named Entity Recognition
  • Natural Language Generation
  • Word-Sense disambiguation

Named entity recognition คือกระบวนการระบุและจัดประเภทของคำหรือกลุ่มคำที่สามารถจัดเข้าหมวดหมู่ที่กำหนดไว้ล่วงหน้า

Natural language generation คือกระบวนการสร้างข้อความภาษาธรรมชาติจากข้อมูลที่มีโครงสร้าง

Word-sense disambiguation คือกระบวนการกำหนดความหมายของคำในข้อความตามบริบทที่คำนั้นปรากฏ

โมเดล Deep Learning สำหรับ NLP

โมเดลการเรียนรู้ของเครื่องแบบหลายชั้นไม่สามารถจัดการกับการตีความข้อมูลที่มีลำดับได้ โดยที่ลำดับของข้อมูลมีความสำคัญ ในการแก้ปัญหานี้ โมเดลการเรียนรู้ของเครื่องแบบ Recurrent Neural Network (RNN) ถูกใช้ RNN เป็นโมเดลการเรียนรู้ของเครื่องแบบหนึ่งที่สามารถจัดการกับการตีความข้อมูลที่มีลำดับได้

อีกหนึ่งประเภทของโมเดลการเรียนรู้ของเครื่องแบบ Deep Learning ที่ใช้ในการประมวลผลข้อความคือ Long Short-Term Memory (LSTM) network โมเดล LSTM มีโครงสร้างที่คล้ายกับ RNN แต่มีการปรับปรุงบางอย่างที่ทำให้สามารถจัดการกับการตีความข้อมูลที่มีลำดับได้ดีขึ้น

กรณีการใช้งานสำหรับ Natural Language Processing (NLP)

Photo: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

เนื่องจาก NLP เกี่ยวข้องกับการวิเคราะห์และจัดการภาษาของมนุษย์ จึงมีการใช้งานที่หลากหลาย ตัวอย่างของกรณีการใช้งาน NLP ได้แก่ ชัตบอท ผู้ช่วยดิจิทัล การวิเคราะห์ความรู้สึก การจัดระเบียบเอกสาร การสรรหาบุคลากร และการดูแลสุขภาพ

ชัตบอทและผู้ช่วยดิจิทัล เช่น Amazon’s Alexa และ Google Assistant เป็นตัวอย่างของแพลตฟอร์มการรู้จำและสร้างเสียงที่ใช้ NLP เพื่อตีความและตอบสนองต่อคำสั่งเสียง

การวิเคราะห์ความรู้สึก คือการใช้เทคนิค NLP เพื่อศึกษาการตอบสนองและความรู้สึกของคนต่อปรากฏการณ์ใดๆ

การจัดระเบียบเอกสารข้อความอัตโนมัติ คืออีกหนึ่งกรณีการใช้งานของ NLP

การสรรหาบุคลากรโดยใช้เทคนิค NLP เพื่อค้นหาบุคลากรที่มีทักษะที่เหมาะสม

การดูแลสุขภาพ คืออีกหนึ่งกรณีการใช้งานของ NLP ที่สามารถช่วยในการวินิจฉัยและรักษาโรค

นักบล็อกและโปรแกรมเมอร์ที่มีความเชี่ยวชาญใน Machine Learning และ Deep Learning หัวข้อ Daniel หวังที่จะช่วยให้ผู้อื่นใช้พลังของ AI สำหรับสิ่งที่ดี