ต้นขั้ว การจำแนกประเภทข้อความทำงานอย่างไร - Unite.AI
เชื่อมต่อกับเรา
มาสเตอร์คลาส AI:

AI 101

การจำแนกประเภทข้อความทำงานอย่างไร

mm
วันที่อัพเดท on

การจัดประเภทข้อความเป็นกระบวนการวิเคราะห์ลำดับข้อความและกำหนดป้ายกำกับ โดยจัดกลุ่มตามเนื้อหา การจัดหมวดหมู่ข้อความรองรับงาน AI หรือการเรียนรู้ของเครื่องเกือบทั้งหมดที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติ (NLP) ด้วยการจัดประเภทข้อความ โปรแกรมคอมพิวเตอร์สามารถทำงานต่างๆ ได้หลากหลาย เช่น การจดจำสแปม การวิเคราะห์ความรู้สึก และฟังก์ชันแชทบอท การจัดหมวดหมู่ข้อความทำงานอย่างไรกันแน่? การจัดหมวดหมู่ข้อความมีวิธีการต่าง ๆ อะไรบ้าง? เราจะสำรวจคำตอบสำหรับคำถามเหล่านี้ด้านล่าง

การกำหนดการจำแนกข้อความ

สิ่งสำคัญคือต้องใช้เวลาสักครู่และตรวจสอบให้แน่ใจว่าเราเข้าใจ การจัดประเภทข้อความคืออะไรโดยทั่วไป ก่อนที่จะเจาะลึกถึงวิธีการต่างๆ ในการจัดหมวดหมู่ข้อความ การจัดหมวดหมู่ข้อความเป็นหนึ่งในคำศัพท์ที่ใช้กับงานและอัลกอริทึมต่างๆ มากมาย ดังนั้นจึงเป็นประโยชน์ที่จะตรวจสอบให้แน่ใจว่าเราเข้าใจแนวคิดพื้นฐานของการจัดหมวดหมู่ข้อความก่อนที่จะดำเนินการสำรวจวิธีต่างๆ ที่สามารถดำเนินการได้

สิ่งใดก็ตามที่เกี่ยวข้องกับการสร้างหมวดหมู่ที่แตกต่างกันสำหรับข้อความ แล้วติดป้ายกำกับตัวอย่างข้อความที่แตกต่างกันเป็นหมวดหมู่เหล่านี้ สามารถพิจารณาการจัดประเภทข้อความได้ ตราบเท่าที่ระบบดำเนินการตามขั้นตอนพื้นฐานเหล่านี้ ก็สามารถพิจารณาได้ว่าเป็นตัวแยกประเภทข้อความ โดยไม่คำนึงว่าจะใช้วิธีใดในการจำแนกข้อความ และไม่คำนึงว่าในที่สุดจะใช้ตัวแยกประเภทข้อความอย่างไร การตรวจจับสแปมอีเมล การจัดระเบียบเอกสารตามหัวข้อหรือชื่อเรื่อง และการจดจำความคิดเห็นที่มีต่อผลิตภัณฑ์คือตัวอย่างทั้งหมดของการจำแนกประเภทข้อความ เนื่องจากทำได้โดยการรับข้อความเป็นข้อมูลเข้าและส่งออกป้ายกำกับระดับสำหรับข้อความส่วนนั้น

การจำแนกประเภทข้อความทำงานอย่างไร

ภาพถ่าย: Quinn Dombrowski ผ่าน Flickr, CC BY SA 2.0 , (https://www.flickr.com/photos/quinnanya/4714794045)

วิธีการจัดประเภทข้อความส่วนใหญ่สามารถจัดเป็นหนึ่งในสามประเภท: วิธีการตามกฎหรือวิธีการเรียนรู้ของเครื่อง

วิธีการจำแนกตามกฎ

วิธีการจัดประเภทข้อความตามกฎดำเนินการผ่านการใช้กฎทางภาษาศาสตร์ที่จัดทำขึ้นอย่างชัดแจ้ง ระบบจะใช้กฎที่สร้างขึ้นโดยวิศวกรเพื่อกำหนดว่าข้อความที่กำหนดควรอยู่ในคลาสใด โดยมองหาเบาะแสในรูปแบบขององค์ประกอบข้อความที่เกี่ยวข้องกับความหมาย กฎทุกข้อมีรูปแบบที่ข้อความต้องตรงกันจึงจะจัดอยู่ในหมวดหมู่ที่เกี่ยวข้องได้

เพื่อให้เป็นรูปธรรมมากขึ้น สมมติว่าคุณต้องการออกแบบตัวแยกประเภทข้อความที่สามารถแยกแยะหัวข้อทั่วไปของการสนทนา เช่น สภาพอากาศ ภาพยนตร์ หรืออาหาร ในการเปิดใช้งานตัวแยกประเภทข้อความของคุณเพื่อจดจำการสนทนาเกี่ยวกับสภาพอากาศ คุณอาจบอกให้ค้นหาคำที่เกี่ยวข้องกับสภาพอากาศในเนื้อหาของตัวอย่างข้อความที่ป้อน คุณจะมีรายการคำหลัก วลี และรูปแบบที่เกี่ยวข้องอื่นๆ ที่สามารถใช้เพื่อแยกแยะหัวข้อได้ ตัวอย่างเช่น คุณอาจสั่งให้ตัวแยกประเภทค้นหาคำอย่างเช่น "ลม" "ฝน" "ดวงอาทิตย์" "หิมะ" หรือ "เมฆ" จากนั้นคุณสามารถให้ตัวแยกประเภทดูผ่านข้อความอินพุตและนับจำนวนครั้งที่คำเหล่านี้ปรากฏในเนื้อหาของข้อความ และหากคำเหล่านี้ปรากฏบ่อยกว่าคำที่เกี่ยวข้องกับภาพยนตร์ คุณจะจัดประเภทข้อความนั้นอยู่ในกลุ่มสภาพอากาศ

ข้อได้เปรียบของระบบตามกฎคืออินพุตและเอาต์พุตสามารถคาดเดาและตีความได้โดยมนุษย์ และสามารถปรับปรุงได้ผ่านการแทรกแซงด้วยตนเองโดยวิศวกร อย่างไรก็ตาม วิธีการจำแนกประเภทตามกฎยังค่อนข้างเปราะบาง และมักมีช่วงเวลาที่ยากลำบากในการสรุปเพราะทำได้เพียงยึดตามรูปแบบที่กำหนดไว้ล่วงหน้าซึ่งได้รับการตั้งโปรแกรมไว้ ตัวอย่างเช่น คำว่า "เมฆ" อาจหมายถึงความชื้นใน ท้องฟ้าหรืออาจหมายถึงคลาวด์ดิจิทัลที่เก็บข้อมูล เป็นเรื่องยากที่ระบบตามกฎจะจัดการกับความแตกต่างเหล่านี้โดยที่วิศวกรไม่ได้ใช้เวลาพอสมควรในการพยายามคาดการณ์และปรับเปลี่ยนรายละเอียดปลีกย่อยเหล่านี้ด้วยตนเอง

ระบบการเรียนรู้ของเครื่อง

ตามที่กล่าวไว้ข้างต้น ระบบตามกฎมีข้อจำกัด เนื่องจากฟังก์ชันและกฎต้องตั้งโปรแกรมไว้ล่วงหน้า ในทางตรงกันข้าม ระบบการจำแนกตามแมชชีนเลิร์นนิงทำงานโดยใช้อัลกอริทึมที่วิเคราะห์ชุดข้อมูลสำหรับรูปแบบที่เกี่ยวข้องกับคลาสเฉพาะ

อัลกอริทึมการเรียนรู้ของเครื่องป้อนอินสแตนซ์ที่ติดฉลากไว้ล่วงหน้า/จัดประเภทไว้ล่วงหน้า ซึ่งได้รับการวิเคราะห์สำหรับคุณลักษณะที่เกี่ยวข้อง อินสแตนซ์ที่มีป้ายกำกับล่วงหน้าเหล่านี้เป็นข้อมูลการฝึกอบรม

ลักษณนามของแมชชีนเลิร์นนิงจะวิเคราะห์ข้อมูลการฝึกและเรียนรู้รูปแบบที่เกี่ยวข้องกับคลาสต่างๆ หลังจากนี้ อินสแตนซ์ที่มองไม่เห็นจะถูกปลดออกจากป้ายกำกับและป้อนไปยังอัลกอริทึมการจัดหมวดหมู่ซึ่งกำหนดป้ายกำกับให้กับอินสแตนซ์ จากนั้นป้ายกำกับที่กำหนดจะถูกนำไปเปรียบเทียบกับป้ายกำกับดั้งเดิมเพื่อดูว่าตัวแยกประเภทการเรียนรู้ของเครื่องมีความแม่นยำเพียงใด โดยวัดว่าโมเดลเรียนรู้รูปแบบใดที่ทำนายคลาสใดได้ดีเพียงใด

อัลกอริทึมการเรียนรู้ของเครื่องทำงานโดยการวิเคราะห์ข้อมูลตัวเลข ซึ่งหมายความว่าในการใช้อัลกอริทึมการเรียนรู้ของเครื่องกับข้อมูลข้อความ ข้อความจะต้องถูกแปลงเป็นรูปแบบตัวเลข มีหลายวิธีในการเข้ารหัสข้อมูลข้อความเป็นข้อมูลตัวเลขและสร้างวิธีการเรียนรู้ของเครื่องเกี่ยวกับข้อมูลนี้ เราจะกล่าวถึงวิธีต่างๆ ในการแสดงข้อมูลข้อความด้านล่างนี้

ถุงคำพูด

ถุงคำ เป็นวิธีการเข้ารหัสและการแสดงข้อมูลข้อความที่ใช้บ่อยที่สุดวิธีหนึ่ง คำว่า “ถุงคำ” มาจากการที่คุณนำคำทั้งหมดในเอกสารมารวมไว้ใน “ถุง” ใบเดียวโดยไม่สนใจลำดับคำหรือไวยากรณ์ โดยสนใจเฉพาะคำว่า ความถี่ของคำ ในกระเป๋า. ส่งผลให้อาร์เรย์ยาวหรือเวกเตอร์มีการแสดงคำทั้งหมดในเอกสารอินพุตเพียงคำเดียว ดังนั้นหากมีคำที่ไม่ซ้ำกันทั้งหมด 10000 คำในเอกสารอินพุต เวกเตอร์คุณลักษณะจะมีความยาว 10000 คำ นี่คือวิธีคำนวณขนาดของถุงคำ/เวกเตอร์คุณสมบัติ

รูปภาพ: gk_ ผ่าน Machinelearning.co, (https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

หลังจากกำหนดขนาดเวกเตอร์คุณลักษณะแล้ว เอกสารทุกฉบับในรายการเอกสารทั้งหมดจะถูกกำหนดเวกเตอร์ของตัวเองซึ่งเต็มไปด้วยตัวเลขที่ระบุจำนวนครั้งที่คำที่เป็นปัญหาปรากฏในเอกสารปัจจุบัน ซึ่งหมายความว่าหากคำว่า "อาหาร" ปรากฏขึ้นแปดครั้งในเอกสารข้อความเดียว เวกเตอร์คุณลักษณะ/อาร์เรย์คุณลักษณะที่เกี่ยวข้องนั้นจะมีแปดครั้งในตำแหน่งที่สอดคล้องกัน

กล่าวอีกนัยหนึ่ง คำเฉพาะทั้งหมดที่ปรากฏในเอกสารอินพุตจะรวมกันอยู่ในถุงเดียว จากนั้นเอกสารแต่ละฉบับจะได้รับเวกเตอร์คำที่มีขนาดเท่ากัน ซึ่งจะถูกเติมด้วยจำนวนครั้งที่คำต่างๆ ปรากฏในเอกสาร .

ชุดข้อมูลข้อความมักจะมีคำที่ไม่ซ้ำกันจำนวนมาก แต่ส่วนใหญ่ไม่ได้ใช้บ่อยนัก ด้วยเหตุนี้ จำนวนคำที่ใช้สร้างเวกเตอร์คำโดยทั่วไปจึงจำกัดอยู่ที่ค่าที่เลือก (N) จากนั้นมิติเวกเตอร์คุณลักษณะจะเป็น Nx1

ระยะความถี่-ผกผันความถี่เอกสาร (TF-IDF)

อีกวิธีหนึ่งในการแสดงเอกสารตามคำในนั้นคือการขนานนาม ระยะความถี่-ผกผันความถี่เอกสาร (TF-IDF). แนวทาง TF-IDF ยังสร้างเวกเตอร์ที่แสดงถึงเอกสารตามคำที่อยู่ในนั้น แต่คำเหล่านี้ต่างจาก Bag-of-words มีน้ำหนักมากกว่าแค่ความถี่. TF-IDF พิจารณาถึงความสำคัญของคำในเอกสาร โดยพยายามวัดว่าคำนั้นเกี่ยวข้องกับหัวข้อของเอกสารมากน้อยเพียงใด กล่าวอีกนัยหนึ่ง TF-IDF วิเคราะห์ความเกี่ยวข้องแทนความถี่ และจำนวนคำในเวกเตอร์คุณลักษณะจะถูกแทนที่ด้วยคะแนน TF-IDF ที่คำนวณโดยคำนึงถึงชุดข้อมูลทั้งหมด

วิธี TF-IDF ดำเนินการโดยการคำนวณความถี่ของคำศัพท์ก่อน ซึ่งเป็นจำนวนครั้งที่คำศัพท์เฉพาะปรากฏในเอกสารเฉพาะ อย่างไรก็ตาม TF-IDF ยังระมัดระวังในการจำกัดอิทธิพลของคำที่พบบ่อยมาก เช่น “the”, “or” และ “and” เนื่องจาก “stopwords” เหล่านี้เป็นคำที่ใช้บ่อยมาก แต่ให้ข้อมูลน้อยมากเกี่ยวกับเนื้อหาของเอกสาร คำเหล่านี้จำเป็นต้องถูกลดทอน ซึ่งเป็นสิ่งที่ส่วน "ความถี่เอกสารผกผัน" ของ TF-IDF อ้างถึง การดำเนินการนี้เกิดขึ้นเนื่องจากยิ่งเอกสารที่มีคำเฉพาะปรากฏในเอกสารมากเท่าใด คำนั้นก็จะมีประโยชน์น้อยลงในการแยกความแตกต่างจากเอกสารอื่นๆ ในรายการเอกสารทั้งหมด สูตรที่ TF-IDF ใช้ในการคำนวณความสำคัญของคำได้รับการออกแบบมาเพื่อรักษาคำที่ใช้บ่อยที่สุดและมีความหมายสมบูรณ์ที่สุด

เวกเตอร์คุณลักษณะที่สร้างขึ้นโดยวิธี TF-IDF มีค่าที่ทำให้เป็นมาตรฐานซึ่งรวมเป็นหนึ่ง โดยกำหนดค่าถ่วงน้ำหนักให้แต่ละคำตามที่คำนวณโดยสูตร TF-IDF

โปรแกรม Word

การฝังคำ เป็นวิธีการแสดงข้อความที่ทำให้คำที่มีความหมายคล้ายกันมีการแสดงตัวเลขที่คล้ายคลึงกัน

การฝังคำ ดำเนินการโดยคำ " vectorizing "หมายความว่าพวกเขาแทนคำเป็นเวกเตอร์ที่มีมูลค่าจริงในปริภูมิเวกเตอร์ เวกเตอร์มีอยู่ในตารางหรือเมทริกซ์ และมีทิศทางและความยาว (หรือขนาด) เมื่อแทนคำเป็นเวกเตอร์ คำเหล่านั้นจะถูกแปลงเป็นเวกเตอร์ที่ประกอบด้วยค่าจริง ทุกคำจะถูกจับคู่กับเวกเตอร์หนึ่งตัว และคำที่มีความหมายคล้ายกันจะมีทิศทางและขนาดที่ใกล้เคียงกัน การเข้ารหัสประเภทนี้ทำให้อัลกอริทึมการเรียนรู้ของเครื่องสามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างคำได้

การฝังที่ใช้แทนคำต่างๆ ถูกสร้างขึ้นโดยคำนึงถึงวิธีการใช้คำที่เป็นปัญหา เนื่องจากคำที่ใช้ในลักษณะเดียวกันจะมีเวกเตอร์ที่คล้ายกัน กระบวนการสร้างการฝังคำจะแปลความหมายบางอย่างของคำโดยอัตโนมัติ ในทางตรงกันข้าม วิธีการใช้ถุงคำจะสร้างการนำเสนอที่เปราะบาง โดยที่คำต่างๆ จะมีการนำเสนอที่ไม่เหมือนกันแม้ว่าจะใช้ในบริบทที่คล้ายคลึงกันมากก็ตาม

ด้วยเหตุนี้ การฝังคำจึงดีกว่าในการจับบริบทของคำภายในประโยค

มีอัลกอริทึมและวิธีการต่างๆ ที่ใช้ในการสร้างการฝังคำ วิธีการฝังคำที่ใช้กันทั่วไปและเชื่อถือได้ ได้แก่: การฝังเลเยอร์ word2vec และ GloVe

การฝังเลเยอร์

วิธีหนึ่งที่เป็นไปได้ในการใช้การฝังคำควบคู่ไปกับระบบการเรียนรู้ของเครื่อง/การเรียนรู้เชิงลึกคือ ใช้ชั้นฝัง. เลเยอร์การฝังเป็นเลเยอร์การเรียนรู้เชิงลึกที่แปลงคำเป็นการฝัง จากนั้นป้อนเข้าสู่ระบบการเรียนรู้เชิงลึกที่เหลือ การฝังคำจะเรียนรู้เมื่อเครือข่ายฝึกฝนสำหรับงานที่เป็นข้อความเฉพาะ

ในแนวทางการฝังคำ คำที่คล้ายกันจะมีตัวแทนที่คล้ายกันและอยู่ใกล้กันมากกว่าคำที่แตกต่างกัน

ในการใช้เลเยอร์การฝัง ข้อความจะต้องได้รับการประมวลผลล่วงหน้าก่อน ข้อความในเอกสารต้องเข้ารหัสแบบ one-hot และต้องมีการระบุขนาดเวกเตอร์ล่วงหน้า จากนั้นข้อความแบบ one-hot จะถูกแปลงเป็นเวกเตอร์คำ และเวกเตอร์จะถูกส่งผ่านไปยังโมเดลแมชชีนเลิร์นนิง

เวิร์ดทูเวค

เวิร์ดทูเวค เป็นวิธีการฝังคำทั่วไปอีกวิธีหนึ่ง Word2Vec ใช้วิธีการทางสถิติเพื่อแปลงคำเป็นการฝัง และได้รับการปรับให้เหมาะสำหรับใช้กับโมเดลที่ใช้โครงข่ายประสาทเทียม Word2Vec ได้รับการพัฒนาโดยนักวิจัยของ Google และเป็นหนึ่งในวิธีการฝังที่ใช้บ่อยที่สุด เนื่องจากให้การฝังที่สมบูรณ์และมีประโยชน์อย่างน่าเชื่อถือ การแสดง Word2Vec มีประโยชน์สำหรับการระบุความเหมือนกันทางความหมายและวากยสัมพันธ์ในภาษา ซึ่งหมายความว่าการเป็นตัวแทนของ Word2Vec จับความสัมพันธ์ระหว่างแนวคิดที่คล้ายกัน โดยสามารถแยกแยะได้ว่าสิ่งที่เหมือนกันระหว่าง "ราชา" และ "ราชินี" คือค่าภาคหลวง และ "ราชา" หมายถึง "ความเป็นชาย" ในขณะที่ราชินีหมายถึง "ความเป็นผู้หญิง"

ถุงมือ

GloVE หรือ Global Vector สำหรับการแทนคำสร้างจากอัลกอริธึมการฝังที่ใช้โดย Word2Vec วิธีการฝัง GloVe รวมลักษณะต่างๆ ของทั้ง Word2Vec และเทคนิคการแยกตัวประกอบเมทริกซ์ เช่น การวิเคราะห์ความหมายแฝง ข้อได้เปรียบของ Word2Vec คือสามารถบันทึกบริบทได้ แต่เมื่อต้องแลกกับผลเสีย มันก็จะบันทึกสถิติข้อความทั่วโลกได้ไม่ดีพอ ในทางกลับกัน การแสดงเวกเตอร์แบบดั้งเดิมนั้นดีในการกำหนดสถิติข้อความทั่วโลก แต่ไม่มีประโยชน์สำหรับการกำหนดบริบทของคำและวลี GloVE ดึงเอาวิธีที่ดีที่สุดจากทั้งสองวิธี มาสร้างบริบทคำตามสถิติข้อความทั่วโลก

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม