AI 101

Machine Learning คืออะไร?

วันที่อัพเดท on สิงหาคม 23, 2020

แมชชีนเลิร์นนิงเป็นหนึ่งในสาขาเทคโนโลยีที่เติบโตเร็วที่สุด แต่ถึงแม้จะมีคำว่า "แมชชีนเลิร์นนิง" ถูกใช้บ่อยแค่ไหน แต่ก็อาจเป็นเรื่องยากที่จะเข้าใจว่าแมชชีนเลิร์นนิงคืออะไร

การเรียนรู้เครื่อง ไม่ได้หมายถึงเพียงสิ่งเดียว แต่เป็นคำที่ครอบคลุมซึ่งสามารถนำไปใช้กับแนวคิดและเทคนิคต่างๆ มากมาย การทำความเข้าใจแมชชีนเลิร์นนิงหมายถึงการทำความคุ้นเคยกับรูปแบบต่างๆ ของการวิเคราะห์โมเดล ตัวแปร และอัลกอริทึม มาดูแมชชีนเลิร์นนิงอย่างใกล้ชิดเพื่อทำความเข้าใจสิ่งที่ครอบคลุมให้ดียิ่งขึ้น

การเรียนรู้ของเครื่องคืออะไร?

แม้ว่าคำว่าแมชชีนเลิร์นนิงจะใช้ได้กับหลายสิ่งหลายอย่าง แต่โดยทั่วไปแล้ว คำนี้หมายถึงการทำให้คอมพิวเตอร์สามารถทำงานต่างๆ ได้โดยไม่ต้องได้รับคำสั่งทีละบรรทัดอย่างชัดเจน ผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงไม่จำเป็นต้องเขียนขั้นตอนทั้งหมดที่จำเป็นในการแก้ปัญหา เนื่องจากคอมพิวเตอร์สามารถ "เรียนรู้" โดยการวิเคราะห์รูปแบบภายในข้อมูลและทำให้รูปแบบเหล่านี้เป็นข้อมูลใหม่

ระบบแมชชีนเลิร์นนิงมีสามส่วนพื้นฐาน:

ปัจจัยการผลิต
อัลกอริทึม
Outputs

อินพุตคือข้อมูลที่ป้อนเข้าสู่ระบบแมชชีนเลิร์นนิง และข้อมูลอินพุตสามารถแบ่งออกเป็นป้ายกำกับและคุณลักษณะต่างๆ คุณลักษณะคือตัวแปรที่เกี่ยวข้องซึ่งเป็นตัวแปรที่จะวิเคราะห์เพื่อเรียนรู้รูปแบบและสรุปผล ในขณะเดียวกัน ป้ายกำกับคือคลาส/คำอธิบายที่กำหนดให้กับแต่ละอินสแตนซ์ของข้อมูล

สามารถใช้ฟีเจอร์และป้ายกำกับกับปัญหาการเรียนรู้ของเครื่องได้ 2 ประเภท ได้แก่ การเรียนรู้ภายใต้การดูแลและการเรียนรู้แบบไม่มีผู้ดูแล

การเรียนรู้ที่ไม่มีผู้ควบคุมเทียบกับการเรียนรู้ภายใต้การดูแล

In การเรียนรู้ภายใต้การดูแลข้อมูลที่ป้อนจะมาพร้อมกับความจริงพื้นฐาน ปัญหาการเรียนรู้ภายใต้การดูแลมีค่าเอาต์พุตที่ถูกต้องซึ่งเป็นส่วนหนึ่งของชุดข้อมูล ดังนั้นจึงทราบคลาสที่คาดไว้ล่วงหน้า สิ่งนี้ทำให้นักวิทยาศาสตร์ข้อมูลสามารถตรวจสอบประสิทธิภาพของอัลกอริทึมได้โดยการทดสอบข้อมูลในชุดข้อมูลทดสอบและดูว่ามีการแบ่งประเภทรายการอย่างถูกต้องกี่เปอร์เซ็นต์

ในทางตรงกันข้าม, การเรียนรู้โดยไม่ได้รับการดูแล ปัญหาไม่มีฉลากความจริงพื้นฐานติดอยู่ อัลกอริทึมแมชชีนเลิร์นนิงที่ได้รับการฝึกฝนให้ทำงานการเรียนรู้แบบไม่มีผู้ดูแลจะต้องสามารถอนุมานรูปแบบที่เกี่ยวข้องในข้อมูลได้ด้วยตัวมันเอง

อัลกอริทึมการเรียนรู้ภายใต้การดูแลมักใช้สำหรับปัญหาการจัดหมวดหมู่ ซึ่งมีชุดข้อมูลขนาดใหญ่ที่เต็มไปด้วยอินสแตนซ์ที่ต้องจัดเรียงเป็นหนึ่งในคลาสต่างๆ การเรียนรู้แบบมีผู้สอนอีกประเภทหนึ่งคืองานการถดถอย ซึ่งค่าที่ส่งออกโดยอัลกอริทึมนั้นมีความต่อเนื่องในธรรมชาติแทนที่จะเป็นหมวดหมู่

ในขณะเดียวกัน อัลกอริทึมการเรียนรู้แบบไม่มีผู้ดูแลจะใช้สำหรับงานต่างๆ เช่น การประมาณค่าความหนาแน่น การจัดกลุ่ม และการเรียนรู้การเป็นตัวแทน งานทั้งสามนี้ต้องการโมเดลแมชชีนเลิร์นนิงเพื่ออนุมานโครงสร้างของข้อมูล ไม่มีคลาสที่กำหนดไว้ล่วงหน้าให้กับโมเดล

มาดูอัลกอริทึมทั่วไปบางส่วนที่ใช้ในการเรียนรู้แบบไม่มีผู้สอนและการเรียนรู้แบบมีผู้สอน

ประเภทของการเรียนรู้แบบมีผู้สอน

อัลกอริทึมการเรียนรู้ภายใต้การดูแลทั่วไปประกอบด้วย:

ไร้เดียงสา Bayes
สนับสนุนเครื่องเวกเตอร์
การถดถอยโลจิสติก
ป่าสุ่ม
โครงข่ายประสาทเทียม

สนับสนุนเครื่องเวกเตอร์ เป็นอัลกอริทึมที่แบ่งชุดข้อมูลออกเป็นคลาสต่างๆ จุดข้อมูลถูกจัดกลุ่มเป็นกลุ่มโดยการวาดเส้นที่แยกคลาสออกจากกัน คะแนนที่พบในด้านหนึ่งของเส้นจะเป็นของคลาสหนึ่ง ในขณะที่แต้มที่อยู่อีกด้านหนึ่งของเส้นจะเป็นของคลาสอื่น Support Vector Machines ตั้งเป้าหมายที่จะเพิ่มระยะห่างระหว่างเส้นและจุดที่พบบนด้านใดด้านหนึ่งของเส้นให้สูงสุด และยิ่งระยะห่างมากเท่าไร ตัวจำแนกประเภทก็จะมั่นใจมากขึ้นว่าจุดนั้นเป็นของคลาสหนึ่ง ไม่ใช่คลาสอื่น

การถดถอยโลจิสติก เป็นอัลกอริทึมที่ใช้ในงานจำแนกประเภทไบนารี เมื่อจุดข้อมูลจำเป็นต้องจัดประเภทเป็นของหนึ่งในสองชั้น Logistic Regression ทำงานโดยการระบุจุดข้อมูลเป็น 1 หรือ 0 ถ้าค่าการรับรู้ของจุดข้อมูลคือ 0.49 หรือต่ำกว่า จะจัดประเภทเป็น 0 ในขณะที่ถ้ามีค่า 0.5 หรือสูงกว่าจะจัดประเภทเป็น 1

อัลกอริทึมแผนผังการตัดสินใจ ดำเนินการโดยการแบ่งชุดข้อมูลออกเป็นส่วนเล็ก ๆ และเล็กลง เกณฑ์ที่แน่นอนที่ใช้ในการแบ่งข้อมูลนั้นขึ้นอยู่กับวิศวกรแมชชีนเลิร์นนิง แต่เป้าหมายคือการแบ่งข้อมูลออกเป็นจุดข้อมูลเดียวในท้ายที่สุด ซึ่งจะถูกจัดประเภทโดยใช้คีย์

อัลกอริธึม Random Forest คือตัวแยกประเภท Decision Tree ตัวเดียวหลายตัวที่เชื่อมโยงเข้าด้วยกันเป็นตัวแยกประเภทที่ทรงพลังกว่า

พื้นที่ Naive Bayes ลักษณนาม คำนวณความน่าจะเป็นที่จุดข้อมูลที่กำหนดจะเกิดขึ้นโดยพิจารณาจากความน่าจะเป็นของเหตุการณ์ก่อนหน้าที่เกิดขึ้น มันขึ้นอยู่กับทฤษฎีบทของ Bayes และวางจุดข้อมูลลงในคลาสต่างๆ ตามความน่าจะเป็นที่คำนวณได้ เมื่อใช้ตัวแยกประเภท Naive Bayes จะถือว่าตัวทำนายทั้งหมดมีอิทธิพลต่อผลลัพธ์ของชั้นเรียนเหมือนกัน

An โครงข่ายประสาทเทียมหรือ multi-layer perceptron เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่ได้รับแรงบันดาลใจจากโครงสร้างและการทำงานของสมองมนุษย์ เครือข่ายประสาทเทียมได้ชื่อมาจากข้อเท็จจริงที่ว่าพวกมันถูกสร้างขึ้นจากโหนด/เซลล์ประสาทจำนวนมากที่เชื่อมโยงเข้าด้วยกัน เซลล์ประสาททุกเซลล์จัดการข้อมูลด้วยฟังก์ชันทางคณิตศาสตร์ ในโครงข่ายประสาทเทียม มีชั้นอินพุต ชั้นซ่อน และชั้นเอาต์พุต

ชั้นที่ซ่อนอยู่ของโครงข่ายประสาทเทียมเป็นที่ที่ข้อมูลถูกตีความและวิเคราะห์หารูปแบบ กล่าวอีกนัยหนึ่งคือที่ที่อัลกอริทึมเรียนรู้ เซลล์ประสาทจำนวนมากรวมตัวกันสร้างเครือข่ายที่ซับซ้อนมากขึ้นซึ่งสามารถเรียนรู้รูปแบบที่ซับซ้อนมากขึ้นได้

ประเภทของการเรียนรู้แบบไม่มีผู้สอน

อัลกอริทึมการเรียนรู้ที่ไม่มีผู้ดูแลประกอบด้วย:

K-หมายถึงการจัดกลุ่ม
ตัวเข้ารหัสอัตโนมัติ
การวิเคราะห์องค์ประกอบหลัก

K-หมายถึงการจัดกลุ่ม เป็นเทคนิคการจำแนกประเภทที่ไม่มีผู้ดูแล และทำงานโดยแยกจุดข้อมูลออกเป็นคลัสเตอร์หรือกลุ่มตามคุณลักษณะ การจัดกลุ่มด้วยวิธี K-mean จะวิเคราะห์คุณลักษณะที่พบในจุดข้อมูลและแยกความแตกต่างของรูปแบบที่ทำให้จุดข้อมูลที่พบในคลัสเตอร์คลาสที่กำหนดมีความคล้ายคลึงกันมากกว่าที่จะเป็นคลัสเตอร์ที่มีจุดข้อมูลอื่น สิ่งนี้ทำได้โดยการวางศูนย์กลางที่เป็นไปได้สำหรับคลัสเตอร์หรือเซนทรอยด์ในกราฟของข้อมูลและกำหนดตำแหน่งของเซนทรอยด์ใหม่จนกว่าจะพบตำแหน่งที่ลดระยะห่างระหว่างเซนทรอยด์และจุดที่อยู่ในคลาสของเซนทรอยด์นั้นให้น้อยที่สุด ผู้วิจัยสามารถระบุจำนวนคลัสเตอร์ที่ต้องการได้

การวิเคราะห์องค์ประกอบหลัก เป็นเทคนิคที่ลดคุณลักษณะ/ตัวแปรจำนวนมากลงในพื้นที่คุณลักษณะที่เล็กลง/คุณลักษณะที่น้อยลง "องค์ประกอบหลัก" ของจุดข้อมูลถูกเลือกเพื่อการอนุรักษ์ ในขณะที่คุณลักษณะอื่นๆ ถูกบีบให้มีขนาดเล็กลง ความสัมพันธ์ระหว่าง data potion ดั้งเดิมนั้นยังคงอยู่ แต่เนื่องจากความซับซ้อนของ data point นั้นง่ายกว่า ข้อมูลจึงง่ายต่อการหาปริมาณและอธิบาย

ตัวเข้ารหัสอัตโนมัติ เป็นเวอร์ชันของโครงข่ายประสาทเทียมที่สามารถใช้กับงานการเรียนรู้ที่ไม่มีผู้ดูแล ตัวเข้ารหัสอัตโนมัติสามารถรับข้อมูลรูปแบบอิสระที่ไม่มีป้ายกำกับและแปลงเป็นข้อมูลที่โครงข่ายประสาทเทียมสามารถใช้งานได้ โดยพื้นฐานแล้วจะสร้างข้อมูลการฝึกอบรมที่มีป้ายกำกับของตนเอง เป้าหมายของโปรแกรมเปลี่ยนรหัสอัตโนมัติคือการแปลงข้อมูลอินพุตและสร้างใหม่ให้แม่นยำที่สุดเท่าที่จะเป็นไปได้ ดังนั้นจึงเป็นแรงจูงใจของเครือข่ายในการพิจารณาว่าฟีเจอร์ใดสำคัญที่สุดและดึงออกมา

หัวข้อที่เกี่ยวข้อง:101

ต่อไป

การเรียนรู้เชิงลึกคืออะไร?

แดเนียล เนลสัน

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม

ยูไนเต็ด.เอไอ

Machine Learning คืออะไร?

AI 101

Machine Learning คืออะไร?

สารบัญ

การเรียนรู้ของเครื่องคืออะไร?

การเรียนรู้ที่ไม่มีผู้ควบคุมเทียบกับการเรียนรู้ภายใต้การดูแล

ประเภทของการเรียนรู้แบบมีผู้สอน

ประเภทของการเรียนรู้แบบไม่มีผู้สอน

ยูไนเต็ด.เอไอ

Machine Learning คืออะไร?

สารบัญ

การเรียนรู้ของเครื่องคืออะไร?

การเรียนรู้ที่ไม่มีผู้ควบคุมเทียบกับการเรียนรู้ภายใต้การดูแล

ประเภทของการเรียนรู้แบบมีผู้สอน

ประเภทของการเรียนรู้แบบไม่มีผู้สอน

คุณอาจชอบ