- คำศัพท์ (A ถึง D)
- การควบคุมความสามารถของ AI
- AIOps
- อัลบั้ม
- ประสิทธิภาพของสินทรัพย์
- ตัวเข้ารหัสอัตโนมัติ
- การขยายพันธุ์หลัง
- ทฤษฎีบทเบย์
- ข้อมูลขนาดใหญ่
- Chatbot: คู่มือสำหรับผู้เริ่มต้น
- การคิดเชิงคำนวณ
- วิสัยทัศน์คอมพิวเตอร์
- เมทริกซ์ความสับสน
- เครือข่ายประสาทเทียม
- cybersecurity
- ผ้าข้อมูล
- การเล่าเรื่องข้อมูล
- ข้อมูลวิทยาศาสตร์
- คลังข้อมูล
- ต้นไม้ตัดสินใจ
- Deepfakes
- การเรียนรู้ลึก ๆ
- การเรียนรู้การเสริมแรงเชิงลึก
- devops
- DevSecOps
- แบบจำลองการแพร่กระจาย
- ดิจิตอลแฝด
- การลดขนาด
- คำศัพท์ (E ถึง K)
- เอดจ์ไอ
- อารมณ์ AI
- การเรียนรู้ทั้งมวล
- การแฮ็กอย่างมีจริยธรรม
- ETL
- AI ที่อธิบายได้
- สหพันธ์การเรียนรู้
- ฟินอ๊อฟ
- กำเนิด AI
- เครือข่ายผู้ให้กำเนิด
- กำเนิดเทียบกับการเลือกปฏิบัติ
- ไล่โทนสี
- โคตรไล่ระดับ
- การเรียนรู้ไม่กี่ช็อต
- การจำแนกรูปภาพ
- การดำเนินงานด้านไอที (ITOps)
- ระบบอัตโนมัติของเหตุการณ์
- วิศวกรรมอิทธิพล
- K-หมายถึงการจัดกลุ่ม
- K-เพื่อนบ้านที่ใกล้ที่สุด
- คำศัพท์ (L ถึง Q)
- คำศัพท์ (R ถึง Z)
- การเรียนรู้เสริมแรง
- AI ที่มีความรับผิดชอบ
- อาร์แอลเอชเอฟ
- ระบบอัตโนมัติของกระบวนการหุ่นยนต์
- มีโครงสร้าง vs ไม่มีโครงสร้าง
- การวิเคราะห์ความเชื่อมั่น
- อยู่ภายใต้การดูแล vs ไม่ได้รับการดูแล
- สนับสนุนเครื่องเวกเตอร์
- ข้อมูลสังเคราะห์
- สื่อสังเคราะห์
- การจัดประเภทข้อความ
- TinyML
- ถ่ายทอดการเรียนรู้
- เครือข่ายประสาทหม้อแปลง
- การทดสอบของทัวริง
- การค้นหาความคล้ายคลึงกันของเวกเตอร์
AI 101
Machine Learning คืออะไร?
สารบัญ
แมชชีนเลิร์นนิงเป็นหนึ่งในสาขาเทคโนโลยีที่เติบโตเร็วที่สุด แต่ถึงแม้จะมีคำว่า "แมชชีนเลิร์นนิง" ถูกใช้บ่อยแค่ไหน แต่ก็อาจเป็นเรื่องยากที่จะเข้าใจว่าแมชชีนเลิร์นนิงคืออะไร
การเรียนรู้เครื่อง ไม่ได้หมายถึงเพียงสิ่งเดียว แต่เป็นคำที่ครอบคลุมซึ่งสามารถนำไปใช้กับแนวคิดและเทคนิคต่างๆ มากมาย การทำความเข้าใจแมชชีนเลิร์นนิงหมายถึงการทำความคุ้นเคยกับรูปแบบต่างๆ ของการวิเคราะห์โมเดล ตัวแปร และอัลกอริทึม มาดูแมชชีนเลิร์นนิงอย่างใกล้ชิดเพื่อทำความเข้าใจสิ่งที่ครอบคลุมให้ดียิ่งขึ้น
การเรียนรู้ของเครื่องคืออะไร?
แม้ว่าคำว่าแมชชีนเลิร์นนิงจะใช้ได้กับหลายสิ่งหลายอย่าง แต่โดยทั่วไปแล้ว คำนี้หมายถึงการทำให้คอมพิวเตอร์สามารถทำงานต่างๆ ได้โดยไม่ต้องได้รับคำสั่งทีละบรรทัดอย่างชัดเจน ผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงไม่จำเป็นต้องเขียนขั้นตอนทั้งหมดที่จำเป็นในการแก้ปัญหา เนื่องจากคอมพิวเตอร์สามารถ "เรียนรู้" โดยการวิเคราะห์รูปแบบภายในข้อมูลและทำให้รูปแบบเหล่านี้เป็นข้อมูลใหม่
ระบบแมชชีนเลิร์นนิงมีสามส่วนพื้นฐาน:
- ปัจจัยการผลิต
- อัลกอริทึม
- Outputs
อินพุตคือข้อมูลที่ป้อนเข้าสู่ระบบแมชชีนเลิร์นนิง และข้อมูลอินพุตสามารถแบ่งออกเป็นป้ายกำกับและคุณลักษณะต่างๆ คุณลักษณะคือตัวแปรที่เกี่ยวข้องซึ่งเป็นตัวแปรที่จะวิเคราะห์เพื่อเรียนรู้รูปแบบและสรุปผล ในขณะเดียวกัน ป้ายกำกับคือคลาส/คำอธิบายที่กำหนดให้กับแต่ละอินสแตนซ์ของข้อมูล
สามารถใช้ฟีเจอร์และป้ายกำกับกับปัญหาการเรียนรู้ของเครื่องได้ 2 ประเภท ได้แก่ การเรียนรู้ภายใต้การดูแลและการเรียนรู้แบบไม่มีผู้ดูแล
การเรียนรู้ที่ไม่มีผู้ควบคุมเทียบกับการเรียนรู้ภายใต้การดูแล
In การเรียนรู้ภายใต้การดูแลข้อมูลที่ป้อนจะมาพร้อมกับความจริงพื้นฐาน ปัญหาการเรียนรู้ภายใต้การดูแลมีค่าเอาต์พุตที่ถูกต้องซึ่งเป็นส่วนหนึ่งของชุดข้อมูล ดังนั้นจึงทราบคลาสที่คาดไว้ล่วงหน้า สิ่งนี้ทำให้นักวิทยาศาสตร์ข้อมูลสามารถตรวจสอบประสิทธิภาพของอัลกอริทึมได้โดยการทดสอบข้อมูลในชุดข้อมูลทดสอบและดูว่ามีการแบ่งประเภทรายการอย่างถูกต้องกี่เปอร์เซ็นต์
ในทางตรงกันข้าม, การเรียนรู้โดยไม่ได้รับการดูแล ปัญหาไม่มีฉลากความจริงพื้นฐานติดอยู่ อัลกอริทึมแมชชีนเลิร์นนิงที่ได้รับการฝึกฝนให้ทำงานการเรียนรู้แบบไม่มีผู้ดูแลจะต้องสามารถอนุมานรูปแบบที่เกี่ยวข้องในข้อมูลได้ด้วยตัวมันเอง
อัลกอริทึมการเรียนรู้ภายใต้การดูแลมักใช้สำหรับปัญหาการจัดหมวดหมู่ ซึ่งมีชุดข้อมูลขนาดใหญ่ที่เต็มไปด้วยอินสแตนซ์ที่ต้องจัดเรียงเป็นหนึ่งในคลาสต่างๆ การเรียนรู้แบบมีผู้สอนอีกประเภทหนึ่งคืองานการถดถอย ซึ่งค่าที่ส่งออกโดยอัลกอริทึมนั้นมีความต่อเนื่องในธรรมชาติแทนที่จะเป็นหมวดหมู่
ในขณะเดียวกัน อัลกอริทึมการเรียนรู้แบบไม่มีผู้ดูแลจะใช้สำหรับงานต่างๆ เช่น การประมาณค่าความหนาแน่น การจัดกลุ่ม และการเรียนรู้การเป็นตัวแทน งานทั้งสามนี้ต้องการโมเดลแมชชีนเลิร์นนิงเพื่ออนุมานโครงสร้างของข้อมูล ไม่มีคลาสที่กำหนดไว้ล่วงหน้าให้กับโมเดล
มาดูอัลกอริทึมทั่วไปบางส่วนที่ใช้ในการเรียนรู้แบบไม่มีผู้สอนและการเรียนรู้แบบมีผู้สอน
ประเภทของการเรียนรู้แบบมีผู้สอน
อัลกอริทึมการเรียนรู้ภายใต้การดูแลทั่วไปประกอบด้วย:
- ไร้เดียงสา Bayes
- สนับสนุนเครื่องเวกเตอร์
- การถดถอยโลจิสติก
- ป่าสุ่ม
- โครงข่ายประสาทเทียม
สนับสนุนเครื่องเวกเตอร์ เป็นอัลกอริทึมที่แบ่งชุดข้อมูลออกเป็นคลาสต่างๆ จุดข้อมูลถูกจัดกลุ่มเป็นกลุ่มโดยการวาดเส้นที่แยกคลาสออกจากกัน คะแนนที่พบในด้านหนึ่งของเส้นจะเป็นของคลาสหนึ่ง ในขณะที่แต้มที่อยู่อีกด้านหนึ่งของเส้นจะเป็นของคลาสอื่น Support Vector Machines ตั้งเป้าหมายที่จะเพิ่มระยะห่างระหว่างเส้นและจุดที่พบบนด้านใดด้านหนึ่งของเส้นให้สูงสุด และยิ่งระยะห่างมากเท่าไร ตัวจำแนกประเภทก็จะมั่นใจมากขึ้นว่าจุดนั้นเป็นของคลาสหนึ่ง ไม่ใช่คลาสอื่น
การถดถอยโลจิสติก เป็นอัลกอริทึมที่ใช้ในงานจำแนกประเภทไบนารี เมื่อจุดข้อมูลจำเป็นต้องจัดประเภทเป็นของหนึ่งในสองชั้น Logistic Regression ทำงานโดยการระบุจุดข้อมูลเป็น 1 หรือ 0 ถ้าค่าการรับรู้ของจุดข้อมูลคือ 0.49 หรือต่ำกว่า จะจัดประเภทเป็น 0 ในขณะที่ถ้ามีค่า 0.5 หรือสูงกว่าจะจัดประเภทเป็น 1
อัลกอริทึมแผนผังการตัดสินใจ ดำเนินการโดยการแบ่งชุดข้อมูลออกเป็นส่วนเล็ก ๆ และเล็กลง เกณฑ์ที่แน่นอนที่ใช้ในการแบ่งข้อมูลนั้นขึ้นอยู่กับวิศวกรแมชชีนเลิร์นนิง แต่เป้าหมายคือการแบ่งข้อมูลออกเป็นจุดข้อมูลเดียวในท้ายที่สุด ซึ่งจะถูกจัดประเภทโดยใช้คีย์
อัลกอริธึม Random Forest คือตัวแยกประเภท Decision Tree ตัวเดียวหลายตัวที่เชื่อมโยงเข้าด้วยกันเป็นตัวแยกประเภทที่ทรงพลังกว่า
พื้นที่ Naive Bayes ลักษณนาม คำนวณความน่าจะเป็นที่จุดข้อมูลที่กำหนดจะเกิดขึ้นโดยพิจารณาจากความน่าจะเป็นของเหตุการณ์ก่อนหน้าที่เกิดขึ้น มันขึ้นอยู่กับทฤษฎีบทของ Bayes และวางจุดข้อมูลลงในคลาสต่างๆ ตามความน่าจะเป็นที่คำนวณได้ เมื่อใช้ตัวแยกประเภท Naive Bayes จะถือว่าตัวทำนายทั้งหมดมีอิทธิพลต่อผลลัพธ์ของชั้นเรียนเหมือนกัน
An โครงข่ายประสาทเทียมหรือ multi-layer perceptron เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่ได้รับแรงบันดาลใจจากโครงสร้างและการทำงานของสมองมนุษย์ เครือข่ายประสาทเทียมได้ชื่อมาจากข้อเท็จจริงที่ว่าพวกมันถูกสร้างขึ้นจากโหนด/เซลล์ประสาทจำนวนมากที่เชื่อมโยงเข้าด้วยกัน เซลล์ประสาททุกเซลล์จัดการข้อมูลด้วยฟังก์ชันทางคณิตศาสตร์ ในโครงข่ายประสาทเทียม มีชั้นอินพุต ชั้นซ่อน และชั้นเอาต์พุต
ชั้นที่ซ่อนอยู่ของโครงข่ายประสาทเทียมเป็นที่ที่ข้อมูลถูกตีความและวิเคราะห์หารูปแบบ กล่าวอีกนัยหนึ่งคือที่ที่อัลกอริทึมเรียนรู้ เซลล์ประสาทจำนวนมากรวมตัวกันสร้างเครือข่ายที่ซับซ้อนมากขึ้นซึ่งสามารถเรียนรู้รูปแบบที่ซับซ้อนมากขึ้นได้
ประเภทของการเรียนรู้แบบไม่มีผู้สอน
อัลกอริทึมการเรียนรู้ที่ไม่มีผู้ดูแลประกอบด้วย:
- K-หมายถึงการจัดกลุ่ม
- ตัวเข้ารหัสอัตโนมัติ
- การวิเคราะห์องค์ประกอบหลัก
K-หมายถึงการจัดกลุ่ม เป็นเทคนิคการจำแนกประเภทที่ไม่มีผู้ดูแล และทำงานโดยแยกจุดข้อมูลออกเป็นคลัสเตอร์หรือกลุ่มตามคุณลักษณะ การจัดกลุ่มด้วยวิธี K-mean จะวิเคราะห์คุณลักษณะที่พบในจุดข้อมูลและแยกความแตกต่างของรูปแบบที่ทำให้จุดข้อมูลที่พบในคลัสเตอร์คลาสที่กำหนดมีความคล้ายคลึงกันมากกว่าที่จะเป็นคลัสเตอร์ที่มีจุดข้อมูลอื่น สิ่งนี้ทำได้โดยการวางศูนย์กลางที่เป็นไปได้สำหรับคลัสเตอร์หรือเซนทรอยด์ในกราฟของข้อมูลและกำหนดตำแหน่งของเซนทรอยด์ใหม่จนกว่าจะพบตำแหน่งที่ลดระยะห่างระหว่างเซนทรอยด์และจุดที่อยู่ในคลาสของเซนทรอยด์นั้นให้น้อยที่สุด ผู้วิจัยสามารถระบุจำนวนคลัสเตอร์ที่ต้องการได้
การวิเคราะห์องค์ประกอบหลัก เป็นเทคนิคที่ลดคุณลักษณะ/ตัวแปรจำนวนมากลงในพื้นที่คุณลักษณะที่เล็กลง/คุณลักษณะที่น้อยลง "องค์ประกอบหลัก" ของจุดข้อมูลถูกเลือกเพื่อการอนุรักษ์ ในขณะที่คุณลักษณะอื่นๆ ถูกบีบให้มีขนาดเล็กลง ความสัมพันธ์ระหว่าง data potion ดั้งเดิมนั้นยังคงอยู่ แต่เนื่องจากความซับซ้อนของ data point นั้นง่ายกว่า ข้อมูลจึงง่ายต่อการหาปริมาณและอธิบาย
ตัวเข้ารหัสอัตโนมัติ เป็นเวอร์ชันของโครงข่ายประสาทเทียมที่สามารถใช้กับงานการเรียนรู้ที่ไม่มีผู้ดูแล ตัวเข้ารหัสอัตโนมัติสามารถรับข้อมูลรูปแบบอิสระที่ไม่มีป้ายกำกับและแปลงเป็นข้อมูลที่โครงข่ายประสาทเทียมสามารถใช้งานได้ โดยพื้นฐานแล้วจะสร้างข้อมูลการฝึกอบรมที่มีป้ายกำกับของตนเอง เป้าหมายของโปรแกรมเปลี่ยนรหัสอัตโนมัติคือการแปลงข้อมูลอินพุตและสร้างใหม่ให้แม่นยำที่สุดเท่าที่จะเป็นไปได้ ดังนั้นจึงเป็นแรงจูงใจของเครือข่ายในการพิจารณาว่าฟีเจอร์ใดสำคัญที่สุดและดึงออกมา
บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม