ผู้นำทางความคิด
การเตรียมข้อมูลมนุษย์สำหรับแมชชีนเลิร์นนิงต้องใช้ทรัพยากรมาก: แนวทางทั้งสองนี้มีความสำคัญต่อการลดต้นทุน
โดย: Dattaraj Rao หัวหน้านักวิทยาศาสตร์ข้อมูล ระบบถาวร
เช่นเดียวกับระบบใดๆ ที่ขึ้นอยู่กับอินพุตข้อมูล Machine Learning (ML) อยู่ภายใต้หลักการของ "ขยะในขยะ-ออก" ข้อมูลที่สะอาดและติดป้ายกำกับอย่างถูกต้องเป็นรากฐานสำหรับการสร้างแบบจำลอง ML อัลกอริธึมการฝึกอบรม ML เข้าใจรูปแบบจากข้อมูลความจริงจากพื้นดิน และจากนั้นจะเรียนรู้วิธีสรุปข้อมูลทั่วไปเกี่ยวกับข้อมูลที่มองไม่เห็น หากคุณภาพของข้อมูลการฝึกของคุณต่ำ อัลกอริธึม ML จะเรียนรู้และคาดการณ์อย่างต่อเนื่องได้ยาก
ลองคิดดูในแง่ของการฝึกสุนัขเลี้ยง หากคุณไม่สามารถฝึกสุนัขด้วยคำสั่งพฤติกรรมพื้นฐาน (อินพุต) ได้อย่างถูกต้อง หรือทำไม่ถูกต้อง/ไม่ถูกต้อง คุณจะไม่มีทางคาดหวังว่าสุนัขจะเรียนรู้และขยายผ่านการสังเกตไปสู่พฤติกรรมเชิงบวกที่ซับซ้อนมากขึ้นได้ เพราะปัจจัยพื้นฐานนั้นขาดหายไปหรือมีข้อบกพร่อง ที่จะเริ่มต้น กับ. การฝึกอบรมที่เหมาะสมนั้นใช้เวลานานและอาจมีค่าใช้จ่ายสูงหากคุณนำผู้เชี่ยวชาญมาด้วย แต่ผลตอบแทนจะดีมากหากคุณทำอย่างถูกต้องตั้งแต่เริ่มต้น
เมื่อฝึกโมเดล ML การสร้างข้อมูลที่มีคุณภาพต้องใช้ผู้เชี่ยวชาญโดเมนต้องใช้เวลาในการอธิบายข้อมูล ซึ่งอาจรวมถึงการเลือกหน้าต่างที่มีวัตถุที่ต้องการในภาพหรือการกำหนดป้ายกำกับให้กับรายการข้อความหรือบันทึกฐานข้อมูล โดยเฉพาะอย่างยิ่งสำหรับข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพ วิดีโอ และข้อความ คุณภาพของคำอธิบายประกอบมีบทบาทสำคัญในการกำหนดคุณภาพของโมเดล โดยปกติแล้ว ข้อมูลที่ไม่มีป้ายกำกับ เช่น รูปภาพดิบและข้อความจะมีอยู่มากมาย แต่การติดป้ายกำกับคือจุดที่จำเป็นต้องปรับให้เหมาะสม นี่คือส่วนที่มนุษย์อยู่ในวงจรของวงจรการใช้งาน ML และโดยปกติจะเป็นส่วนที่มีราคาแพงและใช้แรงงานมากที่สุดของโปรเจ็กต์ ML ใดๆ
เครื่องมือใส่คำอธิบายประกอบข้อมูล เช่น Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS และ DataRobot แบบใช้คนในวงมีการปรับปรุงคุณภาพอย่างต่อเนื่องและมอบอินเทอร์เฟซที่ใช้งานง่ายสำหรับผู้เชี่ยวชาญด้านโดเมน อย่างไรก็ตาม การลดเวลาที่ผู้เชี่ยวชาญด้านโดเมนต้องการในการใส่คำอธิบายประกอบข้อมูลยังคงเป็นความท้าทายที่สำคัญสำหรับองค์กรในปัจจุบัน โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่ผู้มีความสามารถด้านวิทยาศาสตร์ข้อมูลมีจำกัดแต่มีความต้องการสูง นี่คือที่มาของสองแนวทางใหม่ในการเตรียมข้อมูล
การเรียนรู้ที่ใช้งานอยู่
การเรียนรู้เชิงรุกเป็นวิธีการที่โมเดล ML ทำการสอบถามผู้เชี่ยวชาญโดเมนอย่างแข็งขันสำหรับคำอธิบายประกอบเฉพาะ ที่นี่ โฟกัสไม่ได้อยู่ที่การได้รับคำอธิบายประกอบที่สมบูรณ์บนข้อมูลที่ไม่มีป้ายกำกับ แต่เพียงการได้รับคำอธิบายประกอบในจุดข้อมูลที่ถูกต้องเพื่อให้โมเดลนั้นสามารถเรียนรู้ได้ดีขึ้น ยกตัวอย่างเช่น การดูแลสุขภาพและวิทยาศาสตร์เพื่อชีวิต ซึ่งเป็นบริษัทด้านการวินิจฉัยที่เชี่ยวชาญในการตรวจหามะเร็งในระยะเริ่มต้น เพื่อช่วยแพทย์ในการตัดสินใจเกี่ยวกับการดูแลผู้ป่วยโดยใช้ข้อมูลที่มีข้อมูลประกอบ ในกระบวนการวินิจฉัยโรค พวกเขาจำเป็นต้องใส่คำอธิบายประกอบภาพ CT scan ที่มีเนื้องอกซึ่งจำเป็นต้องเน้น
หลังจากที่โมเดล ML เรียนรู้จากภาพไม่กี่ภาพที่มีก้อนเนื้องอกทำเครื่องหมาย ด้วยการเรียนรู้แบบแอคทีฟ โมเดลจะขอให้ผู้ใช้ใส่คำอธิบายประกอบเฉพาะภาพที่ไม่แน่ใจว่ามีเนื้องอกอยู่หรือไม่ สิ่งเหล่านี้จะเป็นขอบเขตซึ่งเมื่อใส่คำอธิบายประกอบจะเพิ่มความมั่นใจให้กับโมเดล เมื่อแบบจำลองมีความมั่นใจเหนือเกณฑ์ที่กำหนด แบบจำลองจะทำคำอธิบายประกอบด้วยตนเองแทนที่จะขอให้ผู้ใช้อธิบายประกอบ นี่คือวิธีที่การเรียนรู้เชิงรุกพยายามช่วยสร้างแบบจำลองที่แม่นยำ ในขณะที่ลดเวลาและความพยายามที่จำเป็นในการใส่คำอธิบายประกอบข้อมูล เฟรมเวิร์กเช่น modAL สามารถช่วยเพิ่มประสิทธิภาพการจัดหมวดหมู่ได้โดยการสอบถามผู้เชี่ยวชาญโดเมนอย่างชาญฉลาดเพื่อติดป้ายกำกับอินสแตนซ์ที่ให้ข้อมูลมากที่สุด
การกำกับดูแลที่อ่อนแอ
การควบคุมที่ไม่รัดกุมเป็นวิธีการที่ข้อมูลหรือแนวคิดเชิงนามธรรมที่มีเสียงดังและไม่แม่นยำสามารถใช้เพื่อบ่งชี้สำหรับการติดฉลากข้อมูลจำนวนมากที่ไม่ได้รับการดูแล วิธีการนี้มักจะใช้ตัวติดฉลากที่อ่อนแอและพยายามรวมสิ่งเหล่านี้เข้าด้วยกันเพื่อสร้างข้อมูลที่มีคำอธิบายประกอบที่มีคุณภาพ ความพยายามคือการพยายามรวมความรู้โดเมนเข้ากับกิจกรรมการติดฉลากอัตโนมัติ
ตัวอย่างเช่น หากผู้ให้บริการอินเทอร์เน็ต (ISP) ต้องการระบบเพื่อตั้งค่าสถานะชุดข้อมูลอีเมลว่าเป็นสแปมหรือไม่สแปม เราอาจเขียนกฎที่อ่อนแอ เช่น การตรวจสอบวลี เช่น "ข้อเสนอ" "ขอแสดงความยินดี" "ฟรี" เป็นต้น ซึ่งส่วนใหญ่จะเกี่ยวข้องกับอีเมลขยะ กฎอื่นๆ อาจเป็นอีเมลจากรูปแบบเฉพาะของที่อยู่ต้นทางที่สามารถค้นหาได้ด้วยนิพจน์ทั่วไป ฟังก์ชั่นที่อ่อนแอเหล่านี้สามารถรวมเข้ากับกรอบการควบคุมที่อ่อนแอเช่น Snorkel และ Skweak เพื่อสร้างข้อมูลการฝึกอบรมที่มีคุณภาพดีขึ้น
ML ที่เป็นแกนหลักคือการช่วยบริษัทขยายขนาดกระบวนการแบบทวีคูณในแบบที่ไม่สามารถบรรลุได้ด้วยตนเอง อย่างไรก็ตาม ML ไม่ใช่เวทมนตร์และยังคงอาศัยมนุษย์เพื่อ a) ตั้งค่าและฝึกโมเดลอย่างถูกต้องตั้งแต่เริ่มต้น และ b) เข้าแทรกแซงเมื่อจำเป็นเพื่อให้แน่ใจว่าโมเดลจะไม่เบ้จนผลลัพธ์ไม่มีประโยชน์อีกต่อไป และ อาจจะต่อต้านหรือลบ
เป้าหมายคือการหาวิธีที่ช่วยเพิ่มความคล่องตัวและทำให้ส่วนต่างๆ ของการมีส่วนร่วมของมนุษย์เป็นไปโดยอัตโนมัติ เพื่อเพิ่มเวลาในการออกสู่ตลาดและผลลัพธ์ แต่ในขณะเดียวกันก็อยู่ในแนวป้องกันของความแม่นยำที่เหมาะสมที่สุด เป็นที่ยอมรับในระดับสากลว่าการได้รับข้อมูลที่มีคำอธิบายประกอบที่มีคุณภาพเป็นส่วนที่แพงที่สุดแต่สำคัญมากของโครงการ ML นี่คือพื้นที่ที่มีการพัฒนา และมีความพยายามอย่างมากในการลดเวลาที่ผู้เชี่ยวชาญโดเมนใช้ และปรับปรุงคุณภาพของคำอธิบายประกอบข้อมูล การสำรวจและใช้ประโยชน์จากการเรียนรู้เชิงรุกและการกำกับดูแลที่อ่อนแอเป็นกลยุทธ์ที่มั่นคงเพื่อให้บรรลุเป้าหมายนี้ในอุตสาหกรรมและกรณีการใช้งานที่หลากหลาย