ต้นขั้ว การเตรียมข้อมูลมนุษย์สำหรับแมชชีนเลิร์นนิงต้องใช้ทรัพยากรมาก: แนวทางทั้งสองนี้มีความสำคัญต่อการลดต้นทุน - Unite.AI
เชื่อมต่อกับเรา

ผู้นำทางความคิด

การเตรียมข้อมูลมนุษย์สำหรับแมชชีนเลิร์นนิงต้องใช้ทรัพยากรมาก: แนวทางทั้งสองนี้มีความสำคัญต่อการลดต้นทุน

mm

การตีพิมพ์

 on

โดย: Dattaraj Rao หัวหน้านักวิทยาศาสตร์ข้อมูล ระบบถาวร

เช่นเดียวกับระบบใดๆ ที่ขึ้นอยู่กับอินพุตข้อมูล Machine Learning (ML) อยู่ภายใต้หลักการของ "ขยะในขยะ-ออก" ข้อมูลที่สะอาดและติดป้ายกำกับอย่างถูกต้องเป็นรากฐานสำหรับการสร้างแบบจำลอง ML อัลกอริธึมการฝึกอบรม ML เข้าใจรูปแบบจากข้อมูลความจริงจากพื้นดิน และจากนั้นจะเรียนรู้วิธีสรุปข้อมูลทั่วไปเกี่ยวกับข้อมูลที่มองไม่เห็น หากคุณภาพของข้อมูลการฝึกของคุณต่ำ อัลกอริธึม ML จะเรียนรู้และคาดการณ์อย่างต่อเนื่องได้ยาก

ลองคิดดูในแง่ของการฝึกสุนัขเลี้ยง หากคุณไม่สามารถฝึกสุนัขด้วยคำสั่งพฤติกรรมพื้นฐาน (อินพุต) ได้อย่างถูกต้อง หรือทำไม่ถูกต้อง/ไม่ถูกต้อง คุณจะไม่มีทางคาดหวังว่าสุนัขจะเรียนรู้และขยายผ่านการสังเกตไปสู่พฤติกรรมเชิงบวกที่ซับซ้อนมากขึ้นได้ เพราะปัจจัยพื้นฐานนั้นขาดหายไปหรือมีข้อบกพร่อง ที่จะเริ่มต้น กับ. การฝึกอบรมที่เหมาะสมนั้นใช้เวลานานและอาจมีค่าใช้จ่ายสูงหากคุณนำผู้เชี่ยวชาญมาด้วย แต่ผลตอบแทนจะดีมากหากคุณทำอย่างถูกต้องตั้งแต่เริ่มต้น

เมื่อฝึกโมเดล ML การสร้างข้อมูลที่มีคุณภาพต้องใช้ผู้เชี่ยวชาญโดเมนต้องใช้เวลาในการอธิบายข้อมูล ซึ่งอาจรวมถึงการเลือกหน้าต่างที่มีวัตถุที่ต้องการในภาพหรือการกำหนดป้ายกำกับให้กับรายการข้อความหรือบันทึกฐานข้อมูล โดยเฉพาะอย่างยิ่งสำหรับข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพ วิดีโอ และข้อความ คุณภาพของคำอธิบายประกอบมีบทบาทสำคัญในการกำหนดคุณภาพของโมเดล โดยปกติแล้ว ข้อมูลที่ไม่มีป้ายกำกับ เช่น รูปภาพดิบและข้อความจะมีอยู่มากมาย แต่การติดป้ายกำกับคือจุดที่จำเป็นต้องปรับให้เหมาะสม นี่คือส่วนที่มนุษย์อยู่ในวงจรของวงจรการใช้งาน ML และโดยปกติจะเป็นส่วนที่มีราคาแพงและใช้แรงงานมากที่สุดของโปรเจ็กต์ ML ใดๆ

เครื่องมือใส่คำอธิบายประกอบข้อมูล เช่น Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS และ DataRobot แบบใช้คนในวงมีการปรับปรุงคุณภาพอย่างต่อเนื่องและมอบอินเทอร์เฟซที่ใช้งานง่ายสำหรับผู้เชี่ยวชาญด้านโดเมน อย่างไรก็ตาม การลดเวลาที่ผู้เชี่ยวชาญด้านโดเมนต้องการในการใส่คำอธิบายประกอบข้อมูลยังคงเป็นความท้าทายที่สำคัญสำหรับองค์กรในปัจจุบัน โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่ผู้มีความสามารถด้านวิทยาศาสตร์ข้อมูลมีจำกัดแต่มีความต้องการสูง นี่คือที่มาของสองแนวทางใหม่ในการเตรียมข้อมูล

การเรียนรู้ที่ใช้งานอยู่

การเรียนรู้เชิงรุกเป็นวิธีการที่โมเดล ML ทำการสอบถามผู้เชี่ยวชาญโดเมนอย่างแข็งขันสำหรับคำอธิบายประกอบเฉพาะ ที่นี่ โฟกัสไม่ได้อยู่ที่การได้รับคำอธิบายประกอบที่สมบูรณ์บนข้อมูลที่ไม่มีป้ายกำกับ แต่เพียงการได้รับคำอธิบายประกอบในจุดข้อมูลที่ถูกต้องเพื่อให้โมเดลนั้นสามารถเรียนรู้ได้ดีขึ้น ยกตัวอย่างเช่น การดูแลสุขภาพและวิทยาศาสตร์เพื่อชีวิต ซึ่งเป็นบริษัทด้านการวินิจฉัยที่เชี่ยวชาญในการตรวจหามะเร็งในระยะเริ่มต้น เพื่อช่วยแพทย์ในการตัดสินใจเกี่ยวกับการดูแลผู้ป่วยโดยใช้ข้อมูลที่มีข้อมูลประกอบ ในกระบวนการวินิจฉัยโรค พวกเขาจำเป็นต้องใส่คำอธิบายประกอบภาพ CT scan ที่มีเนื้องอกซึ่งจำเป็นต้องเน้น

หลังจากที่โมเดล ML เรียนรู้จากภาพไม่กี่ภาพที่มีก้อนเนื้องอกทำเครื่องหมาย ด้วยการเรียนรู้แบบแอคทีฟ โมเดลจะขอให้ผู้ใช้ใส่คำอธิบายประกอบเฉพาะภาพที่ไม่แน่ใจว่ามีเนื้องอกอยู่หรือไม่ สิ่งเหล่านี้จะเป็นขอบเขตซึ่งเมื่อใส่คำอธิบายประกอบจะเพิ่มความมั่นใจให้กับโมเดล เมื่อแบบจำลองมีความมั่นใจเหนือเกณฑ์ที่กำหนด แบบจำลองจะทำคำอธิบายประกอบด้วยตนเองแทนที่จะขอให้ผู้ใช้อธิบายประกอบ นี่คือวิธีที่การเรียนรู้เชิงรุกพยายามช่วยสร้างแบบจำลองที่แม่นยำ ในขณะที่ลดเวลาและความพยายามที่จำเป็นในการใส่คำอธิบายประกอบข้อมูล เฟรมเวิร์กเช่น modAL สามารถช่วยเพิ่มประสิทธิภาพการจัดหมวดหมู่ได้โดยการสอบถามผู้เชี่ยวชาญโดเมนอย่างชาญฉลาดเพื่อติดป้ายกำกับอินสแตนซ์ที่ให้ข้อมูลมากที่สุด

การกำกับดูแลที่อ่อนแอ

การควบคุมที่ไม่รัดกุมเป็นวิธีการที่ข้อมูลหรือแนวคิดเชิงนามธรรมที่มีเสียงดังและไม่แม่นยำสามารถใช้เพื่อบ่งชี้สำหรับการติดฉลากข้อมูลจำนวนมากที่ไม่ได้รับการดูแล วิธีการนี้มักจะใช้ตัวติดฉลากที่อ่อนแอและพยายามรวมสิ่งเหล่านี้เข้าด้วยกันเพื่อสร้างข้อมูลที่มีคำอธิบายประกอบที่มีคุณภาพ ความพยายามคือการพยายามรวมความรู้โดเมนเข้ากับกิจกรรมการติดฉลากอัตโนมัติ

ตัวอย่างเช่น หากผู้ให้บริการอินเทอร์เน็ต (ISP) ต้องการระบบเพื่อตั้งค่าสถานะชุดข้อมูลอีเมลว่าเป็นสแปมหรือไม่สแปม เราอาจเขียนกฎที่อ่อนแอ เช่น การตรวจสอบวลี เช่น "ข้อเสนอ" "ขอแสดงความยินดี" "ฟรี" เป็นต้น ซึ่งส่วนใหญ่จะเกี่ยวข้องกับอีเมลขยะ กฎอื่นๆ อาจเป็นอีเมลจากรูปแบบเฉพาะของที่อยู่ต้นทางที่สามารถค้นหาได้ด้วยนิพจน์ทั่วไป ฟังก์ชั่นที่อ่อนแอเหล่านี้สามารถรวมเข้ากับกรอบการควบคุมที่อ่อนแอเช่น Snorkel และ Skweak เพื่อสร้างข้อมูลการฝึกอบรมที่มีคุณภาพดีขึ้น

ML ที่เป็นแกนหลักคือการช่วยบริษัทขยายขนาดกระบวนการแบบทวีคูณในแบบที่ไม่สามารถบรรลุได้ด้วยตนเอง อย่างไรก็ตาม ML ไม่ใช่เวทมนตร์และยังคงอาศัยมนุษย์เพื่อ a) ตั้งค่าและฝึกโมเดลอย่างถูกต้องตั้งแต่เริ่มต้น และ b) เข้าแทรกแซงเมื่อจำเป็นเพื่อให้แน่ใจว่าโมเดลจะไม่เบ้จนผลลัพธ์ไม่มีประโยชน์อีกต่อไป และ อาจจะต่อต้านหรือลบ

เป้าหมายคือการหาวิธีที่ช่วยเพิ่มความคล่องตัวและทำให้ส่วนต่างๆ ของการมีส่วนร่วมของมนุษย์เป็นไปโดยอัตโนมัติ เพื่อเพิ่มเวลาในการออกสู่ตลาดและผลลัพธ์ แต่ในขณะเดียวกันก็อยู่ในแนวป้องกันของความแม่นยำที่เหมาะสมที่สุด เป็นที่ยอมรับในระดับสากลว่าการได้รับข้อมูลที่มีคำอธิบายประกอบที่มีคุณภาพเป็นส่วนที่แพงที่สุดแต่สำคัญมากของโครงการ ML นี่คือพื้นที่ที่มีการพัฒนา และมีความพยายามอย่างมากในการลดเวลาที่ผู้เชี่ยวชาญโดเมนใช้ และปรับปรุงคุณภาพของคำอธิบายประกอบข้อมูล การสำรวจและใช้ประโยชน์จากการเรียนรู้เชิงรุกและการกำกับดูแลที่อ่อนแอเป็นกลยุทธ์ที่มั่นคงเพื่อให้บรรลุเป้าหมายนี้ในอุตสาหกรรมและกรณีการใช้งานที่หลากหลาย

Dattaraj Rao หัวหน้านักวิทยาศาสตร์ข้อมูลที่ ระบบถาวรเป็นผู้เขียนหนังสือ “Keras to Kubernetes: The Journey of a Machine Learning Model to Production” ที่ Persistent Systems Dattaraj เป็นผู้นำห้องปฏิบัติการวิจัย AI ที่สำรวจอัลกอริทึมล้ำสมัยใน Computer Vision, การเข้าใจภาษาธรรมชาติ, การเขียนโปรแกรมเชิงความน่าจะเป็น, การเรียนรู้เสริมกำลัง, AI ที่อธิบายได้ ฯลฯ และแสดงให้เห็นถึงการบังคับใช้ในโดเมนการดูแลสุขภาพ การธนาคาร และอุตสาหกรรม Dattaraj มีสิทธิบัตร 11 ฉบับในด้าน Machine Learning และ Computer Vision