การดูแลสุขภาพ
การสร้างชุดข้อมูลบาดแผลสังเคราะห์ด้วยเครือข่ายผู้ก่อความไม่สงบ
เป็นครั้งแรกก เครือข่ายผู้ให้กำเนิด กำลังถูกใช้เพื่อสร้างชุดข้อมูลสังเคราะห์ของภาพบาดแผล เพื่อแก้ไขการขาดเนื้อหาประเภทนี้ที่สำคัญในแอปพลิเคชันการเรียนรู้ของเครื่องด้านการดูแลสุขภาพ
ระบบที่เรียกว่า WG2ANเป็นความร่วมมือระหว่าง Batten College of Engineering & Technology และ eKare บริษัท AI ด้านสุขภาพ ซึ่งเชี่ยวชาญในการใช้วิธีการเรียนรู้ของเครื่องเพื่อวัดและระบุบาดแผล
GAN ได้รับการฝึกฝนเกี่ยวกับภาพแผลเรื้อรังสามมิติที่มีป้ายกำกับ 100-4000 ภาพซึ่งจัดทำโดย eKare รวมถึงภาพที่ไม่ระบุตัวตนของประเภทการบาดเจ็บจากสาเหตุต่างๆ เช่น การกดทับ การผ่าตัด เหตุการณ์เกี่ยวกับหลอดเลือดต่อมน้ำเหลือง เบาหวาน และการบาดเจ็บจากไฟไหม้ วัสดุต้นทางมีขนาดแตกต่างกันระหว่าง 1224×1224 ถึง 2160×2160 โดยทั้งหมดอยู่ภายใต้แสงที่มีอยู่โดยแพทย์
เพื่อรองรับพื้นที่แฝงที่มีอยู่ในสถาปัตยกรรมการฝึกโมเดล รูปภาพถูกปรับขนาดเป็น 512 × 512 และแยกออกจากพื้นหลัง เพื่อศึกษาผลกระทบของขนาดชุดข้อมูล ดำเนินการทดสอบกับชุดภาพ 100, 250, 500, 1000, 2000 และ 4000
ภาพด้านบนแสดงรายละเอียดและความละเอียดที่เพิ่มขึ้นตามขนาดของชุดการฝึกที่มีส่วนร่วม และจำนวนของ ยุค วิ่งในแต่ละรอบ
WG2GAN ทำงานบน PyTorch ในการตั้งค่าสไตล์ผู้บริโภคที่ค่อนข้างน้อย โดยมี VRAM ขนาด 8GB บน GPU GTX 1080 การฝึกอบรมใช้เวลาระหว่าง 4-58 ชั่วโมงในช่วงขนาดชุดข้อมูลตั้งแต่ 100-4000 ภาพ และในช่วงอายุต่างๆ บนขนาดชุดข้อมูล 64 เป็นการแลกเปลี่ยนระหว่างความแม่นยำและประสิทธิภาพ Adam Optimizer ใช้สำหรับการฝึกครึ่งแรกที่อัตราการเรียนรู้ 0.0002 และสรุปด้วยอัตราการเรียนรู้ที่ค่อยๆ ลดลงเป็นเส้นตรงจนกว่าจะสูญเสียศูนย์
ในชุดข้อมูลทางการแพทย์ เช่นเดียวกับภาคส่วนอื่นๆ ของแมชชีนเลิร์นนิง การติดฉลากถือเป็นปัญหาคอขวดที่หลีกเลี่ยงไม่ได้ ในกรณีนี้ นักวิจัยใช้ระบบการติดฉลากแบบกึ่งอัตโนมัติที่ใช้ประโยชน์จาก การวิจัยก่อนหน้านี้ จาก eKare ซึ่งใช้แบบจำลองบาดแผลในโลกแห่งความเป็นจริง สร้างขึ้นใน Play-Doh และลงสีอย่างคร่าว ๆ สำหรับบริบททางความหมาย
นักวิจัยสังเกตเห็นปัญหาที่มักเกิดขึ้นในระยะเริ่มต้นของการฝึกอบรม เมื่อชุดข้อมูลค่อนข้างหลากหลายและมีการสุ่มน้ำหนัก แบบจำลองใช้เวลานาน (75 ยุค) ในการ 'ปักหลัก':
เมื่อข้อมูลมีความแตกต่างกัน ทั้งโมเดล GAN และตัวเข้ารหัส/ตัวถอดรหัสต้องดิ้นรนเพื่อให้ได้มาซึ่งลักษณะทั่วไปในขั้นตอนก่อนหน้านี้ ดังที่เราเห็นได้จากกราฟด้านบนเกี่ยวกับการฝึกอบรมของ WG2GAN ซึ่งติดตามไทม์ไลน์การฝึกอบรมตั้งแต่เริ่มต้นจนสูญเสียเป็นศูนย์
ต้องใช้ความระมัดระวังเพื่อให้แน่ใจว่ากระบวนการฝึกอบรมไม่ได้มุ่งเน้นไปที่คุณสมบัติหรือลักษณะของการทำซ้ำหรือยุคใดยุคหนึ่ง แต่ยังคงทำให้เป็นภาพรวมไปสู่การสูญเสียค่าเฉลี่ยที่ใช้งานได้โดยไม่สร้างผลลัพธ์ที่เป็นนามธรรมมากเกินไป ในกรณีของ WG2GAN นั้นอาจเสี่ยงที่จะสร้างบาดแผลแบบ 'สมมุติ' ที่ไม่มีขอบเขต ซึ่งเชื่อมกันระหว่างประเภทบาดแผลที่ไม่เกี่ยวข้องกันที่กว้างเกินไป แทนที่จะสร้างช่วงของการเปลี่ยนแปลงที่แม่นยำภายในประเภทบาดแผลเฉพาะ
ขอบเขตการควบคุมในชุดข้อมูลการเรียนรู้ของเครื่อง
แบบจำลองที่มีการฝึกแบบเบาจะทำให้เห็นภาพรวมได้เร็วกว่า และนักวิจัยของหนังสือพิมพ์ยืนยันว่าภาพที่เหมือนจริงที่สุดอาจได้รับน้อยกว่าการตั้งค่าสูงสุด: ชุดข้อมูลภาพ 1000 ภาพได้รับการฝึกฝนมากกว่า 200 ยุค
แม้ว่าชุดข้อมูลที่เล็กกว่าอาจได้ภาพที่เหมือนจริงมากในเวลาที่น้อยลง แต่ช่วงของภาพและประเภทของแผลที่เกิดขึ้นก็จำเป็นต้องจำกัดมากขึ้นเช่นกัน มีความสมดุลที่ละเอียดอ่อนใน GAN และระบบการฝึกอบรมตัวเข้ารหัส/ตัวถอดรหัสระหว่างปริมาณและความหลากหลายของข้อมูลอินพุต ความเที่ยงตรงของภาพที่สร้างขึ้น และความสมจริงของภาพที่สร้างขึ้น ประเด็นของขอบเขตและน้ำหนักที่ไม่จำกัดเฉพาะภาพทางการแพทย์ สังเคราะห์.
ความไม่สมดุลของคลาสในชุดข้อมูลทางการแพทย์
โดยทั่วไปแล้ว แมชชีนเลิร์นนิงด้านการดูแลสุขภาพไม่เพียงถูกรุมเร้าด้วย ขาดชุดข้อมูลแต่โดย ความไม่สมดุลของชั้นเรียนโดยที่ข้อมูลที่จำเป็นเกี่ยวกับโรคเฉพาะนั้นคิดเป็นเปอร์เซ็นต์ของชุดข้อมูลโฮสต์เพียงเล็กน้อย ซึ่งมีความเสี่ยงที่จะถูกยกเลิกเนื่องจากเป็นข้อมูลนอกกรอบ หรือถูกหลอมรวมในกระบวนการของการทำให้เป็นภาพรวมตลอดการฝึกอบรม
มีการเสนอวิธีการหลายวิธีเพื่อแก้ไขปัญหาหลัง เช่น การสุ่มตัวอย่างน้อยเกินไปหรือมากเกินไป. อย่างไรก็ตาม ปัญหามักถูกมองข้ามโดยการพัฒนาชุดข้อมูลเฉพาะโรคที่เชื่อมโยงกับปัญหาทางการแพทย์เพียงประเด็นเดียว แม้ว่าแนวทางนี้จะมีประสิทธิภาพเป็นรายกรณี แต่ก็มีส่วนช่วยในวัฒนธรรมของ บัลคาไนซ์ ในขอบเขตของการวิจัยการเรียนรู้ของเครื่องทางการแพทย์ และทำให้ความก้าวหน้าทั่วไปในภาคส่วนช้าลง