ต้นขั้ว อคติจะทำลายกลยุทธ์ AI/ML ของคุณอย่างไร และจะทำอย่างไรกับมัน - Unite.AI
เชื่อมต่อกับเรา

ผู้นำทางความคิด

อคติจะทำลายกลยุทธ์ AI/ML ของคุณอย่างไร และจะทำอย่างไรกับมัน

mm

การตีพิมพ์

 on

'อคติ' ในแบบจำลองทุกประเภทอธิบายถึงสถานการณ์ที่แบบจำลองตอบสนองต่อข้อความแจ้งหรือป้อนข้อมูลอย่างไม่ถูกต้อง เนื่องจากไม่ได้รับการฝึกอบรมด้วยข้อมูลคุณภาพสูงและหลากหลายเพียงพอที่จะให้การตอบสนองที่แม่นยำ ตัวอย่างหนึ่งก็คือ คุณสมบัติการปลดล็อคโทรศัพท์ด้วยการจดจำใบหน้าของ Apple ซึ่งล้มเหลวในอัตราที่สูงกว่ามากสำหรับผู้ที่มีสีผิวคล้ำเมื่อเทียบกับโทนสีอ่อน แบบจำลองนี้ยังไม่ได้รับการฝึกอบรมเกี่ยวกับรูปภาพของคนผิวคล้ำมากพอ นี่เป็นตัวอย่างที่มีความเสี่ยงต่ำของอคติ แต่เป็นเหตุผลว่าทำไมพระราชบัญญัติ AI ของสหภาพยุโรปจึงได้กำหนดข้อกำหนดเพื่อพิสูจน์ประสิทธิภาพของแบบจำลอง (และการควบคุม) ก่อนที่จะออกสู่ตลาด โมเดลที่มีผลลัพธ์ที่ส่งผลกระทบต่อธุรกิจ การเงิน สุขภาพ หรือสถานการณ์ส่วนบุคคลจะต้องได้รับความเชื่อถือ ไม่เช่นนั้นจะไม่ถูกนำมาใช้

การจัดการกับอคติด้วยข้อมูล

ข้อมูลคุณภาพสูงปริมาณมาก

ในบรรดาแนวปฏิบัติการจัดการข้อมูลที่สำคัญหลายประการ ก องค์ประกอบสำคัญในการเอาชนะและลดอคติในโมเดล AI/ML คือการได้รับข้อมูลคุณภาพสูงและหลากหลายในปริมาณมาก- ซึ่งต้องอาศัยความร่วมมือกับหลายองค์กรที่มีข้อมูลดังกล่าว ตามเนื้อผ้า การได้มาและการทำงานร่วมกันของข้อมูลถูกท้าทายจากข้อกังวลด้านความเป็นส่วนตัวและ/หรือการป้องกัน IP เนื่องจากข้อมูลที่ละเอียดอ่อนไม่สามารถส่งไปยังเจ้าของโมเดลได้ และเจ้าของโมเดลไม่สามารถเสี่ยงต่อการรั่วไหลของ IP ไปยังเจ้าของข้อมูลได้ วิธีแก้ปัญหาทั่วไปคือการทำงานกับข้อมูลจำลองหรือข้อมูลสังเคราะห์ ซึ่งอาจมีประโยชน์ แต่ก็มีข้อจำกัดเมื่อเปรียบเทียบกับการใช้ข้อมูลจริงที่มีบริบทครบถ้วน นี่คือจุดที่เทคโนโลยีเพิ่มความเป็นส่วนตัว (PET) ให้คำตอบที่จำเป็นมาก

ข้อมูลสังเคราะห์: ปิดแต่ไม่ค่อนข้าง

ข้อมูลสังเคราะห์ ถูกสร้างขึ้นเทียมเพื่อเลียนแบบข้อมูลจริง นี่เป็นเรื่องยากที่จะทำแต่จะง่ายขึ้นเล็กน้อยด้วยเครื่องมือ AI ข้อมูลสังเคราะห์คุณภาพดีควรมีระยะฟีเจอร์เท่ากันกับข้อมูลจริง ไม่เช่นนั้นจะไม่มีประโยชน์ ข้อมูลสังเคราะห์ที่มีคุณภาพสามารถนำมาใช้เพื่อเพิ่มความหลากหลายของข้อมูลการฝึกอบรมได้อย่างมีประสิทธิภาพ โดยการเติมเต็มช่องว่างสำหรับประชากรกลุ่มเล็กๆ ที่เป็นคนชายขอบ หรือสำหรับประชากรที่ผู้ให้บริการ AI มีข้อมูลไม่เพียงพอ ข้อมูลสังเคราะห์ยังสามารถใช้เพื่อจัดการกับกรณี Edge ที่อาจหายากในปริมาณที่เพียงพอในโลกแห่งความเป็นจริง นอกจากนี้ องค์กรต่างๆ ยังสามารถสร้างชุดข้อมูลสังเคราะห์เพื่อตอบสนองความต้องการด้านถิ่นที่อยู่ของข้อมูลและความเป็นส่วนตัวที่บล็อกการเข้าถึงข้อมูลจริงได้ ฟังดูดี; อย่างไรก็ตาม ข้อมูลสังเคราะห์เป็นเพียงส่วนหนึ่งของปริศนา ไม่ใช่วิธีแก้ปัญหา

ข้อจำกัดที่ชัดเจนประการหนึ่งของข้อมูลสังเคราะห์คือการตัดการเชื่อมต่อจากโลกแห่งความเป็นจริง ตัวอย่างเช่น ยานพาหนะขับเคลื่อนอัตโนมัติที่ได้รับการฝึกโดยใช้ข้อมูลสังเคราะห์เพียงอย่างเดียวจะต้องเผชิญกับสภาพถนนที่เป็นจริงและคาดไม่ถึง นอกจากนี้ ข้อมูลสังเคราะห์ยังสืบทอดอคติจากข้อมูลในโลกแห่งความเป็นจริงที่ใช้ในการสร้างข้อมูลดังกล่าว ซึ่งค่อนข้างเอาชนะจุดประสงค์ของการสนทนาของเราได้ค่อนข้างมาก โดยสรุป ข้อมูลสังเคราะห์เป็นตัวเลือกที่มีประโยชน์สำหรับการปรับแต่งอย่างละเอียดและจัดการกับกรณี Edge แต่การปรับปรุงที่สำคัญในประสิทธิภาพของแบบจำลองและการลดอคติยังคงต้องอาศัยการเข้าถึงข้อมูลในโลกแห่งความเป็นจริง

วิธีที่ดีกว่า: ข้อมูลจริงผ่านเวิร์กโฟลว์ที่เปิดใช้งาน PET

PET ปกป้องข้อมูลขณะใช้งาน เมื่อพูดถึงโมเดล AI/ML พวกเขายังสามารถปกป้อง IP ของโมเดลที่กำลังใช้งานอยู่ได้ “นกสองตัว หนึ่งสโตน” โซลูชันที่ใช้ PET มอบทางเลือกในการฝึกโมเดลกับชุดข้อมูลจริงและละเอียดอ่อนซึ่งก่อนหน้านี้ไม่สามารถเข้าถึงได้เนื่องจากข้อกังวลด้านความเป็นส่วนตัวและความปลอดภัยของข้อมูล การปลดล็อกกระแสข้อมูลไปยังข้อมูลจริงนี้เป็นตัวเลือกที่ดีที่สุดในการลดอคติ แต่จริงๆ แล้วมันจะทำงานอย่างไรล่ะ?

สำหรับตอนนี้ ตัวเลือกชั้นนำเริ่มต้นด้วยสภาพแวดล้อมการประมวลผลที่เป็นความลับ จากนั้น การผสานรวมกับโซลูชันซอฟต์แวร์ที่ใช้ PET ซึ่งทำให้พร้อมใช้งานทันทีที่แกะกล่อง ในขณะเดียวกันก็จัดการกับข้อกำหนดด้านการกำกับดูแลข้อมูลและความปลอดภัยที่ไม่รวมอยู่ในสภาพแวดล้อมการดำเนินการที่เชื่อถือได้มาตรฐาน (TEE) ด้วยโซลูชันนี้ โมเดลและข้อมูลทั้งหมดจะถูกเข้ารหัสก่อนที่จะถูกส่งไปยังสภาพแวดล้อมการประมวลผลที่ปลอดภัย สภาพแวดล้อมสามารถโฮสต์ได้ทุกที่ ซึ่งเป็นสิ่งสำคัญเมื่อต้องจัดการกับข้อกำหนดการแปลข้อมูลบางอย่าง ซึ่งหมายความว่าทั้ง IP ของโมเดลและความปลอดภัยของข้อมูลอินพุตจะยังคงอยู่ในระหว่างการคำนวณ แม้แต่ผู้ให้บริการสภาพแวดล้อมการดำเนินการที่เชื่อถือได้ก็ไม่สามารถเข้าถึงโมเดลหรือข้อมูลที่อยู่ภายในได้ จากนั้นผลลัพธ์ที่เข้ารหัสจะถูกส่งกลับไปตรวจสอบและมีบันทึกสำหรับการตรวจสอบ

โฟลว์นี้จะปลดล็อกข้อมูลคุณภาพดีที่สุดไม่ว่าจะอยู่ที่ไหนหรือใครก็ตาม ซึ่งเป็นการสร้างเส้นทางสู่การลดอคติและแบบจำลองประสิทธิภาพสูงที่เราเชื่อถือได้ ขั้นตอนนี้ยังเป็นสิ่งที่กฎหมาย EU AI Act อธิบายไว้ในข้อกำหนดสำหรับ Sandbox ตามกฎข้อบังคับของ AI

อำนวยความสะดวกในการปฏิบัติตามจริยธรรมและกฎหมาย

การได้มาซึ่งข้อมูลที่มีคุณภาพดีและข้อมูลจริงนั้นเป็นเรื่องยาก ข้อกำหนดด้านความเป็นส่วนตัวของข้อมูลและการแปลเป็นภาษาท้องถิ่นจะจำกัดชุดข้อมูลที่องค์กรสามารถเข้าถึงได้ทันที เพื่อให้นวัตกรรมและการเติบโตเกิดขึ้น ข้อมูลจะต้องไหลไปยังผู้ที่สามารถดึงคุณค่าออกมาได้

มาตรา 54 ของพระราชบัญญัติ AI ของสหภาพยุโรปกำหนดข้อกำหนดสำหรับประเภทโมเดลที่ "มีความเสี่ยงสูง" ในแง่ของสิ่งที่ต้องพิสูจน์ก่อนจึงจะสามารถนำออกสู่ตลาดได้ กล่าวโดยสรุป ทีมจะต้องใช้ข้อมูลโลกแห่งความเป็นจริงภายใน แซนด์บ็อกซ์กฎข้อบังคับของ AI เพื่อแสดงประสิทธิภาพของโมเดลที่เพียงพอและความสอดคล้องกับการควบคุมทั้งหมดที่มีรายละเอียดในหัวข้อ III บทที่ 2 การควบคุมประกอบด้วยการตรวจสอบ ความโปร่งใส ความสามารถในการอธิบาย ความปลอดภัยของข้อมูล การปกป้องข้อมูล การลดขนาดข้อมูล และการปกป้องโมเดล ลองนึกถึง DevSecOps + Data Ops

ความท้าทายแรกคือการค้นหาชุดข้อมูลในโลกแห่งความเป็นจริงเพื่อใช้งาน เนื่องจากนี่เป็นข้อมูลที่ละเอียดอ่อนโดยธรรมชาติสำหรับประเภทโมเดลดังกล่าว หากไม่มีการรับประกันทางเทคนิค หลายองค์กรอาจลังเลที่จะไว้วางใจผู้ให้บริการโมเดลในเรื่องข้อมูลของตน หรือไม่ได้รับอนุญาตให้ทำเช่นนั้น นอกจากนี้ วิธีการที่กฎหมายกำหนด “AI Regulatory Sandbox” ถือเป็นความท้าทายในตัวมันเอง ข้อกำหนดบางประการรวมถึงการรับประกันว่าข้อมูลจะถูกลบออกจากระบบหลังจากเรียกใช้โมเดลแล้ว เช่นเดียวกับการควบคุมการกำกับดูแล การบังคับใช้ และการรายงานเพื่อพิสูจน์

องค์กรหลายแห่งได้ลองใช้ Data Clean Room (DCR) แบบสำเร็จรูปและสภาพแวดล้อมการดำเนินการที่เชื่อถือได้ (TEE) แต่เทคโนโลยีเหล่านี้จำเป็นต้องอาศัยความเชี่ยวชาญที่สำคัญและการทำงานเพื่อดำเนินการและปฏิบัติตามข้อกำหนดด้านกฎระเบียบด้านข้อมูลและ AI
DCR ใช้งานง่ายกว่า แต่ยังไม่มีประโยชน์สำหรับความต้องการ AI/ML ที่แข็งแกร่งยิ่งขึ้น TEE เป็นเซิร์ฟเวอร์ที่ปลอดภัยและยังคงต้องการแพลตฟอร์มการทำงานร่วมกันแบบรวมเพื่อให้มีประโยชน์และรวดเร็ว อย่างไรก็ตาม สิ่งนี้ระบุถึงโอกาสสำหรับแพลตฟอร์มเทคโนโลยีที่ปรับปรุงความเป็นส่วนตัวเพื่อรวมเข้ากับ TEE เพื่อลบงานนั้นออก โดยไม่ทำให้การตั้งค่าและการใช้ Sandbox กฎระเบียบของ AI เป็นเรื่องเล็กน้อย ดังนั้นจึงเป็นการได้มาและการใช้ข้อมูลที่ละเอียดอ่อน

ด้วยการทำให้สามารถใช้ชุดข้อมูลที่หลากหลายและครอบคลุมมากขึ้นในลักษณะการรักษาความเป็นส่วนตัว เทคโนโลยีเหล่านี้ช่วยให้แน่ใจว่าแนวทางปฏิบัติของ AI และ ML เป็นไปตามมาตรฐานทางจริยธรรมและข้อกำหนดทางกฎหมายที่เกี่ยวข้องกับความเป็นส่วนตัวของข้อมูล (เช่น GDPR และ EU AI Act ในยุโรป) โดยสรุป แม้ว่าข้อกำหนดมักจะพบกับเสียงฮึดฮัดและการถอนหายใจ แต่ข้อกำหนดเหล่านี้เป็นเพียงแนวทางให้เราสร้างแบบจำลองที่ดีขึ้นซึ่งเราสามารถเชื่อถือได้และพึ่งพาสำหรับการตัดสินใจที่ขับเคลื่อนด้วยข้อมูลที่สำคัญ ในขณะเดียวกันก็ปกป้องความเป็นส่วนตัวของเจ้าของข้อมูลที่ใช้สำหรับการพัฒนาแบบจำลอง และการปรับแต่ง

Adi Hirschtein เป็นรองประธานฝ่ายผลิตภัณฑ์ของ เทคโนโลยีความเป็นคู่- Adi มีประสบการณ์มากกว่า 20 ปีในฐานะผู้บริหาร ผู้จัดการผลิตภัณฑ์ และผู้ประกอบการในการสร้างและขับเคลื่อนนวัตกรรมในบริษัทเทคโนโลยีที่เน้นไปที่สตาร์ทอัพ B2B ในด้านข้อมูลและ AI เป็นหลัก ก่อนเข้ารับตำแหน่ง Duality Adi ดำรงตำแหน่งรองประธานฝ่ายผลิตภัณฑ์ของ Iguazio (บริษัท MLOps) ซึ่ง McKinsey เข้าซื้อกิจการ และก่อนหน้านั้นเขาดำรงตำแหน่งผู้อำนวยการฝ่ายผลิตภัณฑ์ที่ EMC หลังจากเข้าซื้อกิจการสตาร์ทอัพอีกแห่งชื่อ Zettapoint (บริษัทฐานข้อมูลและการจัดเก็บข้อมูล) ที่เขาดำรงตำแหน่ง ในฐานะรองประธานฝ่ายผลิตภัณฑ์ซึ่งเป็นผู้นำผลิตภัณฑ์ตั้งแต่เริ่มก่อตั้งจนถึงการเจาะตลาดและการเติบโต