स्वास्थ्य

सिंथेटिक डेटा: चेहरे की छवियों में रेस बदलना मेडिकल डेटासेट में पूर्वाग्रह को संबोधित करने के लिए

Published June 15, 2021

Updated April 28, 2026

Martin Anderson

UCLA शोधकर्ताओं ने चेहरे की छवियों में दिखाई देने वाली रेस बदलने के लिए एक विधि विकसित की है, जो मेडिकल मशीन लर्निंग सिस्टम को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटासेट में नस्लीय पूर्वाग्रह को दूर करने का प्रयास करती है।

नई तकनीक फोटोरियलिस्टिक और शारीरिक रूप से सटीक सिंथेटिक वीडियो का उत्पादन करने में सक्षम है, जो प्रति फ्रेम 0.005 सेकंड की औसत दर से होता है, और दूरस्थ स्वास्थ्य निदान और निगरानी के लिए नए निदान प्रणालियों के विकास में मदद करने की उम्मीद है – एक क्षेत्र जो कोविड प्रतिबंधों के तहत बहुत बढ़ गया है। प्रणाली दूरस्थ फोटोप्लेथिस्मोग्राफी (rPPG) की लागू करने योग्यता में सुधार करने का इरादा रखती है, जो एक कंप्यूटर दृष्टि तकनीक है जो गैर-इनवेसिव तरीके से रक्त आपूर्ति में वolumetric परिवर्तनों का पता लगाने के लिए चेहरे के वीडियो सामग्री का मूल्यांकन करती है।

स्रोत: https://arxiv.org/pdf/2106.06007.pdf. बड़ा करने के लिए क्लिक करें।

हालांकि काम, जो कन्वोल्यूशनल न्यूरल नेटवर्क (CNNs) का उपयोग करता है, 2020 में यूके के डरहम विश्वविद्यालय द्वारा प्रकाशित पिछले शोध कोड को शामिल करता है, नई अनुप्रयोग मूल परीक्षण डेटा में पल्सेटिल सिग्नल को संरक्षित करने के लिए है, न कि केवल दिखाई देने वाली रेस को दृश्य रूप से बदलने के लिए, जैसा कि 2020 के शोध में होता है।

CNNs रेसल ट्रांसफॉर्मेशन के लिए

एनकोडर-डिकोडर सिस्टम का पहला भाग डरहम रेस ट्रांसफर मॉडल का उपयोग करता है, जो VGGFace2 पर पूर्व-प्रशिक्षित है, प्रॉक्सी लक्ष्य फ्रेम को उत्पन्न करने के लिए जो डरहम शोध के कॉकेशियन-से-अफ्रीकी घटक के साथ है। यह एक फ्लैट ट्रांसफर ऑफ रेसल विशेषताओं का उत्पादन करता है, लेकिन इसमें रंग और टोन में परिवर्तन शामिल नहीं हैं जो मरीज की रक्त प्रवाह स्थिति के दृश्य शारीरिक संकेतक का प्रतिनिधित्व करते हैं।

2020 में डरहम विश्वविद्यालय द्वारा किए गए शोध का परिवर्तन पाइपलाइन, जिसका एक हिस्सा नए UCLA शोध में शामिल किया गया है। स्रोत: https://arxiv.org/pdf/2004.08945.pdf. बड़ा करने के लिए क्लिक करें।

एक दूसरा नेटवर्क, जिसे PhysResNet (PRN) कहा जाता है, rPPG घटक प्रदान करता है। PhysResNet को दृश्य उपस्थिति और रंग में परिवर्तन दोनों सीखने के लिए प्रशिक्षित किया जाता है जो उपचर्म रक्त आयतन आंदोलनों को परिभाषित करता है।

नीचे बाएं, 2020 के डरहम शोध द्वारा प्राप्त परिणाम, जिसमें PPG जानकारी की कमी है। मध्य बाएं, रेसल परिवर्तन में शामिल PPG जानकारी। बड़ा करने के लिए क्लिक करें।

UCLA परियोजना द्वारा प्रस्तावित वास्तुकला प्रतिस्पर्धी rPPG तकनीकों को पूरा करती है, यहां तक कि त्वचा के रंग में वृद्धि की अनुपस्थिति में, जो एक ही तकनीकों पर 31% की वृद्धि का प्रतिनिधित्व करती है जो MAE और RMSE के साथ अनुकूलित है।

UCLA नेटवर्क रक्त आयतन और वितरण जानकारी को सफलतापूर्वक संरक्षित करता है। बड़ा करने के लिए क्लिक करें।

UCLA शोधकर्ताओं को उम्मीद है कि भविष्य के काम में इस क्षेत्र में नस्लीय पूर्वाग्रह को दूर करने के लिए अधिक व्यापक चुनौतियों का सामना करना होगा, और आशा है कि बाद की योजनाओं में उच्च-रिज़ॉल्यूशन वीडियो का उत्पादन होगा, क्योंकि प्रणाली 80×80 पिक्सेल रिज़ॉल्यूशन तक सीमित है – टेलीहेल्थ की सीमाओं के लिए काफी अच्छी तरह से अनुकूल है, लेकिन आदर्श नहीं है।

नस्लीय रूप से विविध डेटासेट की कमी

आर्थिक और व्यावहारिक परिस्थितियों ने नस्लीय रूप से विविध डेटासेट को एक बाधा बना दिया है जो चिकित्सा अनुसंधान के लिए कई वर्षों से एक बाधा है। डेटा आमतौर पर स्थानीय रूप से उत्पन्न होता है, जिसमें कई कारक शामिल होते हैं जो अक्सर एक कॉकेशियन-केंद्रित होमोजेनिटी का कारण बनते हैं जो डेटा विषयों में होते हैं। इनमें शहरों में अल्पसंख्यक जनसांख्यिकी की संरचना शामिल है जहां अनुसंधान होता है, और अन्य सामाजिक-आर्थिक कारक जो यह प्रभावित कर सकते हैं कि गैर-श्वेत विषय पश्चिमी डेटासेट में कितना दिखाई देते हैं जो शोधकर्ता अधिक वैश्विक अनुप्रयोगिता चाहते हैं।

देशों में जहां गहरे त्वचा वाले विषयों का एक उच्च अनुपात है, आवश्यक उपकरण और संसाधन डेटा इकट्ठा करने के लिए अक्सर कम होते हैं।

स्वदेशी लोगों के लिए त्वचा के टोन का विश्व मानचित्र, अमेरिकन जर्नल ऑफ फिजिकल एंथ्रोपोलॉजी से।

वर्तमान में गहरे त्वचा वाले विषय rPPG डेटासेट में काफी कम प्रतिनिधित्व करते हैं, जो तीन प्राथमिक डेटाबेस में 0%, 5% और 10% की सामग्री का प्रतिनिधित्व करते हैं जो इस उद्देश्य के लिए सामान्य उपयोग में हैं।

होमोजेनियस कॉकेशियन डेटा

2019 में नए शोध प्रकाशित साइंस में पाया गया कि एक अल्गोरिदम जो यूएस अस्पताल देखभाल में व्यापक रूप से प्रसारित है, कॉकेशियन विषयों के पक्ष में भारी रूप से पूर्वाग्रहित था। अध्ययन में पाया गया कि काले लोगों को ट्राइएज में और अस्पताल प्रवेश के गहरे स्तरों में विशेषज्ञ देखभाल में भेजे जाने की संभावना कम थी।

इसके अलावा उस वर्ष मलेशिया और ऑस्ट्रेलिया के शोधकर्ताओं ने स्थापित किया कि ‘आपनी नस्ल के पूर्वाग्रह’ की समस्या दुनिया के कई क्षेत्रों में डेटासेट जेनरेशन के लिए है, जिसमें एशिया भी शामिल है।

स्केल और आर्किटेक्चर की संभावित सीमाएं

कुछ सीमाएं जो सीमित-नस्लीयता डेटासेट के परिणामस्वरूप होती हैं, नैतिक नहीं बल्कि व्यावहारिक प्रकृति की होती हैं। डेटा में योगदान देने वाली विविधता जितनी अधिक होगी, यह उतनी ही बेहतर ढंग से विषयों के बीच सामान्य होगी, लेकिन प्रत्येक पहचानने योग्य उपसेट के लिए प्रशिक्षण समय, ध्यान और संसाधनों का एक छोटा प्रतिशत उपलब्ध होगा, जिसमें नस्ल भी शामिल है।

यह मॉडल का परिणाम हो सकता है जो व्यापक रूप से लागू होता है लेकिन विशिष्ट परिणाम प्राप्त नहीं करता है, क्योंकि डेटा आकार, बैच आकार के आर्थिक और व्यावहारिक सीमाओं और सीमित हार्डवेयर संसाधनों के कारण लेटेंट स्पेस के रूप में कार्य करता है।

दूसरी ओर, यद्यपि सीमित विशेषताओं के लिए इनपुट डेटा को प्रतिबंधित करके प्रभावी और विस्तृत परिणाम प्राप्त किए जा सकते हैं, जिसमें नस्ल भी शामिल है, परिणाम सीमित डेटा से ‘ओवरफिट’ हो सकते हैं और व्यापक रूप से लागू नहीं हो सकते हैं, शायद यहां तक कि एक ही भौगोलिक क्षेत्र में भी जिसमें मूल डेटासेट विषय प्राप्त किए गए थे।

पीपीजी सिम्युलेशन के लिए सिंथेटिक अवतार

UCLA पेपर में 2020 में माइक्रोसॉफ्ट रिसर्च द्वारा किए गए पूर्व कार्य का भी उल्लेख किया गया है, जो पीपीजी जानकारी से भरपूर चेहरे के वीडियो बनाने के लिए 3डी इमेज सिंथेसिस का उपयोग करके नस्लीय रूप से लचीले सिंथेटिक अवतार का लाभ उठाता है।

माइक्रोसॉफ्ट रिसर्च द्वारा बनाए गए सिंथेटिक अवतार, जो पीपीजी डेटा वाले रे ट्रेस्ड इमेज हैं। स्रोत: https://arxiv.org/pdf/2010.12949.pdf. बड़ा करने के लिए क्लिक करें।