Anderson рдХрд╛ рдПрдВрдЧрд▓
рдЖрдИрдлрд╝реЛрди рдХреЛ рдкреБрд░рд╛рдиреЗ рдпреБрдЧ рдореЗрдВ рдЪрд┐рддреНрд░рд┐рдд рдХрд░рдиреЗ рд╕реЗ рдПрдЖрдИ рдХреЛ рд░реЛрдХрдиреЗ рдХреЗ рд▓рд┐рдП рдХреИрд╕реЗ

एआई इमेज जनरेटर पिछले समय को कैसे चित्रित करते हैं? नए शोध से पता चलता है कि वे 18वीं शताब्दी में स्मार्टफ़ोन ड्रॉप करते हैं, 1930 के दशक के दृश्यों में लैपटॉप डालते हैं, और 19वीं शताब्दी के घरों में वैक्यूम क्लीनर रखते हैं, जो इस बारे में प्रश्न उठाते हैं कि ये मॉडल इतिहास की कल्पना कैसे करते हैं – और क्या वे संदर्भित ऐतिहासिक सटीकता के लिए सक्षम हैं या नहीं।
2024 की शुरुआत में, गूगल के जेमिनी मल्टीमॉडल एआई मॉडल की छवि-पीढ़ी क्षमताएं आलोचना के तहत आईं क्योंकि उन्होंने उपयुक्त संदर्भों में जनसांख्यिकीय न्याय लागू किया, जैसे कि द्वितीय विश्व युद्ध के जर्मन सैनिकों को असंभावित प्रोवेनेंस के साथ उत्पन्न करना:

जेमिनी मल्टीमॉडल मॉडल द्वारा 2024 में कल्पना किए गए जनसांख्यिकीय रूप से असंभावित जर्मन सैन्य कर्मी। स्रोत: जेमिनी एआई/गूगल वाया द गार्जियन
यह एक उदाहरण था जहां एआई मॉडल में पूर्वाग्रह को दूर करने के प्रयासों ने ऐतिहासिक संदर्भ का ध्यान नहीं रखा। इस मामले में, मुद्दे को जल्द ही हल कर लिया गया था। हालांकि, विसरण-आधारित मॉडल अभी भी ऐतिहासिक और आधुनिक पहलुओं और कलाकृतियों को भ्रमित करने वाले इतिहास के संस्करण उत्पन्न करने के लिए प्रवण रहते हैं।
यह आंशिक रूप से जुड़ाव के कारण है, जहां प्रशिक्षण डेटा में बार-बार दिखाई देने वाली गुणों को मॉडल के आउटपुट में जोड़ दिया जाता है। उदाहरण के लिए, यदि आधुनिक वस्तुएं जैसे स्मार्टफोन अक्सर डेटासेट में बातचीत या सुनने के कार्य के साथ सह-उद्भव करती हैं, तो मॉडल उन गतिविधियों को आधुनिक उपकरणों के साथ जोड़ना सीख सकता है, यहां तक कि जब प्रॉम्प्ट एक ऐतिहासिक सेटिंग निर्दिष्ट करता है। एक बार जब ये संबंध मॉडल के आंतरिक प्रतिनिधित्व में निहित हो जाते हैं, तो गतिविधि को उसके समकालीन संदर्भ से अलग करना मुश्किल हो जाता है, जिससे ऐतिहासिक रूप से असटीक परिणाम होते हैं।
स्विट्जरलैंड से एक नए शोध पत्र में, लेटेंट डिफ्यूजन मॉडल में ऐतिहासिक पीढ़ियों के जुड़ाव की घटना की जांच की जा रही है, यह देखा गया है कि एआई फ्रेमवर्क जो फोटोरियलिस्टिक लोगों का निर्माण करने में काफी सक्षम हैं, फिर भी ऐतिहासिक तरीके से ऐतिहासिक व्यक्तियों को चित्रित करना पसंद करते हैं:
![рдирдП рдкрддреНрд░ рд╕реЗ, рдПрд▓рдбреАрдПрдо рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╡рд┐рд╡рд┐рдз рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ '[рдПрдХ рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЕрд╡рдзрд┐ рдореЗрдВ рдПрдХ рдорд┐рддреНрд░ рдХреЗ рд╕рд╛рде рд╣рдВрд╕рддреЗ рд╣реБрдП рдПрдХ рд╡реНрдпрдХреНрддрд┐ рдХрд╛ рдПрдХ рдлреЛрдЯреЛрд░рд┐рдпрд▓рд┐рд╕реНрдЯрд┐рдХ рдЫрд╡рд┐]' рдкреНрд░реЙрдореНрдкреНрдЯ, рдкреНрд░рддреНрдпреЗрдХ рдЖрдЙрдЯрдкреБрдЯ рдореЗрдВ рдкреНрд░рддреНрдпреЗрдХ рдЕрд╡рдзрд┐ рдХреЗ рд╕рдВрдХреЗрдд рдХреЗ рд╕рд╛рдеред рдЬреИрд╕рд╛ рдХрд┐ рд╣рдо рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ, рдпреБрдЧ рдХрд╛ рдорд╛рдзреНрдпрдо рд╕рд╛рдордЧреНрд░реА рд╕реЗ рдЬреБрдбрд╝ рдЧрдпрд╛ рд╣реИред](https://www.unite.ai/wp-content/uploads/2025/05/laughing-with-a-friend.jpg)
नए पत्र से, एलडीएम के माध्यम से विविध प्रतिनिधित्व ‘[एक ऐतिहासिक अवधि में एक मित्र के साथ हंसते हुए एक व्यक्ति का एक फोटोरियलिस्टिक छवि]’ प्रॉम्प्ट, प्रत्येक आउटपुट में प्रत्येक अवधि के संकेत के साथ। जैसा कि हम देख सकते हैं, युग का माध्यम सामग्री से जुड़ गया है। स्रोत: https://arxiv.org/pdf/2505.17064
‘एक ऐतिहासिक अवधि में एक मित्र के साथ हंसते हुए एक व्यक्ति का एक फोटोरियलिस्टिक छवि‘ प्रॉम्प्ट के लिए, तीन परीक्षण किए गए मॉडलों में से एक अक्सर नकारात्मक प्रॉम्प्ट ‘मोनोक्रोम‘ को अनदेखा करता है और इसके बजाय युग की दृश्य मीडिया की विशिष्ट शैलियों का उपयोग करता है, जैसे कि 1950 और 1970 के दशक से सेल्युलाइड फिल्म के म्यूट टोन की नकल करना।
परीक्षण में, उन्होंने पाया कि मॉडल अनाचार (चीजें जो लक्ष्य अवधि की नहीं हैं, या ‘समय से बाहर’ – जो लक्ष्य अवधि के भविष्य के साथ-साथ इसके अतीत से भी हो सकती हैं) को बनाने की क्षमता के लिए तीन मॉडलों का परीक्षण किया:

विभिन्न गतिविधियाँ जो पिछली शताब्दियों के लिए पूरी तरह से वैध हैं, वर्तमान या हाल की प्रौद्योगिकी और परिधान के साथ चित्रित की जाती हैं, अनुरोधित छवियों की भावना के विरुद्ध।
यह ध्यान देने योग्य है कि स्मार्टफोन को फोटोग्राफी के मुहावरे और कई अन्य ऐतिहासिक संदर्भों से अलग करना विशेष रूप से कठिन है, क्योंकि उनका प्रसार और चित्रण प्रभावशाली हाइपरस्केल डेटासेट जैसे कॉमन क्रॉल में अच्छी तरह से प्रतिनिधित्व किया जाता है:

फ्लक्स जनरेटिव टेक्स्ट-टू-इमेज मॉडल में, संचार और स्मार्टफोन जुड़े हुए अवधारणाएं हैं – भले ही ऐतिहासिक संदर्भ इसकी अनुमति न दे।
समस्या की सीमा को निर्धारित करने के लिए, और इस विशिष्ट बगबियर के साथ भविष्य के शोध प्रयासों को आगे बढ़ाने के लिए, नए पत्र के लेखकों ने एक विशेष डेटासेट विकसित किया है जिसके खिलाफ जनरेटिव सिस्टम का परीक्षण किया जा सकता है। एक पल में, हम इस नए कार्य पर एक नज़र डालेंगे, जिसका शीर्षक सिंथेटिक इतिहास: लेटेंट डिफ्यूजन मॉडल में अतीत के दृश्य प्रतिनिधित्व का मूल्यांकन है, और जो ज्यूरिख विश्वविद्यालय के दो शोधकर्ताओं से आता है। डेटासेट और कोड सार्वजनिक रूप से उपलब्ध हैं।
एक नाजुक ‘सत्य’
कुछ विषय जो पत्र में छूते हैं, सांस्कृतिक रूप से संवेदनशील मुद्दों पर हैं, जैसे कि ऐतिहासिक प्रतिनिधित्व में जातियों और लिंग का कम प्रतिनिधित्व। जबकि जेमिनी का तीसरे रैह में नस्लीय समानता लागू करना एक अत्यधिक और अपमानजनक ऐतिहासिक संशोधन है, पारंपरिक नस्लीय प्रतिनिधित्व को बहाल करना (जहां विसरण मॉडल उन्हें ‘अद्यतन’ करते हैं) अक्सर इतिहास को ‘पुनः-श्वेत’ करने का प्रभाव डालेगा।
हाल के कई हिट ऐतिहासिक शो, जैसे ब्रिजर्टन, ऐतिहासिक जनसांख्यिकीय सटीकता को उन तरीकों से धुंधला करते हैं जो भविष्य के प्रशिक्षण डेटासेट को प्रभावित करने की संभावना है, जो एलएलएम-जनित अवधि छवियों को पारंपरिक मानकों के साथ संरेखित करने के प्रयासों को जटिल बनाते हैं। हालांकि, यह एक जटिल विषय है, दी गई पश्चिमी इतिहास की प्रवृत्ति को देखते हुए श्वेतता को पसंद करने और इतनी सारी ‘कम’ कहानियों को अनकहा छोड़ने के लिए।
इन जटिल और बदलते सांस्कृतिक पैरामीटर को ध्यान में रखते हुए, आइए शोधकर्ताओं के नए दृष्टिकोण पर एक नज़र डालें।
विधि और परीक्षण
जनरेटिव मॉडल ऐतिहासिक संदर्भ का व्याख्या कैसे करते हैं, यह जानने के लिए, लेखकों ने हिस्टविस नामक एक डेटासेट बनाया, जिसमें 30,000 छवियां शामिल हैं जो सामान्य मानवीय गतिविधियों को दर्शाती हैं, प्रत्येक को दस अलग-अलग समय अवधि में प्रस्तुत किया जाता है:

हिस्टविस डेटासेट का एक नमूना, जिसे लेखकों ने हगिंग फेस पर उपलब्ध कराया है। स्रोत: https://huggingface.co/datasets/latentcanon/HistVis
गतिविधियों, जैसे कि कुकिंग, प्रार्थना या संगीत सुनना, को उनकी सार्वभौमिकता के लिए चुना गया था, और तटस्थ प्रारूप में वाक्यांशित किया गया था ताकि मॉडल को किसी विशिष्ट सौंदर्यशास्त्र में न लाया जा सके। समय अवधि डेटासेट के लिए सत्रहवीं शताब्दी से वर्तमान तक है, बीसवीं शताब्दी के पांच व्यक्तिगत दशकों पर अतिरिक्त ध्यान केंद्रित किया गया है।
30,000 छवियां तीन व्यापक रूप से उपयोग किए जाने वाले ओपन-सोर्स विसरण मॉडल का उपयोग करके उत्पन्न की गईं: स्टेबल डिफ्यूजन एक्सएल; स्टेबल डिफ्यूजन 3; और फ्लक्स.1। समय अवधि को एकमात्र परिवर्तनीय के रूप में अलग करके, शोधकर्ताओं ने इन प्रणालियों द्वारा ऐतिहासिक संकेतों के दृश्य रूप से कैसे व्याख्या की जाती है, इसका मूल्यांकन करने के लिए एक संरचित आधार बनाया।
दृश्य शैली प्रभुत्व
लेखक ने पहले यह जांचा कि क्या जनरेटिव मॉडल विशिष्ट दृश्य शैलियों को ऐतिहासिक अवधियों के चित्रण में डिफ़ॉल्ट करते हैं; क्योंकि ऐसा लगता था कि भले ही प्रॉम्प्ट में माध्यम या सौंदर्यशास्त्र का उल्लेख नहीं किया गया था, मॉडल अक्सर विशिष्ट शताब्दियों को विशिष्ट शैलियों से जोड़ते थे:
![рдкреНрд░реЙрдореНрдкреНрдЯ 'рдПрдХ рд╡реНрдпрдХреНрддрд┐ [рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЕрд╡рдзрд┐] рдореЗрдВ рдПрдХ рдЕрдиреНрдп рд╡реНрдпрдХреНрддрд┐ рдХреЗ рд╕рд╛рде рдиреГрддреНрдп рдХрд░рддреЗ рд╣реБрдП' (рдмрд╛рдПрдВ) рдФрд░ рд╕рдВрд╢реЛрдзрд┐рдд рдкреНрд░реЙрдореНрдкреНрдЯ 'рдПрдХ рд╡реНрдпрдХреНрддрд┐ [рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЕрд╡рдзрд┐] рдореЗрдВ рдПрдХ рдЕрдиреНрдп рд╡реНрдпрдХреНрддрд┐ рдХреЗ рд╕рд╛рде рдиреГрддреНрдп рдХрд░рддреЗ рд╣реБрдП рдХрд╛ рдПрдХ рдлреЛрдЯреЛрд░рд┐рдпрд▓рд┐рд╕реНрдЯрд┐рдХ рдЫрд╡рд┐' рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рдирд┐рдд рджреГрд╢реНрдп рд╢реИрд▓рд┐рдпрд╛рдВ, 'рдореЛрдиреЛрдХреНрд░реЛрдо рдЫрд╡рд┐' рдХреЗ рд╕рд╛рде рдПрдХ рдирдХрд╛рд░рд╛рддреНрдордХ рдкреНрд░реЙрдореНрдкреНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ред](https://www.unite.ai/wp-content/uploads/2025/05/period-style.jpg)
प्रॉम्प्ट ‘एक व्यक्ति [ऐतिहासिक अवधि] में एक अन्य व्यक्ति के साथ नृत्य करते हुए’ (बाएं) और संशोधित प्रॉम्प्ट ‘एक व्यक्ति [ऐतिहासिक अवधि] में एक अन्य व्यक्ति के साथ नृत्य करते हुए का एक फोटोरियलिस्टिक छवि’ के लिए अनुमानित दृश्य शैलियां, ‘मोनोक्रोम छवि’ के साथ एक नकारात्मक प्रॉम्प्ट के रूप में निर्धारित किया गया।
इस प्रवृत्ति को मापने के लिए, लेखकों ने एक कनवोल्यूशनल न्यूरल नेटवर्क (सीएनएन) को प्रशिक्षित किया ताकि हिस्टविस डेटासेट में प्रत्येक छवि को पांच श्रेणियों में से एक में वर्गीकृत किया जा सके: ड्रॉइंग; एंग्रेविंग; चित्रण; पेंटिंग; या फोटोग्राफी। ये श्रेणियां समय अवधि के प्रति संरचित तुलना का समर्थन करने के लिए सामान्य पैटर्न को प्रतिबिंबित करने के लिए डिज़ाइन की गई थीं।
वर्गीकारिता वीजीजी16 मॉडल पर आधारित थी, जिसे इमेजनेट पर पूर्व-प्रशिक्षित किया गया था और फाइन-ट्यून किया गया था 1,500 उदाहरणों के साथ प्रति वर्ग से विकीआर्ट-व्युत्पन्न डेटासेट से। चूंकि विकीआर्ट मोनोक्रोम और रंगीन फोटोग्राफी के बीच अंतर नहीं करता है, एक अलग रंगीनता स्कोर का उपयोग कम-संतृप्त छवियों को मोनोक्रोम के रूप में लेबल करने के लिए किया गया था।
प्रशिक्षित वर्गीकारिता को तब पूरे डेटासेट पर लागू किया गया, जिसके परिणाम यह दिखाते हुए कि तीनों मॉडल समय अवधि के अनुसार सुसंगत दृश्य शैली डिफ़ॉल्ट लागू करते हैं:

प्रत्येक अवधि के लिए प्रत्येक विसरण मॉडल के लिए 1,000 नमूनों प्रति अवधि प्रति मॉडल के आधार पर ऐतिहासिक अवधियों में उत्पन्न छवियों की अनुमानित दृश्य शैलियां।
प्रत्येक मॉडल और समय अवधि के लिए, लेखकों ने एक मीट्रिक विकसित की जिसे वे दृश्य शैली प्रभुत्व (वीएसडी) कहते हैं। वीएसडी को मॉडल के आउटपुट में सबसे आम शैली साझा करने वाली छवियों के अनुपात के रूप में परिभाषित किया जाता है:

मॉडलों में शैलीगत पूर्वाग्रहों के उदाहरण।
एक उच्च स्कोर यह दर्शाता है कि एक ही शैली उस अवधि के लिए मॉडल के आउटपुट में प्रमुख है, जबकि एक निम्न स्कोर अधिक विविधता को इंगित करता है। यह प्रत्येक मॉडल की तुलना करने की अनुमति देता है कि वे समय के साथ विशिष्ट शैलीगत सम्मेलनों से कितनी दृढ़ता से चिपके रहते हैं।
हिस्टविस डेटासेट पर लागू किए गए वीएसडी मीट्रिक से पता चलता है कि प्रत्येक मॉडल के लिए विभिन्न स्तर की अभिसरण है:

परिणाम टेबल ऊपर दिखाता है कि वीएसडी स्कोर प्रत्येक मॉडल के लिए ऐतिहासिक अवधियों में। 17वीं और 18वीं शताब्दी में, एसडीएक्सएल अक्सर उत्कीर्णन का उत्पादन करता है जिसमें उच्च संगति होती है, जबकि एसडी3 और फ्लक्स.1 चित्रकला की ओर झुकते हैं। 20वीं और 21वीं शताब्दी के दशकों में, एसडी3 मोनोक्रोम फोटोग्राफी की ओर झुकता है, जबकि एसडीएक्सएल अक्सर आधुनिक चित्रण का उपयोग करता है।
इन प्राथमिकताओं को प्रॉम्प्ट समायोजन के बावजूद बनाए रखा गया था, जिससे यह संकेत मिलता है कि मॉडल शैली और ऐतिहासिक संदर्भ के बीच गहरे संबंधों को एन्कोड करते हैं।

प्रत्येक अवधि के लिए प्रत्येक विसरण मॉडल के लिए 1,000 नमूनों प्रति अवधि प्रति मॉडल के आधार पर ऐतिहासिक अवधियों में उत्पन्न छवियों की अनुमानित दृश्य शैलियां।
प्रॉम्प्ट इंजीनियरिंग का उपयोग करके, लेखकों ने कुछ मामलों में प्रभुत्व स्कोर को कम करने और प्रमुख शैली को बदलने का प्रयास किया, जैसे कि 17वीं और 18वीं शताब्दी में चित्रकला की ओर से मोनोक्रोम से। हालांकि, ये हस्तक्षेप शायद ही कभी वास्तव में फोटोरियलिस्टिक छवियों का उत्पादन करते थे, जिससे यह संकेत मिलता है कि मॉडल की शैलीगत डिफ़ॉल्ट गहराई से निहित हैं।
ऐतिहासिक संगति
अगली पंक्ति का विश्लेषण ऐतिहासिक संगति पर केंद्रित था: क्या उत्पन्न छवियों में ऐसी वस्तुएं शामिल थीं जो समय अवधि के अनुरूप नहीं थीं। इसके बजाय एक निश्चित सूची का उपयोग करने के लिए, लेखकों ने एक लचीला तरीका विकसित किया जो बड़े भाषा मॉडल (एलएलएम) और दृश्य-भाषा मॉडल (वीएलएम) का लाभ उठाता है ताकि उन तत्वों का पता लगाया जा सके जो ऐतिहासिक संदर्भ के लिए उपयुक्त प्रतीत नहीं होते हैं:

दो-चरणीय पता लगाने की विधि द्वारा फ्लैग की गई उत्पन्न छवियों के उदाहरण, जो समय-सम्मत तत्वों को दिखाते हैं: 18वीं शताब्दी में हेडफ़ोन; 19वीं शताब्दी में वैक्यूम क्लीनर; 1930 के दशक में लैपटॉप; और 1950 के दशक में स्मार्टफ़ोन।
ऐतिहासिक रूप से असंगत सामग्री की आवृत्ति को मापने के लिए, लेखकों ने एक सरल विधि पेश की जो आवृत्ति और गंभीरता को स्कोर करती है। सबसे पहले, उन्होंने मामूली शब्दांकन अंतरों के लिए खाता बनाया जो एक ही वस्तु का वर्णन करते थे।
उदाहरण के लिए, आधुनिक ऑडियो डिवाइस और डिजिटल ऑडियो डिवाइस को समान माना जाता था। डबल-गिनती से बचने के लिए, एक फज़ी मैचिंग सिस्टम का उपयोग किया गया था ताकि इन सतह-स्तर के भिन्नताओं को समूहित किया जा सके जो वास्तव में अलग-अलग अवधारणाओं को प्रभावित नहीं करते थे।
एक बार जब सभी प्रस्तावित अनाचारों को सामान्यीकृत किया गया, तो दो मीट्रिक गणना की गईं: आवृत्ति ने मापा कि एक विशिष्ट वस्तु कितनी बार एक विशिष्ट समय अवधि और मॉडल में दिखाई देती है; और गंभीरता ने मापा कि कितनी बार वह वस्तु एक बार सुझाव दिए जाने पर दिखाई देती है।
यदि एक आधुनिक फोन को दस बार फ्लैग किया गया था और यह दस उत्पन्न छवियों में दिखाई दिया था, तो यह 1.0 की गंभीरता स्कोर प्राप्त करता था। यदि यह केवल पांच में दिखाई दिया था, तो गंभीरता स्कोर 0.5 था। ये स्कोर यह पहचानने में मदद करते हैं कि क्या अनाचार होते हैं और मॉडल के आउटपुट में प्रत्येक अवधि के लिए वे कितनी दृढ़ता से निहित हैं:

प्रत्येक मॉडल के लिए शीर्ष पंद्रह अनाचारिक तत्व, आवृत्ति के x- अक्ष और गंभीरता के y- अक्ष पर प्लॉट किए गए। वृत्त आवृत्ति द्वारा शीर्ष पंद्रह में रैंक वाले तत्वों को चिह्नित करते हैं, त्रिभुज गंभीरता द्वारा, और हीरे दोनों द्वारा।
ऊपर हम प्रत्येक मॉडल के लिए शीर्ष पंद्रह अनाचारों को देखते हैं, जो आवृत्ति और गंभीरता दोनों द्वारा रैंक किए जाते हैं।
कपड़े आवृत्ति में बिखरे हुए थे, जबकि ऑडियो डिवाइस और इस्त्री उपकरण कम बार दिखाई दिए, लेकिन उच्च संगति के साथ – पैटर्न जो सुझाव देते हैं कि मॉडल प्रॉम्प्ट में गतिविधि की तुलना में समय अवधि पर कम प्रतिक्रिया करते हैं।
एसडी3 ने अनाचारों की उच्चतम दर दिखाई, विशेष रूप से 19वीं शताब्दी और 1930 के दशक की छवियों में, इसके बाद फ्लक्स.1 और एसडीएक्सएल।
मानव निर्णय के साथ पता लगाने की विधि की तुलना करने के लिए, लेखकों ने एसडी3 (सबसे उच्च अनाचार दर वाला मॉडल) से 1,800 यादृच्छिक रूप से नमूनाकृत छवियों वाला एक उपयोगकर्ता अध्ययन चलाया, प्रत्येक छवि को तीन भीड़ कार्यकर्ताओं द्वारा रेट किया गया। विश्वसनीय प्रतिक्रियाओं को फिल्टर करने के बाद, 2,040 निर्णय 234 उपयोगकर्ताओं से शामिल किए गए थे, और विधि ने 72 प्रतिशत मामलों में बहुमत मत के साथ सहमति व्यक्त की।

मानव मूल्यांकन अध्ययन के लिए जीयूआई, कार्य निर्देश, सटीक और अनाचारिक छवियों के उदाहरण, और उत्पन्न आउटपुट में समय-सम्मत विसंगतियों की पहचान के लिए हां-नहीं प्रश्न दिखा रहा है।
जनसांख्यिकी
अंतिम विश्लेषण ने मॉडल द्वारा समय के साथ जाति और लिंग के चित्रण की जांच की। हिस्टविस डेटासेट का उपयोग करके, लेखकों ने मॉडल के आउटपुट की तुलना एक भाषा मॉडल द्वारा उत्पन्न बेसलाइन अनुमानों से की, जो एक खुरदरा अनुमान प्रदान करते हैं कि ऐतिहासिक प्लॉसिबिलिटी के लिए क्या अपेक्षित है।
मॉडल के आउटपुट की तुलना में जनसांख्यिकीय विशेषताओं को मापने के लिए, लेखकों ने एक पाइपलाइन बनाई जो मॉडल-उत्पन्न जनसांख्यिकी की तुलना जीपीटी-4ओ द्वारा उत्पन्न अनुमानों से करती है। उन्होंने पहले फेयरफेस वर्गीकारिता का उपयोग किया, जो एक रेसनेट34-आधारित उपकरण है जिसे 100,000 से अधिक छवियों पर प्रशिक्षित किया गया है, ताकि उत्पन्न आउटपुट में लिंग और जाति का पता लगाया जा सके, जिससे प्रत्येक दृश्य में चेहरों को पुरुष या महिला के रूप में वर्गीकृत करने और जातीय श्रेणियों को समय के साथ ट्रैक करने की अनुमति मिली।

विभिन्न मॉडलों, समय अवधियों और गतिविधियों में जनसांख्यिकीय अधिशेष के साथ उत्पन्न छवियों के उदाहरण।
निम्न-विश्वास वाले परिणामों को शोर को कम करने के लिए फिल्टर किया गया था, और भविष्यवाणियों को प्रत्येक समय और गतिविधि से जुड़ी सभी छवियों पर औसत किया गया था। फेयरफेस पढ़ाई की विश्वसनीयता की जांच करने के लिए, एक दूसरी प्रणाली डीपफेस पर आधारित थी जिसे 5,000 छवियों के नमूने पर लागू किया गया था। दो वर्गीकारिता में मजबूत समझौता था, जो अध्ययन में उपयोग की जाने वाली जनसांख्यिकीय पढ़ाई की स्थिरता का समर्थन करता था।
मॉडल के आउटपुट की तुलना में ऐतिहासिक प्लॉसिबिलिटी के लिए, लेखकों ने जीपीटी-4ओ से प्रत्येक गतिविधि और समय अवधि के लिए अपेक्षित लिंग और जाति वितरण का अनुमान लगाने के लिए कहा। ये अनुमान मार्गदर्शक सत्य के बजाय खुरदरे बेसलाइन के रूप में कार्य करते हैं। दो मीट्रिक का उपयोग किया गया था: अल्प-प्रतिनिधित्व और अधिक-प्रतिनिधित्व, जो मापते हैं कि मॉडल के आउटपुट जीपीटी-4ओ के अनुमानों से कितना विचलित होते हैं।
परिणामों से स्पष्ट पैटर्न दिखाई दिए: फ्लक्स.1 अक्सर पुरुषों को अधिक प्रतिनिधित्व करता है, यहां तक कि उन दृश्यों में भी जहां महिलाएं अपेक्षित होती हैं, जैसे कि कुकिंग; एसडी3 और एसडीएक्सएल काम, शिक्षा और धार्मिक जैसी श्रेणियों में समान रुझान दिखाते हैं; श्वेत चेहरे समग्र रूप से अपेक्षित से अधिक दिखाई देते हैं, हालांकि यह पूर्वाग्रह हाल की अवधियों में कम हो जाता है; और कुछ श्रेणियों में अप्रत्याशित रूप से गैर-श्वेत प्रतिनिधित्व में वृद्धि होती है, जो सुझाव देती है कि मॉडल का व्यवहार डेटासेट संबंधों को प्रतिबिंबित कर सकता है, न कि ऐतिहासिक संदर्भ:

फ्लक्स.1 आउटपुट में सदियों और गतिविधियों में लिंग और जातीय अधिशेष और अल्प-प्रतिनिधित्व, जीपीटी-4ओ जनसांख्यिकीय अनुमानों से पूर्ण अंतर के रूप में दिखाया गया है।
लेखक निष्कर्ष निकालते हैं:
‘हमारा विश्लेषण यह बताता है कि [टेक्स्ट-टू-इमेज/टीटीआई] मॉडल ऐतिहासिक अवधियों की सूक्ष्म समझ के बजाय सीमित शैलीगत एन्कोडिंग पर भरोसा करते हैं। प्रत्येक युग एक विशिष्ट दृश्य शैली से जुड़ा हुआ है, जिससे इतिहास का एक-आयामी चित्रण होता है।
‘विशेष रूप से, फोटोरियलिस्टिक चित्रण केवल 20वीं शताब्दी के बाद से दिखाई देते हैं, जो फ्लक्स.1 और एसडी3 में दुर्लभ अपवादों के साथ, यह सुझाव देते हुए कि मॉडल सीखे गए संबंधों पर निर्भर करते हैं और ऐतिहासिक संदर्भों के लिए लचीले ढंग से अनुकूल नहीं होते हैं, वास्तविकता की आधुनिक विशेषता को बढ़ावा देते हैं।
‘इसके अलावा, बार-बार होने वाले अनाचार सुझाव देते हैं कि ऐतिहासिक अवधियां इन मॉडलों के लेटेंट स्पेस में साफ-साफ अलग नहीं हैं, क्योंकि आधुनिक कलाकृतियां अक्सर प्री-मॉडर्न सेटिंग में दिखाई देती हैं, जो शैक्षिक और सांस्कृतिक विरासत संदर्भों में टीटीआई प्रणालियों की विश्वसनीयता को कमजोर करती है।’
निष्कर्ष
जब एक विसरण मॉडल को प्रशिक्षित किया जाता है, तो नए अवधारणाएं पूर्वनिर्धारित स्लॉट में साफ-साफ नहीं बैठती हैं। इसके बजाय, वे अपनी आवृत्ति और संबंधित विचारों के साथ उनकी निकटता द्वारा आकार दिए गए क्लस्टर बनाते हैं। परिणाम एक ढीले-ढाले ढांचे में होता है जहां अवधारणाएं साफ-साफ या सांविधानिक पृथक्करण द्वारा मौजूद नहीं होती हैं, बल्कि उनकी आवृत्ति और प्रत्याशित संदर्भ द्वारा मौजूद होती हैं।
यही कारण है कि एक 2025-गुणवत्ता वाली फोटोरियलिस्टिक छवि को 19वीं शताब्दी के चरित्र के रूप में उत्पन्न करना मुश्किल हो जाता है; अधिकांश मामलों में, मॉडल फिल्म और टेलीविजन से दृश्य रूपांकनों पर भरोसा करेगा। जब वे अनुरोध के साथ मेल नहीं खाते हैं, तो डेटा में क्षतिपूर्ति करने के लिए बहुत कम होता है। इस अंतर को पाटने के लिए भविष्य की प्रगति पर निर्भर करना होगा।
सोमवार, 26 मई, 2025 को पहली बार प्रकाशित












