Connect with us

рдЖрдИрдлрд╝реЛрди рдХреЛ рдкреБрд░рд╛рдиреЗ рдпреБрдЧ рдореЗрдВ рдЪрд┐рддреНрд░рд┐рдд рдХрд░рдиреЗ рд╕реЗ рдПрдЖрдИ рдХреЛ рд░реЛрдХрдиреЗ рдХреЗ рд▓рд┐рдП рдХреИрд╕реЗ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдЖрдИрдлрд╝реЛрди рдХреЛ рдкреБрд░рд╛рдиреЗ рдпреБрдЧ рдореЗрдВ рдЪрд┐рддреНрд░рд┐рдд рдХрд░рдиреЗ рд╕реЗ рдПрдЖрдИ рдХреЛ рд░реЛрдХрдиреЗ рдХреЗ рд▓рд┐рдП рдХреИрд╕реЗ

mm
A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

एआई इमेज जनरेटर पिछले समय को कैसे चित्रित करते हैं? नए शोध से पता चलता है कि वे 18वीं शताब्दी में स्मार्टफ़ोन ड्रॉप करते हैं, 1930 के दशक के दृश्यों में लैपटॉप डालते हैं, और 19वीं शताब्दी के घरों में वैक्यूम क्लीनर रखते हैं, जो इस बारे में प्रश्न उठाते हैं कि ये मॉडल इतिहास की कल्पना कैसे करते हैं – और क्या वे संदर्भित ऐतिहासिक सटीकता के लिए सक्षम हैं या नहीं।

 

2024 की शुरुआत में, गूगल के जेमिनी मल्टीमॉडल एआई मॉडल की छवि-पीढ़ी क्षमताएं आलोचना के तहत आईं क्योंकि उन्होंने उपयुक्त संदर्भों में जनसांख्यिकीय न्याय लागू किया, जैसे कि द्वितीय विश्व युद्ध के जर्मन सैनिकों को असंभावित प्रोवेनेंस के साथ उत्पन्न करना:

рдЬреЗрдорд┐рдиреА рдорд▓реНрдЯреАрдореЙрдбрд▓ рдореЙрдбрд▓ рджреНрд╡рд╛рд░рд╛ 2024 рдореЗрдВ рдХрд▓реНрдкрдирд╛ рдХрд┐рдП рдЧрдП рдЬрдирд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рд░реВрдк рд╕реЗ рдЕрд╕рдВрднрд╛рд╡рд┐рдд рдЬрд░реНрдорди рд╕реИрдиреНрдп рдХрд░реНрдореАред

जेमिनी मल्टीमॉडल मॉडल द्वारा 2024 में कल्पना किए गए जनसांख्यिकीय रूप से असंभावित जर्मन सैन्य कर्मी। स्रोत: जेमिनी एआई/गूगल वाया द गार्जियन

यह एक उदाहरण था जहां एआई मॉडल में पूर्वाग्रह को दूर करने के प्रयासों ने ऐतिहासिक संदर्भ का ध्यान नहीं रखा। इस मामले में, मुद्दे को जल्द ही हल कर लिया गया था। हालांकि, विसरण-आधारित मॉडल अभी भी ऐतिहासिक और आधुनिक पहलुओं और कलाकृतियों को भ्रमित करने वाले इतिहास के संस्करण उत्पन्न करने के लिए प्रवण रहते हैं।

यह आंशिक रूप से जुड़ाव के कारण है, जहां प्रशिक्षण डेटा में बार-बार दिखाई देने वाली गुणों को मॉडल के आउटपुट में जोड़ दिया जाता है। उदाहरण के लिए, यदि आधुनिक वस्तुएं जैसे स्मार्टफोन अक्सर डेटासेट में बातचीत या सुनने के कार्य के साथ सह-उद्भव करती हैं, तो मॉडल उन गतिविधियों को आधुनिक उपकरणों के साथ जोड़ना सीख सकता है, यहां तक कि जब प्रॉम्प्ट एक ऐतिहासिक सेटिंग निर्दिष्ट करता है। एक बार जब ये संबंध मॉडल के आंतरिक प्रतिनिधित्व में निहित हो जाते हैं, तो गतिविधि को उसके समकालीन संदर्भ से अलग करना मुश्किल हो जाता है, जिससे ऐतिहासिक रूप से असटीक परिणाम होते हैं।

स्विट्जरलैंड से एक नए शोध पत्र में, लेटेंट डिफ्यूजन मॉडल में ऐतिहासिक पीढ़ियों के जुड़ाव की घटना की जांच की जा रही है, यह देखा गया है कि एआई फ्रेमवर्क जो फोटोरियलिस्टिक लोगों का निर्माण करने में काफी सक्षम हैं, फिर भी ऐतिहासिक तरीके से ऐतिहासिक व्यक्तियों को चित्रित करना पसंद करते हैं:

рдирдП рдкрддреНрд░ рд╕реЗ, рдПрд▓рдбреАрдПрдо рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╡рд┐рд╡рд┐рдз рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ '[рдПрдХ рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЕрд╡рдзрд┐ рдореЗрдВ рдПрдХ рдорд┐рддреНрд░ рдХреЗ рд╕рд╛рде рд╣рдВрд╕рддреЗ рд╣реБрдП рдПрдХ рд╡реНрдпрдХреНрддрд┐ рдХрд╛ рдПрдХ рдлреЛрдЯреЛрд░рд┐рдпрд▓рд┐рд╕реНрдЯрд┐рдХ рдЫрд╡рд┐]' рдкреНрд░реЙрдореНрдкреНрдЯ, рдкреНрд░рддреНрдпреЗрдХ рдЖрдЙрдЯрдкреБрдЯ рдореЗрдВ рдкреНрд░рддреНрдпреЗрдХ рдЕрд╡рдзрд┐ рдХреЗ рд╕рдВрдХреЗрдд рдХреЗ рд╕рд╛рдеред рдЬреИрд╕рд╛ рдХрд┐ рд╣рдо рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ, рдпреБрдЧ рдХрд╛ рдорд╛рдзреНрдпрдо рд╕рд╛рдордЧреНрд░реА рд╕реЗ рдЬреБрдбрд╝ рдЧрдпрд╛ рд╣реИред

नए पत्र से, एलडीएम के माध्यम से विविध प्रतिनिधित्व ‘[एक ऐतिहासिक अवधि में एक मित्र के साथ हंसते हुए एक व्यक्ति का एक फोटोरियलिस्टिक छवि]’ प्रॉम्प्ट, प्रत्येक आउटपुट में प्रत्येक अवधि के संकेत के साथ। जैसा कि हम देख सकते हैं, युग का माध्यम सामग्री से जुड़ गया है। स्रोत: https://arxiv.org/pdf/2505.17064

एक ऐतिहासिक अवधि में एक मित्र के साथ हंसते हुए एक व्यक्ति का एक फोटोरियलिस्टिक छवि‘ प्रॉम्प्ट के लिए, तीन परीक्षण किए गए मॉडलों में से एक अक्सर नकारात्मक प्रॉम्प्ट ‘मोनोक्रोम‘ को अनदेखा करता है और इसके बजाय युग की दृश्य मीडिया की विशिष्ट शैलियों का उपयोग करता है, जैसे कि 1950 और 1970 के दशक से सेल्युलाइड फिल्म के म्यूट टोन की नकल करना।

परीक्षण में, उन्होंने पाया कि मॉडल अनाचार (चीजें जो लक्ष्य अवधि की नहीं हैं, या ‘समय से बाहर’ – जो लक्ष्य अवधि के भविष्य के साथ-साथ इसके अतीत से भी हो सकती हैं) को बनाने की क्षमता के लिए तीन मॉडलों का परीक्षण किया:

рд╡рд┐рднрд┐рдиреНрди рдЧрддрд┐рд╡рд┐рдзрд┐рдпрд╛рдБ рдЬреЛ рдкрд┐рдЫрд▓реА рд╢рддрд╛рдмреНрджрд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд╡реИрдз рд╣реИрдВ, рд╡рд░реНрддрдорд╛рди рдпрд╛ рд╣рд╛рд▓ рдХреА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХреА рдФрд░ рдкрд░рд┐рдзрд╛рди рдХреЗ рд╕рд╛рде рдЪрд┐рддреНрд░рд┐рдд рдХреА рдЬрд╛рддреА рд╣реИрдВ, рдЕрдиреБрд░реЛрдзрд┐рдд рдЫрд╡рд┐рдпреЛрдВ рдХреА рднрд╛рд╡рдирд╛ рдХреЗ рд╡рд┐рд░реБрджреНрдзред

विभिन्न गतिविधियाँ जो पिछली शताब्दियों के लिए पूरी तरह से वैध हैं, वर्तमान या हाल की प्रौद्योगिकी और परिधान के साथ चित्रित की जाती हैं, अनुरोधित छवियों की भावना के विरुद्ध।

यह ध्यान देने योग्य है कि स्मार्टफोन को फोटोग्राफी के मुहावरे और कई अन्य ऐतिहासिक संदर्भों से अलग करना विशेष रूप से कठिन है, क्योंकि उनका प्रसार और चित्रण प्रभावशाली हाइपरस्केल डेटासेट जैसे कॉमन क्रॉल में अच्छी तरह से प्रतिनिधित्व किया जाता है:

рдлреНрд▓рдХреНрд╕ рдЬрдирд░реЗрдЯрд┐рд╡ рдЯреЗрдХреНрд╕реНрдЯ-рдЯреВ-рдЗрдореЗрдЬ рдореЙрдбрд▓ рдореЗрдВ, рд╕рдВрдЪрд╛рд░ рдФрд░ рд╕реНрдорд╛рд░реНрдЯрдлреЛрди рдЬреБрдбрд╝реЗ рд╣реБрдП рдЕрд╡рдзрд╛рд░рдгрд╛рдПрдВ рд╣реИрдВ - рднрд▓реЗ рд╣реА рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рд╕рдВрджрд░реНрдн рдЗрд╕рдХреА рдЕрдиреБрдорддрд┐ рди рджреЗред

फ्लक्स जनरेटिव टेक्स्ट-टू-इमेज मॉडल में, संचार और स्मार्टफोन जुड़े हुए अवधारणाएं हैं – भले ही ऐतिहासिक संदर्भ इसकी अनुमति न दे।

समस्या की सीमा को निर्धारित करने के लिए, और इस विशिष्ट बगबियर के साथ भविष्य के शोध प्रयासों को आगे बढ़ाने के लिए, नए पत्र के लेखकों ने एक विशेष डेटासेट विकसित किया है जिसके खिलाफ जनरेटिव सिस्टम का परीक्षण किया जा सकता है। एक पल में, हम इस नए कार्य पर एक नज़र डालेंगे, जिसका शीर्षक सिंथेटिक इतिहास: लेटेंट डिफ्यूजन मॉडल में अतीत के दृश्य प्रतिनिधित्व का मूल्यांकन है, और जो ज्यूरिख विश्वविद्यालय के दो शोधकर्ताओं से आता है। डेटासेट और कोड सार्वजनिक रूप से उपलब्ध हैं।

एक नाजुक ‘सत्य’

कुछ विषय जो पत्र में छूते हैं, सांस्कृतिक रूप से संवेदनशील मुद्दों पर हैं, जैसे कि ऐतिहासिक प्रतिनिधित्व में जातियों और लिंग का कम प्रतिनिधित्व। जबकि जेमिनी का तीसरे रैह में नस्लीय समानता लागू करना एक अत्यधिक और अपमानजनक ऐतिहासिक संशोधन है, पारंपरिक नस्लीय प्रतिनिधित्व को बहाल करना (जहां विसरण मॉडल उन्हें ‘अद्यतन’ करते हैं) अक्सर इतिहास को ‘पुनः-श्वेत’ करने का प्रभाव डालेगा।

हाल के कई हिट ऐतिहासिक शो, जैसे ब्रिजर्टन, ऐतिहासिक जनसांख्यिकीय सटीकता को उन तरीकों से धुंधला करते हैं जो भविष्य के प्रशिक्षण डेटासेट को प्रभावित करने की संभावना है, जो एलएलएम-जनित अवधि छवियों को पारंपरिक मानकों के साथ संरेखित करने के प्रयासों को जटिल बनाते हैं। हालांकि, यह एक जटिल विषय है, दी गई पश्चिमी इतिहास की प्रवृत्ति को देखते हुए श्वेतता को पसंद करने और इतनी सारी ‘कम’ कहानियों को अनकहा छोड़ने के लिए।

इन जटिल और बदलते सांस्कृतिक पैरामीटर को ध्यान में रखते हुए, आइए शोधकर्ताओं के नए दृष्टिकोण पर एक नज़र डालें।

विधि और परीक्षण

जनरेटिव मॉडल ऐतिहासिक संदर्भ का व्याख्या कैसे करते हैं, यह जानने के लिए, लेखकों ने हिस्टविस नामक एक डेटासेट बनाया, जिसमें 30,000 छवियां शामिल हैं जो सामान्य मानवीय गतिविधियों को दर्शाती हैं, प्रत्येक को दस अलग-अलग समय अवधि में प्रस्तुत किया जाता है:

рд╣рд┐рд╕реНрдЯрд╡рд┐рд╕ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛ рдПрдХ рдирдореВрдирд╛, рдЬрд┐рд╕реЗ рд▓реЗрдЦрдХреЛрдВ рдиреЗ рд╣рдЧрд┐рдВрдЧ рдлреЗрд╕ рдкрд░ рдЙрдкрд▓рдмреНрдз рдХрд░рд╛рдпрд╛ рд╣реИред

हिस्टविस डेटासेट का एक नमूना, जिसे लेखकों ने हगिंग फेस पर उपलब्ध कराया है। स्रोत: https://huggingface.co/datasets/latentcanon/HistVis

गतिविधियों, जैसे कि कुकिंग, प्रार्थना या संगीत सुनना, को उनकी सार्वभौमिकता के लिए चुना गया था, और तटस्थ प्रारूप में वाक्यांशित किया गया था ताकि मॉडल को किसी विशिष्ट सौंदर्यशास्त्र में न लाया जा सके। समय अवधि डेटासेट के लिए सत्रहवीं शताब्दी से वर्तमान तक है, बीसवीं शताब्दी के पांच व्यक्तिगत दशकों पर अतिरिक्त ध्यान केंद्रित किया गया है।

30,000 छवियां तीन व्यापक रूप से उपयोग किए जाने वाले ओपन-सोर्स विसरण मॉडल का उपयोग करके उत्पन्न की गईं: स्टेबल डिफ्यूजन एक्सएल; स्टेबल डिफ्यूजन 3; और फ्लक्स.1। समय अवधि को एकमात्र परिवर्तनीय के रूप में अलग करके, शोधकर्ताओं ने इन प्रणालियों द्वारा ऐतिहासिक संकेतों के दृश्य रूप से कैसे व्याख्या की जाती है, इसका मूल्यांकन करने के लिए एक संरचित आधार बनाया।

दृश्य शैली प्रभुत्व

लेखक ने पहले यह जांचा कि क्या जनरेटिव मॉडल विशिष्ट दृश्य शैलियों को ऐतिहासिक अवधियों के चित्रण में डिफ़ॉल्ट करते हैं; क्योंकि ऐसा लगता था कि भले ही प्रॉम्प्ट में माध्यम या सौंदर्यशास्त्र का उल्लेख नहीं किया गया था, मॉडल अक्सर विशिष्ट शताब्दियों को विशिष्ट शैलियों से जोड़ते थे:

рдкреНрд░реЙрдореНрдкреНрдЯ 'рдПрдХ рд╡реНрдпрдХреНрддрд┐ [рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЕрд╡рдзрд┐] рдореЗрдВ рдПрдХ рдЕрдиреНрдп рд╡реНрдпрдХреНрддрд┐ рдХреЗ рд╕рд╛рде рдиреГрддреНрдп рдХрд░рддреЗ рд╣реБрдП' (рдмрд╛рдПрдВ) рдФрд░ рд╕рдВрд╢реЛрдзрд┐рдд рдкреНрд░реЙрдореНрдкреНрдЯ 'рдПрдХ рд╡реНрдпрдХреНрддрд┐ [рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЕрд╡рдзрд┐] рдореЗрдВ рдПрдХ рдЕрдиреНрдп рд╡реНрдпрдХреНрддрд┐ рдХреЗ рд╕рд╛рде рдиреГрддреНрдп рдХрд░рддреЗ рд╣реБрдП рдХрд╛ рдПрдХ рдлреЛрдЯреЛрд░рд┐рдпрд▓рд┐рд╕реНрдЯрд┐рдХ рдЫрд╡рд┐' рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рдирд┐рдд рджреГрд╢реНрдп рд╢реИрд▓рд┐рдпрд╛рдВ, 'рдореЛрдиреЛрдХреНрд░реЛрдо рдЫрд╡рд┐' рдХреЗ рд╕рд╛рде рдПрдХ рдирдХрд╛рд░рд╛рддреНрдордХ рдкреНрд░реЙрдореНрдкреНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ред

प्रॉम्प्ट ‘एक व्यक्ति [ऐतिहासिक अवधि] में एक अन्य व्यक्ति के साथ नृत्य करते हुए’ (बाएं) और संशोधित प्रॉम्प्ट ‘एक व्यक्ति [ऐतिहासिक अवधि] में एक अन्य व्यक्ति के साथ नृत्य करते हुए का एक फोटोरियलिस्टिक छवि’ के लिए अनुमानित दृश्य शैलियां, ‘मोनोक्रोम छवि’ के साथ एक नकारात्मक प्रॉम्प्ट के रूप में निर्धारित किया गया।

इस प्रवृत्ति को मापने के लिए, लेखकों ने एक कनवोल्यूशनल न्यूरल नेटवर्क (सीएनएन) को प्रशिक्षित किया ताकि हिस्टविस डेटासेट में प्रत्येक छवि को पांच श्रेणियों में से एक में वर्गीकृत किया जा सके: ड्रॉइंग; एंग्रेविंग; चित्रण; पेंटिंग; या फोटोग्राफी। ये श्रेणियां समय अवधि के प्रति संरचित तुलना का समर्थन करने के लिए सामान्य पैटर्न को प्रतिबिंबित करने के लिए डिज़ाइन की गई थीं।

वर्गीकारिता वीजीजी16 मॉडल पर आधारित थी, जिसे इमेजनेट पर पूर्व-प्रशिक्षित किया गया था और फाइन-ट्यून किया गया था 1,500 उदाहरणों के साथ प्रति वर्ग से विकीआर्ट-व्युत्पन्न डेटासेट से। चूंकि विकीआर्ट मोनोक्रोम और रंगीन फोटोग्राफी के बीच अंतर नहीं करता है, एक अलग रंगीनता स्कोर का उपयोग कम-संतृप्त छवियों को मोनोक्रोम के रूप में लेबल करने के लिए किया गया था।

प्रशिक्षित वर्गीकारिता को तब पूरे डेटासेट पर लागू किया गया, जिसके परिणाम यह दिखाते हुए कि तीनों मॉडल समय अवधि के अनुसार सुसंगत दृश्य शैली डिफ़ॉल्ट लागू करते हैं:

рдкреНрд░рддреНрдпреЗрдХ рдЕрд╡рдзрд┐ рдХреЗ рд▓рд┐рдП рдкреНрд░рддреНрдпреЗрдХ рд╡рд┐рд╕рд░рдг рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП 1,000 рдирдореВрдиреЛрдВ рдкреНрд░рддрд┐ рдЕрд╡рдзрд┐ рдкреНрд░рддрд┐ рдореЙрдбрд▓ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЕрд╡рдзрд┐рдпреЛрдВ рдореЗрдВ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдХреА рдЕрдиреБрдорд╛рдирд┐рдд рджреГрд╢реНрдп рд╢реИрд▓рд┐рдпрд╛рдВред

प्रत्येक अवधि के लिए प्रत्येक विसरण मॉडल के लिए 1,000 नमूनों प्रति अवधि प्रति मॉडल के आधार पर ऐतिहासिक अवधियों में उत्पन्न छवियों की अनुमानित दृश्य शैलियां।

प्रत्येक मॉडल और समय अवधि के लिए, लेखकों ने एक मीट्रिक विकसित की जिसे वे दृश्य शैली प्रभुत्व (वीएसडी) कहते हैं। वीएसडी को मॉडल के आउटपुट में सबसे आम शैली साझा करने वाली छवियों के अनुपात के रूप में परिभाषित किया जाता है:

рдореЙрдбрд▓реЛрдВ рдореЗрдВ рд╢реИрд▓реАрдЧрдд рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣реЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдгред

मॉडलों में शैलीगत पूर्वाग्रहों के उदाहरण।

एक उच्च स्कोर यह दर्शाता है कि एक ही शैली उस अवधि के लिए मॉडल के आउटपुट में प्रमुख है, जबकि एक निम्न स्कोर अधिक विविधता को इंगित करता है। यह प्रत्येक मॉडल की तुलना करने की अनुमति देता है कि वे समय के साथ विशिष्ट शैलीगत सम्मेलनों से कितनी दृढ़ता से चिपके रहते हैं।

हिस्टविस डेटासेट पर लागू किए गए वीएसडी मीट्रिक से पता चलता है कि प्रत्येक मॉडल के लिए विभिन्न स्तर की अभिसरण है:

परिणाम टेबल ऊपर दिखाता है कि वीएसडी स्कोर प्रत्येक मॉडल के लिए ऐतिहासिक अवधियों में। 17वीं और 18वीं शताब्दी में, एसडीएक्सएल अक्सर उत्कीर्णन का उत्पादन करता है जिसमें उच्च संगति होती है, जबकि एसडी3 और फ्लक्स.1 चित्रकला की ओर झुकते हैं। 20वीं और 21वीं शताब्दी के दशकों में, एसडी3 मोनोक्रोम फोटोग्राफी की ओर झुकता है, जबकि एसडीएक्सएल अक्सर आधुनिक चित्रण का उपयोग करता है।

इन प्राथमिकताओं को प्रॉम्प्ट समायोजन के बावजूद बनाए रखा गया था, जिससे यह संकेत मिलता है कि मॉडल शैली और ऐतिहासिक संदर्भ के बीच गहरे संबंधों को एन्कोड करते हैं।

рдкреНрд░рддреНрдпреЗрдХ рдЕрд╡рдзрд┐ рдХреЗ рд▓рд┐рдП рдкреНрд░рддреНрдпреЗрдХ рд╡рд┐рд╕рд░рдг рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП 1,000 рдирдореВрдиреЛрдВ рдкреНрд░рддрд┐ рдЕрд╡рдзрд┐ рдкреНрд░рддрд┐ рдореЙрдбрд▓ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдРрддрд┐рд╣рд╛рд╕рд┐рдХ рдЕрд╡рдзрд┐рдпреЛрдВ рдореЗрдВ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдХреА рдЕрдиреБрдорд╛рдирд┐рдд рджреГрд╢реНрдп рд╢реИрд▓рд┐рдпрд╛рдВред

प्रत्येक अवधि के लिए प्रत्येक विसरण मॉडल के लिए 1,000 नमूनों प्रति अवधि प्रति मॉडल के आधार पर ऐतिहासिक अवधियों में उत्पन्न छवियों की अनुमानित दृश्य शैलियां।

प्रॉम्प्ट इंजीनियरिंग का उपयोग करके, लेखकों ने कुछ मामलों में प्रभुत्व स्कोर को कम करने और प्रमुख शैली को बदलने का प्रयास किया, जैसे कि 17वीं और 18वीं शताब्दी में चित्रकला की ओर से मोनोक्रोम से। हालांकि, ये हस्तक्षेप शायद ही कभी वास्तव में फोटोरियलिस्टिक छवियों का उत्पादन करते थे, जिससे यह संकेत मिलता है कि मॉडल की शैलीगत डिफ़ॉल्ट गहराई से निहित हैं।

ऐतिहासिक संगति

अगली पंक्ति का विश्लेषण ऐतिहासिक संगति पर केंद्रित था: क्या उत्पन्न छवियों में ऐसी वस्तुएं शामिल थीं जो समय अवधि के अनुरूप नहीं थीं। इसके बजाय एक निश्चित सूची का उपयोग करने के लिए, लेखकों ने एक लचीला तरीका विकसित किया जो बड़े भाषा मॉडल (एलएलएम) और दृश्य-भाषा मॉडल (वीएलएम) का लाभ उठाता है ताकि उन तत्वों का पता लगाया जा सके जो ऐतिहासिक संदर्भ के लिए उपयुक्त प्रतीत नहीं होते हैं:

рджреЛ-рдЪрд░рдгреАрдп рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХреА рд╡рд┐рдзрд┐ рджреНрд╡рд╛рд░рд╛ рдлреНрд▓реИрдЧ рдХреА рдЧрдИ рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдг, рдЬреЛ рд╕рдордп-рд╕рдореНрдордд рддрддреНрд╡реЛрдВ рдХреЛ рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ: 18рд╡реАрдВ рд╢рддрд╛рдмреНрджреА рдореЗрдВ рд╣реЗрдбрдлрд╝реЛрди; 19рд╡реАрдВ рд╢рддрд╛рдмреНрджреА рдореЗрдВ рд╡реИрдХреНрдпреВрдо рдХреНрд▓реАрдирд░; 1930 рдХреЗ рджрд╢рдХ рдореЗрдВ рд▓реИрдкрдЯреЙрдк; рдФрд░ 1950 рдХреЗ рджрд╢рдХ рдореЗрдВ рд╕реНрдорд╛рд░реНрдЯрдлрд╝реЛрдиред

दो-चरणीय पता लगाने की विधि द्वारा फ्लैग की गई उत्पन्न छवियों के उदाहरण, जो समय-सम्मत तत्वों को दिखाते हैं: 18वीं शताब्दी में हेडफ़ोन; 19वीं शताब्दी में वैक्यूम क्लीनर; 1930 के दशक में लैपटॉप; और 1950 के दशक में स्मार्टफ़ोन।

ऐतिहासिक रूप से असंगत सामग्री की आवृत्ति को मापने के लिए, लेखकों ने एक सरल विधि पेश की जो आवृत्ति और गंभीरता को स्कोर करती है। सबसे पहले, उन्होंने मामूली शब्दांकन अंतरों के लिए खाता बनाया जो एक ही वस्तु का वर्णन करते थे।

उदाहरण के लिए, आधुनिक ऑडियो डिवाइस और डिजिटल ऑडियो डिवाइस को समान माना जाता था। डबल-गिनती से बचने के लिए, एक फज़ी मैचिंग सिस्टम का उपयोग किया गया था ताकि इन सतह-स्तर के भिन्नताओं को समूहित किया जा सके जो वास्तव में अलग-अलग अवधारणाओं को प्रभावित नहीं करते थे।

एक बार जब सभी प्रस्तावित अनाचारों को सामान्यीकृत किया गया, तो दो मीट्रिक गणना की गईं: आवृत्ति ने मापा कि एक विशिष्ट वस्तु कितनी बार एक विशिष्ट समय अवधि और मॉडल में दिखाई देती है; और गंभीरता ने मापा कि कितनी बार वह वस्तु एक बार सुझाव दिए जाने पर दिखाई देती है।

यदि एक आधुनिक फोन को दस बार फ्लैग किया गया था और यह दस उत्पन्न छवियों में दिखाई दिया था, तो यह 1.0 की गंभीरता स्कोर प्राप्त करता था। यदि यह केवल पांच में दिखाई दिया था, तो गंभीरता स्कोर 0.5 था। ये स्कोर यह पहचानने में मदद करते हैं कि क्या अनाचार होते हैं और मॉडल के आउटपुट में प्रत्येक अवधि के लिए वे कितनी दृढ़ता से निहित हैं:

рдкреНрд░рддреНрдпреЗрдХ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рд╢реАрд░реНрд╖ рдкрдВрджреНрд░рд╣ рдЕрдирд╛рдЪрд╛рд░рд┐рдХ рддрддреНрд╡, рдЖрд╡реГрддреНрддрд┐ рдХреЗ x- рдЕрдХреНрд╖ рдФрд░ рдЧрдВрднреАрд░рддрд╛ рдХреЗ y- рдЕрдХреНрд╖ рдкрд░ рдкреНрд▓реЙрдЯ рдХрд┐рдП рдЧрдПред рд╡реГрддреНрдд рдЖрд╡реГрддреНрддрд┐ рджреНрд╡рд╛рд░рд╛ рд╢реАрд░реНрд╖ рдкрдВрджреНрд░рд╣ рдореЗрдВ рд░реИрдВрдХ рд╡рд╛рд▓реЗ рддрддреНрд╡реЛрдВ рдХреЛ рдЪрд┐рд╣реНрдирд┐рдд рдХрд░рддреЗ рд╣реИрдВ, рддреНрд░рд┐рднреБрдЬ рдЧрдВрднреАрд░рддрд╛ рджреНрд╡рд╛рд░рд╛, рдФрд░ рд╣реАрд░реЗ рджреЛрдиреЛрдВ рджреНрд╡рд╛рд░рд╛ред

प्रत्येक मॉडल के लिए शीर्ष पंद्रह अनाचारिक तत्व, आवृत्ति के x- अक्ष और गंभीरता के y- अक्ष पर प्लॉट किए गए। वृत्त आवृत्ति द्वारा शीर्ष पंद्रह में रैंक वाले तत्वों को चिह्नित करते हैं, त्रिभुज गंभीरता द्वारा, और हीरे दोनों द्वारा।

ऊपर हम प्रत्येक मॉडल के लिए शीर्ष पंद्रह अनाचारों को देखते हैं, जो आवृत्ति और गंभीरता दोनों द्वारा रैंक किए जाते हैं।

कपड़े आवृत्ति में बिखरे हुए थे, जबकि ऑडियो डिवाइस और इस्त्री उपकरण कम बार दिखाई दिए, लेकिन उच्च संगति के साथ – पैटर्न जो सुझाव देते हैं कि मॉडल प्रॉम्प्ट में गतिविधि की तुलना में समय अवधि पर कम प्रतिक्रिया करते हैं।

एसडी3 ने अनाचारों की उच्चतम दर दिखाई, विशेष रूप से 19वीं शताब्दी और 1930 के दशक की छवियों में, इसके बाद फ्लक्स.1 और एसडीएक्सएल।

मानव निर्णय के साथ पता लगाने की विधि की तुलना करने के लिए, लेखकों ने एसडी3 (सबसे उच्च अनाचार दर वाला मॉडल) से 1,800 यादृच्छिक रूप से नमूनाकृत छवियों वाला एक उपयोगकर्ता अध्ययन चलाया, प्रत्येक छवि को तीन भीड़ कार्यकर्ताओं द्वारा रेट किया गया। विश्वसनीय प्रतिक्रियाओं को फिल्टर करने के बाद, 2,040 निर्णय 234 उपयोगकर्ताओं से शामिल किए गए थे, और विधि ने 72 प्रतिशत मामलों में बहुमत मत के साथ सहमति व्यक्त की।

рдорд╛рдирд╡ рдореВрд▓реНрдпрд╛рдВрдХрди рдЕрдзреНрдпрдпрди рдХреЗ рд▓рд┐рдП рдЬреАрдпреВрдЖрдИ, рдХрд╛рд░реНрдп рдирд┐рд░реНрджреЗрд╢, рд╕рдЯреАрдХ рдФрд░ рдЕрдирд╛рдЪрд╛рд░рд┐рдХ рдЫрд╡рд┐рдпреЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдг, рдФрд░ рдЙрддреНрдкрдиреНрди рдЖрдЙрдЯрдкреБрдЯ рдореЗрдВ рд╕рдордп-рд╕рдореНрдордд рд╡рд┐рд╕рдВрдЧрддрд┐рдпреЛрдВ рдХреА рдкрд╣рдЪрд╛рди рдХреЗ рд▓рд┐рдП рд╣рд╛рдВ-рдирд╣реАрдВ рдкреНрд░рд╢реНрди рджрд┐рдЦрд╛ рд░рд╣рд╛ рд╣реИред

मानव मूल्यांकन अध्ययन के लिए जीयूआई, कार्य निर्देश, सटीक और अनाचारिक छवियों के उदाहरण, और उत्पन्न आउटपुट में समय-सम्मत विसंगतियों की पहचान के लिए हां-नहीं प्रश्न दिखा रहा है।

जनसांख्यिकी

अंतिम विश्लेषण ने मॉडल द्वारा समय के साथ जाति और लिंग के चित्रण की जांच की। हिस्टविस डेटासेट का उपयोग करके, लेखकों ने मॉडल के आउटपुट की तुलना एक भाषा मॉडल द्वारा उत्पन्न बेसलाइन अनुमानों से की, जो एक खुरदरा अनुमान प्रदान करते हैं कि ऐतिहासिक प्लॉसिबिलिटी के लिए क्या अपेक्षित है।

मॉडल के आउटपुट की तुलना में जनसांख्यिकीय विशेषताओं को मापने के लिए, लेखकों ने एक पाइपलाइन बनाई जो मॉडल-उत्पन्न जनसांख्यिकी की तुलना जीपीटी-4ओ द्वारा उत्पन्न अनुमानों से करती है। उन्होंने पहले फेयरफेस वर्गीकारिता का उपयोग किया, जो एक रेसनेट34-आधारित उपकरण है जिसे 100,000 से अधिक छवियों पर प्रशिक्षित किया गया है, ताकि उत्पन्न आउटपुट में लिंग और जाति का पता लगाया जा सके, जिससे प्रत्येक दृश्य में चेहरों को पुरुष या महिला के रूप में वर्गीकृत करने और जातीय श्रेणियों को समय के साथ ट्रैक करने की अनुमति मिली।

рд╡рд┐рднрд┐рдиреНрди рдореЙрдбрд▓реЛрдВ, рд╕рдордп рдЕрд╡рдзрд┐рдпреЛрдВ рдФрд░ рдЧрддрд┐рд╡рд┐рдзрд┐рдпреЛрдВ рдореЗрдВ рдЬрдирд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рдЕрдзрд┐рд╢реЗрд╖ рдХреЗ рд╕рд╛рде рдЙрддреНрдкрдиреНрди рдЫрд╡рд┐рдпреЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдгред

विभिन्न मॉडलों, समय अवधियों और गतिविधियों में जनसांख्यिकीय अधिशेष के साथ उत्पन्न छवियों के उदाहरण।

निम्न-विश्वास वाले परिणामों को शोर को कम करने के लिए फिल्टर किया गया था, और भविष्यवाणियों को प्रत्येक समय और गतिविधि से जुड़ी सभी छवियों पर औसत किया गया था। फेयरफेस पढ़ाई की विश्वसनीयता की जांच करने के लिए, एक दूसरी प्रणाली डीपफेस पर आधारित थी जिसे 5,000 छवियों के नमूने पर लागू किया गया था। दो वर्गीकारिता में मजबूत समझौता था, जो अध्ययन में उपयोग की जाने वाली जनसांख्यिकीय पढ़ाई की स्थिरता का समर्थन करता था।

मॉडल के आउटपुट की तुलना में ऐतिहासिक प्लॉसिबिलिटी के लिए, लेखकों ने जीपीटी-4ओ से प्रत्येक गतिविधि और समय अवधि के लिए अपेक्षित लिंग और जाति वितरण का अनुमान लगाने के लिए कहा। ये अनुमान मार्गदर्शक सत्य के बजाय खुरदरे बेसलाइन के रूप में कार्य करते हैं। दो मीट्रिक का उपयोग किया गया था: अल्प-प्रतिनिधित्व और अधिक-प्रतिनिधित्व, जो मापते हैं कि मॉडल के आउटपुट जीपीटी-4ओ के अनुमानों से कितना विचलित होते हैं।

परिणामों से स्पष्ट पैटर्न दिखाई दिए: फ्लक्स.1 अक्सर पुरुषों को अधिक प्रतिनिधित्व करता है, यहां तक कि उन दृश्यों में भी जहां महिलाएं अपेक्षित होती हैं, जैसे कि कुकिंग; एसडी3 और एसडीएक्सएल काम, शिक्षा और धार्मिक जैसी श्रेणियों में समान रुझान दिखाते हैं; श्वेत चेहरे समग्र रूप से अपेक्षित से अधिक दिखाई देते हैं, हालांकि यह पूर्वाग्रह हाल की अवधियों में कम हो जाता है; और कुछ श्रेणियों में अप्रत्याशित रूप से गैर-श्वेत प्रतिनिधित्व में वृद्धि होती है, जो सुझाव देती है कि मॉडल का व्यवहार डेटासेट संबंधों को प्रतिबिंबित कर सकता है, न कि ऐतिहासिक संदर्भ:

рдлреНрд▓рдХреНрд╕.1 рдЖрдЙрдЯрдкреБрдЯ рдореЗрдВ рд╕рджрд┐рдпреЛрдВ рдФрд░ рдЧрддрд┐рд╡рд┐рдзрд┐рдпреЛрдВ рдореЗрдВ рд▓рд┐рдВрдЧ рдФрд░ рдЬрд╛рддреАрдп рдЕрдзрд┐рд╢реЗрд╖ рдФрд░ рдЕрд▓реНрдк-рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡, рдЬреАрдкреАрдЯреА-4рдУ рдЬрдирд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рдЕрдиреБрдорд╛рдиреЛрдВ рд╕реЗ рдкреВрд░реНрдг рдЕрдВрддрд░ рдХреЗ рд░реВрдк рдореЗрдВ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИред

फ्लक्स.1 आउटपुट में सदियों और गतिविधियों में लिंग और जातीय अधिशेष और अल्प-प्रतिनिधित्व, जीपीटी-4ओ जनसांख्यिकीय अनुमानों से पूर्ण अंतर के रूप में दिखाया गया है।

लेखक निष्कर्ष निकालते हैं:

‘हमारा विश्लेषण यह बताता है कि [टेक्स्ट-टू-इमेज/टीटीआई] मॉडल ऐतिहासिक अवधियों की सूक्ष्म समझ के बजाय सीमित शैलीगत एन्कोडिंग पर भरोसा करते हैं। प्रत्येक युग एक विशिष्ट दृश्य शैली से जुड़ा हुआ है, जिससे इतिहास का एक-आयामी चित्रण होता है।

‘विशेष रूप से, फोटोरियलिस्टिक चित्रण केवल 20वीं शताब्दी के बाद से दिखाई देते हैं, जो फ्लक्स.1 और एसडी3 में दुर्लभ अपवादों के साथ, यह सुझाव देते हुए कि मॉडल सीखे गए संबंधों पर निर्भर करते हैं और ऐतिहासिक संदर्भों के लिए लचीले ढंग से अनुकूल नहीं होते हैं, वास्तविकता की आधुनिक विशेषता को बढ़ावा देते हैं।

‘इसके अलावा, बार-बार होने वाले अनाचार सुझाव देते हैं कि ऐतिहासिक अवधियां इन मॉडलों के लेटेंट स्पेस में साफ-साफ अलग नहीं हैं, क्योंकि आधुनिक कलाकृतियां अक्सर प्री-मॉडर्न सेटिंग में दिखाई देती हैं, जो शैक्षिक और सांस्कृतिक विरासत संदर्भों में टीटीआई प्रणालियों की विश्वसनीयता को कमजोर करती है।’

निष्कर्ष

जब एक विसरण मॉडल को प्रशिक्षित किया जाता है, तो नए अवधारणाएं पूर्वनिर्धारित स्लॉट में साफ-साफ नहीं बैठती हैं। इसके बजाय, वे अपनी आवृत्ति और संबंधित विचारों के साथ उनकी निकटता द्वारा आकार दिए गए क्लस्टर बनाते हैं। परिणाम एक ढीले-ढाले ढांचे में होता है जहां अवधारणाएं साफ-साफ या सांविधानिक पृथक्करण द्वारा मौजूद नहीं होती हैं, बल्कि उनकी आवृत्ति और प्रत्याशित संदर्भ द्वारा मौजूद होती हैं।

यही कारण है कि एक 2025-गुणवत्ता वाली फोटोरियलिस्टिक छवि को 19वीं शताब्दी के चरित्र के रूप में उत्पन्न करना मुश्किल हो जाता है; अधिकांश मामलों में, मॉडल फिल्म और टेलीविजन से दृश्य रूपांकनों पर भरोसा करेगा। जब वे अनुरोध के साथ मेल नहीं खाते हैं, तो डेटा में क्षतिपूर्ति करने के लिए बहुत कम होता है। इस अंतर को पाटने के लिए भविष्य की प्रगति पर निर्भर करना होगा।

 

सोमवार, 26 मई, 2025 को पहली बार प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai