Anderson का एंगल

आईफ़ोन को पुराने युग में चित्रित करने से एआई को रोकने के लिए कैसे

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

एआई इमेज जनरेटर पिछले समय को कैसे चित्रित करते हैं? नए शोध से पता चलता है कि वे 18वीं शताब्दी में स्मार्टफ़ोन ड्रॉप करते हैं, 1930 के दशक के दृश्यों में लैपटॉप डालते हैं, और 19वीं शताब्दी के घरों में वैक्यूम क्लीनर रखते हैं, जो इस बारे में प्रश्न उठाते हैं कि ये मॉडल इतिहास की कल्पना कैसे करते हैं – और क्या वे संदर्भित ऐतिहासिक सटीकता के लिए सक्षम हैं या नहीं।

2024 की शुरुआत में, गूगल के जेमिनी मल्टीमॉडल एआई मॉडल की छवि-पीढ़ी क्षमताएं आलोचना के तहत आईं क्योंकि उन्होंने उपयुक्त संदर्भों में जनसांख्यिकीय न्याय लागू किया, जैसे कि द्वितीय विश्व युद्ध के जर्मन सैनिकों को असंभावित प्रोवेनेंस के साथ उत्पन्न करना:

जेमिनी मल्टीमॉडल मॉडल द्वारा 2024 में कल्पना किए गए जनसांख्यिकीय रूप से असंभावित जर्मन सैन्य कर्मी। स्रोत: जेमिनी एआई/गूगल वाया द गार्जियन

यह एक उदाहरण था जहां एआई मॉडल में पूर्वाग्रह को दूर करने के प्रयासों ने ऐतिहासिक संदर्भ का ध्यान नहीं रखा। इस मामले में, मुद्दे को जल्द ही हल कर लिया गया था। हालांकि, विसरण-आधारित मॉडल अभी भी ऐतिहासिक और आधुनिक पहलुओं और कलाकृतियों को भ्रमित करने वाले इतिहास के संस्करण उत्पन्न करने के लिए प्रवण रहते हैं।

यह आंशिक रूप से जुड़ाव के कारण है, जहां प्रशिक्षण डेटा में बार-बार दिखाई देने वाली गुणों को मॉडल के आउटपुट में जोड़ दिया जाता है। उदाहरण के लिए, यदि आधुनिक वस्तुएं जैसे स्मार्टफोन अक्सर डेटासेट में बातचीत या सुनने के कार्य के साथ सह-उद्भव करती हैं, तो मॉडल उन गतिविधियों को आधुनिक उपकरणों के साथ जोड़ना सीख सकता है, यहां तक कि जब प्रॉम्प्ट एक ऐतिहासिक सेटिंग निर्दिष्ट करता है। एक बार जब ये संबंध मॉडल के आंतरिक प्रतिनिधित्व में निहित हो जाते हैं, तो गतिविधि को उसके समकालीन संदर्भ से अलग करना मुश्किल हो जाता है, जिससे ऐतिहासिक रूप से असटीक परिणाम होते हैं।

स्विट्जरलैंड से एक नए शोध पत्र में, लेटेंट डिफ्यूजन मॉडल में ऐतिहासिक पीढ़ियों के जुड़ाव की घटना की जांच की जा रही है, यह देखा गया है कि एआई फ्रेमवर्क जो फोटोरियलिस्टिक लोगों का निर्माण करने में काफी सक्षम हैं, फिर भी ऐतिहासिक तरीके से ऐतिहासिक व्यक्तियों को चित्रित करना पसंद करते हैं:

नए पत्र से, एलडीएम के माध्यम से विविध प्रतिनिधित्व ‘[एक ऐतिहासिक अवधि में एक मित्र के साथ हंसते हुए एक व्यक्ति का एक फोटोरियलिस्टिक छवि]’ प्रॉम्प्ट, प्रत्येक आउटपुट में प्रत्येक अवधि के संकेत के साथ। जैसा कि हम देख सकते हैं, युग का माध्यम सामग्री से जुड़ गया है। स्रोत: https://arxiv.org/pdf/2505.17064

‘एक ऐतिहासिक अवधि में एक मित्र के साथ हंसते हुए एक व्यक्ति का एक फोटोरियलिस्टिक छवि‘ प्रॉम्प्ट के लिए, तीन परीक्षण किए गए मॉडलों में से एक अक्सर नकारात्मक प्रॉम्प्ट ‘मोनोक्रोम‘ को अनदेखा करता है और इसके बजाय युग की दृश्य मीडिया की विशिष्ट शैलियों का उपयोग करता है, जैसे कि 1950 और 1970 के दशक से सेल्युलाइड फिल्म के म्यूट टोन की नकल करना।

परीक्षण में, उन्होंने पाया कि मॉडल अनाचार (चीजें जो लक्ष्य अवधि की नहीं हैं, या ‘समय से बाहर’ – जो लक्ष्य अवधि के भविष्य के साथ-साथ इसके अतीत से भी हो सकती हैं) को बनाने की क्षमता के लिए तीन मॉडलों का परीक्षण किया:

विभिन्न गतिविधियाँ जो पिछली शताब्दियों के लिए पूरी तरह से वैध हैं, वर्तमान या हाल की प्रौद्योगिकी और परिधान के साथ चित्रित की जाती हैं, अनुरोधित छवियों की भावना के विरुद्ध।

यह ध्यान देने योग्य है कि स्मार्टफोन को फोटोग्राफी के मुहावरे और कई अन्य ऐतिहासिक संदर्भों से अलग करना विशेष रूप से कठिन है, क्योंकि उनका प्रसार और चित्रण प्रभावशाली हाइपरस्केल डेटासेट जैसे कॉमन क्रॉल में अच्छी तरह से प्रतिनिधित्व किया जाता है:

फ्लक्स जनरेटिव टेक्स्ट-टू-इमेज मॉडल में, संचार और स्मार्टफोन जुड़े हुए अवधारणाएं हैं – भले ही ऐतिहासिक संदर्भ इसकी अनुमति न दे।

समस्या की सीमा को निर्धारित करने के लिए, और इस विशिष्ट बगबियर के साथ भविष्य के शोध प्रयासों को आगे बढ़ाने के लिए, नए पत्र के लेखकों ने एक विशेष डेटासेट विकसित किया है जिसके खिलाफ जनरेटिव सिस्टम का परीक्षण किया जा सकता है। एक पल में, हम इस नए कार्य पर एक नज़र डालेंगे, जिसका शीर्षक सिंथेटिक इतिहास: लेटेंट डिफ्यूजन मॉडल में अतीत के दृश्य प्रतिनिधित्व का मूल्यांकन है, और जो ज्यूरिख विश्वविद्यालय के दो शोधकर्ताओं से आता है। डेटासेट और कोड सार्वजनिक रूप से उपलब्ध हैं।

एक नाजुक ‘सत्य’

कुछ विषय जो पत्र में छूते हैं, सांस्कृतिक रूप से संवेदनशील मुद्दों पर हैं, जैसे कि ऐतिहासिक प्रतिनिधित्व में जातियों और लिंग का कम प्रतिनिधित्व। जबकि जेमिनी का तीसरे रैह में नस्लीय समानता लागू करना एक अत्यधिक और अपमानजनक ऐतिहासिक संशोधन है, पारंपरिक नस्लीय प्रतिनिधित्व को बहाल करना (जहां विसरण मॉडल उन्हें ‘अद्यतन’ करते हैं) अक्सर इतिहास को ‘पुनः-श्वेत’ करने का प्रभाव डालेगा।

हाल के कई हिट ऐतिहासिक शो, जैसे ब्रिजर्टन, ऐतिहासिक जनसांख्यिकीय सटीकता को उन तरीकों से धुंधला करते हैं जो भविष्य के प्रशिक्षण डेटासेट को प्रभावित करने की संभावना है, जो एलएलएम-जनित अवधि छवियों को पारंपरिक मानकों के साथ संरेखित करने के प्रयासों को जटिल बनाते हैं। हालांकि, यह एक जटिल विषय है, दी गई पश्चिमी इतिहास की प्रवृत्ति को देखते हुए श्वेतता को पसंद करने और इतनी सारी ‘कम’ कहानियों को अनकहा छोड़ने के लिए।

इन जटिल और बदलते सांस्कृतिक पैरामीटर को ध्यान में रखते हुए, आइए शोधकर्ताओं के नए दृष्टिकोण पर एक नज़र डालें।

विधि और परीक्षण

जनरेटिव मॉडल ऐतिहासिक संदर्भ का व्याख्या कैसे करते हैं, यह जानने के लिए, लेखकों ने हिस्टविस नामक एक डेटासेट बनाया, जिसमें 30,000 छवियां शामिल हैं जो सामान्य मानवीय गतिविधियों को दर्शाती हैं, प्रत्येक को दस अलग-अलग समय अवधि में प्रस्तुत किया जाता है:

हिस्टविस डेटासेट का एक नमूना, जिसे लेखकों ने हगिंग फेस पर उपलब्ध कराया है। स्रोत: https://huggingface.co/datasets/latentcanon/HistVis

गतिविधियों, जैसे कि कुकिंग, प्रार्थना या संगीत सुनना, को उनकी सार्वभौमिकता के लिए चुना गया था, और तटस्थ प्रारूप में वाक्यांशित किया गया था ताकि मॉडल को किसी विशिष्ट सौंदर्यशास्त्र में न लाया जा सके। समय अवधि डेटासेट के लिए सत्रहवीं शताब्दी से वर्तमान तक है, बीसवीं शताब्दी के पांच व्यक्तिगत दशकों पर अतिरिक्त ध्यान केंद्रित किया गया है।

30,000 छवियां तीन व्यापक रूप से उपयोग किए जाने वाले ओपन-सोर्स विसरण मॉडल का उपयोग करके उत्पन्न की गईं: स्टेबल डिफ्यूजन एक्सएल; स्टेबल डिफ्यूजन 3; और फ्लक्स.1। समय अवधि को एकमात्र परिवर्तनीय के रूप में अलग करके, शोधकर्ताओं ने इन प्रणालियों द्वारा ऐतिहासिक संकेतों के दृश्य रूप से कैसे व्याख्या की जाती है, इसका मूल्यांकन करने के लिए एक संरचित आधार बनाया।

दृश्य शैली प्रभुत्व

लेखक ने पहले यह जांचा कि क्या जनरेटिव मॉडल विशिष्ट दृश्य शैलियों को ऐतिहासिक अवधियों के चित्रण में डिफ़ॉल्ट करते हैं; क्योंकि ऐसा लगता था कि भले ही प्रॉम्प्ट में माध्यम या सौंदर्यशास्त्र का उल्लेख नहीं किया गया था, मॉडल अक्सर विशिष्ट शताब्दियों को विशिष्ट शैलियों से जोड़ते थे:

प्रॉम्प्ट ‘एक व्यक्ति [ऐतिहासिक अवधि] में एक अन्य व्यक्ति के साथ नृत्य करते हुए’ (बाएं) और संशोधित प्रॉम्प्ट ‘एक व्यक्ति [ऐतिहासिक अवधि] में एक अन्य व्यक्ति के साथ नृत्य करते हुए का एक फोटोरियलिस्टिक छवि’ के लिए अनुमानित दृश्य शैलियां, ‘मोनोक्रोम छवि’ के साथ एक नकारात्मक प्रॉम्प्ट के रूप में निर्धारित किया गया।

इस प्रवृत्ति को मापने के लिए, लेखकों ने एक कनवोल्यूशनल न्यूरल नेटवर्क (सीएनएन) को प्रशिक्षित किया ताकि हिस्टविस डेटासेट में प्रत्येक छवि को पांच श्रेणियों में से एक में वर्गीकृत किया जा सके: ड्रॉइंग; एंग्रेविंग; चित्रण; पेंटिंग; या फोटोग्राफी। ये श्रेणियां समय अवधि के प्रति संरचित तुलना का समर्थन करने के लिए सामान्य पैटर्न को प्रतिबिंबित करने के लिए डिज़ाइन की गई थीं।

वर्गीकारिता वीजीजी16 मॉडल पर आधारित थी, जिसे इमेजनेट पर पूर्व-प्रशिक्षित किया गया था और फाइन-ट्यून किया गया था 1,500 उदाहरणों के साथ प्रति वर्ग से विकीआर्ट-व्युत्पन्न डेटासेट से। चूंकि विकीआर्ट मोनोक्रोम और रंगीन फोटोग्राफी के बीच अंतर नहीं करता है, एक अलग रंगीनता स्कोर का उपयोग कम-संतृप्त छवियों को मोनोक्रोम के रूप में लेबल करने के लिए किया गया था।

प्रशिक्षित वर्गीकारिता को तब पूरे डेटासेट पर लागू किया गया, जिसके परिणाम यह दिखाते हुए कि तीनों मॉडल समय अवधि के अनुसार सुसंगत दृश्य शैली डिफ़ॉल्ट लागू करते हैं:

प्रत्येक अवधि के लिए प्रत्येक विसरण मॉडल के लिए 1,000 नमूनों प्रति अवधि प्रति मॉडल के आधार पर ऐतिहासिक अवधियों में उत्पन्न छवियों की अनुमानित दृश्य शैलियां।

प्रत्येक मॉडल और समय अवधि के लिए, लेखकों ने एक मीट्रिक विकसित की जिसे वे दृश्य शैली प्रभुत्व (वीएसडी) कहते हैं। वीएसडी को मॉडल के आउटपुट में सबसे आम शैली साझा करने वाली छवियों के अनुपात के रूप में परिभाषित किया जाता है:

मॉडलों में शैलीगत पूर्वाग्रहों के उदाहरण।

एक उच्च स्कोर यह दर्शाता है कि एक ही शैली उस अवधि के लिए मॉडल के आउटपुट में प्रमुख है, जबकि एक निम्न स्कोर अधिक विविधता को इंगित करता है। यह प्रत्येक मॉडल की तुलना करने की अनुमति देता है कि वे समय के साथ विशिष्ट शैलीगत सम्मेलनों से कितनी दृढ़ता से चिपके रहते हैं।

हिस्टविस डेटासेट पर लागू किए गए वीएसडी मीट्रिक से पता चलता है कि प्रत्येक मॉडल के लिए विभिन्न स्तर की अभिसरण है:

परिणाम टेबल ऊपर दिखाता है कि वीएसडी स्कोर प्रत्येक मॉडल के लिए ऐतिहासिक अवधियों में। 17वीं और 18वीं शताब्दी में, एसडीएक्सएल अक्सर उत्कीर्णन का उत्पादन करता है जिसमें उच्च संगति होती है, जबकि एसडी3 और फ्लक्स.1 चित्रकला की ओर झुकते हैं। 20वीं और 21वीं शताब्दी के दशकों में, एसडी3 मोनोक्रोम फोटोग्राफी की ओर झुकता है, जबकि एसडीएक्सएल अक्सर आधुनिक चित्रण का उपयोग करता है।

इन प्राथमिकताओं को प्रॉम्प्ट समायोजन के बावजूद बनाए रखा गया था, जिससे यह संकेत मिलता है कि मॉडल शैली और ऐतिहासिक संदर्भ के बीच गहरे संबंधों को एन्कोड करते हैं।

प्रॉम्प्ट इंजीनियरिंग का उपयोग करके, लेखकों ने कुछ मामलों में प्रभुत्व स्कोर को कम करने और प्रमुख शैली को बदलने का प्रयास किया, जैसे कि 17वीं और 18वीं शताब्दी में चित्रकला की ओर से मोनोक्रोम से। हालांकि, ये हस्तक्षेप शायद ही कभी वास्तव में फोटोरियलिस्टिक छवियों का उत्पादन करते थे, जिससे यह संकेत मिलता है कि मॉडल की शैलीगत डिफ़ॉल्ट गहराई से निहित हैं।

ऐतिहासिक संगति

अगली पंक्ति का विश्लेषण ऐतिहासिक संगति पर केंद्रित था: क्या उत्पन्न छवियों में ऐसी वस्तुएं शामिल थीं जो समय अवधि के अनुरूप नहीं थीं। इसके बजाय एक निश्चित सूची का उपयोग करने के लिए, लेखकों ने एक लचीला तरीका विकसित किया जो बड़े भाषा मॉडल (एलएलएम) और दृश्य-भाषा मॉडल (वीएलएम) का लाभ उठाता है ताकि उन तत्वों का पता लगाया जा सके जो ऐतिहासिक संदर्भ के लिए उपयुक्त प्रतीत नहीं होते हैं:

दो-चरणीय पता लगाने की विधि द्वारा फ्लैग की गई उत्पन्न छवियों के उदाहरण, जो समय-सम्मत तत्वों को दिखाते हैं: 18वीं शताब्दी में हेडफ़ोन; 19वीं शताब्दी में वैक्यूम क्लीनर; 1930 के दशक में लैपटॉप; और 1950 के दशक में स्मार्टफ़ोन।

ऐतिहासिक रूप से असंगत सामग्री की आवृत्ति को मापने के लिए, लेखकों ने एक सरल विधि पेश की जो आवृत्ति और गंभीरता को स्कोर करती है। सबसे पहले, उन्होंने मामूली शब्दांकन अंतरों के लिए खाता बनाया जो एक ही वस्तु का वर्णन करते थे।

उदाहरण के लिए, आधुनिक ऑडियो डिवाइस और डिजिटल ऑडियो डिवाइस को समान माना जाता था। डबल-गिनती से बचने के लिए, एक फज़ी मैचिंग सिस्टम का उपयोग किया गया था ताकि इन सतह-स्तर के भिन्नताओं को समूहित किया जा सके जो वास्तव में अलग-अलग अवधारणाओं को प्रभावित नहीं करते थे।

एक बार जब सभी प्रस्तावित अनाचारों को सामान्यीकृत किया गया, तो दो मीट्रिक गणना की गईं: आवृत्ति ने मापा कि एक विशिष्ट वस्तु कितनी बार एक विशिष्ट समय अवधि और मॉडल में दिखाई देती है; और गंभीरता ने मापा कि कितनी बार वह वस्तु एक बार सुझाव दिए जाने पर दिखाई देती है।

यदि एक आधुनिक फोन को दस बार फ्लैग किया गया था और यह दस उत्पन्न छवियों में दिखाई दिया था, तो यह 1.0 की गंभीरता स्कोर प्राप्त करता था। यदि यह केवल पांच में दिखाई दिया था, तो गंभीरता स्कोर 0.5 था। ये स्कोर यह पहचानने में मदद करते हैं कि क्या अनाचार होते हैं और मॉडल के आउटपुट में प्रत्येक अवधि के लिए वे कितनी दृढ़ता से निहित हैं:

प्रत्येक मॉडल के लिए शीर्ष पंद्रह अनाचारिक तत्व, आवृत्ति के x- अक्ष और गंभीरता के y- अक्ष पर प्लॉट किए गए। वृत्त आवृत्ति द्वारा शीर्ष पंद्रह में रैंक वाले तत्वों को चिह्नित करते हैं, त्रिभुज गंभीरता द्वारा, और हीरे दोनों द्वारा।

ऊपर हम प्रत्येक मॉडल के लिए शीर्ष पंद्रह अनाचारों को देखते हैं, जो आवृत्ति और गंभीरता दोनों द्वारा रैंक किए जाते हैं।

कपड़े आवृत्ति में बिखरे हुए थे, जबकि ऑडियो डिवाइस और इस्त्री उपकरण कम बार दिखाई दिए, लेकिन उच्च संगति के साथ – पैटर्न जो सुझाव देते हैं कि मॉडल प्रॉम्प्ट में गतिविधि की तुलना में समय अवधि पर कम प्रतिक्रिया करते हैं।

एसडी3 ने अनाचारों की उच्चतम दर दिखाई, विशेष रूप से 19वीं शताब्दी और 1930 के दशक की छवियों में, इसके बाद फ्लक्स.1 और एसडीएक्सएल।

मानव निर्णय के साथ पता लगाने की विधि की तुलना करने के लिए, लेखकों ने एसडी3 (सबसे उच्च अनाचार दर वाला मॉडल) से 1,800 यादृच्छिक रूप से नमूनाकृत छवियों वाला एक उपयोगकर्ता अध्ययन चलाया, प्रत्येक छवि को तीन भीड़ कार्यकर्ताओं द्वारा रेट किया गया। विश्वसनीय प्रतिक्रियाओं को फिल्टर करने के बाद, 2,040 निर्णय 234 उपयोगकर्ताओं से शामिल किए गए थे, और विधि ने 72 प्रतिशत मामलों में बहुमत मत के साथ सहमति व्यक्त की।

मानव मूल्यांकन अध्ययन के लिए जीयूआई, कार्य निर्देश, सटीक और अनाचारिक छवियों के उदाहरण, और उत्पन्न आउटपुट में समय-सम्मत विसंगतियों की पहचान के लिए हां-नहीं प्रश्न दिखा रहा है।

जनसांख्यिकी

अंतिम विश्लेषण ने मॉडल द्वारा समय के साथ जाति और लिंग के चित्रण की जांच की। हिस्टविस डेटासेट का उपयोग करके, लेखकों ने मॉडल के आउटपुट की तुलना एक भाषा मॉडल द्वारा उत्पन्न बेसलाइन अनुमानों से की, जो एक खुरदरा अनुमान प्रदान करते हैं कि ऐतिहासिक प्लॉसिबिलिटी के लिए क्या अपेक्षित है।

मॉडल के आउटपुट की तुलना में जनसांख्यिकीय विशेषताओं को मापने के लिए, लेखकों ने एक पाइपलाइन बनाई जो मॉडल-उत्पन्न जनसांख्यिकी की तुलना जीपीटी-4ओ द्वारा उत्पन्न अनुमानों से करती है। उन्होंने पहले फेयरफेस वर्गीकारिता का उपयोग किया, जो एक रेसनेट34-आधारित उपकरण है जिसे 100,000 से अधिक छवियों पर प्रशिक्षित किया गया है, ताकि उत्पन्न आउटपुट में लिंग और जाति का पता लगाया जा सके, जिससे प्रत्येक दृश्य में चेहरों को पुरुष या महिला के रूप में वर्गीकृत करने और जातीय श्रेणियों को समय के साथ ट्रैक करने की अनुमति मिली।

विभिन्न मॉडलों, समय अवधियों और गतिविधियों में जनसांख्यिकीय अधिशेष के साथ उत्पन्न छवियों के उदाहरण।

निम्न-विश्वास वाले परिणामों को शोर को कम करने के लिए फिल्टर किया गया था, और भविष्यवाणियों को प्रत्येक समय और गतिविधि से जुड़ी सभी छवियों पर औसत किया गया था। फेयरफेस पढ़ाई की विश्वसनीयता की जांच करने के लिए, एक दूसरी प्रणाली डीपफेस पर आधारित थी जिसे 5,000 छवियों के नमूने पर लागू किया गया था। दो वर्गीकारिता में मजबूत समझौता था, जो अध्ययन में उपयोग की जाने वाली जनसांख्यिकीय पढ़ाई की स्थिरता का समर्थन करता था।

मॉडल के आउटपुट की तुलना में ऐतिहासिक प्लॉसिबिलिटी के लिए, लेखकों ने जीपीटी-4ओ से प्रत्येक गतिविधि और समय अवधि के लिए अपेक्षित लिंग और जाति वितरण का अनुमान लगाने के लिए कहा। ये अनुमान मार्गदर्शक सत्य के बजाय खुरदरे बेसलाइन के रूप में कार्य करते हैं। दो मीट्रिक का उपयोग किया गया था: अल्प-प्रतिनिधित्व और अधिक-प्रतिनिधित्व, जो मापते हैं कि मॉडल के आउटपुट जीपीटी-4ओ के अनुमानों से कितना विचलित होते हैं।

परिणामों से स्पष्ट पैटर्न दिखाई दिए: फ्लक्स.1 अक्सर पुरुषों को अधिक प्रतिनिधित्व करता है, यहां तक कि उन दृश्यों में भी जहां महिलाएं अपेक्षित होती हैं, जैसे कि कुकिंग; एसडी3 और एसडीएक्सएल काम, शिक्षा और धार्मिक जैसी श्रेणियों में समान रुझान दिखाते हैं; श्वेत चेहरे समग्र रूप से अपेक्षित से अधिक दिखाई देते हैं, हालांकि यह पूर्वाग्रह हाल की अवधियों में कम हो जाता है; और कुछ श्रेणियों में अप्रत्याशित रूप से गैर-श्वेत प्रतिनिधित्व में वृद्धि होती है, जो सुझाव देती है कि मॉडल का व्यवहार डेटासेट संबंधों को प्रतिबिंबित कर सकता है, न कि ऐतिहासिक संदर्भ:

फ्लक्स.1 आउटपुट में सदियों और गतिविधियों में लिंग और जातीय अधिशेष और अल्प-प्रतिनिधित्व, जीपीटी-4ओ जनसांख्यिकीय अनुमानों से पूर्ण अंतर के रूप में दिखाया गया है।

लेखक निष्कर्ष निकालते हैं:

‘हमारा विश्लेषण यह बताता है कि [टेक्स्ट-टू-इमेज/टीटीआई] मॉडल ऐतिहासिक अवधियों की सूक्ष्म समझ के बजाय सीमित शैलीगत एन्कोडिंग पर भरोसा करते हैं। प्रत्येक युग एक विशिष्ट दृश्य शैली से जुड़ा हुआ है, जिससे इतिहास का एक-आयामी चित्रण होता है।

‘विशेष रूप से, फोटोरियलिस्टिक चित्रण केवल 20वीं शताब्दी के बाद से दिखाई देते हैं, जो फ्लक्स.1 और एसडी3 में दुर्लभ अपवादों के साथ, यह सुझाव देते हुए कि मॉडल सीखे गए संबंधों पर निर्भर करते हैं और ऐतिहासिक संदर्भों के लिए लचीले ढंग से अनुकूल नहीं होते हैं, वास्तविकता की आधुनिक विशेषता को बढ़ावा देते हैं।

‘इसके अलावा, बार-बार होने वाले अनाचार सुझाव देते हैं कि ऐतिहासिक अवधियां इन मॉडलों के लेटेंट स्पेस में साफ-साफ अलग नहीं हैं, क्योंकि आधुनिक कलाकृतियां अक्सर प्री-मॉडर्न सेटिंग में दिखाई देती हैं, जो शैक्षिक और सांस्कृतिक विरासत संदर्भों में टीटीआई प्रणालियों की विश्वसनीयता को कमजोर करती है।’

निष्कर्ष

जब एक विसरण मॉडल को प्रशिक्षित किया जाता है, तो नए अवधारणाएं पूर्वनिर्धारित स्लॉट में साफ-साफ नहीं बैठती हैं। इसके बजाय, वे अपनी आवृत्ति और संबंधित विचारों के साथ उनकी निकटता द्वारा आकार दिए गए क्लस्टर बनाते हैं। परिणाम एक ढीले-ढाले ढांचे में होता है जहां अवधारणाएं साफ-साफ या सांविधानिक पृथक्करण द्वारा मौजूद नहीं होती हैं, बल्कि उनकी आवृत्ति और प्रत्याशित संदर्भ द्वारा मौजूद होती हैं।

यही कारण है कि एक 2025-गुणवत्ता वाली फोटोरियलिस्टिक छवि को 19वीं शताब्दी के चरित्र के रूप में उत्पन्न करना मुश्किल हो जाता है; अधिकांश मामलों में, मॉडल फिल्म और टेलीविजन से दृश्य रूपांकनों पर भरोसा करेगा। जब वे अनुरोध के साथ मेल नहीं खाते हैं, तो डेटा में क्षतिपूर्ति करने के लिए बहुत कम होता है। इस अंतर को पाटने के लिए भविष्य की प्रगति पर निर्भर करना होगा।

सोमवार, 26 मई, 2025 को पहली बार प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai