زاوية Anderson
لماذا يحب الذكاء الاصطناعي الكتابة عن حراس المنارات؟

عندما يُطلب من نموذج اللغة الكتابة قصّة، يبدو أن النماذج الرائدة تتجنب انتهاك حقوق النشر من خلال اللجوء المتكرر إلى نفس المجموعة الصغيرة والغريبة من عناصر السرد، عندما يُطلب منها ببساطة “كتابة قصّة”. بعد تحفيز أربعة نماذج لكتابة 20 ألف قصّة، وجدوا أن 88٪ من القصص التي تم إنتاجها تحتوي على واحد على الأقل من 11 رمزًا muy específicos، في فئة “موقع” أو “اسم” أو “مهنة”:
أظهرت دراسة جديدة من جامعة كورنيل أن النماذج اللغة الرائدة تظهر انحرافًا غريبًا تجاه مجموعة ضيقة من عناصر السرد، عند طلبها ببساطة “كتابة قصّة”. بعد تحفيز أربعة نماذج لكتابة 20 ألف قصّة، وجدوا أن 88٪ من القصص التي تم إنتاجها تحتوي على واحد على الأقل من 11 رمزًا muy específicos، في فئة “موقع” أو “اسم” أو “مهنة”:

تكرار الكلمات غير المحتملة، تمثيلها هنا في الملايين، تم الحصول عليها من خلال تحليل الباحثين ل 20 ألف قصّة تم إنشاؤها بواسطة النماذج اللغة. المصدر
الرموز الـ 11 الأكثر تكرارًا في الـ 12 مليون كلمة التي تم إنشاؤها بواسطة النماذج اللغة للدراسة كانت الأسماء إلياس و مارا و إлара، والمهن حارس و خباز و عمدة و صانع ساعات و صياد و أمين مكتبة و قائد، والموقع منارة:
النماذج التي تم اختبارها كانت كلود هAIك 4.5 و جيميني 3.1 فلاش-لايت و جبت-5.4-ميني و أولمو 7ب. تم تحفيز كل نموذج بخمس طلبات:
من المثير للاهتمام أن النماذج التي تم اختبارها كانت من الدرجة الأولى مقارنةً بالنسخة 5.4 التي تم اختبارها في الورقة.
على الرغم من أن كلود هAIك تم اختباره في الورقة، قمت بتحفيز كلود سونيت 4.6 افتراضيًا، و لم أكن مخيبًا:

هذا مرة أخرى ‘مارا’، وهو آخر من ‘أعلى 11’، يقود القصة، في المحاولة الأولى على كلود سونيت 4.6. المصدر
حاولت نفس التحفيز على كلود هAIك 4.5 و أدى إلى نفس النتيجة تقريبًا:
لم أتمكن من إعادة إنتاج نتائج المؤلفين في البداية على جوجل جيميني، حتى قمت بتغيير النموذج إلى الذي تم استخدامه في الورقة، جيميني 3.1 فلاش-لايت – ثم، في المحاولة الثالثة (ولكن الأولى مع هذا النموذج)، ظهر النمط على الفور:

جوجل جيميني 3.1 فلاش-لايت . المصدر
تجارب أخرى مع نماذج جيميني المختلفة أدت دائمًا إلى ظهور موضوع المنارة، مع متغيرات لم تتميز في “أعلى 11″، مثل الاسم “توماس”، وفي متغير آخر، اسمي الخاص كبطل.
على الرغم من ذلك، في وقت الكتابة، نتائج الورقة سهلة التحقق.
المنارات في البرية
عقول عظيمة تفكر على نفس المنوال: قبل أسبوع، قبل نشر الورقة الجديدة، لاحظ كاتب البرمجيات دانيال ماي التوافق بين إلياس وحراس المنارة، الذي تم استخلاصه بواسطة الباحثين، بشكل واضح في الصدفة. ثم قام باختبار ثمانية متغيرات من جيميني، ديب سيك، كوين، وجيما، والتي وجد أنها ستنتج مخلفات المنارة و “إلياس ثورن” كبطل:
من المثير للاهتمام أن هذا الاكتشاف الأولي لم يمتد إلى نطاق أوسع من السمات الثابتة المحددة في الورقة الجديدة.
بدلاً من ذلك، قمت بالبحث عن بعض الكلمات والسمات العليا على جوجل، ووجدت عددًاremarkable من المنشورات التيبدو أنها قناة هذه الكلمات والسمات:

ثلاثة أمثلة على الميم في الإخراج. انظر أدناه للروابط المصدر.
ماي قد حدد إلياس ثورن (بدلاً من إلياس فقط) ك ميم لغة متكرر، ونشر شاشات من أمازون، حيث تم استخدام هذا الاسم كعنوان لمؤلفي كتب متنوعة، بما في ذلك الكتب الطبية.
بدلاً من ذلك، قمت بالبحث عن المحتوى الذي يبدو أنه استدعى السمات الثابتة من نموذج لغة، بما في ذلك منشور إكس من قصّة (نسخة أرشيف هنا); عمل خيالي رواية (نسخة أرشيف هنا); وقصّة مع سرد على يوتيوب (مؤرشفة هنا). كان هناك الكثير للاستكشاف، لكن الوقت لم يسمح بذلك.
طعم الماضي
هكذا يكون الحال مع الملاحظة الصدفية والصدفة. بينما لم يتم العثور على وثيقة سحرية واحدة في بيانات التدريب التي تتميز بجميع أو معظم الثباتات، يفترض مؤلفو الورقة الجديدة الجديدة (التي تحمل عنوان إلياس في المنارة، مرة أخرى؟ تشخيص انخفاض التنوع في قصص النماذج اللغة، من قبل باحثين في جامعة كورنيل) أن مرشحات حقوق النشر في تطوير الذكاء الاصطناعي قد تقيد الإخراج الخيالي في النماذج اللغة إلى المواد التي خرجت من حقوق النشر.
يصر مؤلفو الدراسة على أن:
في الدراسة، وجد الباحثون أن الكلمات الـ 11 التي تم التأكيد عليها تظهر في 88٪ من القصص الـ 20 ألف التي تم إنشاؤها، وأن هناك قليل من الفرق بين النماذج.
يصر الباحثون على أن:
في الحقيقة، يظهر هذا المثال على ثلاثة عناصر مشتركة عبر معظم القصص الـ 20 ألف: موقع (19,864 قصّة)، اسم شخصي (19,864 قصّة)، ومهنة (15,807 قصّة).
في الواقع، يظهر هذا المثال على ثلاثة عناصر مشتركة عبر معظم القصص الـ 20 ألف: موقع (19,864 قصّة)، اسم شخصي (19,864 قصّة)، ومهنة (15,807 قصّة).

هذا المثال، كما يقول الباحثون، تم كتابته بواسطة جوجل جيميني 3.1 فلاش-لايت، استجابة لتحفيز ‘كتابة قصّة’.
من الجدير بالذكر أن مؤلفي الدراسة يحددون اتجاهًا حنينيًا أو أتافيستيًا عبر جميع الكلمات والسمات المستخرجة.
مطاردة السمات
为了 اختبار ما إذا كان يمكن تفسير القصص المتكررة “المنارة” من خلال التعرض العادي للخيال، تم إجراء مقارنات بين الكلمات المتكررة المفضلة للنماذج والمركبات اللغة الإنجليزية الكبيرة.
تم فحص الخيال المعاصر من خلال كونليت، وهو مجموعة بيانات يحتوي على 2,700 رواية إنجليزية نُشرت بين 2007 و 2021، تغطي 12 نوعًا ويتكون من حوالي 287 مليون كلمة.
تم العثور على أن “إلياس” يظهر حوالي 900 مرة أكثر في القصص التي تم إنشاؤها من النشر الخيالي.
نفس النمط تم الحفاظ عليه عند فحص بيانات التدريب. باستخدام مجموعة بيانات أولمو 3، التي تحتوي على حوالي 3.89 مليار وثيقة مكتوبة بشكل أساسي بواسطة الإنسان، تم العثور على أن الكلمات المتكررة “الأساسية” تظهر بشكل ضعيف.
منذ أن كانت معظم مجموعة بيانات أولمو 3 غير خيالية، تم بناء مصنف خيالي باستخدام جبت-أوإسإس 20ب والتعليمات و فاستتيكست تم تدريبه على 200,000 عينة متوازنة. حتى بعد تصفية محتوى خيالي بشكل خاص، كلمات مثل “إлара” لا تزال تظهر بمعدلات زهيدة مقارنة بالقصص التي تم إنشاؤها بواسطة الذكاء الاصطناعي.
يصر الباحثون على أن:
لتحديد مكان القصص “الأساسية” المتكررة، تم تسجيل كل قصّة في بيانات التدريب لولمو 3 لوجود واحد أو أكثر من الرموز “الأساسية” (أي، وجود إлара، مارا، إلخ.).
ومع ذلك، كان فقط 1,803 تحتوي على سمات “الأساسية”، في حين أظهرت مجموعات البيانات المستخدمة لـ ديبو و تعلم التعزيز تراكيز أعلى.
بشكل عام، تم تتبع المفردات المتكررة “الأساسية” إلى 3,053 قصّة فقط، تمثل 3.8٪ من جميع قصص التدريب التي تم فحصها. لا يوجد إمكانية إحصائية لمثل هذا الجزء الصغير من المجموعة ليتحكم في السيطرة على النحو المبين.
يختتم الباحثون:
عندما يُمنح النماذج القليلة التوجيه، يكتب النماذج الحدودية قصصًا باستخدام كتالوج ضيق من الأسماء والأماكن والمهن. تكرر الشخصيات في هذه القصص تشمل إلياس، حارس منارة. إلياس غير عادي؛ الاسم نادر في الأدب، بيانات الويب، وحتى بيانات التدريب.
الخاتمة
في غياب أي عمل أدبي واحد (أو حتى سلسلة) يحتوي على الكلمات العليا الـ 11 التي يحددها المؤلفون، لا يزال غير واضح تمامًا بالوسيلة التي جمعت هذه المجموعة من الكلمات وارتبطت في أدنى مستويات النماذج اللغة الكبيرة (على الرغم من تنوع بيانات التدريب والمناهج).
حتى لو كان ισχين الباحثين حول تأثير مرشحات حقوق النشر صحيحًا، فإن محيطًا من الأدب الكلاسيكي في بيانات التدريب يجب أن يكون قد منع هذه المجموعة الغريبة من الكلمات القديمة من السيطرة على إخراج نموذج غير مؤهل “كتابة” بسيط.
ذلك يفترض، مع ذلك، أن كميات هائلة من الأدب الكلاسيكي تمت إضافتها إلى نظام التدريب في جميع الأحوال. هذا غير محتمل، لأن ما يُريده النماذج هو ليس تلك التي ستنسخ قصص ديكنز الزائفة، ولكن تلك التي تتعامل مع المुहج اللغة الحديثة، وتلبي الاحتياجات التجارية الحديثة. حجم الأدب ما قبل الصناعي وحده سوف يحول دون إضافته.
في أي حال، إذا كان هناك سردًا متميزًا يحتوي على مزيج متبادل من الجوانب “المتشددة” التي يلاحظها المؤلفون، فمن المفترض أن يكون من السهل العثور عليه؛ المؤلفون أنفسهم لم يتمكنوا من العثور عليه، والبحث العرضي في عصر ما قبل الذكاء الاصطناعي لا يظهر أي منافس.
ربما، إذا اكتسبت “متلازمة المنارة” نفس الشهرة مثل شرطات الذكاء الاصطناعي، فإن بعض السلطة العلمية سوف تتقدم بالجواب.
* لا أستطيع أن أذهب إلى أبعد من مقال ماي، لأسباب قد تصبح واضحة عند قراءة المقال.
نُشر لأول مرة يوم الأربعاء، 27 مايو 2026. تم تعديله في أول 30 دقيقة لتصحيح الرابط إلى أنثروبيك.












