زاوية Anderson
تعليم الذكاء الاصطناعي الناسي لتذكر الأفكار لفترات أطول

غالبًا ما لا يستطيع نماذج اللغة تذكر بداية المحادثة. يمكن أن يغير ذلك أسلوب جديد في ضغط النص، ويمكن أن يجعل جلسات المحادثة مع الذكاء الاصطناعي أقل إحباطًا.
نظم الذكاء الاصطناعي للمحادثة مثل ChatGPT غالبًا يفقد السيطرة على الأجزاء السابقة من المحادثة، ويتكرر، أو يعطي إجابات تتجاهل القواعد المتفق عليها مسبقًا.
هذا لأن نماذج اللغة الكبيرة (LLMs) لها القدرة المحدودة على التركيز، والمحددة بـ نافذة السياق من الانتباه – مثل مصباح يمكن أن يضيء فقط ما يهدف إليه مباشرة، وعدد قليل من الكائنات المجاورة.
إصلاح هذه الميول “الناسية”، التي تُعزى إلى هذه القيود على الانتباه، هو واحد من أهم اتجاهات البحث في نماذج الذكاء الاصطناعي القائمة على اللغة – ليس أقلها لأن هذا المرض يحد بشكل كبير من إمكانية وجود محادثات متعددة الدورات مفيدة ومتسقة، ويحد من فائدة نماذج LLM في مجموعة متنوعة من السياقات الحساسة الدقة، مثل الطب والقانون.
الضغط
البحث الجديد من الصين† يقترح أسلوبًا جديدًا لجعل كمية كبيرة من النص تتناسب مع الموارد المحدودة لمعالج الرسومات الذي يعمل بنموذج الذكاء الاصطناعي – مع نتائج تحقق تحسينًا في الضغط بنسبة 20 مرة مع الحفاظ على دقة 98٪:

يُعادة بناء الضغط الكاسكادي للسياق وثائق طويلة بدقة أكبر من أساليب الضغط البصري مثل DeepSeek-OCR، حتى عند تقليل الإدخال بمقدار أربعين مرة. عبر مجموعة من أطوال المستندات وإعدادات الضغط، يحافظ الأسلوب الجديد على الإيمانية القريبة من الكمال، بينما يتراجع النهج البصري بشكل حاد تحت الضغط الأعلى. المصدر
بدقة 93٪ – وهو ضمن المعايير القابلة للعمل – يمكن للضغط النصي تحقيق نسبة ضغط 40 مرة:

ثلاثة نهج للضغط النصي الطويل لإدخال نموذج اللغة: الأسلوب الأساسي (اليسار) يُشفر النص مباشرة، مما يields عدد كبير من الرموز؛ الطريق البصري (المركز) يُحول النص إلى صورة ويستخرج التضمينات البصرية باستخدام معول رؤية، ويحقق ضغطًا بنسبة 10 مرات؛ وأسلوب C3 الجديد (اليمين) يستخدم نموذجًا لغويًا صغيرًا لضغط النص إلى 32 رمزًا كامنًا فقط، ويحصل على ضغط بنسبة 40 مرة بدون الاعتماد على الترميزات البصرية.
هذا يعني أن جزءًا كاملاً من محادثة طويلة جدًا يمكن ضغطه وإعادة حقنه (تحديثه) في الفترات الزمنية في التبادلات كسياق خلفي للمعلومات، لاحقًا في المحادثة – عندما سينسى نموذج LLM حقائق سابقة ويتحرك نحو سلوك “ناسي”.
على الرغم من أن هذا هو أسلوب ضغط خاسر، حتى الطريقة التي تحدث فيها الخسارة مفيدة: تحت الأسلوب الجديد، تتراجع الذاكرة في نهاية الجملة، وليس بشكل متساوٍ في جميع أنحاء، كما هو الحال مع هياكل DeepSeek-OCR التي ألهمت النهج الجديد؛ في الواقع، يقترح الباحثون وراء الورقة الجديدة أن أسلوبهم يتراجع بنفس الطريقة التي تفعلها الذاكرة البشرية، وليس بشكل عشوائي:

أعلى، تتراجع الذاكرة البشرية في نهاية تدفق البيانات؛ منتصف: يتراجع DeepSeek-OCR بشكل عشوائي، تاركًا لا معالم يمكن أن تساعد في إصلاح القضية؛ أسفل: الأسلوب الجديد يتراجع بنفس الطريقة التي تفعلها الذاكرة البشرية، نحو انتهاء تدفق البيانات، ويوفر معالم يمكن أن تساعد في تحسين الدقة من خلال المعالجة اللاحقة.
هذا يعني أن يمكن توقع أين قد تكون البيانات المذاكرة أقل موثوقية، ويمكن استخدام هذه المعرفة لمعالجة المشكلة – مما قد يوفر تحسينًا كبيرًا في استدعاء المحادثة والترابط، مع دقة 100٪ بعد العلاج.
الأسلوب الجديد يسمى ضغط السياق الكاسكادي (C3)، ويستوحى من الطريقة التي يضغط بها DeepSeek-OCR النص كصور، ويحقق مستويات ضغط كبيرة. ومع ذلك، من خلال استخدام نموذجين لغويين (متوسط و كبير) لضغط النص الطويل مباشرة إلى التضمينات الكامنة، يلغي الأسلوب الجديد العائق الناجم عن استخدام الصور النقطية، وبالتالي يحقق أداءً محسّنًا.
تنص الورقة على:
‘يمكن أن يُعزى الأداء الأفضل لـ C3 إلى تصميمه الهندسي الأساسي. يفترض تحليل DeepSeek-OCR أن انخفاض أدائه يعود إلى عوامل مثل “التنسيق المعقد” و “التصوير المتداخل عند الدقة الأقل” – قيودًا متأصلة في المسار البصري.’
‘منظورنا C3، من خلال العمل مباشرة في المجال النصي، هو منيع تمامًا لهذه العيوب في المجال البصري. إنه يتجنب فقدان المعلومات المرتبط بالتخلي عن النص إلى بيكسلات ثم ترميز تلك البيكسلات. بدلاً من ذلك، إنه يستفيد من فهم семантиي قوي لنموذج LLM المُدرّب مسبقًا لاستخراج المعلومات النصية مباشرة إلى تمثيل كامن فعال.’
الورقة الجديدة بعنوان ضغط السياق الكاسكادي: استكشاف الحدود العليا لضغط النص، وتأتي من مؤلفين،† الذين يبدو أنهم يقدمون C3 كخزانة مفتوحة المصدر في GitHub.
الطريقة
لفهم الأسلوب الجديد، من المفيد معرفة ما هو التعرف البصري على الحروف (OCR)، لأن هذا هو حيث يأتي الفكرة بأسرها.
OCR هو أسلوب خوارزمي يعود إلى العشرينات، على الرغم من شعبيةه في التسعينيات، حيث يسمح اكتشاف الأنماط لمبرمج الحاسوب بتحويل نص رستر (أي نص داخل الصور، والذي لا يمكن تحديده ولا يمكن أن يكون موجودًا إلا كمحتوى фотوغرافي) إلى نص قابل للتحرير.
المخترعون DeepSeek-OCR اكتشفوا أن النص يمكن ضغطه بكفاءة أكبر من خطوط الأنابيب القياسية باستخدام OCR كمرحلة وسيطة. بعبارة أخرى، بدلاً من ضغط النص في حد ذاته، يمكن تحقيق كثافة أعلى من التضمينات الكامنة (أي حفظ المزيد من المعلومات) بالضغط على نسخة مرسرة من ذلك النص:
![من ورقة إصدار DeepSeekOCR، مخطط لخط أنابيب الضغط، بما في ذلك قطع رسترية 16x16 كمركبة OCR. المصدر [ https://arxiv.org/pdf/2510.18234 ]](https://www.unite.ai/wp-content/uploads/2025/11/deepseekocr.jpg)
من ورقة إصدار DeepSeekOCR، مخطط لخط أنابيب الضغط، بما في ذلك قطع رسترية 16×16 كمركبة OCR. المصدر










