الذكاء الاصطناعي
مواجهة جبل الحكومة الأمريكية من ملفات PDF باستخدام الرؤية الحاسوبية

لقد أصبحت صيغة ملفات PDF من أدوبي متأصلة بعمق في خطوط وثائق الحكومة الأمريكية لدرجة أن عدد الوثائق الصادرة عن الدولة حاليًا يُقدر بحفظها بمئات الملايين. غالبًا ما تكون ملفات PDF غير شفافة وتنقصها البيانات الوصفية، وتTell لا تروي قصة أو حكاية؛ إذا لم تكن تعرف بالضبط ما تبحث عنه، فمن المحتمل أن لا تجد وثيقة ذات صلة أبدًا. ومن الممكن أن تكون قد وجدتها، ولكنك لم تكن في حاجة إلى البحث.然而، هناك مشروع جديد يستخدم الرؤية الحاسوبية وطرق التعلم الآلي الأخرى لتغيير هذا الجبل غير الملموس تقريبًا من البيانات إلى مورد قيم ويمكن استكشافه للباحثين والمؤرخين والصحفيين والأساتذة.
عندما اكتشفت الحكومة الأمريكية صيغة ملفات PDF من أدوبي في التسعينيات، قررت أنها تعجبها. على عكس مستندات وورد القابلة للتعديل، يمكن “خَبْز” ملفات PDF بطرق متعددة تجعلها صعبة أو حتى مستحيلة التعديل لاحقًا؛ يمكن تضمين الخطوط، مما يضمن التوافق عبر المنصات؛ ويمكن التحكم في الطباعة والنسخ وفتحها حتى على أساس متفرق.
أهم من ذلك، كانت هذه الميزات الأساسية متاحة في بعض مواصفات “الخط الأساسي” القديمة للصيغة، مما وعد بأن المواد الأرشيفية لن تحتاج إلى معالجة أو مراجعة لاحقًا لضمان الوصول إليها. كان كل ما يحتاجه النشر الحكومي موجودًا بحلول عام 1996.
مع تقنية التأكد من السلسلة والتقنيات غير القابلة للتحويل، كانت ملفات PDF أقرب ما يمكن للحصول على وثيقة “ميتة” تشبه الوثيقة التنزيلية، بعيدة فقط بمقدار خطأ概念ي عن الفاكس. كان هذا بالضبط ما كان مطلوبًا.
الخلاف الداخلي حول ملفات PDF
يتميز مدى تميز ملفات PDF بأنها هرمية ومركبة و “غير اجتماعية” في التوثيق حول الصيغة في مكتبة الكونغرس، التي تفضل ملفات PDF كصيغة “مفضلة لها”:
‘الغرض الرئيسي لصيغة PDF/A هو تمثيل الوثائق الإلكترونية بطريقة تحافظ على مظهرها البصري الثابت مع مرور الوقت، مستقلًا عن الأدوات والنظم المستخدمة لإنشاء وتخزين أو عرض الملفات. بهذا المعنى، تحاول PDF/A تحقيق أقصى حد من استقلالية الجهاز وذاتية الحفظ والتوثيق.’
الاستحسان المستمر لصيغة ملفات PDF والمعايير للوصول ومتطلبات الإصدار الأدنى تختلف عبر إدارات الحكومة الأمريكية. على سبيل المثال، بينما تتبع وكالة الحماية البيئية سياسات صارمة ولكن داعمة في هذا الصدد، فإن الموقع الرسمي للحكومة الأمريكية يقر بأن ‘المستخدمون يكرهون ملفات PDF’، ويربط مباشرة إلى تقرير عام 2020 من Nielsen Norman Group بعنوان ملفات PDF: لا تزال غير مناسبة للاستهلاك البشري، بعد 20 عامًا.
في غضون ذلك، أنشأت irs.gov في عام 1995 خصيصًا لتحويل توثيق وكالة الضرائب إلى الرقمي، واعتمدت على الفور ملفات PDF ولا تزال مدافعة حازمة عنها.
انتشار ملفات PDF بشكل فيروسي
منذ إصدار مواصفات ملفات PDF المفتوحة بواسطة أدوبي، ظهرت مجموعة من أدوات المعالجة الجانبية والibraries،许多 منها الآن موقرة ومتأصلة مثل مواصفات ملفات PDF من عام 1996، وموثوقة ومقاومة للأخطاء، في حين أن بائعي البرامج سارعوا إلى دمج وظائف ملفات PDF في أدوات منخفضة التكلفة.
نتيجة لذلك، ما زالت ملفات PDF حاضرة في إطارات الاتصالات والتوثيق عبر عدد كبير من إدارات الحكومة الأمريكية.
في عام 2015، قدر نائب رئيس الهندسة في أدوبي لشركة Document Cloud، Phil Ydens، أن 2.5 تريليون وثيقة PDF موجودة في العالم، بينما يُعتقد أن الصيغة تُشكل ما بين 6-11٪ من جميع محتويات الويب. في ثقافة تقنية مدمنة على تعطيل التكنولوجيا القديمة، أصبحت ملفات PDF غير قابلة للإزالة – جزءًا مركزيًا من الهيكل الذي يستضيفها.

من عام 2018. لا يوجد دليل قوي على وجود منافس قوي بعد. مصدر: https://twitter.com/trbrtc/status/980407663690502145
وفقًا لدراسة 最近 من قبل باحثين في جامعة واشنطن ومكتبة الكونغرس، ‘مئات الملايين من الوثائق الحكومية الفريدة في الولايات المتحدة المنشورة على الويب في شكل ملفات PDF تمت أرشفتها من قبل المكتبات حتى الآن’.
然而، يعتقد الباحثون أن هذا مجرد “نقطة البداية”*:
‘كما لاحظ روي روزنزويج، عالم التاريخ الرقمي الرائد، في وقت مبكر من عام 2003، عندما يتعلق الأمر بمصادر أولية رقمية للبحث، من الضروري تطوير أساليب ونهج تتناسب مع عشرات الملايين ومئات الملايين وحتى مليارات الموارد الرقمية. لقد وصلنا الآن إلى النقطة التي يتعين فيها تطوير نهج لهذا الحجم.
‘على سبيل المثال، تحتوي أرشيفات الويب في مكتبة الكونغرس الآن على أكثر من 20 مليار مورد رقمي فردي.’
ملفات PDF: مقاومة للتحليل
تطبيق الباحثون في واشنطن مجموعة من أساليب التعلم الآلي على مجموعة بيانات عامة و مُشروحة و مُحتوى من 1000 وثيقة منتقاة من مكتبة الكونغرس، بهدف تطوير أنظمة قادرة على استرجاع سريع ومتعدد الوسائط للاستفسارات النصية والصورية في إطارات يمكن أن تتناسب مع ارتفاعات حجم ملفات PDF الحالي (ومازال يتزايد)، ليس فقط في الحكومة ولكن عبر مجموعة متعددة من القطاعات.
كما يلاحظ البحث، فإن وتيرة الت数字ية المتسارعة عبر مجموعة من إدارات الحكومة الأمريكية المتناثرة في التسعينيات أدت إلى سياسات وممارسات متباينة، وأحيانًا إلى اعتماد أساليب نشر ملفات PDF لا تحتوي على نفس جودة البيانات الوصفية التي كانت معيارًا ذهبيًا لخدمات المكتبات الحكومية – أو حتى البيانات الوصفية الأصلية لملفات PDF، والتي ربما كانت مفيدة في جعل مجموعات ملفات PDF أكثر سهولة وصداقة للفهرسة.
يناقش المؤلفون هذه الفترة من الاضطراب:
‘أدت هذه الجهود إلى نمو هائل في كمية المنشورات الحكومية، مما أدى إلى انهيار النهج العام الذي تم بموجبه إنتاج بيانات وصفية متسقة لهذه المنشورات وبتلك التي اكتسبتها المكتبات.’
نتيجة لذلك، يوجد جبل ملفات PDF عادة بدون أي سياق باستثناء عناوين URL التي ترتبط بها مباشرة. علاوة على ذلك، الوثائق في الجبل مغلقة وذاتية ولاتشكل جزءًا من أي “ساغا” أو قصة يحتمل أن يكشفها نهج البحث الحالي، على الرغم من أن هذه الاتصالات الخفية توجد بالفعل.
في النطاق قيد النظر، لا يُعتبر التدوين اليدوي أو التنظيم ممكنًا. يحتوي مجموعة البيانات التي تم استخلاص 1000 وثيقة من مكتبة الكونغرس منها على أكثر من 40 مليون ملف PDF، والتي يعتزم الباحثون جعلها تحديًا يمكن معالجته في المستقبل القريب.
الرؤية الحاسوبية لتحليل ملفات PDF
يستند معظم البحث السابق الذي يُشير إليه المؤلفون إلى استخدام أساليب نصية لاستخراج الميزات والمفاهيم عالية المستوى من مواد ملفات PDF؛ من خلال المقابل، يركز مشروعهم على استخراج الميزات والاتجاهات من خلال فحص ملفات PDF على مستوى مرئي، بما يتوافق مع البحث الحالي حول التحليل المتعدد الوسائط لمحتوى الأخبار.
على الرغم من أن التعلم الآلي قد تم تطبيقه بهذه الطريقة على تحليل ملفات PDF من خلال مخططات محددة للقطاع مثل عالم المعاني، يهدف المؤلفون إلى إنشاء خطوط أنابيب استخراج أكثر شمولاً يمكن تطبيقها على نطاق واسع من المنشورات، بدلاً من أن تكون مخصصة لصارم نشر العلوم أو قطاعات أخرى ضيقة بشكل مماثل.
معالجة البيانات غير المتوازنة
عند إنشاء مخطط قياسي، كان على الباحثين مراعاة مدى انحياز البيانات، على الأقل من حيث حجم كل عنصر.
من بين 1000 ملف PDF في مجموعة البيانات المنتقاة (التي يفترض المؤلفون أنها ممثلة لل 40 مليون التي تم سحبها منها)، 33٪ فقط صفحة واحدة، و 39٪ من 2-5 صفحات. هذا يضع 72٪ من الوثائق في 5 صفحات أو أقل.
بعد ذلك، هناك قفزة كبيرة: 18٪ من الوثائق المتبقية تمتد من 6-20 صفحة، و 6٪ من 20-100 صفحة و 3٪ من 100+ صفحة. هذا يعني أن الوثائق الأطول تشكل الغالبية العظمى من الصفحات الفردية المستخرجة، بينما سيكون النهج الأقل دقة الذي يأخذ في الاعتبار الوثائق فقط سيكون مشوهًا نحو الوثائق الأقصر.
ومع ذلك، هذه هي معايير مفيدة، لأن الوثائق من صفحة واحدة تميل إلى أن تكون مخططات فنية أو خرائط؛ وثائق من 2-5 صفحات تميل إلى أن تكون إعلانات ونموذج؛ والوثائق الطويلة جدًا هي تقارير وكتب منشورة بشكل عام، على الرغم من أنها مختلطة من حيث الطول مع تفريغات بيانات آلية ضخمة تحتوي على تحديات مختلفة للتفسير الدلالي.
لذلك، يعتبر الباحثون هذا الخلل ملكية دلالية معنوية في حد ذاتها. ومع ذلك، لا تزال ملفات PDF تحتاج إلى المعالجة والكمية على أساس صفحة واحدة.
الهيكل
في بداية العملية، يتم تحليل بيانات ملف PDF إلى بيانات جدولية. لن تكون هذه البيانات مفقودة، لأنها تتكون من كميات معروفة مثل حجم الملف وعنوان URL المصدر.
ثم يتم تقسيم ملف PDF إلى صفحات، ويتم تحويل كل صفحة إلى صيغة JPEG من خلال ImageMagick. ثم يتم إطعام الصورة إلى شبكة ResNet-50 التي تشتق متجهًا بعديًا 2048 من الطبقة الثانية الأخيرة.

خط أنابيب الاستخراج من ملفات PDF. مصدر: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
في نفس الوقت، يتم تحويل الصفحة إلى ملف نصي بواسطة pdf2text، ويتم الحصول على التمثيلات TF-IDF عبر scikit-learn.
TF-IDF تعني تكرار المصطلح وتكرار المستند العكسي، والتي تقيس شيوع كل عبارة داخل المستند لتكرارها في مجموعة البيانات المضيفة، على مقياس دقيق من 0 إلى 1. استخدم الباحثون الكلمات الفردية (الوحدات النحوية) كأصغر وحدة في إعدادات TF-IDF للنظام.
على الرغم من أنهم يعترفون بأن التعلم الآلي يحتوي على أساليب أكثر تعقيدًا لتقديمها، يجادل المؤلفون بأن أي شيء أكثر تعقيدًا غير ضروري للمهمة المحددة.
الواقع أن كل وثيقة لها عنوان URL مصدر يسمح للنظام بتحديد مصدر الوثائق عبر مجموعة البيانات.

قد يبدو هذا أمرًا琐مًا لآلاف الوثائق، لكنه سيكون كاشفًا للغاية لآلات 40 مليون+.
نهج جديد للبحث النصي
يهدف أحد أهداف المشروع إلى جعل نتائج البحث للاستفسارات النصية أكثر معنى، مما يسمح بالاستكشاف المثمر دون الحاجة إلى معرفة سابقة زائدة. يصرح المؤلفون:
‘في حين أن البحث بالكلمات الرئيسية هو نهج直觉ي ويمكن توسيعه بشكل كبير، يمكن أن يكون أيضًا محدودًا، حيث يتحمل المستخدمون مسؤولية صياغة استفسارات الكلمات الرئيسية التي تسترجع نتائج ذات صلة.’
عندما يتم الحصول على قيم TF-IDF، من الممكن حساب الكلمات الأكثر شيوعًا وتقدير “مستند متوسط” في مجموعة البيانات. يعتقد الباحثون أن هذه الكلمات الرئيسية عبر المستندات عادة ما تكون ذات معنى، وأن هذا العملية تشكل علاقات مفيدة للباحثين لاستكشافها، والتي لا يمكن الحصول عليها فقط من خلال فهرسة نص كل وثيقة على حدة.
بصريًا، يسهل هذا العملية “لوحة مزاجية” من الكلمات المنبثقة من إدارات حكومية مختلفة:

كلمات TF-IDF الرئيسية لإدارات حكومية مختلفة، تم الحصول عليها من خلال TF-IDF.
يمكن استخدام هذه الكلمات الرئيسية والعلاقات المستخرجة لاحقًا لتشكيل مصفوفات ديناميكية في نتائج البحث، مع بدء مجموعة ملفات PDF في “رواية القصص”، والعلاقات بين الكلمات الرئيسية التي تصل بين الوثائق (ربما حتى على مدار مئات السنين)، لتحديد ساغا متعددة الأجزاء قابلة للاستكشاف لموضوع أو موضوع.
يستخدم الباحثون كلاستر كيمياني لتحديد الوثائق المرتبطة، حتى عندما لا تشترك الوثائق في مصدر مشترك. هذا يسمح بتطوير ميتاديتا للعبارات الرئيسية قابلة للتطبيق عبر مجموعة البيانات، والتي سوف تظهر إما كترتيب للمصطلحات في بحث نصي صارم أو كعقد قريبة في بيئة استكشاف أكثر ديناميكية:

التحليل البصري
الجديد الحقيقي في نهج باحثي واشنطن هو تطبيق تقنيات التحليل البصري القائمة على التعلم الآلي إلى المظهر الممسوح ضوئيًا لملفات PDF في مجموعة البيانات.
بهذه الطريقة، من الممكن توليد علامة “محررة” على أساس بصري، حيث لن توفر أي şey في النص نفسه أساسًا مشتركًا كافياً.

مجموعة من صفحات ملفات PDF المحذوفة تم تحديدها بواسطة الرؤية الحاسوبية في المشروع الجديد.
علاوة على ذلك، يمكن أن تُشتق هذه العلامة حتى من وثائق حكومية تم مسحها ضوئيًا، وهو ما يحدث غالبًا مع المواد المحذوفة، مما يجعل من الممكن البحث الشامل والشامل عن هذه الممارسة.
يمكن أيضًا تحديد الخريطة والرسومات الفنية وتصنيفها، ويعلق المؤلفون على هذه الوظيفة المحتملة:
‘للباحثين المهتمين bằng الكشف عن المعلومات المصنفة أو الحساسة أو غيرها، قد يكون من المهم عزل هذا النوع من مجموعة المواد تحليلًا وبحثًا.’
يلاحظ البحث أن مجموعة واسعة من المؤشرات البصرية الشائعة لملفات PDF الحكومية يمكن استخدامها لتصنيف الوثائق وإنشاء “ساغا”. يمكن أن تكون هذه “العملات” ختم الكونغرس أو شعارات أخرى أو ميزات بصرية متكررة لا وجود لها في بحث نصي نقي.
علاوة على ذلك، يمكن تحديد الوثائق التي تتعارض مع التصنيف، أو التي تنشأ من مصدر غير شائع، من خلال تخطيطها، مثل الأعمدة وأنواع الخطوط والميزات المميزة الأخرى.

يمكن أن يوفر التخطيط وحده المجموعات والتصنيفات في فضاء بحث بصري.
على الرغم من أن المؤلفين لم يغفلوا النص، فإن الفضاء البحثي البصري هو ما دفع هذا العمل.
‘القدرة على البحث والتحليل لملفات PDF وفقًا لميزاتها البصرية هي نهج واسع النطاق: لا فقط يعزز الجهود الحالية المحيطة بالتحليل النصي، ولكن أيضًا يعيد تصور ما يمكن أن يكون البحث والتحليل عليه لملفات المحتوى المولود رقميًا.’
يتعزم المؤلفون من تطوير إطارهم لاستيعاب مجموعات بيانات أكبر بكثير، بما في ذلك أرشيف الويب الرئاسي نهاية المدة لعام 2008 مجموعة البيانات، التي تحتوي على أكثر من 10 ملايين عنصر. في البداية، ومع ذلك، يعتزمون توسيع نظامهم لمواجهة “عشرات الآلاف” من ملفات PDF الحكومية.
النظام يُقصد تقييمه في البداية مع مستخدمين حقيقيين، بما في ذلك أمين المكتبة و المحافظين و المحامين و المؤرخين و الباحثين الآخرين، وسيتطور بناءً على ردود أفعال هذه المجموعات.
مكافحة حجم المنشورات الحكومية المولدة رقميًا: نحو خطوط أنابيب لمعالجة وبحث ملايين ملفات PDF مكتوب بواسطة بنجامين تشارلز جيرمين لي (في مدرسة بول ج. آلن لعلوم الحاسوب والهندسة) وتريفور أوينز، المؤرخ العام في مكتبة الكونغرس في واشنطن العاصمة.
*تحويلي للاستشهادات الداخلية إلى روابط.
نشر في الأصل في 28 ديسمبر 2021












