الذكاء الاصطناعي
معالجة جبل PDF التابع للحكومة الأمريكية برؤية الكمبيوتر

لقد ترسخ تنسيق PDF من Adobe بقوة في سلسلة وثائق الحكومة الأمريكية، لدرجة أن عدد الوثائق الصادرة عن الولايات حاليًا يُقدّر بمئات الملايين، مع أن التقديرات متحفظة. غالبًا ما تكون ملفات PDF هذه - التي يُنشئ العديد منها أنظمة آلية - غامضة وتفتقر إلى البيانات الوصفية، ولا تروي في مجموعها أي قصص أو ملاحم؛ فإذا لم تكن تعرف بالضبط ما تبحث عنه، فلن تجد على الأرجح وثيقة مناسبة. وإذا كنت تعرف، فربما لم تكن بحاجة للبحث. ومع ذلك، يستخدم مشروع جديد الرؤية الحاسوبية وأساليب التعلم الآلي الأخرى لتحويل هذا الكم الهائل من البيانات التي لا يمكن الوصول إليها تقريبًا إلى مورد قيم وقابل للاستكشاف للباحثين والمؤرخين والصحفيين والعلماء.
عندما اكتشفت الحكومة الأمريكية صيغة المستندات المحمولة (PDF) من Adobe في تسعينيات القرن الماضي، أعجبتها. فعلى عكس مستندات Word القابلة للتعديل، يُمكن "تعديل" ملفات PDF بطرق متنوعة تجعل تعديلها لاحقًا صعبًا، بل مستحيلًا؛ كما يُمكن تضمين الخطوط، مما يضمن التوافق بين مختلف المنصات؛ ويُمكن التحكم في الطباعة والنسخ، وحتى الفتح، بدقة متناهية.
والأهم من ذلك، أن هذه الميزات الأساسية كانت متاحة في بعض أقدم المواصفات "الأساسية" لهذا التنسيق، مما يضمن عدم الحاجة إلى إعادة معالجة المواد الأرشيفية أو إعادة مراجعتها لاحقًا لضمان إمكانية الوصول إليها. كان كل ما يحتاجه النشر الحكومي تقريبًا متاحًا. بواسطة 1996.
مع تأخر ظهور تقنية بلوكتشين وتقنيات NFT لعقود، كان ملف PDF أقرب ما يمكن للعصر الرقمي الناشئ أن يصل إليه من وثيقة تناظرية "ميتة"، على بُعد عثرة بسيطة من إرسالها بالفاكس. وهذا بالضبط ما كنا نتمناه.
معارضة داخلية حول PDF
يتم تحديد مدى كون ملفات PDF محكمة الغلق، ومستعصية على الحل، و"غير اجتماعية" في توثيق حول التنسيق الموجود في مكتبة الكونجرس، والتي تفضل تنسيق PDF باعتباره "تنسيقها المفضل":
الغرض الأساسي من تنسيق PDF/A هو عرض المستندات الإلكترونية بطريقة تحافظ على مظهرها البصري الثابت مع مرور الوقت، بغض النظر عن الأدوات والأنظمة المستخدمة لإنشاء الملفات أو تخزينها أو عرضها. ولتحقيق هذه الغاية، يسعى تنسيق PDF/A إلى تعظيم استقلالية الأجهزة، والاكتفاء الذاتي، والتوثيق الذاتي.
يختلف الحماس المستمر لصيغة PDF، ومعايير إمكانية الوصول، ومتطلبات الحد الأدنى للنسخة، باختلاف الجهات الحكومية الأمريكية. على سبيل المثال، بينما تتبنى وكالة حماية البيئة سياسات صارمة وداعمة في هذا الصدد، فإن الموقع الإلكتروني الرسمي للحكومة الأمريكية plainlanguage.gov يعترف أن "المستخدمون يكرهون PDF"، وحتى روابط مباشرة إلى مجموعة Nielsen Norman لعام 2020 تقرير بعنوان PDF: لا يزال غير صالح للاستهلاك البشري ، بعد 20 عامًا.
وفي الوقت نفسه irs.gov ، تم إنشاؤه في 1995 خصيصًا لتحويل وثائق وكالة الضرائب إلى رقمية، تم اعتماد تنسيق PDF على الفور ولا يزال محامي قوي.
الانتشار الفيروسي لملفات PDF
منذ أن تم إصدار المواصفات الأساسية لملف PDF لفتح المصدر بواسطة Adobe ، تم إصدار ملف الشريحة من أدوات المعالجة من جانب الخادم والمكتبات ظهرت ، والعديد منها الآن مبجل وتم ترسيخه كمواصفات PDF لحقبة 1996 ، وموثوق به ومقاوم للأخطاء ، بينما سارع بائعو البرامج إلى دمج وظائف PDF في أدوات منخفضة التكلفة.
وبالتالي ، فإن ملفات PDF ، التي أحبتها أو مكروها من الإدارات المضيفة ، تظل موجودة في كل مكان في أطر الاتصالات والتوثيق عبر عدد كبير من الإدارات الحكومية الأمريكية.
في عام 2015، قال نائب رئيس قسم الهندسة في Adobe لـ Document Cloud، فيل يدينز مقدر يوجد 2.5 تريليون مستند PDF في العالم، ويُعتقد أن هذا التنسيق يُمثل ما بين 6% و11% من إجمالي محتوى الويب. في ثقافة تكنولوجية مُدمنة على تعطيل التقنيات القديمة، أصبح PDF "صدأً" لا يُمحى - جزءًا أساسيًا من البنية التي تستضيفه.

منذ عام 2018. لا يوجد دليل يذكر على وجود منافس قوي حتى الآن. المصدر: https://twitter.com/trbrtc/status/980407663690502145
ووفقا ل دراسة حديثة من الباحثين في جامعة واشنطن ومكتبة الكونغرس ، "تم أرشفة مئات الملايين من وثائق الحكومة الأمريكية الفريدة المنشورة على الويب بصيغة PDF بواسطة المكتبات حتى الآن".
ومع ذلك، يزعم الباحثون أن هذا مجرد "قمة جبل الجليد"*:
كما أشار الباحث الرائد في التاريخ الرقمي روي روزنزويج في وقت مبكر من عام 2003 ، عندما يتعلق الأمر بالمصادر الرقمية الأولية للمنح الدراسية ، فمن الضروري تطوير الأساليب والأساليب التي من شأنها أن تتسع لعشرات ومئات الملايين وحتى المليارات من الرقمية [ موارد]. لقد وصلنا الآن إلى النقطة التي يلزم فيها تطوير مناهج لهذا المقياس.
'على سبيل المثال، تحتوي أرشيفات الويب الخاصة بمكتبة الكونجرس الآن على أكثر من 20 مليار مورد رقمي فردي.'
ملفات PDF: مقاومة للتحليل
يطبق مشروع الباحثين في واشنطن عددًا من أساليب التعلم الآلي على متاح للعامة و المشروح الإحضار من 1,000 مستند محدد من مكتبة الكونغرس ، بهدف تطوير أنظمة قادرة على الاسترجاع السريع متعدد الوسائط للنص والاستعلامات القائمة على الصور في أطر يمكن أن ترقى إلى ارتفاعات مجلدات PDF الحالية (والمتنامية) ، وليس فقط في الحكومة ، ولكن عبر قطاعات متعددة.
كما تلاحظ الورقة ، أدى تسارع وتيرة الرقمنة عبر مجموعة من الإدارات الحكومية الأمريكية البلقانية في التسعينيات إلى سياسات وممارسات متباينة ، وفي كثير من الأحيان إلى اعتماد أساليب نشر PDF التي لم تحتوي على نفس جودة البيانات الوصفية التي كانت ذات يوم المعيار الذهبي لخدمات المكتبات الحكومية - أو حتى البيانات الوصفية الأصلية لملفات PDF الأساسية للغاية ، والتي قد تكون مفيدة في جعل مجموعات PDF أكثر سهولة في الوصول والفهرسة.
عند مناقشة فترة الاضطراب هذه ، لاحظ المؤلفون:
"وقد أدت هذه الجهود إلى نمو هائل في كمية المنشورات الحكومية، الأمر الذي أدى بدوره إلى انهيار النهج العام الذي تم من خلاله إنتاج البيانات الوصفية المتسقة لهذه المنشورات والذي من خلاله حصلت المكتبات على نسخ منها."
وبالتالي، فإنّ جبلًا نموذجيًا من ملفات PDF موجودٌ دون أيّ سياق سوى عناوين URL التي ترتبط به مباشرةً. علاوةً على ذلك، فإنّ المستندات في هذا الجبل مُغلقة، وذاتية المرجع، ولا تُشكّل جزءًا من أيّ "قصة" أو سردية يُمكن لمنهجيات البحث الحالية تمييزها، مع أنّ هذه الروابط الخفية موجودة بلا شك.
على النطاق قيد الدراسة، يُعدّ التعليق أو التنظيم اليدوي أمرًا مستحيلًا. تحتوي مجموعة البيانات التي استُخرجت منها ألف وثيقة من مكتبة الكونجرس للمشروع على أكثر من 1000 مليون ملف PDF، ويعتزم الباحثون جعلها تحديًا قابلًا للمعالجة في المستقبل القريب.
رؤية الكمبيوتر لتحليل PDF
تستخدم معظم الأبحاث السابقة التي استشهد بها المؤلفون طرقًا تستند إلى النص لاستخراج الميزات والمفاهيم عالية المستوى من مواد PDF ؛ على النقيض من ذلك ، يركز مشروعهم على اشتقاق الميزات والاتجاهات عن طريق فحص ملفات PDF على المستوى المرئي ، بما يتماشى مع البحث الحالي في التحليل متعدد الوسائط لمحتوى الأخبار.
على الرغم من تطبيق التعلم الآلي بهذه الطريقة على تحليل PDF عبر مخططات خاصة بالقطاع مثل الباحث الدلالي، يهدف المؤلفون إلى إنشاء المزيد من خطوط أنابيب الاستخراج عالية المستوى التي يمكن تطبيقها على نطاق واسع عبر مجموعة من المنشورات ، بدلاً من ضبطها مع قيود النشر العلمي أو القطاعات الضيقة الأخرى بنفس القدر.
معالجة البيانات غير المتوازنة
عند إنشاء مخطط المقاييس ، كان على الباحثين النظر في مدى انحراف البيانات ، على الأقل من حيث الحجم لكل عنصر.
من بين 1000 ملف PDF في مجموعة البيانات المحددة (التي يفترض المؤلفون أنها تمثل 40 مليونًا تم سحبهم منها) ، 33٪ عبارة عن صفحة طويلة و 39٪ بطول 2-5 صفحات. هذا يضع 72٪ من الوثائق في خمس صفحات أو أقل.
بعد ذلك، هناك قفزة نوعية: 18% من المستندات المتبقية تتراوح بين 6 و20 صفحة، و6% تتراوح بين 20 و100 صفحة، و3% أكثر من 100 صفحة. هذا يعني أن المستندات الأطول تُشكل غالبية الصفحات المستخرجة، بينما النهج الأقل تفصيلًا، الذي يُركز على المستندات وحدها، سيُشتت الانتباه نحو المستندات الأقصر والأكثر عددًا.
ومع ذلك، فهذه مقاييس ثاقبة، لأن المستندات المكونة من صفحة واحدة تميل إلى أن تكون مخططات أو خرائط تقنية؛ وتميل المستندات التي تتراوح من صفحتين إلى خمس صفحات إلى أن تكون بيانات صحفية ونماذج؛ والمستندات الطويلة للغاية تكون عمومًا تقارير ومنشورات بطول الكتب، على الرغم من أنها من حيث الطول مختلطة بكميات هائلة من البيانات الآلية التي تحتوي على تحديات مختلفة تمامًا للتفسير الدلالي.
لذلك ، يتعامل الباحثون مع هذا الخلل باعتباره خاصية دلالية ذات مغزى في حد ذاته. ومع ذلك ، لا تزال ملفات PDF بحاجة إلى المعالجة وتحديد الكمية على أساس كل صفحة.
معمار
في بداية العملية، تُحلَّل بيانات ملف PDF الوصفية إلى بيانات جدولية. هذه البيانات الوصفية حاضرة، لأنها تتكون من بيانات معروفة، مثل حجم الملف ورابط المصدر.
يتم بعد ذلك تقسيم ملف PDF إلى صفحات ، مع تحويل كل صفحة إلى تنسيق JPEG عبر يماغيماغيك. يتم بعد ذلك تغذية الصورة إلى شبكة ResNet-50 التي تشتق متجهًا بعد 2,048 من الطبقة الثانية إلى الأخيرة.

خط الأنابيب للاستخراج من ملفات PDF. المصدر: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
في الوقت نفسه ، يتم تحويل الصفحة إلى ملف نصي بواسطة pdf2text ، ويتم الحصول على ميزات TF-IDF عبر تعلم الحروف.
TF-IDF تعني تردد الوثيقة المعكوسة مصطلح التردد ، الذي يقيس انتشار كل عبارة داخل المستند إلى ترددها في جميع أنحاء مجموعة البيانات المضيفة، على مقياس دقيق من 0 إلى 1. استخدم الباحثون الكلمات المفردة (الأحاديات) كأصغر وحدة في إعدادات TF-IDF للنظام.
على الرغم من اعترافهم بأن التعلم الآلي يقدم طرقًا أكثر تعقيدًا من TF-IDF ، إلا أن المؤلفين يجادلون بأن أي شيء أكثر تعقيدًا ليس ضروريًا للمهمة المعلنة.
حقيقة أن كل مستند يحتوي على عنوان URL لمصدر مرتبط يمكّن النظام من تحديد مصدر المستندات عبر مجموعة البيانات.

قد يبدو هذا الأمر تافهاً بالنسبة لألف وثيقة، لكنه سيكون بمثابة كشف حقائق مذهلة لأكثر من 40 مليون وثيقة.
مناهج جديدة للبحث عن النص
من أهداف المشروع جعل نتائج البحث عن استعلامات نصية أكثر وضوحًا، مما يتيح استكشافًا مثمرًا دون الحاجة إلى معرفة مسبقة مفرطة. يقول المؤلفون:
'على الرغم من أن البحث عن الكلمات الرئيسية يعد طريقة بحث بديهية وقابلة للتوسع بدرجة كبيرة، إلا أنه قد يكون مقيدًا أيضًا، حيث يكون المستخدمون مسؤولين عن صياغة استعلامات الكلمات الرئيسية التي تسترجع النتائج ذات الصلة.'
بمجرد الحصول على قيم TF-IDF، يُمكن حساب الكلمات الأكثر شيوعًا وتقدير متوسط الوثيقة في المجموعة. ويؤكد الباحثون أنه نظرًا لأهمية هذه الكلمات المفتاحية المشتركة بين الوثائق، فإن هذه العملية تُشكّل علاقات مفيدة يُمكن للباحثين استكشافها، وهو ما لا يُمكن الحصول عليه فقط من خلال فهرسة نص كل وثيقة على حدة.
من الناحية البصرية، تسهل العملية إنشاء "لوحة مزاجية" للكلمات الصادرة عن مختلف الإدارات الحكومية:

كلمات مفتاحية TF-IDF لمختلف الدوائر الحكومية الأمريكية ، حصلت عليها TF-IDF.
يمكن استخدام هذه الكلمات الرئيسية والعلاقات المستخرجة لاحقًا لتشكيل مصفوفات ديناميكية في نتائج البحث، مع بدء مجموعة ملفات PDF في "سرد القصص"، وربط العلاقات بين الكلمات الرئيسية بالمستندات (ربما حتى على مدى مئات السنين)، لتحديد "قصة" متعددة الأجزاء قابلة للاستكشاف لموضوع أو فكرة.
يستخدم الباحثون أسلوب التجميع k-means لتحديد المستندات المترابطة، حتى في حال عدم وجود مصدر مشترك. يُمكّن هذا من تطوير بيانات وصفية للعبارات الرئيسية قابلة للتطبيق على مجموعة البيانات، والتي تظهر إما كتصنيفات للمصطلحات في بحث نصي دقيق، أو كعُقد قريبة في بيئة استكشاف أكثر ديناميكية.

التحليل البصري
إن الجديد الحقيقي في نهج الباحثين في واشنطن هو تطبيق تقنيات التحليل البصري القائمة على التعلم الآلي على المظهر المنقطة لملفات PDF في مجموعة البيانات.
بهذه الطريقة، من الممكن إنشاء علامة "REDACTED" على أساس مرئي، حيث لا يوجد شيء في النص نفسه من شأنه بالضرورة أن يوفر أساسًا مشتركًا كافيًا.

مجموعة من صفحات PDF الأمامية المنقحة التي تم تحديدها بواسطة رؤية الكمبيوتر في المشروع الجديد.
علاوة على ذلك ، يمكن لهذه الطريقة اشتقاق مثل هذه العلامة حتى من المستندات الحكومية التي تم تنقيطها ، وهو ما يحدث غالبًا مع المواد المنقحة ، مما يجعل من الممكن إجراء بحث شامل وشامل عن هذه الممارسة.
بالإضافة إلى ذلك ، يمكن تحديد الخرائط والمخططات بالمثل وتصنيفها ، ويعلق المؤلفون على هذه الوظيفة المحتملة:
"بالنسبة للباحثين المهتمين بالكشف عن المعلومات السرية أو الحساسة، قد يكون من المثير للاهتمام بشكل خاص عزل هذا النوع من المواد على وجه التحديد للتحليل والبحث."
تشير الورقة البحثية إلى أنه يمكن استخدام مجموعة واسعة من المؤشرات البصرية الشائعة في أنواع محددة من ملفات PDF الحكومية لتصنيف الوثائق وإنشاء "ملاحم". قد تكون هذه "الرموز" ختم الكونجرس، أو شعارات أخرى، أو سمات بصرية متكررة لا وجود لها دلاليًا في البحث النصي البحت.
علاوة على ذلك ، يمكن تحديد المستندات التي تتحدى التصنيف ، أو حيث يأتي المستند من مصدر غير شائع ، من تخطيطها ، مثل الأعمدة وأنواع الخطوط والأوجه المميزة الأخرى.

يمكن للتخطيط وحده تحمل التجميعات والتصنيفات في مساحة البحث المرئية.
على الرغم من أن المؤلفين لم يتجاهلوا النص ، فمن الواضح أن مساحة البحث المرئية هي ما دفع هذا العمل.
'إن القدرة على البحث وتحليل ملفات PDF وفقًا لخصائصها المرئية تشكل نهجًا واسع النطاق: فهي لا تعمل على تعزيز الجهود الحالية المحيطة بتحليل النصوص فحسب، بل إنها تعيد تصور ما يمكن أن يكون عليه البحث والتحليل للمحتوى الرقمي المولود.'
يعتزم المؤلفون تطوير إطار العمل الخاص بهم لاستيعاب مجموعات البيانات الأكبر ، بما في ذلك 2008 أرشيف الويب الرئاسي بنهاية المدة بياناتيحتوي على أكثر من عشرة ملايين عنصر. في البداية، يعتزمون توسيع نطاق النظام ليشمل عشرات الآلاف من ملفات PDF الحكومية.
يهدف النظام إلى أن يتم تقييمه مبدئيًا مع مستخدمين حقيقيين ، بما في ذلك أمناء المكتبات والمحفوظات والمحامين والمؤرخين والعلماء الآخرين ، وسوف يتطور بناءً على التعليقات الواردة من هذه المجموعات.
التصدي لمقياس المنشورات الحكومية الرقمية الناشئة: نحو خطوط أنابيب لمعالجة ملايين ملفات PDF والبحث فيها كتبه بنجامين تشارلز جيرمان لي (في مدرسة بول جي ألين لعلوم وهندسة الكمبيوتر) وتريفور أوينز ، مؤرخ عام مقيم ورئيس إدارة المحتوى الرقمي في مكتبة الكونغرس في واشنطن العاصمة.
* تحويل الاقتباسات المضمنة إلى ارتباطات تشعبية.
نُشر في الأصل في 28 ديسمبر 2021












