زاوية Anderson
مواجهة جبل الحكومة الأمريكية من ملفات PDF باستخدام الرؤية الحاسوبية

لقد استقر формات ملفات PDF من أدوبي بشكل عميق في أنابيب وثائق الحكومة الأمريكية لدرجة أن عدد الوثائق الصادرة عن الحكومة على مستوى الولاية التي توجد حاليًا يُقدر بحفظها بمئات الملايين. غالبًا ما تكون ملفات PDF غير شفافة وتنقصها البيانات الوصفية، وت告诉 قصة أو سجلاً معًا؛ إذا لم تكن تعرف بالضبط ما تبحث عنه، فمن المحتمل أنك لن تجد وثيقة ذات صلة أبدًا. وإذا كنت تعرف، فمن المحتمل أنك لم تكن في حاجة إلى البحث.然而، هناك مشروع جديد يستخدم الرؤية الحاسوبية والمنهجيات الأخرى لتعلم الآلة لتغيير هذا الجبل الشبه غير قابل للوصول من البيانات إلى مورد قيم وقابل للاستكشاف للباحثين والمؤرخين والصحفيين والأساتذة.
عندما اكتشفت الحكومة الأمريكية تنسيق ملفات PDF المحمولة من أدوبي في التسعينيات، قررت أنها تعجب به. على عكس مستندات وورد القابلة للتحرير، يمكن تحويل ملفات PDF بطرق تجعلها صعبة أو حتى مستحيلة التعديل لاحقًا؛ يمكن تضمين الخطوط، مما يضمن التوافق عبر المنصات؛ يمكن التحكم في الطباعة والنسخ وفتحها على أساس متفرق.
ما هو أكثر من ذلك، كانت هذه الميزات الأساسية متاحة في بعض مواصفات التنسيق القديمة، مما وعد بأن المواد الأرشيفية لن تحتاج إلى معالجة أو زيارة مرة أخرى لضمان الوصول. كان كل ما يحتاجه النشر الحكومي متاحًا حتى عام 1996.
مع تقنية Blockchain للصكوك و NFT بعيدة المدى، كانت ملفات PDF أقرب ما يمكن للحصول على وثيقة ANALOG “ميتة”، فقط خطأ مفاهيمي بعيدًا عن الفاكس. كان هذا بالضبط ما كان مطلوبًا.
الخلاف الداخلي حول ملفات PDF
مدى الذي تكون فيه ملفات PDF هرمية ومركبة و “غير اجتماعية” يتم التعبير عنه في التوثيق حول التنسيق في مكتبة الكونغرس، التي تفضل ملفات PDF كتنسيق “مفضل”:
‘الغرض الرئيسي لتنسيق PDF/A هو تمثيل المستندات الإلكترونية بطريقة تحافظ على مظهرها المرئي الثابت مع مرور الوقت، مستقلًا عن الأدوات والأنظمة المستخدمة لإنشاءها أو تخزينها أو عرضها. بهذا المعنى، تحاول PDF/A تحقيق أقصى حد من استقلالية الجهاز والاحتواء الذاتي والتوثيق الذاتي.’
الاستحسان المستمر لتنسيق ملفات PDF، ومعايير الوصول، ومتطلبات الإصدار الأدنى، تختلف جميعها عبر إدارات الحكومة الأمريكية. على سبيل المثال، في حين أن وكالة الحماية البيئية لديها سياسات صارمة وداعمة في هذا الصدد، فإن الموقع الرسمي للحكومة الأمريكية plainlanguage.gov يقر بأن ‘المستخدمون يكرهون ملفات PDF’، ويربط مباشرة إلى تقرير عام 2020 من Nielsen Norman Group بعنوان ملفات PDF: لا تزال غير مناسبة للاستهلاك البشري، بعد 20 عامًا.
في غضون ذلك، created في عام 1995 specifically لتحويل وثائق وكالة الضرائب إلى الرقمية، اعتمدت على الفور ملفات PDF و لا تزال مدافعة حثيثة عنها.
انتشار ملفات PDF بشكل فيروسي
منذ إصدار مواصفات ملفات PDF الأساسية مفتوحة المصدر من قبل أدوبي، ظهرت مجموعة من أدوات معالجة الجانب الخلفي و المكتبات،许多 منها الآن معتبرة ومدمجة مثل مواصفات ملفات PDF لعام 1996، وموثوقة ومقاومة للأخطاء، في حين أن بائعي البرمجيات سارعوا إلى دمج وظائف ملفات PDF في أدوات منخفضة التكلفة.
نتيجة لذلك، سواء أحبها أو كرهها من قبل الإدارات المضيفة، لا تزال ملفات PDF شائعة في إطارات الاتصالات والتوثيق عبر عدد كبير من إدارات الحكومة الأمريكية.
في عام 2015، قدر نائب رئيس الهندسة في Document Cloud في أدوبي، Phil Ydens أن هناك 2.5 تريليون مستند PDF موجود في العالم، بينما يُعتقد أن التنسيق يُحسب لما بين 6-11٪ من جميع محتويات الويب. في ثقافة تقنية مدمنة على تعطيل التكنولوجيا القديمة، أصبحت ملفات PDF غير قابلة للإزالة “صدا” – جزءًا مركزيًا من الهيكل الذي يستضيفها.
وفقًا لدراسة حديثة من الباحثين في جامعة واشنطن ومكتبة الكونغرس، ‘مئات الملايين من الوثائق الحكومية الفريدة في الولايات المتحدة التي تم نشرها على الويب في شكل ملفات PDF تمت أرشفتها من قبل المكتبات حتى الآن’.
然而، يُدعي الباحثون أن هذا مجرد “نقطة البداية” *:
‘كما لاحظ روي روزنزويغ، عالم التاريخ الرقمي الرائد، في وقت مبكر من عام 2003، أنه عندما يتعلق الأمر بمصادر أولية رقمية للبحث، من الضروري تطوير أساليب ونهج يمكن أن تتوسع إلى عشرات و مئات الملايين و حتى مليارات الموارد الرقمية.’
‘على سبيل المثال، تحتوي أرشيفات الويب في مكتبة الكونغرس الآن على أكثر من 20 مليار مورد رقمي فردي.’
ملفات PDF: مقاومة للتحليل
يستخدم مشروع الباحثين في واشنطن مجموعة من أساليب تعلم الآلة لتطبيقها على مجموعة عامة و مُحكمة مكتبة من 1000 وثيقة محددة من مكتبة الكونغرس، مع نية تطوير أنظمة قادرة على استرجاع سريع ومتعدد الوسائط للاستفسارات النصية والصورية في إطارات يمكن أن تتوسع إلى أطوال الحجم الحالي (والمتزايد) لملفات PDF، ليس فقط في الحكومة، ولكن عبر مجموعة من القطاعات.
كما يلاحظ البحث، فإن وتيرة الت数字ية المتسارعة عبر مجموعة من الإدارات الحكومية الأمريكية المتناثرة في التسعينيات أدت إلى سياسات وممارسات متباينة، وغالبًا إلى اعتماد أساليب نشر ملفات PDF التي لا تحتوي على نفس جودة البيانات الوصفية التي كانت معيارًا ذهبيًا لخدمات المكتبات الحكومية – أو حتى البيانات الوصفية الأصلية لملفات PDF، والتي قد تكون مفيدة في جعل مجموعات ملفات PDF أكثر سهولة وصداقة للفهرسة.
في مناقشة هذه الفترة من الاضطراب، يشير المؤلفون إلى:
‘هذه الجهود أدت إلى نمو هائل في كمية المنشورات الحكومية، مما أدى إلى انهيار النهج العام الذي تم بموجبه إنتاج البيانات الوصفية المتسقة لهذه المنشورات وبالنسبة للمكتبات التي حصلت على نسخ منها.’
نتيجة لذلك، يوجد جبل ملفات PDF عادة بدون أي سياق باستثناء عناوين URL التي ترتبط مباشرة به. بالإضافة إلى ذلك، لا ت形成 الوثائق في الجبل جزءًا من أي “سجال” أو سردية يحتمل أن يكتشفها أساليب البحث الحالية، على الرغم من أن هذه الاتصالات الخفية توجد بالفعل.
في النطاق الذي يتم النظر فيه، فإن التدوين اليدوي أو التنظيم أمر مستحيل. تحتوي مجموعة البيانات التي تم اشتقاق 1000 وثيقة من مكتبة الكونغرس منها على أكثر من 40 مليون ملف PDF، والتي يعتزم الباحثون جعلها تحديًا يمكن التغلب عليه في المستقبل القريب.
الرؤية الحاسوبية لتحليل ملفات PDF
معظم الأبحاث السابقة التي يشيرون إليها يستخدمون أساليب نصية لاستخراج الميزات والمفاهيم عالية المستوى من مواد ملفات PDF؛ بالمقابل، يركز مشروعهم على استخراج الميزات والاتجاهات من خلال فحص ملفات PDF على مستوى مرئي، بما يتماشى مع البحث الحالي في التحليل المتعدد الوسائط للمحتوى الإخباري.
على الرغم من أن تعلم الآلة قد تم تطبيقه أيضًا بهذه الطريقة لتحليل ملفات PDF من خلال مخططات محددة للقطاع مثل عالم المعاني، يهدف المؤلفون إلى إنشاء خطوط أنابيب استخراج أكثر تطورًا يمكن تطبيقها على نطاق واسع عبر مجموعة من المنشورات، بدلاً من أن تكون مخصصة لقيود النشر العلمي أو قطاعات أخرى ضيقة.
معالجة البيانات غير المتوازنة
في إنشاء مخطط قياسي، كان على الباحثين مراعاة مدى انحياز البيانات، على الأقل من حيث الحجم لكل عنصر.
من بين 1000 ملف PDF في مجموعة البيانات المحددة (التي يفترض المؤلفون أنها ممثلة ل40 مليون منها)، 33٪ فقط صفحة واحدة، و 39٪ من 2-5 صفحات. هذا يضع 72٪ من الوثائق في خمس صفحات أو أقل.
بعد ذلك، هناك قفزة كبيرة: 18٪ من الوثائق المتبقية تتراوح بين 6-20 صفحة، و 6٪ بين 20-100 صفحة، و 3٪ أكثر من 100 صفحة. هذا يعني أن أطول الوثائق تشكل الغالبية العظمى من الصفحات الفردية المستخرجة، بينما يوجه نهج أقل دقة يعتبر الوثائق فقط إلى الاهتمام نحو الوثائق الأقصر العديدة.
على الرغم من ذلك، هذه هي معايير مفيدة، لأن الوثائق من صفحة واحدة تميل إلى أن تكون مخططات فنية أو خرائط؛ وثائق 2-5 صفحات تميل إلى أن تكون إعلانات صحفية ونموذج؛ والوثائق الطويلة جدًا هي تقارير كتبية و منشورات، على الرغم من أنها مختلطة فيما يتعلق بالطول مع تفريغ بيانات تلقائي يحتوي على تحديات مختلفة للتفسير الدلالي.
لذلك، يتعامل الباحثون مع هذا الخلل كخاصية دلالية معنوية في حد ذاتها. ومع ذلك، لا تزال ملفات PDF تحتاج إلى المعالجة والكمية على أساس صفحة تلو الأخرى.
الهيكل
في بداية العملية، يتم تحليل البيانات الوصفية لملف PDF إلى بيانات جدولية. هذه البيانات الوصفية لن تكون غائبة، لأنها تتكون من كميات معروفة مثل حجم الملف و URL المصدر.
بعد ذلك، يتم تقسيم ملف PDF إلى صفحات، ويتم تحويل كل صفحة إلى تنسيق JPEG من خلال ImageMagick. ثم يتم تغذية الصورة إلى شبكة ResNet-50 التي تشتق متجهًا ذا 2048 بعدًا من الطبقة الثانية الأخيرة.
في نفس الوقت، يتم تحويل الصفحة إلى ملف نصي بواسطة pdf2text، ويتم الحصول على التمثيلات TF-IDF من خلال scikit-learn.
TF-IDF هو اختصار تكرار المصطلح وتكرار المستند العكسي، الذي يقيس شيوع كل عبارة داخل المستند لتكراره في مجموعة البيانات المضيفة، على مقياس دقيق من 0 إلى 1. لقد استخدم الباحثون كلمات فردية (monograms) كأصغر وحدة في إعدادات TF-IDF للنظام.
على الرغم من أنهم يعترفون بأن تعلم الآلة له أساليب أكثر تطورًا لتقديمها، يجادل المؤلفون بأن أي شيء أكثر تعقيدًا غير ضروري للمهمة المعلنة.
حقيقة أن كل وثيقة لها URL مصدر مرتبط بها تمكن النظام من تحديد مصدر الوثائق عبر مجموعة البيانات.
مناهج جديدة للبحث النصي
أحد أهداف المشروع هو جعل نتائج البحث للاستفسارات النصية أكثر معنى، مما يسمح بالاستكشاف المثمر دون الحاجة إلى معرفة سابقة زائدة. يصرح المؤلفون:
‘في حين أن البحث بالكلمات الرئيسية هو أسلوب بحث直觉ي ومتوسع للغاية، يمكن أن يكون محدودًا أيضًا، حيث يتحمل المستخدمون مسؤولية صياغة استفسارات الكلمات الرئيسية التي تسترجع نتائج ذات صلة.’
مرة واحدة يتم الحصول على قيم TF-IDF، من الممكن حساب الكلمات الأكثر شيوعًا والمحاولة لتقدير “مستند متوسط” في مجموعة البيانات. يصرح الباحثون بأن هذه الكلمات الرئيسية المتقاطعة بين المستندات عادة ما تكون ذات معنى، ويمكن أن تشكل علاقات مفيدة للباحثين لاستكشافها، والتي لا يمكن الحصول عليها فقط من خلال فهرسة نصية فردية لكل مستند.
بشكل مرئي، يسهل هذه العملية “لوحة مزاجية” من الكلمات المنبثقة من مختلف الإدارات الحكومية:
هذه الكلمات الرئيسية المستخرجة والعلاقات يمكن استخدامها لاحقًا لتشكيل مصفوفات ديناميكية في نتائج البحث، مع بداية مجموعة ملفات PDF “لرواية القصص”، والعلاقات بين الكلمات الرئيسية تجميع الوثائق (ربما حتى على مدار مئات السنين) لتحديد سجال متعدد الأجزاء قابل للاستكشاف لموضوع أو موضوع.
يستخدم الباحثون كلاстер كيمياني لتحديد الوثائق المرتبطة، حتى لو لم تكن الوثائق تشترك في مصدر مشترك. هذا يسمح بتطوير ميتاداتا الكلمات الرئيسية التي تطبق على مجموعة البيانات، والتي قد تظهر إما كترتيب للمصطلحات في بحث نصي صارم أو كعقد قريبة في بيئة استكشاف أكثر ديناميكية:
التحليل المرئي
الجديد الحقيقي في نهج الباحثين في واشنطن هو تطبيق تقنيات التحليل المرئي القائمة على تعلم الآلة إلى المظهر الممسوح ضوئيًا لملفات PDF في مجموعة البيانات.
بهذه الطريقة، من الممكن生成 علامة “محررة” على أساس مرئي، حيث لن توفر أي شيء في النص نفسه أساسًا مشتركًا.
علاوة على ذلك، يمكن أن يتم تحديد الخريطة والهندسة المعمارية والتصنيف، ويعلق المؤلفون على هذه الوظيفة المحتملة:
‘للباحثين المهتمين بالكشف عن المعلومات المصنفة أو الحساسة، قد يكون من المثير للاهتمام عزل هذا النوع من تجمع المواد لتحليل البحث.’
يشير البحث إلى أن مجموعة واسعة من المؤشرات المرئية الشائعة لملفات PDF الحكومية يمكن استخدامها أيضًا لتصنيف الوثائق وإنشاء “سجالات”. هذه “العلامات” يمكن أن تكون ختم الكونغرس، أو شعارات أخرى أو ميزات مرئية متكررة لا توجد دلالاتها في بحث نصي خالص.
بعد ذلك، يمكن تحديد الوثائق التي تتعارض مع التصنيف، أو التي تأتي من مصدر غير شائع، من خلال تخطيطها، مثل الأعمدة، وأنواع الخطوط، والميزات المميزة الأخرى.
‘قابلية البحث والتحليل لملفات PDF وفقًا لميزاتها المرئية هي نهج شامل: لا يزيد فقط على الجهود الحالية المحيطة بالتحليل النصي، بل يعيد أيضًا تصور ما يمكن أن يكون البحث والتحليل عليه للمحتوى المولود رقميًا.’
يتعزم المؤلفون على تطوير إطارهم لاستيعاب مجموعات بيانات أكبر بكثير، بما في ذلك مجموعة بيانات أرشيف الويب الرئاسي نهاية المدة لعام 2008، التي تحتوي على أكثر من 10 ملايين عنصر. في البداية، ومع ذلك، يعتزمون توسيع نظامهم لمعالجة “عشرات الآلاف” من ملفات PDF الحكومية.
يتعزم المؤلفون على تقييم نظامهم في البداية مع مستخدمين حقيقيين، بما في ذلك أمين المكتبة، وأرشيفي، ومحام، ومؤرخ، وباحثون آخرون، وسوف يتطور بناءً على ملاحظات هذه المجموعات.
مكافحة حجم المنشورات الحكومية المولودة رقميًا: نحو خطوط أنابيب لمعالجة وبحث ملايين ملفات PDF مكتوب من قبل Benjamin Charles Germain Lee (في مدرسة Paul G. Allen لعلوم وهندسة الحاسوب) و Trevor Owens، المؤرخ العام في الإقامة ورئيس إدارة المحتوى الرقمي في مكتبة الكونغرس في واشنطن العاصمة.
* تحويلي للاستشهادات الداخلية إلى روابط تشعبية.
نشر لأول مرة في 28 ديسمبر 2021












