Yapay Zekâ
ABD Hükümetinin PDF Dağını Bilgisayarlı Görüntü Islemleriyle Aşmak

Adobe’un PDF formatı, ABD hükümeti belge işlem hatlarına öyle derinden yerleşmiştir ki, şu anda var olan devlet tarafından yayınlanan belgelerin sayısı muhafazakar bir tahmine göre yüz milyonların üzerinde olduğu tahmin edilmektedir. Çoğu zaman opak ve meta veri içermeyen bu PDF’ler – birçoğu otomatik sistemler tarafından oluşturulan – topluca hiçbir hikaye veya saga anlatmaz; tam olarak ne aradığınızı bilmiyorsanız, ilgili bir belgeyi muhtemelen asla bulamayacaksınız. Ve eğer biliyorsanız, muhtemelen aramaya ihtiyacınız olmadı. Ancak yeni bir proje, bilgisayar görüntüleme ve diğer makine öğrenimi yaklaşımlarını kullanarak, bu neredeyse yaklaşılması imkansız veri dağını, araştırmacılar, tarihçiler, gazeteciler ve akademisyenler için değerli ve keşfedilebilir bir kaynak haline getirmeyi amaçlıyor.
ABD hükümeti 1990’larda Adobe’un Taşınabilir Belge Formatını (PDF) keşfettiğinde, bunun hoşuna gittiğini kararlaştırdı. Düzenlenebilir Word belgelerinden farklı olarak, PDF’ler çeşitli şekillerde “pişirilebiliyordu” ki bu da daha sonra değiştirilmelerini zor veya imkansız hale getiriyordu; yazı tipleri gömülebiliyordu, bu da çapraz platform uyumluluğunu sağlıyordu ve yazdırma, kopyalama ve hatta açma kontrollü bir şekilde gerçekleştirilebiliyordu.
Daha da önemlisi, bu temel özellikler formatın en eski “temel” özelliklerinde mevcuttu, bu da arşiv materyallerinin daha sonra erişilebilirliklerini sağlamak için yeniden işlenmesine veya yeniden ziyaret edilmesine gerek kalmayacağına söz veriyordu. Hükümet yayıncılığı için neredeyse her şey 1996’ya kadar yerine getirilmişti.
Blockchain kökeni ve NFT teknolojileri on yıllar uzakta iken, PDF, ortaya çıkan dijital çağa yakın bir “ölü” analoğa, sadece bir kavramsal aksaklık uzakta bir faksın ötesindeydi. Bu, tam olarak istendiği şeydi.
PDF Hakkında İç Çatışma
PDF’lerin ne kadar kapalı, işlenemez ve “sosyal olmayan” olduğu, Kongre Kütüphanesi’nde format hakkında bulunan belgede karakterizedir, bu belge PDF’i “tercih edilen format” olarak favori olarak göstermektedir:
‘PDF/A formatının birincil amacı, elektronik belgeleri, oluşturuldukları, depolandıkları veya görüntülendikleri araçlardan ve sistemlerden bağımsız olarak statik görsel görünümünü koruyarak temsil etmektir. Bu amaçla, PDF/A, cihaz bağımsızlığını, kendi kendine içerme ve kendi kendine belgelendirmeyi en üst düzeye çıkarmaya çalışır.’
ABD hükümeti departmanları arasında PDF formatına yönelik devam eden coşku, erişilebilirlik standartları ve minimum sürüm gereksinimleri değişkenlik göstermektedir. Örneğin, Çevre Koruma Ajansı bu konuda sıkı ancak destekleyici politikalarına sahiptir, ancak resmi ABD hükümeti web sitesi plainlanguage.gov kabul etmektedir ki ‘kullanıcılar PDF’den nefret etmektedir’ ve doğrudan 2020 Nielsen Norman Group raporuna bağlanmaktadır, adı PDF: İnsan Tüketimi İçin 20 Yıl Sonra Hala Uygun Değil.
PDF’lerin Viral Yayılması
PDF’nin temel özellikleri Adobe tarafından açık kaynak olarak yayınlanınca, bir dizi sunucu tarafı işleme araçları ve kütüphaneleri ortaya çıktı, bunların birçoğu şimdi saygın ve 1996’daki PDF özelliklerine kadar yerleşmiş ve güvenilir ve hata dirençli, aynı zamanda yazılım satıcıları, PDF işlevselliğini düşük maliyetli araçlara entegre etmeye koşuştu.
Sonuç olarak, sevilirse de sevilmezse de, PDF’ler, hükümet departmanlarındaki iletişim ve belgeleme çerçevelerinde yaygın olarak kullanılmaya devam etmektedir.
2015 yılında Adobe’un Belge Bulutu VP Mühendisi Phil Ydens tahmin etti ki 2,5 trilyon PDF belgesi dünya üzerinde var, oysa formatın tüm web içeriğinin %6-11’ini oluşturduğu düşünülüyor. Eski teknolojileri bozmaya bağımlı bir teknoloji kültüründe, PDF, ev sahibi teknolojilerin bir parçası olan “pas” haline geldi – barındırdığı yapıların merkezi bir parçası.
PDF’ler: Analize Dirençli
Washington araştırmacılarının projesi, bir dizi makine öğrenimi yöntemini, Kongre Kütüphanesi’nden kamuya açık ve annotated corpus olan 1000 seçilmiş belgeye uygulamaktadır, amacı ise metin ve görüntü tabanlı sorguların çok hızlı ve çok modlu geri çağırma sistemleri geliştirmektir, bu sistemler hükümette ve diğer birçok sektörde mevcut ve büyüyen PDF hacimlerine ölçeklenebilmelidir.
Bilgisayarlı Görüntü Islemleri için PDF Analizi
Önceki araştırmaların çoğunda, yazarlar tarafından atıfta bulunulan metin tabanlı yöntemler, PDF materyallerinden özellikler ve yüksek düzeyli kavramlar çıkarmak için kullanılır; buna karşılık, projeleri, PDF’leri görsel düzeyde inceleyerek özellikler ve eğilimleri türetmeye odaklanır, bu da mevcut araştırmaya haber içeriğinin çok modlu analizine paraleldir.
Makine öğrenimi ayrıca, Semantic Scholar gibi sektöre özgü şemalar aracılığıyla PDF analizi için uygulanmıştır, ancak yazarlar, bilim yayıncılığı veya diğer dar sektörlerin sınırlamalarına göre ayarlanmış olan daha dar sektörlere göre daha geniş olarak uygulanabilir yüksek düzeyli çıkarma boru hatları oluşturmayı amaçlamaktadır.
Dengesiz Verileri Ele Almak
Bir ölçekleme şeması oluştururken, araştırmacılar verilerin ne kadar çarpık olduğunu dikkate almak zorunda kaldılar, en azından her bir öğenin boyutuna göre.
Seçilen veri kümesindeki 1000 PDF’den (yazarlar, bunların 40 milyondan çekilenlerin temsilcisi olduğunu varsayar), %33’ü sadece bir sayfadan oluşmaktadır ve %39’u 2-5 sayfadan oluşmaktadır. Bu, belgelerin %72’sini beş sayfaya veya daha azına koymaktadır.
Sonrasında, oldukça bir sıçrama vardır: kalan belgelerin %18’i 6-20 sayfaya, %6’sı 20-100 sayfaya ve %3’ü 100 sayfaya veya daha fazlasına ulaşmaktadır. Bu, en uzun belgelerin bireysel sayfaların çoğunu oluşturduğu anlamına gelirken, daha az granül bir yaklaşım, belgileri dikkate alacaktır ve dikkati daha çok sayıda daha kısa belgelerin üzerine çekecektir.
Bununla birlikte, bu, yararlı ölçümlerdir, çünkü tek sayfalık belgeler genellikle teknik şemalar veya haritalardır; 2-5 sayfalık belgeler genellikle basın açıklamaları ve formlardır ve çok uzun belgeler genellikle kitap uzunluğundaki raporlar ve yayınlardır, ancak uzunluk açısından, bunlar, tamamen farklı anlamsal yorumlama zorluklarına sahip olan büyük otomatik veri dökümleri ile karıştırılmıştır.
Bu nedenle, araştırmacılar, bu dengesizliği, itselfin anlamlı bir semantik özelliği olarak ele almaktadırlar. Yine de, PDF’ler, her bir sayfaya göre işlenmeli ve nicelendirilmelidir.
Mimari
Sürecin başında, PDF’nin meta verileri, tablo verilerine parse edilir. Bu meta veriler eksik olmayacaktır, çünkü bunlar, dosya boyutu ve kaynak URL gibi bilinen miktarları içermektedir.
PDF daha sonra sayfalarına bölünür, her sayfa ImageMagick aracılığıyla JPEG formatına dönüştürülür. Görüntü, daha sonra, ikinci son katmandan 2048 boyutlu bir vektörü türetmek için ResNet-50 ağına beslenir.

PDF’lerden çıkarma için boru hattı. Kaynak: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
Aynı zamanda, sayfa, pdf2text aracılığıyla metin dosyasına dönüştürülür ve scikit-learn aracılığıyla TF-IDF özelliklendirileri elde edilir.
TF-IDF, Terim Sıklığı Ters Belge Sıklığı anlamına gelir, bu, her bir ifadenin belge içinde yaygınlığını, tüm veri kümesindeki sıklığına ölçeklendirir, 0 ile 1 arasında ince bir ölçekte. Araştırmacılar, sistemlerinin TF-IDF ayarlarında en küçük birim olarak tek kelimeleri (tek kelimelikleri) kullanmışlardır.
Makine öğreniminin, bu görev için daha sofistike yöntemler sunabileceğini kabul etseler de, yazarlar, daha karmaşık olanların gereksiz olduğunu savunurlar.
Her belgenin bir kaynak URL’si ile ilişkili olması, sistemlerin belgelerin kökenini veri kümesi genelinde belirlemesine olanak tanır.

Bu, bin belge için önemsiz gibi görünse de, 40 milyondan fazlası için oldukça önemli olacaktır.
Yeni Metin Arama Yaklaşımları
Projenin amaçlarından biri, metin tabanlı sorgular için arama sonuçlarını daha anlamlı hale getirmektir, bu da, önceden bilgi sahibi olmadan verimli bir şekilde keşif yapılmasına olanak tanır. Yazarlar şöyle diyor:
‘Anahtar kelime arama, sezgisel ve yüksek oranda genişletilebilir bir arama yöntemi olmakla birlikte, sınırlı da olabilir, çünkü kullanıcılar alakalı sonuçları elde etmek için anahtar kelime sorgularını formüle etmekle sorumludurlar.’
TF-IDF değerleri elde edildikten sonra, en sık kullanılan kelimelerin hesaplanması ve korpus içindeki “ortalama” belgenin tahmini mümkündür. Araştırmacılar, bu belge arası anahtar kelimelerinin genellikle anlamlı olduğunu, bu sürecin, bireysel olarak her bir belgenin metninin dizinlenmesiyle elde edilemeyecek ilişkiler oluşturabileceğini savunurlar, bu da akademisyenler için keşfedilmeye değer ilişkiler oluşturabilir.
Görsel Analiz
Washington araştırmacılarının yaklaşımının真正 yeniliği, veri kümesindeki PDF’lerin pikselleştirilmiş görünümüne makine öğrenimi tabanlı görsel analiz tekniklerini uygulamaktır.
Bu şekilde, metin itselfinde ortak bir temel sağlayamasa da, görsel temelde bir “REDATED” etiketi üretmek mümkündür.

Yeni projede bilgisayar görüntüleme tarafından tanımlanan redacted PDF ön sayfalarının bir kümesi.
Ayrıca, bu yöntem, sıkça redacted materyalin olduğu government belgeleri için dahi, bu etiketi türetebilir, bu da bu uygulamanın kapsamlı ve eksiksiz bir aramasını mümkün kılar.
Haritalar ve şemalar da benzer şekilde tanımlanabilir ve kategorilere ayrılabilir, ve yazarlar bu potansiyel işlevselliğe ilişkin olarak şunları söylemektedir:
‘Sınıflandırılmış veya diğer şekilde duyarlı bilgilerin açıklamalarıyla ilgilenen akademisyenler için, tam da bu tür materyalin-clusterını analiz ve araştırma için izole etmek son derece ilginç olabilir.’
Makale, belirli türdeki government PDF’lerde ortak görsel göstergelerin de, belgeleri sınıflandırmak ve “saga” oluşturmak için kullanılabileceğini belirtmektedir. Bu “token”ler, Kongre mührü veya diğer logolar veya tekrar eden görsel özellikler olabilir, bunlar metin aramasında anlamsal bir varlıkları olmasa da.












