Anderson’un Açısı

Otomatik Bilim Yazımına Doğru

mm

Bu sabah, Arxiv’in Bilgisayar Bilimi bölümlerini, her sabah yaptığım gibi, tararken, Brezilya’nın Federal Üniversitesi’nden yeni bir makale ile karşılaştım ve bu makale, bilimsel makalelerin özetlenmesini ve temel verilerin çıkarılmasını otomatikleştirmek için yeni bir Doğal Dil İşleme çerçevesi sunuyor.

Bu, daha veya moins, her gün yaptığım şey, bu nedenle makale, bu yılın başlarında bir Reddit yazarları thread’inde yapılan bir yorumu anımsattı – bilim yazısının, makineler tarafından ele geçirilecek ilk gazetecilik işlerinden biri olacağına dair bir kehanet.

Açık olmak istiyorum – otomatik bilim yazarının geleceğine kesinlikle inanıyorum ve bu makalede açıkladığım tüm zorlukların ya şimdi çözülebileceğini ya da sonunda çözülebileceğini düşünüyorum. Mümkün olduğunda örnekler veriyorum. Ayrıca, mevcut veya yakın gelecekteki bilim yazma AI’lerinin yazabileceğini ele almadığımı belirtmek istiyorum; bu sektördeki NLP’de ilgi düzeyine dayanarak, bu zorluğun sonunda çözüleceğini varsayıyorum.

Ancak, bir bilim-yazma AI’sinin, yayıncıların (oldukça çeşitli) istenen sonuçlarına uygun olarak ilgili bilim hikayelerini tanıyıp tanımadığını sorguluyorum.

Bunun yakın zamanda olacağına inanmıyorum; her hafta yaklaşık 2000 yeni bilimsel makaleyi tarayarak, akademik gönderilerin algoritmik olarak nasıl parçalanabileceği konusunda, ya akademik indeksleme ya da bilimsel gazetecilik için, oldukça daha kuşkucu bir bakış açısına sahibim. Her zamanki gibi, sorun çıkaranlar insanlardır.

Otomatik Bilim Yazarı için Gereksinimler

Bilimsel araştırma hakkında otomatik bilim raporlama zorluğunu ele alalım. Adil olmak için, bunu büyük ölçüde Cornell Üniversitesi’nden çok popüler ve ücretsiz Arxiv domaine sınırlayacağız, bu da en azından bir veri çıkarma pipeline’ına takılabilecek bazı sistematik ve şablonlu özelliklere sahiptir.

Yeni Brezilya makalesi gibi, görevin, yeni bilimsel makalelerin başlıklarını, özetlerini, meta verilerini ve (gerekliyse) vücut içeriğini, sabitler, güvenilir parametreler, token’lar ve eyleme geçirilebilir, azaltılabilir alan bilgisi için aramaya devam etmek olduğunu varsayalım.

Bu, yüksek başarılı yeni çerçevelerin kazandığı deprem raporlaması, spor yazısı, finansal gazetecilik ve sağlık kapsamı alanlarında olduğu gibi, ilk prensiptir ve AI güçlendirilmiş bilim muhabirine makul bir başlangıç noktasıdır.

Yeni Brezilya teklifinin iş akışı. PDF bilim makalesi, UTF-8 düz metne dönüştürülür (ancak bu, anlamsal anlam taşıyabilecek italik vurguları kaldıracaktır) ve makale bölümleri etiketlenir ve çıkarılır, daha sonra metin süzgeçlerinden geçirilir. Parçalanmış metin, veri çerçevelerine bölünür ve veri çerçeveleri birleştirilir, daha sonra token tanımlaması yapılır ve iki belge-token matrisi oluşturulur Kaynak: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Yeni Brezilya teklifinin iş akışı. PDF bilim makalesi, UTF-8 düz metne dönüştürülür (ancak bu, anlamsal anlam taşıyabilecek italik vurguları kaldıracaktır) ve makale bölümleri etiketlenir ve çıkarılır, daha sonra metin süzgeçlerinden geçirilir. Parçalanmış metin, veri çerçevelerine bölünür ve veri çerçeveleri birleştirilir, daha sonra token tanımlaması yapılır ve iki belge-token matrisi oluşturulur Kaynak: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Şablonu Karmaşık Hale Getirme

Uyum ve düzenlemenin bir teşvik edici katmanı, Arxiv’in göndermeler için oldukça iyi bir şekilde uygulanmış bir şablonu vardır ve gönderen yazarlar için ayrıntılı rehberlik sağlar. Bu nedenle, makaleler genellikle tanımlanan protokolün ilgili kısımlarına uyar.

Bu nedenle, AI ön işleme sistemi, putatif otomatik bilim yazarı için, bu tür bölümleri alt alanlar olarak tedavi edebilir: özet, giriş, ilgili/önceki çalışma, yöntem/bilgi, sonuçlar/bulgular, ablasyon çalışmaları, tartışma, sonuç.

Ancak, uygulamada, bu bölümlerin bazıları eksik olabilir, yeniden adlandırılabilir veya başka bir bölüme ait içerik içerebilir. Ayrıca, yazarlar doğal olarak şablonu uyumlu olmayan başlıklar ve alt başlıklar dahil edecektir. Bu nedenle, NLP/NLU, bağlamdan ilgili bölümle ilgili içeriği tanımlamak zorunda kalacaktır.

Sorunlara Götürmek

Bir başlık hiyerarşisi, NLP sistemleri için içeriğin bloklarını ilk olarak kategorize etmenin kolay bir yoludur. Arxiv gönderilerinin çoğu Microsoft Word’den (Arxiv PDF’lerinde ‘Microsoft Word’ başlık bölümünde bırakıldığı gibi) ihraç edildiğini kanıtlar. Word’de bölüm başlıklarını kullanırsanız, bir PDF’ye aktarma, bunları hiyerarşik başlıklar olarak yeniden oluşturur, bu da bir makine raporunun veri çıkarma süreçleri için faydalıdır.

Ancak, bu, yazarların gerçekten Word’de veya diğer belge oluşturma çerçevelerinde (örneğin TeX ve türevleri) bu özellikleri kullandıklarını varsayar, ki bu, Arxiv gönderilerinde genellikle yerli alternatif formatlar olarak sunulmaz ve çoğu durumda yalnızca PDF ve bazen de daha da az şeffaf PostScript ile sınırlıdır.

Arxiv makalelerini yıllarca okuyarak, büyük çoğunluğunun hiçbir yorumlanabilir yapısal meta verisi içermediğini, başlığın (örneğin, bir web tarayıcısı veya bir PDF okuyucu) belgenin kendisinin tam başlığı (uzantı dahil) olarak bildirildiğini fark ettim.

Bu durumda, makalenin anlamsal yorumlanabilirliği sınırlıdır ve bir AI tabanlı bilim yazarı sistemi, Arxiv domaine ilişkili meta verilerine programlı olarak yeniden bağlanmak zorunda kalacaktır. Arxiv kuralı, temel meta verilerin de büyük gri yazı ile 1. sayfada yan yana yerleştirildiğini belirtir (aşağıdaki resme bakın). Ne yazık ki – en azından yayın tarihi veya sürüm numarasını bulabileceğiniz tek güvenilir yer olduğu için – genellikle hariç tutulur.

Çoklu yazar ya hiç stil kullanmaz ya da yalnızca en yüksek başlık (H1) stilini kullanır, bu da NLU’nun ya bağlamdan (muhtemelen çok zor değil) başlıkları çıkarmasına ya da belge yolundaki başlığın réféans numarasını (örneğin, https://arxiv.org/pdf/2110.00168.pdf) çözerek ve gönderinin meta verilerini ağ tabanlı (yerel değil) olarak kullanmasına neden olur.

Sonuncusu, eksik başlıkları çözmez, ancak en azından makalenin hangi Bilgisayar Bilimi bölümüne ait olduğunu belirler ve tarih ve sürüm bilgilerini sağlar.

Metni Birleştirmek

PDF ve postscript en yaygın kullanılan Arxiv formatlarından biri olduğundan, NLP sistemi, bir sonraki satırın başlangıcındaki kelimelere bağlı olan son satır kelimelerini ayırma rutinine ihtiyacı olacaktır.

Kelime birleştirmeyi (ve çift tireyi kaldırmayı) Perl ve diğer basit özyinelemeli rutinlerle gerçekleştirmek mümkündür, ancak bir Python tabanlı yaklaşım daha az zaman alıcı ve bir ML çerçevesine daha uygun olabilir. PDF formatının yaratıcısı Adobe, metni ‘akışkan hale getirebilen’ Liquid Mode adlı bir AI destekli dönüştürme sistemi geliştirdi, ancak mobil alanın ötesinde dağıtımı yavaş ilerledi.

Kötü İngilizce

İngilizce, bilimsel makalelerin sunulmasında küresel standarttır, ancak bu tartışmalıdır. Bu nedenle, ilginç ve haber değeri yüksek makaleler bazen kötü İngilizce içerir, özellikle İngilizce olmayan araştırmacılardan.

Eğer iyi İngilizce kullanımı, bir makine sistemi tarafından bir çalışmanın değerini değerlendirirken bir ölçüt olarak dahil edilirse, o zaman iyi hikayeler sık sık kaybedilecek ve pedantik, düşük değerli çıktılar, çok az şey söyleyerek daha iyi olacaktır.

Bu konuda esnek olmayan NLP sistemleri, özellikle grafik ve çizelgelerin daha uniform olarak dünya çapındaki bilim topluluklarına uyduğu kimya ve teorik fizik gibi en katı ve parametreli bilimlerde, veri çıkarmada ek bir engel yaşayacaktır. Makine öğrenimi makaleleri sık sık formüller içerir, ancak bunlar, tam olarak kurulmuş bilimsel uzlaşıya sahip older bilimlerde olduğu gibi, gönderinin tanımlayıcı değerini temsil etmeyebilir.

Seçim: Hedef Kitle Gereksinimlerini Belirleme

Hedef kitlemizi ve amaçlarımızı ele alalım, çünkü bunlar, bilim yazma AI’sinin binlerce makaleyi haftada süzerek geçebilmesi için çok önemli olacaktır. Potansiyel haber hikayelerinin başarısını öngörme zaten etkin bir makine öğrenimi alanıdır.

Örneğin, bir web sitesinde bilim yazma yalnızca daha geniş bir gazetecilik teklifinin bir parçasıysa (örneğin, İngiltere’nin Daily Mail bilim bölümü), bir AI, en yüksek geliri elde eden konuları belirlemek ve seçimini buna göre optimize etmek zorunda kalabilir. Bu süreç, robotlar, insansız hava araçları, derin sahtecilik, gizlilik ve güvenlik açıkları gibi (göreceli olarak) düşük asma meyvelerine öncelik verecektir.

Mevcut recommender sistemlerinin mevcut durumuna uygun olarak, bu yüksek düzeyde hasat, ‘filtre balonu’ sorunlarına yol açacaktır, çünkü algoritma, bu konularda ‘arzu edilen’ yüksek frekanslı anahtar kelimeleri ve ifadeleri içeren daha çok sahte bilim makalelerine dikkat artıracaktır (çünkü onlarda para vardır, hem trafik için haber ajansları hem de akademik bölümler için fon), bazı daha az ziyaret edilen Arxiv köşelerinde bulunabilecek çok daha yazılabilir ‘Paskalya yumurtaları’ndan (aşağıya bakınız) bazılarını görmezden gelecektir.

Tek ve Bitti!

İyi bilim haber malzemesi, garip ve beklenmedik yerlerden gelebilir ve daha önce verimsiz olan sektörlerden ve konulardan gelebilir. AI bilim yazarımızı daha da karıştırmak için, bir ‘vurucu’ (örneğin, bir Discord sunucusu, bir akademik araştırma bölümü veya bir teknoloji şirketi) kaynağı, bir daha asla eyleme geçirilebilir materyal üretmeyecektir, ancak aynı zamanda daha düşük değerli bir bilgi akışı üretmeye devam edecektir.

Bir yinelemeli makine öğrenimi mimarisinin bundan ne çıkarabileceği? Bu, AI’nin daha önce tanımladığı ve dışladığı binlerce ‘aykırı’ haber kaynağını şimdi önceliklendirmesi gerektiği (bu, sinyal-gürültü oranını yönetilemez kılardı, her yıl yayınlanan makalelerin yüksek hacmine bakıldığında)? Bu konunun kendisinin, haber kaynağı geldiği yere göre daha değerli olduğu (popüler bir konu için bu, bir tekrar edici eylemdir)?

Daha kullanışlı bir şekilde, sistem, ‘haber değeri’ olarak tanımlanan özelliği, günlük olarak değişebilen soyut bir nitelik olarak tanımlamak için, haberin nerede olduğunu bulmak için veri boyutu hiyerarşisinde yukarı veya aşağı hareket etmesi gerektiğini öğrenebilir.

Hipotez Başarısızlığını Tanımlama

Kota baskısı nedeniyle, akademik bölümler bazen, merkezi hipotezin testte tamamen (veya几乎 tamamen) başarısız olduğu çalışmalar yayınlarlar, ancak projenin yöntemleri ve bulguları kendi başlarına ilginç olabilir.

Bu tür hayal kırıklıkları genellikle özetlerde belirtilmez; en kötü durumlarda, çürütülmüş hipotezler, yalnızca sonuç grafiklerini okuyarak anlaşılabilir. Bu, yalnızca seçili ve sınırlı bilgileri sağlayabilecek makaleden metodolojinin ayrıntılı bir anlayışını çıkarmak anlamına gelir, ancak aynı zamanda bağlamda anlamlı bir şekilde yorumlayabilen grafik ve tablo yorumlama algoritmalarına ihtiyaç duyar.

Özetlere güvenen ancak grafik ve tabloları yorumlayamayan bir NLP tabanlı sistem, ilk okumada bir makaleye çok heyecanlanabilir. Ne yazık ki, akademik makalelerdeki ‘gizli başarısızlık’ önceki örnekleri, bu ‘akademik suç’un esas olarak ihmal veya vurgulamama suçu olması nedeniyle, eğitim için genellemeye dönüştürmek zordur.

AI yazar, sonuçların yazarların amaçlarını ne anlama geldiğini anlamak için depo verilerini (örneğin, GitHub’dan) bulmak ve mevcut ek malzemeleri parçalamak zorunda kalabilir. Bu nedenle, bir makine öğrenimi sistemi, bu işlemin çeşitli haritalanmamış kaynaklarına ve formatlarına gitmek zorunda kalacaktır, bu da doğrulama süreçlerinin otomasyonunu biraz mimari bir zorluk haline getirecektir.

‘Beyaz Kutu’ Senaryoları

AI merkezli güvenlik makalelerinde yapılan bazı en çılgın iddialar, kaynak kodu veya kaynak altyapısına olağanüstü ve çok muhtemel olmayan düzeyde erişim gerektirir – ‘beyaz kutu’ saldırıları. Bu, AI sistemlerinin mimarilerindeki önceden bilinmeyen tuhaflıkları çıkarmak için yararlıdır, ancak几乎 hiçbir zaman gerçekçi bir şekilde uygulanabilir bir saldırı yüzeyi temsil etmez. Bu nedenle, AI bilim yazarı, güvenlik iddialarını olasılıklara dönüştürmek için oldukça iyi bir ‘saçmalık dedektörüne’ ihtiyaç duyacaktır.

AI bilim yazarı, ‘beyaz kutu’ başvurularını anlamlı bir bağlama (örneğin, temel iddialardan ayırmak için) yerleştirme ve ‘beyaz kutu’ metodolojisini, bu terim makalede hiç görünmezse, çıkarmak için yetenekli bir NLU rutinine ihtiyaç duyacaktır.

Diğer ‘Tuzaklar’

Uygulama ve hipotez başarısızlığının başka yerlerde de gömülü olabileceği yerler, ablasyon çalışmalarıdır, bunlar yeni bir formül veya yöntemin önemli unsurlarını sistematik olarak çıkarmak ve sonuçların olumsuz etkilendiğini görmek veya ‘çekirdek’ bir keşfin dayanıklı olup olmadığını görmek içindir. Uygulamada, ablasyon çalışmaları içeren makaleler genellikle bulgularından emindir, ancak dikkatli bir okuma bazen bir ‘blöf’ü ortaya çıkarabilir. AI araştırmalarında, bu ‘blöf’ genellikle aşırı uyarlamadır, burada bir makine öğrenimi sistemi orijinal araştırma verilerine mükemmel bir şekilde performans gösterir, ancak yeni verilere genellemeyecektir veya diğer yeniden üretilmeyen kısıtlamalar altında çalışacaktır.

Başka bir faydalı bölüm başlığı, potansiyel sistemli çıkarma için Sınırlamalardır. Bu, herhangi bir bilim yazarının (AI veya insan) atlayacağı ilk bölümdür, çünkü makalenin tüm hipotezini geçersiz kılabilen bilgileri içerebilir ve ileriye gitmek, saatlerce kaybedilen emeği kurtarabilir (en azından insanlar için).

Kötü durum senaryosunda, bir makale gerçekten Sınırlamalar bölümüne sahiptir, ancak ‘uzlaştırıcı’ gerçekler bu bölümde değil, çalışmanın başka bir yerinde yer alır (veya burada küçümsenir).

Tazelik Değerlendirmesi

Yeniden yazma dışında, bir makalenin V.2’si genellikle yazarların ilk V.1 yayınlandığında alamadıkları ilgiyi talep etmelerinden ibarettir. Ancak, bir makale gerçekten ikinci bir şans hak edebilir, çünkü medyanın dikkati o sırada başka yere yönlendirilmiş olabilir veya çalışma, aşırı kalabalık ‘sempozyum’ ve konferans dönemlerinde (örneğin, sonbahar ve geç kış) göz ardı edilebilir.

Arxiv’de bir makaleyi yeniden yazma durumunu ayırt etmenin faydalı bir özelliği, [GÜNCELLENDİ] etiketinin makale başlıklarına eklenmesidir. AI yazarının dahili ‘öneri sistemi’, özellikle Arxiv’de [GÜNCELLENDİ] == ‘Oynandı’ olup olmadığını dikkatlice değerlendirmelidir, çünkü bu, bir insan bilim muhabirinden daha hızlı bir şekilde güncellenmiş makaleyi değerlendirebilir.

Arxiv ayrıca, bir makalenin başka bir makale (çoğunlukla aynı yazarlar tarafından) ile metinlerinin önemli ölçüde örtüştüğünü belirleme hakkında özet sayfasında bilgi sağlar ve AI yazarı sistemi, [GÜNCELLENDİ] etiketi yoksa, ‘yinelenen/tekrarlanan’ durumunu çıkarabilir.

Dağılma Belirlenmesi

Çoğu gazeteci gibi, projeksiyonlu AI bilim yazarı, bildirilmeyen veya yeterince bildirilmeyen haberleri aramaktadır, böylece desteklediği içerik akışına değer katmaktadır. Çoğu büyük platform, içeriklerini kapsamlı tanıtım makineleriyle desteklediğinden, TechCrunch, The Verge ve EurekaAlert gibi büyük platformlarda ilk olarak yer alan bilim buluşlarını yeniden raporlamak anlamsızdır.

Bu nedenle, AI yazarı, hikayenin takip etmeye değer olup olmadığını belirlemek için hikayenin tazelik düzeyini belirlemelidir.

Teoride en kolay yol, recent gelen bağlantıları, temel araştırma sayfalarına (özet, PDF, akademik bölüm haberleri bölümü, vb.) tanımlamaktır. Genel olarak, güncel gelen bağlantı bilgilerini sağlayabilen çerçeveler, açık kaynaklı veya düşük maliyetli değildir, ancak büyük yayıncılar, yenisworthiness-değerlendirmesi çerçevesinin bir parçası olarak SaaS masrafını karşılayabilir.

Bu erişimi varsayarsak, AI yazarı, bir bilim haber sitesi, bir hikayeyi takip etmeye değer bulursa, o hikayenin zaten linklendiği ve hikayenin already oynandığını belirleme sorunlarıyla karşı karşıya kalacaktır.

Çoklu bilim haber ajansları makaleleri alıntılamadığından, AI yazarı, bir makaledeki eyleme geçirilebilir anahtar kelimeleri çıkarmak ve zamanla sınırlı aramalar yapmak zorunda kalacaktır – ve sonra önceden difüzyonun göz ardı edilip edilemeyeceğini değerlendirecektir.

Bazen makaleler, YouTube’da ek video materyali sağlar, burada ‘görüntüleme sayısı’, difüzyonun bir göstergesi olarak hizmet edebilir. Ayrıca, AI, makaleden resimleri çıkarmak ve resim tabanlı aramalar yapmak zorunda kalacaktır – ve sonra hikayenin bereits nerede ve ne zaman yayınlandığını belirlemek için.

Paskalya Yumurtaları

Bazen bir ‘kurak’ makale, yazarlar tarafından oynanmayan veya görmezden gelinen ancak okunup hesaplanması yapıldığında önemli ve haber değeri yüksek sonuçlar ortaya koyan bulguları ortaya koyar.

Nadiren, yazarlar, kurumlarının PR departmanlarının sıklıkla abartılı çabalarına rağmen, kavramların genel tüketim için yeterince basitleştirilemeyeceğini hissettiler, belki de akademideki algıdan daha çok ilgileniyorlar.

Ancak, yazarlar da çalışmanın sonuçlarını görmezden gelebilir veya tanımlayamayabilir, resmi olarak ‘bilimsel uzaklık’ altında çalışırlar. Bazen bu ‘Paskalya yumurtaları’, olumlu göstergeler değildir ve karmaşık tabloların bulgularında gizlenebilir.

Arxiv Ötesi

Bilgisayar bilimi hakkında makaleleri, Arxiv gibi bir domaine parametreleştirerek, analiz için tutarlı ve şablonlu ‘kancalara’ sahip bir alan sunar, bu da AI bilim yazarı için daha kolay olacaktır.

Tüm bilim yayıncılığı açık kaynak değildir ve AI bilim yazarının, Sci-Hub aracılığıyla veya arşiv siteleri kullanarak paywall’ları aşabileceği, veya çeşitli diğer bilim yayıncılık platformları için benzer alan madencilik mimarilerini inşa edilip edilemeyeceği, pratik veya yasal açıdan görülmelidir.

Ayrıca, Arxiv hız sınırlamalarına sahiptir, bu da AI yazarının haber değerlendirme rutinlerini daha ‘insan’ hızına düşürebilecektir.

‘Sosyal’ AI Bilim Yazarı

Arxiv ve benzeri ‘açık’ bilim yayıncılık platformlarının ötesinde, bir ilginç yeni makaleye erişim bile bir zorluk olabilir, bu da bir yazarla temas kanalı bulmayı ve çalışmayı okumak için talepte bulunmayı ve alıntılar almak için (zaman baskısı olmayan durumlarda – günümüz insan bilim muhabirleri için nadir bir durum) gerektirebilir.

Bu, bilim alanlarını otomatik olarak dolaşmayı ve hesaplar oluşturmayı (bir makalenin yazarının e-posta adresini görmek için, hatta Arxiv’de bile, giriş yapmış olmanız gerekir) ve AI sistemlerinin üyelerle temas etmesine izin verilmediği için, LinkedIn en hızlı yanıt alma yoludur.

Bir bilim yazarı AI’sinin, bir Wired</i} gibi bir yayından bir bilim yazarı AI’sinin bir yazarla temas kurması – iyi, makalelerini yayımlamak isteyen bir yazarın, bu tür yarı otomatik alışverişlere düşmanca bir şekilde cevap vermeyeceğini varsayabiliriz.

Çoğu durumda, yazarın, bu tür yarı otomatik alışverişlerin sonunda bir insanı döngüye sokmasını umabileceğini hayal edebiliriz, ancak takip eden VOIP görüşmeleri, makalenin viability’si belirli bir eşiğin altında öngörülürse ve yayıncı, bir insan katılımını çekmek için yeterli itibara sahipse, bir AI tarafından kolaylaştırılabilir.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]