Inteligenta Artificiala

Generarea și identificarea propagandei cu învățare automată

Actualizat on December 9, 2022

O nouă cercetare din Statele Unite și Qatar oferă o nouă metodă de identificare a știrilor false care au fost scrise în modul în care oamenii chiar scrie știri false – prin încorporarea declarațiilor inexacte într-un context în mare parte veridic și prin utilizarea tehnicilor populare de propagandă, cum ar fi apelează la autoritate și limbaj încărcat.

Proiectul a dus la crearea unui nou set de date de formare pentru detectarea știrilor false, numit PropaNews, care încorporează aceste tehnici. Autorii studiului au descoperit că detectorii instruiți pe noul set de date sunt cu 7.3-12% mai precisi în detectarea dezinformațiilor scrise de oameni decât abordările anterioare de ultimă generație.

Din noua lucrare, exemple de „apel la autoritate” și „limbaj încărcat”. Sursa: https://arxiv.org/pdf/2203.05386.pdf

Din noua lucrare, exemple de „apel la autoritate” și „limbaj încărcat”. Sursă: https://arxiv.org/pdf/2203.05386.pdf

Autorii susțin că, după cunoștințele lor, proiectul este primul care încorporează tehnici de propagandă (mai degrabă decât inexactitatea reală a faptelor) în exemple de text generate de mașini destinate să alimenteze detectorii de știri false.

Cele mai recente lucrări din acest domeniu, susțin ei, au studiat părtinirea, sau altfel au reîncadrat datele „propagandei” în contextul părtinirii (probabil pentru că părtinirea a devenit un sector de învățare automată extrem de finanțabil în era post-Analytica).

Autorii afirmă:

„În contrast, munca noastră generează știri false prin încorporarea tehnicilor de propagandă și păstrarea majorității informațiilor corecte. Prin urmare, abordarea noastră este mai potrivită pentru studiul apărării împotriva știrilor false scrise de oameni.

Ele ilustrează în continuare urgența tot mai mare a tehnicilor de detectare a propagandei mai sofisticate*:

„Dezinformarea [scrisă de om], care este adesea folosită pentru a manipula anumite populații, a avut un impact catastrofal asupra evenimentelor multiple, cum ar fi Alegerile prezidențiale din SUA din 2016, Brexit, Pandemie COVID-19, și recentul asalt al Rusiei asupra Ucrainei. Prin urmare, avem nevoie urgentă de un mecanism de apărare împotriva dezinformarii scrise de oameni.

hârtie se intitulează Falsificarea știrilor false pentru detectarea știrilor false reale: generarea de date de antrenament încărcate de propagandăși provine de la cinci cercetători de la Universitatea din Illinois Urbana-Champaign, Universitatea Columbia, Universitatea Hamad Bin Khalifa din Qatar, Universitatea din Washington și Institutul Allen pentru IA.

Definirea neadevărului

Provocarea cuantificării propagandei este în mare măsură una logistică: este foarte costisitor să angajezi oameni care să recunoască și să adnoteze materiale din lumea reală cu caracteristici asemănătoare propagandei pentru a fi incluse într-un set de date de instruire și, potențial, mult mai ieftin de extras și de utilizat caracteristici de nivel înalt. care este probabil să funcționeze pe date viitoare „nevăzute”.

În serviciul unei soluții mai scalabile, cercetătorii au adunat inițial articole de dezinformare create de oameni din surse de știri considerate a fi cu o acuratețe reală redusă, prin intermediul site-ului Media Bias Fact Check.

Ei au descoperit că 33% dintre articolele studiate au folosit tehnici de propagandă necinstite, inclusiv termeni care declanșează emoții, erori logice, și apel la autorități. În plus, 55% dintre articole conțineau informații inexacte combinate cu informații corecte.

Generarea de apeluri la autoritate

apel la autoritate abordarea are două cazuri de utilizare: citarea de afirmații inexacte și citarea de enunțuri complet fictive. Cercetarea se concentrează pe al doilea caz de utilizare.

Din noul proiect, cadrul de inferință a limbajului natural RoBERTa identifică două exemple suplimentare de apel la autoritate și limbaj încărcat.

Cu scopul de a crea propagandă generată de mașini pentru noul set de date, cercetătorii au folosit arhitectura seq2seq preantrenată. BART pentru a identifica propoziții importante care ar putea fi ulterior transformate în propagandă. Deoarece nu a existat un set de date disponibil public legat de această sarcină, autorii au folosit un model de rezumat extractiv propus în 2019 pentru a estima proeminența propoziției.

Pentru câte un articol din fiecare canal de știri studiat, cercetătorii au substituit aceste propoziții „marcate” cu argumente false de la „autorități” derivate atât din Serviciul de interogare Wikidata, cât și de la autoritățile menționate în articole (adică persoane și/sau organizații).

Se generează limbajul încărcat

Limbă încărcată include cuvinte, adesea adverbe și adjective senzaționalizate (ca în exemplul ilustrat mai sus), care conțin judecăți implicite de valoare înglobate în contextul transmiterii unui fapt.

Pentru a obține date referitoare la limbajul încărcat, autorii au folosit un set de date din a 2019 studiu conținând 2,547 limbaj încărcat instanțe. Deoarece nu toate exemplele din datele din 2019 au inclus adverbe sau adjective care declanșează emoții, cercetătorii au folosit SpaCy pentru a efectua analizarea dependențelor și etichetarea părții de vorbire (PoS), reținând doar exemple adecvate pentru includerea în cadru.

Procesul de filtrare a rezultat în 1,017 mostre de valide limbaj încărcat. O altă instanță a BART a fost folosită pentru a masca și înlocui propozițiile importante din documentele sursă cu limbajul încărcat.

Setul de date PropaNews

După formarea de model intermediar efectuată în 2015 Setul de date CNN/DM de la Google Deep Mind și Universitatea Oxford, cercetătorii au generat setul de date PropaNews, transformând articole netriviale din surse „de încredere”, cum ar fi New York Times și The Guardian în versiuni „modificate” care conțin propagandă algoritmică elaborată.

Experimentul a fost modelat pe a 2013 studiu de la Hanovra, care a generat automat rezumate cronologice ale știrilor din 17 evenimente de știri și un total de 4,535 de știri.

Dezinformația generată a fost transmisă la 400 de lucrători unici de la Amazon Mechanical Turk (AMT), care acoperă 2000 de sarcini de inteligență umană (HIT). Numai articolele încărcate de propagandă considerate precis de către muncitori au fost incluse în versiunea finală a PropaNews. Adjudecarea dezacordurilor au fost punctate de Acordul de muncitor cu agregat (WAWA) metoda.

Versiunea finală a PropaNews conține 2,256 de articole, echilibrate între producția falsă și cea reală, din care 30% efect de pârghie. apel la autoritate, cu încă 30% folosind limbaj încărcat. Restul conține pur și simplu informații inexacte de tipul care a populat în mare măsură seturile de date anterioare în acest domeniu de cercetare.

Datele au fost împărțite 1,256:500:500 în distribuțiile de instruire, testare și validare.

Setul de date HumanNews

Pentru a evalua eficacitatea rutinelor antrenate de detectare a propagandei, cercetătorii au compilat 200 de articole de știri scrise de oameni, inclusiv articole dezmințite de Politifact și publicate în perioada 2015-2020.

Aceste date au fost completate cu articole suplimentare dezmințite de la instituții de știri nedemne de încredere și cu suma totală verificată de un student absolvent de specialitate în informatică.

Setul de date final, intitulat HumanNews, include, de asemenea, 100 de articole din Los Angeles Times.

Teste

Procesul de detectare a fost pus în comparație cu cadrele anterioare în două forme: PN-argint, care ignoră validarea adnotatorului AMT și PN-Aur, care include validarea ca criteriu.

Cadrele concurente au inclus oferta 2019 Grover-GEN, 2020 Fapt-GEN, și FakeEvent, în care articolele din PN-Silver sunt înlocuite cu documente generate prin aceste metode mai vechi.

Variantele lui Grover și Roberta s-au dovedit a fi cele mai eficiente atunci când au fost instruite pe noul set de date PropaNews, cercetătorii ajungând la concluzia că „detectorii instruiți pe PROPANEWS au rezultate mai bune în identificarea dezinformațiilor scrise de oameni, în comparație cu formarea pe alte seturi de date”.

Cercetătorii observă, de asemenea, că chiar și setul de date de ablație semi-infirmă PN-Silver depășește metodele mai vechi din alte seturi de date.

Expirat?

Autorii reiterează lipsa cercetărilor până în prezent cu privire la generarea și identificarea automată a știrilor false centrate pe propagandă și avertizează că utilizarea modelelor instruite pe date înainte de evenimente critice (cum ar fi COVID, sau, probabil, situația actuală din estul). Europa) nu se poate aștepta să aibă performanțe optime:

„Aproximativ 48% dintre dezinformațiile scrise de oameni, clasificate greșit, sunt cauzate de incapacitatea de a dobândi cunoștințe dinamice din noi surse de știri. De exemplu, articolele legate de COVID sunt de obicei publicate după 2020, în timp ce ROBERTA a fost pregătită în prealabil cu privire la articolele de știri lansate înainte de 2019. Este foarte dificil pentru ROBERTA să detecteze dezinformarea unor astfel de subiecte, cu excepția cazului în care detectorul este echipat cu capabilitățile de a dobândi cunoștințe dinamice. din articole de știri.'

Autorii mai notează că RoBERTa obține o acuratețe de 69.0% pentru detectarea articolelor de știri false în cazul în care materialul este publicat înainte de 2019, dar scade la 51.9% acuratețe atunci când este aplicată față de articolele de știri publicate după această dată.

Paltering și Context

Deși studiul nu o abordează în mod direct, este posibil ca acest tip de scufundare profundă în afectul semantic să poată aborda în cele din urmă armonizarea mai subtilă a limbajului, cum ar fi palpitând – folosirea egoistă și selectivă a afirmațiilor veridice în scopul obținerii unui rezultat dorit care se poate opune spiritului și intenției percepute a dovezilor care susțin utilizarea.

O linie de cercetare conexă și puțin mai dezvoltată în NLP, viziunea computerizată și cercetarea multimodală este studiul contextului ca un adjuvant al sensului, unde reordonarea sau re-contextualizarea selectivă și egoistă a faptelor adevărate devine echivalentă cu o încercare de a evidenția o reacție diferită decât ar putea produce faptele în mod obișnuit, dacă ar fi fost prezentate într-un mod mai clar și mai liniar.

* Conversia mea a citărilor inline ale autorilor în hyperlinkuri directe.

Prima dată publicată pe 11 martie 2022.

Urmeaza

O nouă analiză a riscurilor avertizează asupra pericolelor agriculturii AI

Nu ratați

Prefăcând corpuri „mai bune” cu AI

Martin Anderson

Scriitor despre învățare automată, inteligență artificială și date mari.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai