stub Ġenerazzjoni u Identifikazzjoni tal-Propaganda Bil-Machine Learning - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Il-ġenerazzjoni u l-identifikazzjoni tal-propaganda bit-tagħlim tal-magni

mm
Aġġornata on

Riċerka ġdida mill-Istati Uniti u l-Qatar toffri metodu ġdid biex jiġu identifikati aħbarijiet foloz li nkitbu bil-mod kif il-bnedmin fil-fatt tikteb aħbarijiet foloz – billi jinkorporaw dikjarazzjonijiet mhux preċiżi f’kuntest fil-biċċa l-kbira veri, u bl-użu ta’ tekniki ta’ propaganda popolari bħal appelli lill-awtorità u, lingwa mgħobbija.

Il-proġett irriżulta fil-ħolqien ta' dataset ġdid ta' taħriġ għall-iskoperta ta' aħbarijiet foloz imsejjaħ PropaNews, li jinkorpora dawn it-tekniki. L-awturi tal-istudju sabu li ditekters imħarrġa fuq is-sett tad-dejta l-ġdid huma 7.3-12% aktar preċiżi fl-iskoperta ta 'diżinformazzjoni miktuba mill-bniedem minn approċċi avvanzati preċedenti.

Mill-karta l-ġdida, eżempji ta ''appell lill-awtorità' u 'lingwa mgħobbija'. Sors: https://arxiv.org/pdf/2203.05386.pdf

Mill-karta l-ġdida, eżempji ta ''appell lill-awtorità' u 'lingwa mgħobbija'. Sors: https://arxiv.org/pdf/2203.05386.pdf

L-awturi jsostnu li sa fejn jafu, il-proġett huwa l-ewwel wieħed li jinkorpora tekniki ta 'propaganda (minflok ineżattezza fattwali sempliċi) f'eżempji ta' test iġġenerati mill-magni maħsuba biex iħaddmu ditekters ta 'aħbarijiet foloz.

L-aktar xogħol reċenti f'dan il-qasam, jsostnu, studja l-preġudizzju, jew inkella reġa' fassal id-dejta tal-'propaganda' fil-kuntest tal-preġudizzju (probabbilment minħabba li l-preġudizzju sar settur ta' tagħlim tal-magni li jista' jiffinanzja ħafna fl-era ta' wara l-Analytica).

L-awturi jgħidu:

'B'kuntrast, ix-xogħol tagħna jiġġenera aħbarijiet foloz billi jinkorporaw tekniki ta' propaganda u jippreservaw il-maġġoranza tal-informazzjoni korretta. Għalhekk, l-approċċ tagħna huwa aktar adattat għall-istudju tad-difiża kontra aħbarijiet foloz miktuba mill-bniedem.'

Huma juru aktar l-urġenza dejjem tikber ta’ tekniki ta’ skoperta ta’ propaganda aktar sofistikati*:

“Id-diżinformazzjoni [bil-miktub mill-bniedem], li spiss tintuża biex timmanipula ċerti popolazzjonijiet, kellha impatt katastrofiku fuq avvenimenti multipli, bħall- Elezzjoni Presidenzjali tal-Istati Uniti tal-2016, Brexit, Il- Pandemija COVID-19, u l-attakk riċenti tar-Russja fuq l-Ukrajna. Għalhekk, għandna bżonn urġenti ta' mekkaniżmu ta' difiża kontra d-diżinformazzjoni miktuba mill-bniedem.'

il karta huwa intitolat Faking Aħbarijiet Foloz għal Sejbien ta' Aħbarijiet Foloz Reali: Ġenerazzjoni ta' Data ta' Taħriġ mgħobbija bil-Propaganda, u ġej minn ħames riċerkaturi fl-Università ta 'Illinois Urbana-Champaign, Columbia University, Hamad Bin Khalifa University fil-Qatar, l-Università ta' Washington, u l-Istitut Allen għall-AI.

Id-Definizzjoni tal-Untruth

L-isfida tal-kwantifikazzjoni tal-propaganda hija fil-biċċa l-kbira waħda loġistika: hija għalja ħafna li timpjega bnedmin biex jirrikonoxxu u jannotaw materjal tad-dinja reali b'karatteristiċi simili għall-propaganda għall-inklużjoni f'sett tad-dejta tat-taħriġ, u potenzjalment ħafna irħas biex jiġu estratti u utilizzati karatteristiċi ta' livell għoli. li x'aktarx jaħdmu fuq data futura 'li ma tidhirx'.

Fis-servizz ta 'soluzzjoni aktar skalabbli, ir-riċerkaturi inizjalment ġabru artikli ta' diżinformazzjoni maħluqa mill-bniedem minn sorsi ta 'aħbarijiet meqjusa li huma baxxi fl-eżattezza fattwali, permezz tas-sit Media Bias Fact Check.

Huma sabu li 33% tal-artikoli studjati użaw tekniki ta 'propaganda diżingenużi, inkluż termini li jqanqlu l-emozzjonijiet, fallacies loġiċi, u appell lill-awtoritajiet. 55% addizzjonali tal-artikoli kien fihom informazzjoni mhux preċiża mħallta ma 'informazzjoni preċiża.

Ġenerazzjoni ta' Appelli lill-Awtorità

il appell lill-awtorità L-approċċ għandu żewġ każijiet ta’ użu: iċ-ċitazzjoni ta’ dikjarazzjonijiet mhux preċiżi, u ċ-ċitazzjoni ta’ dikjarazzjonijiet kompletament fittizji. Ir-riċerka tiffoka fuq it-tieni każ ta 'użu.

Mill-proġett il-ġdid, il-qafas tal-Inferenza tal-Lingwa Naturali RoBERTa jidentifika żewġ eżempji oħra ta 'appell għall-awtorità u lingwa mgħobbija.

Mill-proġett il-ġdid, il-qafas tal-Inferenza tal-Lingwa Naturali RoBERTa jidentifika żewġ eżempji oħra ta 'appell għall-awtorità u lingwa mgħobbija.

Bil-għan li tinħoloq propaganda ġġenerata mill-magni għas-sett tad-dejta l-ġdid, ir-riċerkaturi użaw l-arkitettura seq2seq imħarrġa minn qabel BART biex jidentifika sentenzi importanti li aktar tard jistgħu jinbidlu fi propaganda. Peress li ma kien hemm l-ebda sett ta' data disponibbli pubblikament relatat ma' dan il-kompitu, l-awturi użaw mudell ta' sommarju estrattiv propost fl-2019 biex tiġi stmata l-importanza tas-sentenza.

Għal artiklu wieħed minn kull ħanut tal-aħbarijiet studjat, ir-riċerkaturi ssostitwixxew dawn is-sentenzi 'mmarkati' b'argumenti foloz minn 'awtoritajiet' derivati ​​kemm mill-Wikidata Query Service kif ukoll minn awtoritajiet imsemmija fl-artikoli (jiġifieri nies u/jew organizzazzjonijiet).

Ġenerazzjoni tal-Lingwa mgħobbija

Lingwa mgħobbija jinkludi kliem, ħafna drabi avverbji sensazzjonalizzati u aġġettivi (bħal fl-eżempju illustrat hawn fuq), li fihom ġudizzji ta’ valur impliċiti mdaħħla fil-kuntest tat-twassil ta’ fatt.

Biex tinkiseb data dwar il-lingwa mgħobbija, l-awturi użaw dataset minn a 2019 study li fih 2,547 lingwa mgħobbija każijiet. Peress li mhux l-eżempji kollha fid-dejta tal-2019 kienu jinkludu avverbji jew aġġettivi li jqanqlu l-emozzjonijiet, ir-riċerkaturi użaw SpaCy biex iwettaq parsing tad-dipendenza u tikkettjar tal-Parti tad-Diskors (PoS), filwaqt li jżomm biss eżempji apposti għall-inklużjoni fil-qafas.

Il-proċess ta 'filtrazzjoni rriżulta f'1,017 kampjun ta' validi lingwa mgħobbija. Eżempju ieħor ta 'BART intuża biex jaħbu u jissostitwixxi sentenzi prominenti fid-dokumenti sors b'lingwa mgħobbija.

PropaNews Dataset

Wara taħriġ intermedju mudell imwettaq fl-2015 Sett tad-dejta tas-CNN/DM mill-Google Deep Mind u l-Università ta’ Oxford, ir-riċerkaturi ġġeneraw is-sett tad-dejta PropaNews, u kkonvertiw artikli mhux trivjali minn sorsi ‘affidabbli’ bħal Il-New York Times u, The Guardian f'verżjonijiet 'emendati' li fihom propaganda algoritmika maħduma.

L-esperiment kien immudellat fuq a 2013 study minn Hanover, li awtomatikament ġġenera sommarji tal-kronoloġija ta’ stejjer tal-aħbarijiet fuq 17-il avveniment tal-aħbarijiet, u total ta’ 4,535 storja.

Id-diżinformazzjoni ġġenerata ġiet sottomessa lil 400 ħaddiem uniku fl-Amazon Mechanical Turk (AMT), li jkopru 2000 Ħidma tal-Intelliġenza Umana (HITs). Biss l-artikoli mgħobbija bi propaganda meqjusa preċiża mill-[addiema kienu inklu]i fil-ver]joni finali ta’ PropaNews. Aġġudikazzjoni dwar in-nuqqas ta' qbil ġew ikkalkolati mill-Worker Agreement With Aggregate (WAWA) metodu.

Il-verżjoni finali ta’ PropaNews fiha 2,256 artiklu, ibbilanċjati bejn output falz u reali, li 30% minnhom ingranaġġ appell lill-awtorità, bi 30% oħra li jużaw lingwa mgħobbija. Il-kumplament sempliċement fih informazzjoni mhux preċiża tat-tip li fil-biċċa l-kbira ppopola settijiet ta' dejta preċedenti f'dan il-qasam tar-riċerka.

Id-dejta kienet maqsuma 1,256:500:500 madwar id-distribuzzjonijiet ta 'taħriġ, ittestjar u validazzjoni.

Sett tad-Data tal-HumanNews

Biex jevalwaw l-effettività tar-rutini mħarrġa ta 'skoperta tal-propaganda, ir-riċerkaturi kkumpilaw 200 artiklu tal-aħbarijiet miktuba mill-bniedem, inklużi artikoli miċħuda minn Politifact, u ppubblikati bejn l-2015-2020.

Din id-dejta ġiet miżjuda b'artikli addizzjonali miċħuda minn ħwienet tal-midja tal-aħbarijiet mhux affidabbli, u s-somma totali ċċekkjata mill-fatti minn student gradwat ewlieni tax-xjenza tal-kompjuter.

Is-sett tad-dejta finali, intitolat HumanNews, jinkludi wkoll 100 artiklu mill- Los Angeles Times.

Testijiet

Il-proċess ta' sejbien kien imqabbad ma' oqfsa preċedenti f'żewġ forom: PN-Silver, li tinjora l-validazzjoni tal-annotatur AMT, u PN-Deheb, li tinkludi l-validazzjoni bħala kriterji.

L-oqfsa li jikkompetu kienu jinkludu l-offerta tal-2019 Grover-GEN, 2020's Fatt-ĠEN, u FakeEvent, fejn artikli minn PN-Silver huma sostitwiti b'dokumenti ġġenerati b'dawn il-metodi eqdem.

Varjanti ta’ Grover u RoBERTa wrew li kienu l-aktar effettivi meta tħarrġu fuq is-sett tad-dejta l-ġdid ta’ PropaNews, bir-riċerkaturi kkonkludew li 'detectors imħarrġa fuq PROPANEWS jaħdmu aħjar fl-identifikazzjoni ta' diżinformazzjoni miktuba mill-bniedem meta mqabbla ma' taħriġ fuq settijiet ta' dejta oħra'.

Ir-riċerkaturi josservaw ukoll li anke s-sett tad-dejta tal-ablazzjoni semi-crippled PN-Silver jissupera metodi eqdem fuq settijiet ta 'dejta oħra.

Skadut?

L-awturi jtennu n-nuqqas ta’ riċerka sal-lum dwar il-ġenerazzjoni awtomatizzata u l-identifikazzjoni ta’ aħbarijiet foloz iċċentrati fuq il-propaganda, u jwissu li l-użu ta’ mudelli mħarrġa fuq dejta qabel avvenimenti kritiċi (bħal COVID, jew, forsi, is-sitwazzjoni attwali fil-Lvant Ewropa) ma jistax ikun mistenni li jaħdem bl-aħjar mod:

'Madwar 48% tad-diżinformazzjoni miktuba mill-bniedem ikklassifikata ħażin hija kkawżata mill-inkapaċità li jinkiseb għarfien dinamiku minn sorsi ġodda ta' aħbarijiet. Pereżempju, artikli relatati mal-COVID huma ġeneralment ippubblikati wara l-2020, filwaqt li ROBERTA kienet imħarrġa minn qabel dwar artikli tal-aħbarijiet maħruġa qabel l-2019. Huwa ta’ sfida kbira għal ROBERTA li tiskopri diżinformazzjoni ta’ suġġetti bħal dawn sakemm id-ditekter ma jkunx mgħammar bil-kapaċitajiet li jikseb għarfien dinamiku. minn artikli tal-aħbarijiet.'

L-awturi jinnotaw ukoll li RoBERTa tikseb preċiżjoni ta '69.0% għall-iskoperta ta' artikli tal-aħbarijiet foloz fejn il-materjal jiġi ppubblikat qabel l-2019, iżda tinżel għal preċiżjoni ta '51.9% meta applikata kontra artikli tal-aħbarijiet ippubblikati wara din id-data.

Paltering u Kuntest

Għalkemm l-istudju ma jindirizzahx direttament, huwa possibbli li dan it-tip ta 'għaddasa fil-fond fl-effett semantiku jista' eventwalment jindirizza armament aktar sottili tal-lingwa, bħal tpaxxir – l-użu self-serving u selettiv ta' dikjarazzjonijiet veri sabiex jinkiseb riżultat mixtieq li jista' jopponi l-ispirtu u l-intenzjoni perċepit tal-evidenza ta' sostenn użata.

Linja ta 'riċerka relatata u kemmxejn aktar żviluppata fl-NLP, il-viżjoni tal-kompjuter u r-riċerka multimodali hija l- studju tal-kuntest bħala żieda tat-tifsira, fejn l-ordni mill-ġdid selettiv u li jservi għal rashom jew il-kuntestwali mill-ġdid tal-fatti veri jsir ekwivalenti għal tentattiv biex tintwera reazzjoni differenti minn dik li l-fatti jistgħu jeffettwaw normalment, kieku ġew ippreżentati b'mod aktar ċar u lineari.

 

* Il-konverżjoni tiegħi taċ-ċitazzjonijiet inline tal-awturi għal hyperlinks diretti.

Ippublikat għall-ewwel darba fit-11 ta' Marzu 2022.