cung Ri-identifikimi i komentuesve të ndaluar të mediave sociale me mësimin e makinerisë - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Ri-identifikimi i komentuesve të ndaluar të mediave sociale me mësimin e makinerisë

mm
Përditësuar on

Studiuesit nga Universiteti John Hopkins kanë zhvilluar një qasje Deep Metric për identifikimin e komentuesve në internet që mund të kenë pezulluar llogari të mëparshme, ose mund të jenë duke përdorur llogari të shumta për të astroturfuar ose manipuluar ndryshe besimin e mirë të komuniteteve në internet si Reddit dhe Twitter.

Qasja, e paraqitur në a letër e re i udhëhequr nga studiuesi i NLP Aleem Khan, nuk kërkon që të dhënat hyrëse të shënohen automatikisht ose manualisht dhe përmirëson rezultatet e përpjekjeve të mëparshme edhe kur janë të disponueshme vetëm mostra të vogla teksti dhe ku teksti nuk ishte i pranishëm në grupin e të dhënave në Koha e stervitjes.

Sistemi ofron një skemë të thjeshtë të shtimit të të dhënave, me përfshirje të madhësive të ndryshme të trajnuara në një grup të dhënash me vëllim të lartë që përmban mbi 300 milionë komente që mbulojnë një milion llogari të ndryshme përdoruesish.

Arkitektura model e sistemit të riidentifikimit të John Hopkins, ku komponentët thelbësorë janë 1) përmbajtja e tekstit, 2) një veçori nën-Reddit dhe 3) ora/data e publikimit. Burimi: https://arxiv.org/pdf/2105.07263.pdf

Arkitektura model e sistemit të riidentifikimit të John Hopkins, ku komponentët thelbësorë janë 1) përmbajtja e tekstit, 2) një veçori nën-Reddit dhe 3) ora/data e publikimit. Burimi: https://arxiv.org/pdf/2105.07263.pdf

Korniza, e bazuar në të dhënat e përdorimit të Reddit, merr në konsideratë përmbajtjen e tekstit, vendosjen nën-Reddit dhe kohën e publikuar. Të tre faktorët kombinohen me metoda të ndryshme ngulitjeje, duke përfshirë konvolucionet njëdimensionale dhe projeksionet lineare, dhe ndihmohen nga një mekanizëm vëmendjeje dhe një shtresë maksimale e bashkimit.

Megjithëse sistemi përqendrohet në domenin e tekstit, studiuesit pretendojnë se qasja e tij mund të përkthehet në analizën e videos ose imazheve, pasi algoritmi i prejardhur funksionon në dukuritë e frekuencës në një nivel të lartë, pavarësisht nga një shumëllojshmëri gjatësish hyrëse për pikat e të dhënave të trajnimit.

Shmangia e "Zhvendosjes së temës"

Një kurth në të cilin mund të bien kërkimet e kësaj natyre, dhe të cilën autorët e kanë trajtuar shprehimisht në hartimin e sistemit, është vendosja e theksit të tepruar në rishfaqjen e temave ose temave të veçanta nëpër postime nga llogari të ndryshme.

Megjithëse një përdorues me të vërtetë mund të shkruajë në mënyrë të përsëritur ose përsëritëse në një fillesë të caktuar mendimi, tema ka të ngjarë të evoluojë dhe 'zhvarroset' me kalimin e kohës, duke zhvlerësuar përdorimin e saj si një çelës për identitetin. Autorët e karakterizojnë këtë kurth të mundshëm si 'të kesh të drejtë për arsye të gabuara' – një kurth më parë studiuar në John Hopkins.

Metodologjia e Trajnimit

Sistemi përdor stërvitje me precizion të përzier, një risi e paraqitur në vitin 2018 nga Baidu dhe NVIDIA, e cila përgjysmon kërkesat e memories duke përdorur nota gjysmë precize: vlerat e pikës lundruese 16-bit në vend të vlerave 32-bit. Të dhënat u trajnuan në dy GPU V100, me kohë mesatare të trajnimit në 72 orë.

Skema përdor kodim të thjeshtuar të tekstit, me kodues konvolucionistë të kufizuar në 2-4 nënfjalë. Megjithëse gjatësia mesatare për kornizat e kësaj natyre është maksimumi pesë nënfjalë, studiuesit zbuluan se kjo ekonomi jo vetëm që nuk kishte ndikim në performancën e renditjes, por se rritja e nënfjalëve në një maksimum prej pesë në fakt. i degraduar saktësia e renditjes.

Grupi i të Dhënave

Studiuesit nxorën një grup të dhënash prej 300 milionë postimesh në Reddit nga viti 2020 Pushshift Reddit Corpus grup i të dhënave, i quajtur grupi i të dhënave të miliona përdoruesve (MUD).

Të dhënat e të dhënave përfshin të gjitha postimet nga autorët e Reddit që publikuan 100-1000 postime midis korrikut 2015 dhe qershorit 2016. Marrja e mostrave me kalimin e kohës në këtë mënyrë siguron një gjatësi të mjaftueshme të historisë për studimin dhe ul ndikimin e postimeve sporadike të padëshiruara që nuk janë brenda fushës së veprimit të objektivave të hulumtimit.

Statistikat mbi grupin e të dhënave të përftuara për projektin e riidentifikimit të John Hopkins.

Statistikat mbi grupin e të dhënave të përftuara për projektin e riidentifikimit të John Hopkins.

Rezultatet

Imazhi më poshtë tregon përmirësimin kumulativ të rezultateve pasi saktësia e renditjes testohet në intervale prej një ore në stërvitje. Pas gjashtë orësh, sistemi tejkalon arritjet bazë të iniciativave të mëparshme.

Në një studim ablation, studiuesit zbuluan se heqja e veçorisë nën-Reddit nga rrjedha e punës kishte çuditërisht pak ndikim në saktësinë e renditjes, duke sugjeruar që sistemi përgjithësohet në mënyrë shumë efektive, me vegla të fuqishme të veçorive.

Frekuenca e postimit si një nënshkrim riidentifikimi

Kjo gjithashtu tregon se korniza është shumë e transferueshme në sisteme të tjera komentimi ose botimi ku disponohet vetëm përmbajtja e tekstit dhe data/ora e publikimit - dhe, në thelb, se shpeshtësia e përkohshme e postimit është në vetvete një tregues i vlefshëm kolateral për tekstin aktual përmbajtjen.

Studiuesit vënë në dukje se përpjekja për të kryer të njëjtin vlerësim brenda përmbajtjes së një nën-Reddit të vetme përbën një sfidë më të madhe, pasi vetë nën-Reddit shërben si një përfaqësues i temës dhe një skemë shtesë ndoshta do të ishte e nevojshme për të përmbushur këtë rol.

Megjithatë, studimi ishte në gjendje të arrinte rezultate premtuese brenda këtyre shtrëngimeve, me të vetmin paralajmërim që sistemi funksionon më mirë në vëllime të larta dhe mund të ketë vështirësi të shtuara në riidentifikimin e përdoruesve ku vëllimi i postimeve është i ulët.

Zhvillimi i Punës

Ndryshe nga një pjesë e madhe e iniciativave të mbikqyrura të të mësuarit, veçoritë në skemën e riidentifikimit të Hopkins janë mjaft diskrete dhe të fuqishme sa që performanca e sistemit përmirësohet dukshëm ndërsa vëllimi i të dhënave rritet.

Studiuesit shprehin interes për zhvillimin e sistemit duke adoptuar një qasje më të hollësishme për analizën e kohës së publikimit, pasi oraret shpesh të parashikueshme të dërguesve të mesazheve të padëshiruara (të automatizuara ose ndryshe) janë të ndjeshme ndaj identifikimit nga një qasje e tillë, dhe kjo do të bënte të mundur ose eliminoni në mënyrë më efektive përmbajtjen e robotëve nga një studim që synon kryesisht përdoruesit e shqetësuar, ose për të ndihmuar në identifikimin e përmbajtjes së automatizuar.