Îstîxbaratê ya sûnî

Fêmkirina Twitch Emotes Di Analîziya Hestiyê de

Demê on December 9, 2022

Ya gel mezinbûna bikaranîna emojî, emotîkon, emote, meme, GIF û awayên din ên ne-devkî yên ragihandina li ser platformên medyaya civakî, di van salên dawî de, hewildanên zanyarên daneyê ji bo têgihîştina perestgeha sosyolojîk a gerdûnî her ku diçe tevlihev dike; bi kêmanî, heta radeya ku meylên sosyolojîk ên li çaraliyê cîhanê dikarin ji axaftinên giştî werin ferq kirin.

Her çend Pêvajoya Zimanê Xwezayî (NLP) di van deh salên dawîn de di analîza hestê de bûye amûrek bi hêz, lê sektor ne tenê ji bo şopandina ferhengok ku her dem pêşve diçe zargotin û kurtebirên zimanî yên di nav gelek zimanan de, lê di heman demê de di hewldana deşîfrekirina wateya wêne-based postên li ser platformên medyaya civakî yên wekî Facebook û Twitter.

ji ber ku hejmara sînorkirî platformên medyaya civakî yên pir populer ji bo vî rengî lêkolînê tenê çavkaniya bi rastî hyperscale ne, ji bo sektora AI-ê pêdivî ye ku bi kêmanî hewil bide ku bi wê re gav bavêje.

Di Tîrmehê de, kaxezek ji Taywanê pêşkêşî a rêbaza nû kategorîzekirina hesta bikarhêner li ser bingeha 'GIF-ên reaksiyonê' yên ku li ser mijarên medyaya civakî hatine şandin (li wêneya jêrîn binêre), bi karanîna databasek ji 30,000 tweetan re bikar bînin da ku rêyek pêşbînkirina reaksiyonên li ser postek pêşve bibin. Kaxez dît ku bersivên-bingeha wêneyê bi gelek awayan hêsan têne pîvandin, ji ber ku ew hindiktir dibe ku sarkazmek hebe, a dijwariya berbiçav di analîza hestê de.

Lekolînwanên ji Taywanê di kaxezek 2021-an de karanîna GIF-ên reaksiyonên anîmasyon wekî 'nîşandêrên kêmker' ên hestê lêkolîn kirin.

Di destpêka vê salê de, xebatek lêkolînê ya ku ji hêla Zanîngeha Boston ve hatî rêve kirin modelên fêrbûna makîneyê yên perwerdekirî ji bo pêşbînîkirina memên wêneyê ku dibe ku li ser Twitterê viral bibin; û di Tebaxê de, lêkolînerên Brîtanî mezinbûna emojîyan li gorî emoticonan lêkolîn kirin (heye ferq) li ser medyaya civakî, berhevkirina danehevek mezin a 7 zimanî ya hestiyariya Twitterê ya wênegir.

Twitch Emotes

Naha, lêkolînerên Dewletên Yekbûyî metodolojiya fêrbûna makîneyê pêşve xistine da ku baştir fam bikin, kategorîze bikin û pîvandina pseudo-ferhenga herdem pêşveçûyî ya peywendiyên li ser tora pir populer Twitch.

Emotes neolojîzmayên ku li ser Twitch-ê têne bikar anîn da ku hest, hest, an henekên xwe îfade bikin. Ji ber ku ew bi pênase vegotinên nû ne, dijwariya pergalek fêrbûna makîneyê ne hewce ye ku bêdawî katalogkirina hestên nû (yên ku tenê carekê têne bikar anîn, an jî bi lez ji karanînê derkevin), lê ji bo bidestxistina têgihiştinek çêtir a çarçoweyê ye. bêdawî wan diafirîne; û pêşxistina pergalên ku bikaribin hestek wekî peyvek an hevokek hevedudanî ya 'demkî derbasdar' bidin nasîn ku germahiya hestyarî/siyasî ya wê dikare bi tevahî ji çarçoweyê were pîvandin.

Cîranên hesta 'FeelsGoodMan', ku wateya wan dikare bi paşgirên nezelal ve were guheztin. Çavkanî: https://arxiv.org/pdf/2108.08411.pdf

Ew kaxez sernavkirî ye FeelsGoodMan: Têgihîştina Semantîka Neologîzmên Twitch, û ji sê lêkolînerên li Spiketrap, pargîdaniyek analîzkirina medyaya civakî ya li San Francisco tê.

Bait û Switch

Tevî jiyana xwe ya nûjen û pir caran-kurt, hestên Twitch bi gelemperî materyalên çandî (tevî hestên kevnar) ji nû ve vedigerînin bi vî rengî ku dikare çarçoveyên analîzkirina hestê ber bi rêça xelet ve bibe. Şopandina guheztina wateya hestek dema ku ew pêş dikeve dikare tewra berevajîkirinek an înkarkirina hest an mebesta wê ya bingehîn eşkere bike.

Mînakî, lêkolîner destnîşan dikin ku alt-rasta orîjînal bedkaranîn yên hevnav FeelsGoodMan Memeya Pepe-the-frog di çarçoveya karanîna wê ya li ser Twitch-ê de hema hema bi tevahî tama xweya siyasî ya orjînal winda kiriye.

Bikaranîna hevokê, ligel wêneyekî beqekî kartonî ji komîkek 2005-an a hunermend Matt Furie, bû memeyekî rastgirekî tund di salên 2010an de. Her çend Vox nivîsî di sala 2017-an de ku destwerdana rastgir a memê ji xwepejirandina Furie xilas bû neqebûlkirin bi karanîna weha re, lêkolînerên San Francisco yên li pişt kaxeza nû wekî din dîtin *:

'Beqê kartonê Furie di destpêka salên 4-an de ji hêla posterên rastgir ve li ser forumên cihêreng ên serhêl ên mîna 2010chan hate pejirandin. Ji hingê ve, Furie ji bo vegerandina wateya karakterê xwe kampanyayek da destpêkirin, û hestiyar di nav serekî de zêdebûnek dîtiye. bikaranîna nefret û karanîna erênî li ser Twitch. Encamên me yên li ser Twitch li hev dikin, destnîşan dikin ku "FeelsGoodMan" û hevtayê wê "FeelsBadMan" bi giranî bi rastî têne bikar anîn.'

Trouble Downstream

Bi vî rengî 'xeyf û guheztin' di derbarê 'taybetmendiyên' giştî yên meme de dikare projeyên lêkolînê yên NLP yên ku berê wê wekî 'nefret', 'çengê rast' an 'neteweperest [DY]' kategorîze kirine, û yên ku ew agahdarî avêtine asteng bike. nav depoyên çavkaniya vekirî yên demdirêj. Dûv re projeyên NLP-ê nekarin bijartina dravdana daneyên kevnar kontrol bikin; dibe ku mekanîzmayek pratîkî tune ku vê yekê bike; û dibe ku haya wan ji hewcedariyê jî nebe.

Encama vê yekê ev e ku karanîna danehevên 2017-based Twitch-ê ji bo formulekirina algorîtmayek 'kategorîzekirina siyasî' dê li ser Twitch-ê çalakiyek alt-rast-a girîng diyar bike, li ser bingeha frekansa FeelsGoodMan emote. Twitch dibe ku bibe an nebe tijî bandorkerên alt-rast, lê, li gorî lêkolînerên kaxeza nû, hûn nikarin wê bi beqê îspat bikin.

Wusa dixuye ku girîngiya siyasî ya memeya 'Pepe' ji hêla 140 mîlyon bikarhênerên Twitch ve (% 41 ji wan) ve hatî avêtin di bin 24 de ne), yên ku bi bandor kar ji dizên resen ji nû ve dizîn û bi rengên xwe boyax kirin, bêyî ku rojevek taybetî hebe.

Rêbaz û Daneyên

Lekolînwanan dît ku daneyên emotê yên Twitch-ê yên binavkirî 'bi rastî tune ye', tevî encamnameyek xwendina pêştir ku hene heşt mîlyon hestên tevahî, û 400,000 di hefteya yekane ya hilberîna Twitch de di hefteya ku ji hêla wan lêkolînerên berê ve hatî hilbijartin de amade bûn.

A xebatê de 2017 navnîşana pêşbîniya hestiyar li ser Twitch xwe bi pêşbînkirina tenê 30 hestên Twitch-ê yên jorîn ve sînordar kir, ji bo pêşbîniya hestiyar tenê 0.39 tomar kir.

Li ser kêmasiyê, lêkolînerên San Francisco nêzîkatiyek nû ji daneyên kevin re girtin, ew 80/20 di navbera perwerde û ceribandinê de dabeş kirin, û rêbazên fêrbûna makîneya 'kevneşopî', yên ku berê ji bo lêkolîna daneyên Twitch-ê nehatibûn bikar anîn, bicîh kirin. Di nav van rêbazan de Naîv Bayes (NB), Random Forest (RF), Piştgiriya Vector Machine (SVM, bi kernelên xêzik), û Regression Logistic.

Vê nêzîkatiyê 63.8% ji bingehên hestiyariya berê ya Twitch-ê derbas kir û rê da lêkolîneran ku dûv re çarçoweya LOOVE (Fêrbûna Hestên Peymanan) pêşve bibin, ku karibe neologîzmê nas bike û modelên heyî bi van pênaseyên nû 'dewlemend bike'.

Architecture of LOOVE (Fêrbûna Ji Hestên Peymanan) ku ji hêla lêkolîneran ve hatî pêşve xistin.

LOOVE perwerdehiya neçaverêkirî ya binavkirina peyvan hêsan dike, û di heman demê de ji nû ve perwerdekirin û birêkûpêkkirina periyodîk jî cîh digire, hewcedariya berhevokên danûstendinê yên binavkirî ji holê radike, ku dê ji hêla lojîstîkî ve nepraktîk be, li gorî pîvana peywirê û pêşkeftina bilez a hestan.

Di xizmeta projeyê de, lêkolîner perwerdekirin "Pseudo-Ferhenga" hestiyar li ser databasek Twitch-ê ya bê etîket, di vê pêvajoyê de 444,714 bicîkirina peyvan, hest, emojî û emotîkan çêdike.

Wekî din, wan a zêde kirin Ferhenga VADER re ferhengoka emoji/emoticon, û ji bilî daneheva EC ya jorîn, her weha sê daneyên din ên berdest ên gelemperî ji bo sêalî dabeşkirina hestê, ji Twitter, Rotten Tomatoes û danehevek YELP-ê ya nimûne.

Ji ber cûrbecûr cûrbecûr metodolojî û berhevokên danûstendinê yên ku di lêkolînê de hatine bikar anîn, encam cihêreng in, lê lêkolîner destnîşan dikin ku bingeha rewşa wan ya çêtirîn ji metrîka pêşîn a herî nêzîk ji sedî 7.36 ji sedî derbas kir.

Lekolînwan dihesibînin ku nirxa domdar a projeyê pêşkeftina LOOVE ye, ku li ser bingeha binavkirinên peyva-vektor (W2V) ye ku li ser zêdetirî 313 mîlyon peyamên chatê Twitch bi alîkariya K-Nêziktirîn Cîran (KNN).

Nivîskar

'Taybetmendiyek ajotinê ya li pişt çarçoweyê pseudo-ferhengek hestiyar e ku dikare were bikar anîn da ku hestê ji bo hestên nenas derxe holê. Bi karanîna vê pseudo-ferhenga emote, me ji bo 22,507 hestan tabloyek hestê çêkir. Di vê astê de ev bûyera yekem e ku têgihîştina hestiyar e.'

* Veguheztina min a navgînên navmalî bo hîpergirêdan.