人工智能
了解情感分析中的 Twitch 表情
公众的 越来越多的使用 近年来,表情符号、表情符号、表情符号、模因、GIF 和其他在社交媒体平台上进行非语言交流的方式越来越多地困扰着数据科学家了解全球社会学格局的努力; 至少,从公共话语中可以看出世界范围内的社会学趋势。
尽管自然语言处理 (NLP) 在过去十年中已成为情感分析的强大工具,但该行业不仅难以跟上 不断发展的词典 跨多种语言的俚语和语言快捷方式,而且还试图解码 基于图像的 Facebook 和 Twitter 等社交媒体平台上的帖子。
由于 数量有限 人口众多的社交媒体平台是此类研究唯一真正的超大规模资源,因此人工智能行业至少尝试跟上它的步伐至关重要。
XNUMX月,台湾的一篇论文提出了 新方法 根据发布到社交媒体线程的“反应 GIF”(见下图)对用户情绪进行分类,使用包含 30,000 条推文的数据库开发一种预测对帖子反应的方法。 该论文发现,基于图像的反应在很多方面都更容易衡量,因为它们不太可能包含讽刺, 显着的挑战 在情感分析中。
今年早些时候,波士顿大学领导的一项研究工作 经过训练的机器学习模型 预测可能在 Twitter 上疯传的图像模因; 八月,英国研究人员检查了表情符号与表情符号的增长情况(有一个 差异)在社交媒体上,编译了一个大规模的 7 种语言的象形 Twitter 情绪数据集。
抽搐表情
现在,美国研究人员开发了一种机器学习方法,可以更好地理解、分类和衡量不断发展的伪词汇 表情 在非常受欢迎的 Twitch 网络上。
表情是 Twitch 上用来表达情感、心情或笑话的新词。 由于它们根据定义是新的表达方式,因此机器学习系统面临的挑战不一定是无休止地编录新的表情(可能只使用一次,否则很快就会不再使用),而是更好地理解它的框架不断地产生它们; 并开发能够将表情识别为“暂时有效”单词或复合短语的系统,其情绪/政治温度可能需要完全根据上下文来衡量。
纸 标题为 FeelsGoodMan:推断 Twitch 新词的语义,来自旧金山社交媒体分析公司 Spiketrap 的三名研究人员。
诱饵和开关
尽管 Twitch 表情新颖且生命周期通常很短暂,但它们经常重复利用文化材料(包括较旧的表情),从而可能将情感分析框架引向错误的方向。 追踪表情的含义随着它的演变而发生的变化,甚至可以揭示出对其原始情感或意图的完全倒置或否定。
例如,研究人员指出,最初的另类右翼 滥用 同名的 感觉好人 在 Twitch 上使用青蛙佩佩表情包时,它几乎完全失去了原来的政治色彩。
该短语的使用,以及艺术家 Matt Furie 2005 年漫画中的卡通青蛙图像, 成为极右表情包 在2010年代。 虽然沃克斯 写 2017 年,右派对模因的挪用在 Furie 的自认中幸存下来 分离 通过这种使用,这篇新论文背后的旧金山研究人员发现了另外的情况*:
4 年代初,Furie 的卡通青蛙被 2010chan 等各种在线论坛上的右翼海报所采用。 从那时起,Furie 一直致力于恢复其角色的意义,而这种表情在更主流的人群中也出现了热潮。 非讨厌使用 以及 Twitch 上的积极使用。 我们在 Twitch 上的结果一致,表明“FeelsGoodMan”及其对应的“FeelsBadMan”主要按字面意思使用。
下游出现问题
这种关于迷因的普遍“特征”的“诱饵和转换”可能会阻碍 NLP 研究项目,这些项目已经将其归类为“可恨的”、“右翼”或“民族主义[美国]”,并且已经抛弃了这些信息进入长期开源存储库。 后来的 NLP 项目可能不会选择审计旧数据的货币; 可能没有任何实际机制可以做到这一点; 甚至可能没有意识到这种需要。
其结果是,使用 2017 年基于 Twitch 的数据集来制定“政治分类”算法,将根据 Twitch 上值得注意的另类右翼活动的频率,对 Twitch 上值得注意的另类右翼活动进行归因。 感觉好人 表情。 抽搐可能是也可能不是 充满另类右翼影响者,但是,根据新论文的研究人员的说法,你不能用青蛙来证明这一点。
“Pepe”表情包的政治意义似乎已被 Twitch 的 140 亿用户(其中 41% 24岁以下),他们有效地从原来的盗贼那里重新窃取了作品,并用自己的颜色绘制了它,没有任何特定的议程。
方法与数据
研究人员发现,尽管有一项研究得出的结论是,标记的 Twitch 表情数据“实际上不存在” 早先的研究 有 总共八百万个表情,并且在那些早期研究人员选择的那一周,Twitch 输出的单周有 400,000 人出现。
A 2017研究 在 Twitch 上进行表情预测仅限于预测前 30 个 Twitch 表情,表情预测得分仅为 0.39。
为了解决这一问题,旧金山的研究人员对旧数据采取了一种新方法,将其按 80/20 进行训练和测试,并应用“传统”机器学习方法,这些方法以前从未用于研究 Twitch 数据。 这些方法包括 朴素贝叶斯 (注), 随机森林 (RF), 支持向量机 (SVM,具有线性内核),以及 Logistic回归.
这种方法比之前的 Twitch 情绪基线高出 63.8%,并使研究人员能够随后开发 LOOVE(学习词汇情绪)框架,该框架能够识别新词并用这些新定义“丰富”现有模型。
LOOVE 促进了词嵌入的无监督训练,并且还可以进行定期再训练和微调,从而消除了对标记数据集的需求,考虑到任务的规模和表情的快速演变,这在逻辑上是不切实际的。
为了该项目的服务,研究人员 熟练 未标记的 Twitch 数据集上的表情“伪词典”,在此过程中生成 444,714 个单词、表情、表情符号和表情符号的嵌入。
此外,他们还增强了 维德词典 与 表情符号/表情符号词典,除了上述 EC 数据集之外,还利用了其他三个公开可用的数据集 三元 情感分类,来自 Twitter、烂番茄和采样的 YELP 数据集。
鉴于研究中使用的方法和数据集多种多样,结果也各不相同,但研究人员断言,他们的最佳情况基线比最接近的先前指标高出 7.36 个百分点。
研究人员认为,该项目的持续价值在于 LOOVE 的开发,它基于在超过 2 亿条 Twitch 聊天消息的帮助下训练的单词到向量 (W313V) 嵌入 K-最近邻 (KNN)。
作者总结:
该框架背后的一个驱动功能是表情伪词典,可用于导出未知表情的情感。 使用这个表情伪词典,我们创建了 22,507 个表情的情绪表。 这是如此规模的情感理解的第一个案例。
* 我将内联引用转换为超链接。