부본 감정 분석에서 Twitch 감정 표현 이해하기 - Unite.AI
Rescale 미팅 예약

인공 지능

감정 분석에서 Twitch 감정 표현 이해하기

mm
업데이트 on

대중의 증가하는 사용 이모티콘, 감정 표현, 밈, GIF 및 기타 소셜 미디어 플랫폼에서 의사 소통하는 비언어적 방법의 증가는 최근 몇 년 동안 글로벌 사회학적 환경을 이해하려는 데이터 과학자의 노력을 점점 더 혼란스럽게 만들었습니다. 적어도 공적 담론에서 세계적인 사회학적 경향을 식별할 수 있는 범위 내에서 말이다.

자연어 처리(NLP)가 지난 10년 동안 감정 분석에서 강력한 도구가 되었지만 이 부문은 최신 트렌드를 따라잡는 데 어려움을 겪고 있습니다. 끊임없이 진화하는 어휘 여러 언어에 걸친 속어 및 언어적 지름길뿐만 아니라 의미를 해독하려는 시도에서도 이미지 기반 Facebook 및 Twitter와 같은 소셜 미디어 플랫폼의 게시물.

이후 제한된 수 인구 밀도가 높은 소셜 미디어 플랫폼이 이러한 종류의 연구를 위한 유일한 대규모 리소스이므로 AI 부문이 적어도 보조를 맞추려는 시도는 필수적입니다.

지난 XNUMX월 대만의 한 신문은 새로운 방법 게시물에 대한 반응을 예측하는 방법을 개발하기 위해 30,000개의 트윗 데이터베이스를 사용하여 소셜 미디어 스레드(아래 이미지 참조)에 게시된 '반응 GIF'를 기반으로 사용자 감정을 분류합니다. 이 논문은 이미지 기반 응답이 빈정거림, 주목할만한 도전 감성분석에서

대만의 연구원들은 2021년 논문에서 애니메이션 반응 GIF를 감정의 '환원 지표'로 사용하는 것을 연구했습니다.

올해 초 Boston University가 이끄는 연구 노력 훈련된 기계 학습 모델 Twitter에서 입소문이 날 가능성이 있는 이미지 밈을 예측합니다. XNUMX월에 영국 연구원들은 이모티콘과 비교하여 이모티콘의 성장을 조사했습니다. 차이) 소셜 미디어에서 픽토그래픽 Twitter 감정의 대규모 7개 언어 데이터 세트를 편집합니다.

트위치 이모티콘

이제 미국 연구자들은 끊임없이 진화하는 의사 어휘를 더 잘 이해하고, 분류하고, 측정하기 위한 기계 학습 방법론을 개발했습니다. 감정 엄청나게 인기있는 Twitch 네트워크에서.

이모티콘은 감정, 기분 또는 농담을 표현하기 위해 Twitch에서 사용되는 신조어입니다. 그것들은 정의상 새로운 표현이기 때문에 기계 학습 시스템의 과제는 반드시 새로운 감정 표현을 끝없이 분류하는 것(한 번만 사용되거나 빠르게 사용이 중단될 수 있음)이 아니라 프레임워크를 더 잘 이해하는 것입니다. 끝없이 생성합니다. 감정적/정치적 온도를 전적으로 맥락에서 측정해야 할 수 있는 '일시적으로 유효한' 단어 또는 복합 문구로 감정 표현을 인식할 수 있는 시스템을 개발합니다.

모호한 접미사로 의미가 변경될 수 있는 'FeelsGoodMan' 감정 표현의 이웃. 출처: https://arxiv.org/pdf/2108.08411.pdf

모호한 접미사로 의미가 변경될 수 있는 'FeelsGoodMan' 감정 표현의 이웃. 출처 : https://arxiv.org/pdf/2108.08411.pdf

XNUMXD덴탈의 종이 제목이 FeelsGoodMan: Twitch 신조어의 의미 추론, 샌프란시스코에 있는 소셜 미디어 분석 회사인 Spiketrap의 연구원 XNUMX명이 제공합니다.

유인 상술

참신함과 짧은 수명에도 불구하고 Twitch 이모티콘은 감정 분석 프레임워크를 잘못된 방향으로 이끌 수 있는 방식으로 문화 자료(오래된 이모티콘 포함)를 자주 재활용합니다. 감정 표현이 진화함에 따라 감정 표현의 의미 변화를 추적하면 원래 감정이나 의도가 완전히 반전되거나 부정될 수도 있습니다.

예를 들어, 연구원들은 원래 alt-right가 오용 시조의 필스굿맨 Pepe-the-frog meme은 Twitch에서 사용되는 맥락에서 원래의 정치적 풍미를 거의 완전히 잃었습니다.

아티스트 Matt Furie의 2005년 만화에 나오는 만화 개구리 이미지와 함께 이 문구의 사용은 극우 밈이 되었다 2010년대에. 비록 복스 2017년에 밈에 대한 우익의 전유가 Furie의 자기 공언에도 불구하고 살아 남았다고 분리 이러한 사용으로 새 논문의 배후에 있는 샌프란시스코 연구원들은 다른 점을 발견했습니다*:

'Furie'의 만화 개구리는 4년대 초 2010chan과 같은 다양한 온라인 포럼의 우익 포스터에 채택되었습니다. 그 이후로 Furie는 자신의 캐릭터의 의미를 되찾기 위해 캠페인을 벌였고 감정 표현은 더 많은 주류에서 급증했습니다. 비 증오 사용 Twitch에서의 긍정적인 사용. Twitch에 대한 우리의 결과는 동의하며 "FeelsGoodMan"과 이에 상응하는 "FeelsBadMan"이 주로 문자 그대로 사용되고 있음을 보여줍니다.'

다운스트림 문제

밈의 일반화된 '특징'에 관한 이런 종류의 '미끼와 전환'은 이미 '혐오', '우익' 또는 '민족주의[미국]'으로 분류하고 해당 정보를 버린 NLP 연구 프로젝트를 방해할 수 있습니다. 장기 오픈 소스 저장소로. 이후 NLP 프로젝트는 이전 데이터의 통화를 감사하도록 선택하지 않을 수 있습니다. 이를 위한 실질적인 메커니즘이 없을 수 있습니다. 필요성을 인식하지 못할 수도 있습니다.

이것의 결론은 2017 Twitch 기반 데이터 세트를 사용하여 '정치적 분류' 알고리즘을 공식화하면 해당 빈도에 따라 Twitch에서 주목할만한 대체 우파 활동이 발생한다는 것입니다. 필스굿맨 감정 표현 트위치는 될 수도 있고 아닐 수도 있습니다 alt-right 인플루언서로 가득 찬, 하지만 새 논문의 연구원들에 따르면 개구리로는 증명할 수 없습니다.

'Pepe' 밈의 정치적 중요성은 Twitch의 140억 41천만 사용자(XNUMX%는 24세 미만), 특별한 의제 없이 원작 도둑의 작품을 효과적으로 다시 훔쳐 자신의 색으로 칠한 사람들.

방법 및 데이터

연구원들은 라벨이 붙은 Twitch 감정 표현 데이터가 '사실상 존재하지 않는' 사실을 발견했습니다. 이전 연구 거기에 총 XNUMX만 개의 감정 표현, 초기 연구자들이 선택한 주에 Twitch 출력의 단일 주에 400,000개가 나타났습니다.

A 2017 연구 Twitch에서 감정 표현 예측을 다루는 것은 상위 30개의 Twitch 감정 표현만 예측하는 것으로 제한되어 감정 표현 예측에서 0.39점에 불과했습니다.

부족한 점을 해결하기 위해 샌프란시스코 연구원은 이전 데이터에 대해 새로운 접근 방식을 취하여 훈련과 테스트 간에 80/20으로 나누고 이전에 Twitch 데이터를 연구하는 데 사용되지 않은 '전통적인' 기계 학습 방법을 적용했습니다. 포함된 이러한 방법 나이브 베이 즈 (NB), 랜덤 포레스트 (RF), 벡터 머신 지원 (SVM, 선형 커널 포함) 및 로지스틱 회귀.

이 접근 방식은 이전 Twitch 정서 기준을 63.8% 능가했으며, 이후에 연구원들이 신조어를 식별하고 이러한 새로운 정의로 기존 모델을 '강화'할 수 있는 LOOVE(Learning Out Of Vocabulary Emotions) 프레임워크를 개발할 수 있었습니다.

연구원들이 개발한 LOOVE(Learning Out Of Vocabulary Emotions) 프레임워크의 아키텍처.

연구원들이 개발한 LOOVE(Learning Out Of Vocabulary Emotions) 프레임워크의 아키텍처.

LOOVE는 단어 임베딩의 감독되지 않은 교육을 용이하게 하고 주기적인 재교육 및 미세 조정을 수용하여 작업의 규모와 감정 표현의 급속한 발전을 고려할 때 논리적으로 비실용적인 레이블이 지정된 데이터 세트의 필요성을 제거합니다.

프로젝트 서비스에서 연구원들은 훈련 된 레이블이 지정되지 않은 Twitch 데이터 세트의 감정 표현 '의사 사전', 프로세스에서 444,714개의 단어, 감정 표현, 이모티콘 및 이모티콘 임베딩을 생성합니다.

또한, 그들은 VADER 어휘집이모티콘/이모티콘 어휘집, 그리고 앞서 언급한 EC 데이터 세트 외에도 다음에 대해 공개적으로 사용 가능한 세 가지 다른 데이터 세트를 활용했습니다. 세 개 한 벌 Twitter, Rotten Tomatoes 및 샘플 YELP 데이터 세트의 감정 분류.

연구에 사용된 매우 다양한 방법론과 데이터 세트를 감안할 때 결과는 다양하지만 연구자들은 최상의 기준선이 가장 가까운 이전 메트릭을 7.36% 포인트 능가했다고 주장합니다.

연구자들은 프로젝트의 지속적인 가치가 LOOVE의 개발이라고 생각합니다. LOOVE는 K- 최근 접 이웃 (KNN).

저자들은 다음과 같이 결론 지었다.

'프레임워크 뒤에 있는 구동 기능은 알 수 없는 감정 표현에 대한 감정을 도출하는 데 사용할 수 있는 감정 표현 의사 사전입니다. 이 감정 표현 의사 사전을 사용하여 22,507개의 감정 표현에 대한 감정 표를 만들었습니다. 이것은 이 규모에서 감정 표현을 이해한 첫 번째 사례입니다.'

 

* 인라인 인용을 하이퍼링크로 변환.