인공지능
트위치 이모티콘을 이용한 감성 분석 이해

대중은 최근 몇 년 동안 소셜 미디어 플랫폼에서 이모티콘, 이모지, 트위치 이모티콘, 미ーム, GIF 등 비언어적 방법을 사용하여 의사소통을 하는데 점점 더 많이 사용하고 있습니다. 이는 데이터 과학자들이 세계적인 사회학적 지형을 이해하는 데 어려움을 겪고 있습니다. 자연어 처리(NLP)가 지난 10년 동안 감성 분석에서 강력한 도구가 되었습니다. 그러나 이 분야는 슬랑과 언어적 단축어를 포함한不断 진화하는 어휘를 따라가기 어려울 뿐만 아니라, 페이스북과 트위터 같은 소셜 미디어 플랫폼에서 이미지 기반 게시물을 해석하는 데에도 어려움을 겪고 있습니다.
최근에, 台灣의 연구진은 ‘반응 GIF’를 사용하여 소셜 미디어 스레드에서 사용자의 감성을 분류하는 새로운 방법을 제시했습니다. 이 연구는 30,000개의 트윗을 사용하여 반응을 예측하는 방법을 개발했습니다. 이 연구는 이미지 기반 응답이 더 쉽게 측정될 수 있다는 것을 발견했습니다. 왜냐하면 그것은 비꼬는 표현을 포함할 가능성이 적기 때문입니다.

타이완의 연구자들은 2021년 논문에서 애니메이션 반응 GIF를 감성의 ‘축소된 지표’로 연구했습니다.
이번 년초에, 보스턴 대학교의 연구진은 트위터에서 바이럴이 될 가능성이 있는 이미지 미ーム을 예측하는 머신 러닝 모델을 훈련시켰습니다. 8월에는 영국의 연구자들이 소셜 미디어에서 이모티콘과 이모지의 성장을 비교하여 7개 언어의 대규모 데이터셋을 컴파일했습니다.
트위치 이모티콘
이제, 미국의 연구자들은 트위치 네트워크에서不断 진화하는 의사어인 이모티콘을 더 잘 이해하고, 분류하고, 측정하는 머신 러닝 방법론을 개발했습니다.
트위치 이모티콘은 감정, 기분, 또는 내재된 농담을 표현하는 새로운 단어입니다. 머신 러닝 시스템의 도전은 새로운 이모티콘을 끝없이 카탈로그하는 것이 아니라, 그것들을 생성하는 프레임워크를 더 잘 이해하는 것입니다. 그리고 그것들이 임시적으로 유효한 단어 또는 문구로 인식되는지 여부를 결정하는 시스템을 개발하는 것입니다.

FeelsGoodMan 이모티콘의 이웃, 그 의미는 모호한 접미사로 변경될 수 있습니다. 출처: https://arxiv.org/pdf/2108.08411.pdf
이 논문은 FeelsGoodMan: 트위치 신조어의 의미 추론이라는 제목으로, 샌프란시스코의 소셜 미디어 분석 회사인 Spiketrap의 3명의 연구자에 의해 작성되었습니다.
바이트와 스위치
트위치 이모티콘은尽管 그들의 새로운 특성과 종종 짧은 수명에도 불구하고, 문화적 재료를 재활용하는 방식으로 감성 분석 프레임워크를 잘못된 방향으로 유도할 수 있습니다. 이모티콘의 의미가 어떻게 변하는지 추적하는 것은 완전히 반대되거나否定的 의미 또는 의도를 나타낼 수 있습니다.
예를 들어, 연구자들은 원래의 알트라이트 오용한 페페 더 프로그 미ーム이 트위치에서 사용되는 맥락에서 거의 원래의 정치적 맛을 잃어버렸다는 것을 발견했습니다.
이 문구와 함께 2005年的 만화가 Matt Furie의 카툰 개 그림이 극우 미ーム이 되었습니다. Vox는 2017년에 Furie의 이 미ーム의 오용이 Furie의 분리에도 불구하고 살아남았다고 썼습니다. 그러나 샌프란시스코의 연구자들은 그렇지 않다는 것을 발견했습니다*:
‘Furie의 카툰 개는 2010년대初에 4chan과 같은 온라인 포럼에서 우익 포스터들에 의해 채택되었습니다. 그 이후로, Furie는 그의 캐릭터의 의미를 되찾기 위한 캠페인을 벌였습니다. 그리고 이모티콘은 트위치에서 더 많은 메인스트림 혐오가 아닌 사용과 긍정적인 사용의 증가를 보았습니다. 우리의 결과는 트위치에서 “FeelsGoodMan”과 “FeelsBadMan”이 주로 문자 그대로 사용되고 있음을 보여줍니다.’
다운스트림의 문제
이러한 ‘바이트와 스위치’는 미ーム의 일반화된 ‘특성’을 방해하여, 이미 ‘혐오’, ‘우익’, 또는 ‘민족주의 [미국]’로 분류된 데이터를 사용하여 NLP 연구 프로젝트를 수행하는 데 어려움을 겪을 수 있습니다. 이후의 NLP 프로젝트는 이전 데이터의 통화의 필요성을 인식하지 못하거나, 이전 데이터를 감사할 수 있는 실제 메커니즘을 갖지 못할 수 있습니다.
이로 인해 2017년 트위치 기반 데이터셋을 사용하여 ‘정치적 분류’ 알고리즘을 개발하는 경우, 트위치에서 알트라이트 영향력이 많은 활동을 나타낼 것입니다. 그러나 연구자들은 그렇지 않습니다.
‘Pepe’ 미ーム의 정치적 중요성은 트위치의 1.4억 명의 사용자(41%는 24세 미만)에 의해 효과적으로 폐기되었습니다. 그들은 원래의 도둑들로부터 작품을 다시 훔치고, 특정한 의도 없이 자신의 색깔로 칠했습니다.
방법과 데이터
연구자들은 레이블이 붙은 트위치 이모티콘 데이터가 ‘거의 존재하지 않는다’는 것을 발견했습니다.尽管 이전 연구에서 800만 개의 이모티콘이 있으며, 40만 개의 이모티콘이 단일 주에 트위치 출력에 존재한다는 결론을 내렸습니다.
2017년 연구에서 트위치에서 이모티콘 예측을 다루었으며, 이는 단지 상위 30개의 트위치 이모티콘만 예측했으며, 0.39의 이모티콘 예측 점수를 얻었습니다.
이 부족함을 해결하기 위해, 샌프란시스코의 연구자들은 이전 데이터에 새로운 접근 방식을 취하여, 80/20으로 훈련과 테스트를 나누고, ‘전통적인’ 머신 러닝 방법을 적용했습니다. 이는 이전에 트위치 데이터를 연구하는데 사용되지 않았습니다. 이러한 방법에는 Naive Bayes(NB), Random Forest(RF), Support Vector Machine(SVM, 선형 커널), 및 Logistic Regression이 포함됩니다.
이 접근 방식은 이전의 트위치 감성 기준을 63.8%로 능가했습니다. 그리고 연구자들은 이후 LOOVE(Out Of Vocabulary Emotions Learning) 프레임워크를 개발할 수 있었습니다. 이는 신조어를 식별하고, 기존 모델에 새로운 정의를 추가할 수 있습니다.

연구자들이 개발한 LOOVE(Out Of Vocabulary Emotions Learning) 프레임워크의 아키텍처.
LOOVE는 단어 임베딩의 비감독 훈련을 용이하게 하며, 또한 주기적인 재훈련과 세부 조정을 가능하게 합니다. 이는 레이블이 붙은 데이터셋의 필요성을 없애주며, 이는 작업의 규모와 이모티콘이 빠르게 진화하는 것을 고려할 때, 논리적으로 불가능합니다.
이 프로젝트를 위해, 연구자들은 훈련된 이모티콘 ‘사전’을 레이블이 없는 트위치 데이터셋에서 생성하여, 444,714개의 단어, 이모티콘, 이모지, 그리고 이모티콘 임베딩을 생성했습니다.
さらに, 그들은 VADER 사전을 이모티콘/이모지 사전으로 확장했습니다. 그리고 이전에 언급한 EC 데이터셋 외에도, 트위터, Rotten Tomatoes, 및 샘플된 YELP 데이터셋에서 3개의 공개 데이터셋을 사용하여 3중 감성 분류를 수행했습니다.
사용된 방법론과 데이터셋의 다양성으로 인해, 결과는 다양하지만, 연구자들은 그들의 최상의 기준이 이전의 기준보다 7.36 퍼센트 포인트를 능가한다고 주장합니다.
연구자들은 이 프로젝트의 지속적인 가치는 LOOVE의 개발이며, 이는 313百万개의 트위치 채팅 메시지에서 K-Nearest Neighbor(KNN)를 사용하여 훈련된 단어-벡터(W2V) 임베딩에 기반합니다.
연구자들은 다음과 같이 결론을 내립니다:
‘이 프레임워크의 주된 특징은 임의의 이모티콘에 대한 감성을 파악할 수 있는 이모티콘 가상 사전입니다. 이 이모티콘 가상 사전을 사용하여, 우리는 22,507개의 이모티콘에 대한 감성 표를 생성했습니다. 이것은 이러한 규모의 이모티콘 이해의 첫 번째 사례입니다.’












