Kết nối với chúng tôi

Hiểu biểu tượng cảm xúc Twitch trong phân tích cảm tính

Trí tuệ nhân tạo

Hiểu biểu tượng cảm xúc Twitch trong phân tích cảm tính

mm

của công chúng sử dụng ngày càng tăng của biểu tượng cảm xúc, biểu tượng cảm xúc, biểu tượng cảm xúc, meme, GIF và các cách giao tiếp phi ngôn ngữ khác trên các nền tảng truyền thông xã hội, trong những năm gần đây, ngày càng cản trở nỗ lực của các nhà khoa học dữ liệu trong việc tìm hiểu bối cảnh xã hội học toàn cầu; ít nhất, trong phạm vi mà các xu hướng xã hội học trên toàn thế giới có thể được phân biệt từ diễn ngôn công khai.

Mặc dù Xử lý ngôn ngữ tự nhiên (NLP) đã trở thành một công cụ mạnh mẽ trong phân tích tình cảm trong thập kỷ qua, nhưng lĩnh vực này không chỉ gặp khó khăn trong việc theo kịp tốc độ phát triển của ngành. từ vựng không ngừng phát triển tiếng lóng và lối tắt ngôn ngữ trên nhiều ngôn ngữ, mà còn trong nỗ lực giải mã ý nghĩa của dựa trên hình ảnh bài đăng trên các nền tảng truyền thông xã hội như Facebook và Twitter.

Kể từ khi số lượng giới hạn Trong số các nền tảng truyền thông xã hội đông người dùng, đây là nguồn tài nguyên duy nhất thực sự có quy mô lớn cho loại nghiên cứu này, thì điều cần thiết là ngành AI phải ít nhất là cố gắng theo kịp tốc độ của nó.

Vào tháng XNUMX, một tờ báo từ Đài Loan đưa ra một Phương pháp mới để phân loại cảm xúc của người dùng dựa trên 'ảnh GIF phản ứng' được đăng trên các chủ đề mạng xã hội (xem hình ảnh bên dưới), sử dụng cơ sở dữ liệu gồm 30,000 tweet để phát triển phương pháp dự đoán phản ứng với một bài đăng. Bài báo nhận thấy rằng phản hồi dựa trên hình ảnh dễ đánh giá hơn theo nhiều cách, vì chúng ít có khả năng chứa nội dung mỉa mai, một thách thức đáng chú ý trong phân tích tình cảm.

Các nhà nghiên cứu từ Đài Loan đã nghiên cứu việc sử dụng ảnh GIF phản ứng động làm 'chỉ số giản lược' về cảm xúc trong một bài báo năm 2021.

Đầu năm nay, một nỗ lực nghiên cứu do Đại học Boston dẫn đầu mô hình học máy được đào tạo để dự đoán các meme hình ảnh có khả năng lan truyền trên Twitter; và vào tháng 8, các nhà nghiên cứu người Anh đã kiểm tra sự phát triển của biểu tượng cảm xúc so với biểu tượng cảm xúc (có một sự khác biệt) trên phương tiện truyền thông xã hội, biên soạn một bộ dữ liệu 7 ngôn ngữ quy mô lớn về tình cảm Twitter bằng hình ảnh.

Biểu cảm Twitch

Giờ đây, các nhà nghiên cứu Hoa Kỳ đã phát triển một phương pháp học máy để hiểu rõ hơn, phân loại và đo lường từ vựng giả ngày càng phát triển của thể hiện cảm xúc trên mạng Twitch cực kỳ phổ biến.

Emote là những từ mới được sử dụng trên Twitch để thể hiện cảm xúc, tâm trạng hoặc những câu chuyện cười nội bộ. Vì theo định nghĩa, chúng là những biểu đạt mới, nên thách thức đối với một hệ thống học máy không nhất thiết là phải lập danh mục vô tận các emote mới (có thể chỉ được sử dụng một lần, hoặc sẽ nhanh chóng bị lãng quên), mà là hiểu rõ hơn về khuôn khổ tạo ra chúng không ngừng nghỉ; và phát triển các hệ thống có khả năng nhận dạng emote là một từ hoặc cụm từ ghép "tạm thời hợp lệ" mà mức độ cảm xúc/chính trị của nó có thể cần được đánh giá hoàn toàn dựa trên ngữ cảnh.

Láng giềng của biểu tượng cảm xúc 'FeelsGoodMan', ý nghĩa của nó có thể bị thay đổi bởi các hậu tố khó hiểu. Nguồn: https://arxiv.org/pdf/2108.08411.pdf

Hàng xóm của biểu tượng cảm xúc 'FeelsGoodMan', ý nghĩa của biểu tượng này có thể thay đổi bằng các hậu tố khó hiểu. Nguồn: https://arxiv.org/pdf/2108.08411.pdf

giấy có tiêu đề FeelsGoodMan: Suy luận ngữ nghĩa của thuật ngữ thần kinh Twitchvà đến từ ba nhà nghiên cứu tại Spiketrap, một công ty phân tích mạng xã hội ở San Francisco.

Mồi và Switch

Bất chấp sự mới lạ và cuộc sống thường ngắn ngủi của chúng, Twitch biểu cảm thường xuyên tái chế tài liệu văn hóa (bao gồm cả biểu cảm cũ hơn) theo cách có thể khiến khung phân tích cảm xúc đi sai hướng. Việc theo dõi sự thay đổi về ý nghĩa của một biểu cảm khi nó phát triển thậm chí có thể cho thấy sự đảo ngược hoặc phủ định hoàn toàn cảm xúc hoặc ý định ban đầu của nó.

Chẳng hạn, các nhà nghiên cứu lưu ý rằng quyền thay thế ban đầu sử dụng sai của người cùng tên Cảm thấy người đàn ông tốt Meme Pepe-the-ếch gần như đã mất hoàn toàn hương vị chính trị ban đầu trong bối cảnh được sử dụng trên Twitch.

Việc sử dụng cụm từ này, cùng với hình ảnh con ếch hoạt hình từ truyện tranh năm 2005 của họa sĩ Matt Furie, đã trở thành một meme cực hữu trong những năm 2010. Mặc dù Vox đã viết vào năm 2017 rằng việc chiếm đoạt meme của bên phải đã sống sót sau lời tự thú của Furie phân ly với việc sử dụng như vậy, các nhà nghiên cứu San Francisco đằng sau bài báo mới đã tìm thấy cách khác*:

'Chú ếch hoạt hình của Furie đã được các áp phích cánh hữu trên nhiều diễn đàn trực tuyến khác nhau như 4chan chấp nhận vào đầu những năm 2010. Kể từ đó, Furie đã vận động để lấy lại ý nghĩa cho nhân vật của mình và biểu tượng cảm xúc đã chứng kiến ​​​​sự gia tăng mạnh mẽ hơn. sử dụng không ghét và được sử dụng tích cực trên Twitch. Kết quả của chúng tôi trên Twitch cũng tương tự, cho thấy "FeelsGoodMan" và "FeelsBadMan" chủ yếu được sử dụng theo nghĩa đen.

Sự cố ở hạ lưu

Kiểu "mồi nhử và chuyển đổi" này liên quan đến các "đặc điểm" tổng quát của một meme có thể cản trở các dự án nghiên cứu NLP vốn đã phân loại meme là "hận thù", "cánh hữu" hoặc "chủ nghĩa dân tộc [Mỹ]", và đã đổ thông tin đó vào các kho lưu trữ nguồn mở dài hạn. Các dự án NLP sau này có thể không chọn kiểm tra tính phổ biến của dữ liệu cũ; có thể không có bất kỳ cơ chế thực tế nào để làm như vậy; và thậm chí có thể không nhận thức được nhu cầu này.

Kết quả cuối cùng của việc này là việc sử dụng bộ dữ liệu dựa trên Twitch năm 2017 để xây dựng thuật toán 'phân loại chính trị' sẽ quy hoạt động thay thế quyền đáng chú ý trên Twitch, dựa trên tần suất của Cảm thấy người đàn ông tốt biểu cảm. Twitch có thể có hoặc không đầy những người có ảnh hưởng alt-rightnhưng theo các nhà nghiên cứu của bài báo mới, bạn không thể chứng minh điều đó bằng con ếch.

Ý nghĩa chính trị của meme 'Pepe' dường như đã bị 140 triệu người dùng Twitch (trong đó 41% là người dùng) bỏ qua một cách tùy tiện. dưới 24 tuổi), những người đã đánh cắp lại tác phẩm một cách hiệu quả từ những tên trộm ban đầu và sơn nó bằng màu sắc của riêng họ mà không có bất kỳ chương trình cụ thể nào.

Phương pháp và dữ liệu

Các nhà nghiên cứu phát hiện ra rằng dữ liệu biểu tượng cảm xúc Twitch được gắn nhãn 'hầu như không tồn tại', mặc dù có kết luận nghiên cứu sớm hơn rằng có tổng cộng tám triệu biểu tượng cảm xúcvà 400,000 đã có mặt trong một tuần đầu tiên Twitch xuất hiện trong tuần do các nhà nghiên cứu trước đó chọn.

A 2017 nghiên cứu giải quyết dự đoán biểu cảm trên Twitch chỉ giới hạn trong việc dự đoán 30 biểu tượng cảm xúc hàng đầu trên Twitch, chỉ cho điểm 0.39 cho dự đoán biểu cảm.

Để giải quyết vấn đề thiếu hụt này, các nhà nghiên cứu tại San Francisco đã áp dụng một phương pháp mới đối với dữ liệu cũ, chia dữ liệu theo tỷ lệ 80/20 giữa đào tạo và thử nghiệm, đồng thời áp dụng các phương pháp học máy 'truyền thống', vốn chưa từng được sử dụng trước đây để nghiên cứu dữ liệu Twitch. Các phương pháp này bao gồm Vịnh Naive (NB), Rừng ngẫu nhiên (RF), Máy hỗ trợ vector (SVM, với nhân tuyến tính) và Hồi quy logistic.

Phương pháp này vượt trội hơn các đường cơ sở cảm xúc Twitch trước đây tới 63.8% và cho phép các nhà nghiên cứu phát triển khuôn khổ LOOVE (Học từ vựng cảm xúc), có khả năng xác định các từ mới và "làm giàu" các mô hình hiện có bằng các định nghĩa mới này.

Kiến trúc của khung LOOVE (Học từ cảm xúc từ vựng) do các nhà nghiên cứu phát triển.

Kiến trúc của khung LOOVE (Học từ cảm xúc từ vựng) do các nhà nghiên cứu phát triển.

LOOVE tạo điều kiện cho việc đào tạo nhúng từ không giám sát, đồng thời hỗ trợ đào tạo lại và tinh chỉnh định kỳ, loại bỏ nhu cầu về bộ dữ liệu được gắn nhãn, điều này sẽ không thực tế về mặt hậu cần, xét đến quy mô của nhiệm vụ và sự phát triển nhanh chóng của các biểu tượng cảm xúc.

Để phục vụ cho đề tài, nhóm nghiên cứu đào tạo một biểu tượng cảm xúc 'Pseudo-Dictionary' trên một tập dữ liệu Twitch chưa được gắn nhãn, trong quá trình này tạo ra 444,714 nhúng từ, biểu tượng cảm xúc, biểu tượng cảm xúc và biểu tượng cảm xúc.

Hơn nữa, họ tăng cường một từ điển VADER với một biểu tượng cảm xúc/từ vựng biểu tượng cảm xúcvà ngoài bộ dữ liệu EC đã nói ở trên, còn khai thác ba bộ dữ liệu có sẵn công khai khác cho bậc ba phân loại tình cảm, từ Twitter, Rotten Tomatoes và bộ dữ liệu YELP được lấy mẫu.

Với rất nhiều phương pháp và bộ dữ liệu được sử dụng trong nghiên cứu, kết quả rất khác nhau, nhưng các nhà nghiên cứu khẳng định rằng đường cơ sở trong trường hợp tốt nhất của họ vượt trội so với số liệu trước đó gần nhất 7.36 điểm phần trăm.

Các nhà nghiên cứu cho rằng giá trị hiện tại của dự án là sự phát triển của LOOVE, dựa trên nhúng từ-to-vector (W2V) được đào tạo trên hơn 313 triệu tin nhắn trò chuyện Twitch với sự trợ giúp của K-Hàng xóm gần nhất (KTNN).

Các tác giả kết luận:

'Một tính năng chủ chốt đằng sau khung này là một từ điển giả biểu tượng cảm xúc, có thể được sử dụng để suy ra cảm xúc cho các biểu tượng cảm xúc chưa biết. Sử dụng từ điển giả biểu tượng cảm xúc này, chúng tôi đã tạo ra một bảng cảm xúc cho 22,507 biểu tượng cảm xúc. Đây là trường hợp đầu tiên hiểu được biểu tượng cảm xúc ở quy mô này.'

 

* Chuyển đổi các trích dẫn nội tuyến thành siêu liên kết của tôi.