stub Identyfikowanie szkodliwych treści wideo za pomocą zwiastunów filmów i uczenia maszynowego — Unite.AI
Kontakt z nami

Artificial Intelligence

Identyfikowanie szkodliwych treści wideo za pomocą zwiastunów filmów i uczenia maszynowego

mm
Zaktualizowano on

W artykule badawczym Szwedzkiej Rady ds. Mediów przedstawiono możliwe nowe podejście do automatycznej identyfikacji „szkodliwych treści”, polegające na odrębnym rozpatrywaniu treści audio i wideo oraz wykorzystaniu danych z adnotacjami ludzkimi jako wskaźnika w przypadku materiałów, które mogą przeszkadzać widzom.

Prawo Czy to jest szkodliwe? Nauka przewidywania ocen szkodliwości na podstawie wideoThe papier ilustruje potrzebę uwzględniania przez systemy uczenia maszynowego całego kontekstu sceny oraz ilustruje wiele sposobów, w jakie nieszkodliwe treści (takie jak treści humorystyczne lub satyryczne) mogą zostać błędnie zinterpretowane jako szkodliwe w przypadku mniej wyrafinowanego i multimodalnego podejścia do analizy wideo – nie tylko dlatego, że ścieżka dźwiękowa filmu jest często wykorzystywana w nieoczekiwany sposób, aby zaniepokoić lub uspokoić widza oraz jako kontrapunkt, a nie uzupełnienie elementu wizualnego.

Zbiór danych potencjalnie szkodliwych filmów

Naukowcy zauważają, że użyteczny rozwój w tym sektorze utrudnia ochrona praw autorskich do filmów, co utrudnia tworzenie uogólnionych zbiorów danych typu open source. Zauważają również, że dotychczas w przypadku podobnych eksperymentów występowała niedostateczna liczba etykiet dla filmów pełnometrażowych, co doprowadziło do wcześniejszych prac polegających na nadmiernym upraszczaniu danych lub uwzględnianiu tylko jednego aspektu danych, np. dominujących kolorów lub dialogów. analiza.

Aby rozwiązać ten problem, badacze stworzyli zbiór danych wideo składający się z 4000 klipów wideo, zwiastunów pociętych na kawałki o długości około dziesięciu sekund, które następnie zostały oznaczone przez profesjonalnych klasyfikatorów filmów, którzy nadzorują stosowanie ocen dla nowych filmów w Szwecji, z których wiele ma kwalifikacje zawodowe w zakresie psychologii dziecięcej.

W szwedzkim systemie klasyfikacji filmów „szkodliwe” treści definiuje się na podstawie ich możliwej skłonności do wywoływania u dzieci uczucia niepokoju, strachu i innych negatywnych skutków. Naukowcy zauważają, że ponieważ ten system ocen wykorzystuje w równym stopniu intuicję i instynkt, co naukę, parametry definicji „szkodliwych treści” są trudne do skwantyfikowania i wprowadzenia do zautomatyzowanego systemu.

Definicja szkody

W artykule zauważono ponadto, że wcześniejsze systemy uczenia maszynowego i systemy algorytmiczne zajmujące się tym wyzwaniem wykorzystywały wykrywanie określonych aspektów jako kryteria, w tym wizualne wykrywanie krwi i płomieni, dźwięk wybuchu i częstotliwość wystrzału, a także inne ograniczone definicje szkodliwych substancji. treści oraz że podejście obejmujące wiele domen prawdopodobnie zapewni lepszą metodologię automatycznej oceny szkodliwych treści.

Szwedzcy badacze przeszkolili 8-warstwowy model sieci neuronowej 8×50 w teście porównawczym ruchu człowieka Kinetics-400 zestaw danychi stworzył architekturę zaprojektowaną w celu łączenia prognoz wideo i audio.

W rezultacie użycie zwiastunów rozwiązuje trzy problemy związane z tworzeniem tego rodzaju zbioru danych: eliminuje problemy związane z prawami autorskimi; zwiększona turbulencja i większa częstotliwość kręcenia zwiastunów (w porównaniu z filmami źródłowymi), pozwala na większą częstotliwość adnotacji; gwarantuje także, że niewielka liczba przypadków przemocy lub niepokojących treści w całym filmie nie zachwianie równowagi zbioru danych i przypadkowe zaklasyfikowanie go jako odpowiedniego dla dzieci.

Efekt

Po przeszkoleniu modelu szwedzcy naukowcy przetestowali system na podstawie klipów wideo.

W tym zwiastunie Głębokie (2012) dwa modele użyte do testowania systemu (etykiety dobrane losowo i etykiety probabilistyczne) z powodzeniem zaklasyfikowały film jako odpowiedni dla widzów w wieku 11 lat i starszych.

Źródło: https://arxiv.org/pdf/2106.08323.pdf

Źródło: https://arxiv.org/pdf/2106.08323.pdf

Do sceny z Bezcielesny (2018), w przypadku którego wprowadzono potwornego antagonistę, dualne ramy ponownie poprawnie oszacowały docelowy przedział wiekowy na 11+/15+.

Natomiast klip ze zwiastuna dla Druga szansa (2014) napotkali większe trudności, gdyż model nie był w stanie zgodzić się z ludzkimi adnotacjami dotyczącymi sceny, które sklasyfikowały ją jako „BT” (powszechnie akceptowalną). W efekcie algorytm wykrył potencjał szkód, których nie przypisywali mu ludzie oceniający.

Chociaż badacze potwierdzili wysoką dokładność systemu, wystąpiły pewne awarie, jak na przykład ten klip Stan miasta (2011), przedstawiający zatrzymanego nagiego mężczyznę grożącego karabinem.

W tym przypadku system przypisał klipowi ocenę 11+, w przeciwieństwie do adnotacji ludzkich.

Dysonans intencji i szkodliwości

Gazeta zauważa, że ​​oceniając klip ze zwiastuna pt Paydirt (2020) system prawidłowo przypisuje klipowi ocenę „uniwersalną” na podstawie aspektów wizualnych i językowych (chociaż postacie rozmawiają o broni palnej, zamierzenie jest komediowe), ale dezorientuje go zastosowana dysonansowo groźna muzyka, która może mieć wydźwięk kontekst satyryczny.

Podobnie w zwiastunie filmu Dla Sama (2019) groźny styl treści muzycznych nie idzie w parze z treścią wizualną, a system po raz kolejny ma trudności z rozróżnieniem tych dwóch elementów w celu dokonania jednolitej oceny obejmującej zarówno zawartość audio, jak i wideo klipu.

Wreszcie system poprawnie nawiguje po dysonansach audio/wideo w zwiastunie Dziewicza góra (2015), który zawiera groźne sygnały wizualne (np. wybitą szybę), które są podważane przez muzykę. Zatem struktura poprawnie zgaduje, że klip ma ocenę „uniwersalną” (BT).

Badacze przyznają, że system tego rodzaju skupia się wyłącznie na dzieciach, a wyniki raczej nie uogólniają się na inne typy widzów. Sugerują również, że kodowanie „szkodliwych” treści w ten liniowy sposób może potencjalnie prowadzić do algorytmicznych systemów oceny, które będą mniej nieprzewidywalne, należy jednak zwrócić uwagę na możliwość niepożądanego tłumienia pomysłów przy opracowywaniu takich podejść:

„Ocena, czy treść jest szkodliwa, to delikatna kwestia. Istnieje istotna równowaga pomiędzy wolnością informacji a ochroną grup wrażliwych. Wierzymy, że prace te stanowią krok we właściwym kierunku, zapewniając możliwie największą przejrzystość kryteriów stosowanych do oceny szkodliwości. Ponadto wierzymy, że oddzielenie szkodliwości od adekwatności jest ważnym krokiem w kierunku bardziej obiektywnej klasyfikacji szkodliwych treści.

„…Wykrywanie szkodliwych treści jest również przedmiotem zainteresowania platform internetowych, takich jak YouTube. Na takich platformach znalezienie równowagi między wolnością informacji a ochroną staje się jeszcze ważniejsze i dodatkowo komplikuje zastrzeżony charakter odpowiedzialnych algorytmów.