Tekoäly
Ylipakattujen sosiaalisen median videoiden palauttaminen koneoppimisen avulla

Uusi Kiinasta tehty tutkimus tarjoaa tehokkaan ja uudenlaisen menetelmän yksityiskohtien ja resoluution palauttamiseksi käyttäjien lataamiin videoihin. automaattisesti pakattu alustoilla, kuten WeChat ja YouTube kaistanleveyden ja tallennustilan säästämiseksi.

Uuden menetelmän vertailu aiempiin lähestymistapoihin sen kyvyn osalta, että se pystyy ratkaisemaan tarkasti uudelleen sosiaalisen median alustan automaattisen optimoinnin aikana karkotetut yksityiskohdat. Lähde: https://arxiv.org/pdf/2208.08597.pdf
Toisin kuin aikaisemmissa menetelmissä, joilla videoista voidaan skaalata ja näytteitä yleisten harjoitustietojen perusteella, uusi lähestymistapa johtaa sen sijaan huononemisominaisuus kartta (DFM) jokaiselle pakatun videon kehykselle – tehokas yleiskatsaus kehyksen pakkauksen aiheuttamista vaurioituneimmista tai huonontuneimmista alueista.

Uuden paperin ablaatiotutkimuksista: toinen oikealta, "puhtaan" hajoamisominaisuuskartan (DFM) perustotuus; kolmas oikealta, arvio vahingosta ilman DFM:ää. Vasemmalla, paljon tarkempi kartta DFM:n vaurioista.
Restoratiivista prosessia, joka hyödyntää muun muassa konvoluutiohermoverkkoja (CNN:itä), ohjaa ja fokusoi DFM:n informaatio, jolloin uusi menetelmä voi ylittää aikaisempien lähestymistapojen suorituskyvyn ja tarkkuuden.
Prosessin perustotuus saatiin, kun tutkijat latasivat korkealaatuista videota neljälle suositulle jakoalustalle, latasivat pakatut tulokset ja kehittivät tietokonenäköputken, joka pystyy abstraktisti oppimaan pakkausartefakteja ja yksityiskohtien häviämistä, jotta sitä voidaan soveltaa useita alustoja videoiden palauttamiseksi lähes alkuperäiseen laatuun täysin osuvien tietojen perusteella.
Tutkimuksessa käytetty aineisto on koottu HQ/LQ-aineistoksi nimeltä Sosiaalisessa mediassa jaetut käyttäjien videot (UVSSM), ja se on valmistettu ladattavissa (Salasana: rsqw) Baidussa myöhempien tutkimushankkeiden hyödyksi, joilla pyritään kehittämään uusia menetelmiä alustalle pakatun videon palauttamiseksi.

Kahden vastaavan HQ/LQ-näytteen vertailu ladattavasta UVSSM-tietojoukosta (katso lähde-URL-osoitteet yllä olevista linkeistä). Koska jopa tämä esimerkki voi olla useiden pakkausten kohteena (kuvasovellus, CMS, CDN jne.), katso alkuperäiset lähdetiedot tarkemman vertailun saamiseksi.
Järjestelmän koodi, joka tunnetaan nimellä Videon palautus mukautuvan degradaatiotunnistuksen avulla (ÄÄNESTYKSET), on myös ollut julkaistu GitHubissa, vaikka sen toteutus sisältää useita vetopohjaisia riippuvuuksia.
- paperi on otsikko Sosiaalisessa mediassa jaettujen käyttäjien videoiden palauttaminen, ja tulee kolmelta Shenzhenin yliopiston tutkijalta ja yhdeltä Hongkongin ammattikorkeakoulun elektroniikka- ja tietotekniikan laitokselta.
Artefakteista faktoihin
Mahdollisuus palauttaa verkossa kopioitujen videoiden laatu ilman yleistä, joskus liiallinen Gigapixelin kaltaisten ohjelmien (ja useimpien samanlaajuisten suosittujen avoimen lähdekoodin pakettien) tarjoamilla yksityiskohtien "halusinaatioilla" voi olla vaikutuksia tietokonenäkötutkimuksen alaan.
Videopohjaisten CV-tekniikoiden tutkimus perustuu usein materiaaliin, joka on saatu YouTuben ja Twitterin kaltaisista alustoista, joissa käytettyjä pakkausmenetelmiä ja koodekkeja valvotaan tarkasti, joita ei ole helppo poimia artefaktikuvioiden tai muiden visuaalisten indikaattorien perusteella. vaihda säännöllisesti.
Suurin osa projekteista, jotka hyödyntävät verkosta löydettyä videota, eivät ole tutkimiseen puristus, ja pakko tehdä päästöoikeuksia käyttöympäristöjen tarjoaman pakatun videon laadun vuoksi, koska niillä ei ole pääsyä käyttäjien lataamiin alkuperäisiin korkealaatuisiin versioihin.
Siksi kyky palauttaa uskollisesti parempi laatu ja resoluutio tällaisille videoille ilman, että aiheeseen liittyvät tietokonenäkötietojoukot vaikuttavat alavirtaan, voisivat auttaa välttämään toistuvia kiertotapoja ja mukautuksia, joita CV-projektien on tällä hetkellä tehtävä huonontuneille videolähteille.
Vaikka YouTuben kaltaiset alustat tekevät toisinaan suuria muutoksia tavassa, jolla ne pakkaavat käyttäjien videoita (esim VP9), mikään niistä ei nimenomaisesti paljasta koko prosessia tai tarkkoja koodekkeja ja asetuksia, joita käytetään käyttäjien lataamien korkealaatuisten tiedostojen vähentämiseen.
Paremman tulostuslaadun saavuttamisesta käyttäjien latauksista on siksi tullut jotain Druidinen taide viimeisen kymmenen vuoden aikana useilla (useimmiten vahvistamattomilla) "kiertotavat" menossa sisään ja pois muodista.
Menetelmä
Aiemmat lähestymistavat syvään oppimiseen perustuvaan videon palauttamiseen ovat sisältäneet yleisten ominaisuuksien poimimisen joko yhden kehyksen palauttamisena tai monikehysarkkitehtuurissa, joka hyödyntää optinen virtaus (eli se ottaa huomioon viereiset ja myöhemmät kehykset kun nykyistä kehystä palautetaan).
Kaikki nämä lähestymistavat ovat joutuneet kamppailemaan "musta laatikko" -ilmiön kanssa – sen tosiasian kanssa, että ne eivät voi tutkia ydinteknologioiden pakkausvaikutuksia, koska ei ole varmaa, mitkä ydintekniikat ovat tai kuinka ne on konfiguroitu jollekin tietylle käyttäjälle. - ladattu video.
VOTES pyrkii sen sijaan poimimaan tärkeimmät ominaisuudet suoraan alkuperäisestä ja pakatusta videosta ja määrittelemään muunnosmalleja, jotka yleistyvät useiden alustojen standardeihin.
VOTES käyttää erityisesti kehitettyä degradation Sensing -moduulia (DSM, katso kuva yllä) poimimaan ominaisuuksia konvoluutiolohkoista. Useita kehyksiä siirretään sitten ominaisuuden erotus- ja kohdistusmoduuliin (FEAM), jotka sitten shuntoidaan degradation modulation module (DMM) -moduuliin. Lopuksi rekonstruktiomoduuli tulostaa palautetun videon.
Data ja kokeet
Uudessa työssä tutkijat ovat keskittyneet WeChat-alustalle ladattujen ja sieltä ladattujen videoiden palauttamiseen, mutta ovat olleet huolissaan siitä, että tuloksena oleva algoritmi voidaan mukauttaa muille alustoille.
Kävi ilmi, että kun he olivat saaneet tehokkaan palautusmallin WeChat-videoille, sen mukauttaminen Bilibiliin, Twitteriin ja YouTubeen vei vain 90 sekuntia yhden aikakauden kunkin mukautetun mallin kohdalla kullekin alustalle (koneessa, jossa oli neljä NVIDIA Tesla P4 GPU:ta yhteensä 40 Gt VRAM-muistia).

Menestyneen WeChat-mallin mukauttaminen muihin videonjakoalustoihin osoittautui melko triviaaliksi. Tässä näemme VOTESin saavuttavan lähes välittömän suorituskyvyn eri alustoilla käyttämällä tekijöiden omaa UVSSM-tietoaineistoa ja REDS-tietojoukkoa (katso alla).
UVSSM-tietojoukon täyttämiseksi tutkijat keräsivät 264 videota, joiden pituus vaihteli välillä 5-30 sekuntia, jokaisella 30 fps:n kuvanopeudella, joko suoraan matkapuhelimen kameroista tai Internetistä. Kaikki videot olivat joko 1920 x 1080 tai 1280 x 270 resoluutiota.
Sisältö (katso aikaisempi kuva) sisälsi kaupunkinäkymiä, maisemia, ihmisiä ja eläimiä monien muiden aiheiden joukossa, ja sitä voidaan käyttää julkisessa tietojoukossa Creative Commons Attribution -lisenssin kautta, mikä mahdollistaa uudelleenkäytön.
Tekijät latasivat WeChatiin 214 videota viidellä eri matkapuhelimella ja saivat WeChatin oletusvideon resoluution 960 × 540 (ellei lähdevideo ole jo pienempi kuin nämä mitat), mikä on yksi "rangaistavimmista" tuloksista suosituilla alustoilla.

Ylhäällä vasemmalla, alkuperäinen HQ-kehys, jossa on kolme suurennettua osaa; oikeassa yläkulmassa, sama kehys saman videon alustan heikentyneestä pakatusta versiosta; alhaalla vasemmalla pakatun kehyksen laskettu huononeminen; ja alhaalla oikealla, seuraava "työalue", johon VOTES voi keskittyä. Ilmeisesti huonolaatuisen kuvan koko on puolet HQ:n kokosta, mutta sen kokoa on muutettu tässä vertailun selkeyden vuoksi.
Myöhempää vertailua varten muiden alustojen muunnosrutiineihin tutkijat latasivat 50 videota emme sisällytetty alkuperäiseen 214:ään Bilibiliin, YouTubeen ja Twitteriin. Videoiden alkuperäinen resoluutio oli 1280×270, ladattujen versioiden resoluutio oli 640×360.
Tämä tuo UVSSM-tietojoukon yhteensä 364 pariin alkuperäisiä (HQ) ja jaettuja (LQ) videoita, joista 214 on WeChatissa ja 50 Bilibilissä, YouTubessa ja Twitterissä.
Kokeita varten valittiin 10 satunnaista videota testisarjaksi, neljä validointisarjaksi ja loput 200 ydinharjoittelusarjaksi. Kokeet suoritettiin viisi kertaa K-kertainen ristiin validointi, jolloin tuloksista lasketaan näiden tapausten keskiarvo.
Videon palauttamista koskevissa testeissä VOTESia verrattiin Spatio-Temporal Deformable Fusion (STDF). Tarkkuuden parantamiseksi sitä testattiin Enhanced Deformable Convolutions (EDVR), RSDN, Videon superresoluutio ja ajallinen ryhmä huomio (VSR_TGA), Ja BasicVSR. Googlen single-vaihemenetelmä KOMISSIO oli myös mukana, vaikka se ei sovi muiden aikaisempien teosten arkkitehtuurityyppiin.
Menetelmät testattiin sekä UVSS- että UVSS:tä vastaan PUNAISET tietojoukko, jossa VOTES sai korkeimmat pisteet:
Kirjoittajat väittävät, että laadulliset tulokset osoittavat myös ÄÄNESTIEN paremmuuden aiempiin järjestelmiin verrattuna:

Videokehykset REDS:stä palautettu kilpailevilla lähestymistavoilla. Vain ohjeellinen resoluutio – katso paperista lopullinen resoluutio.
Julkaistu ensimmäisen kerran 19.