Artificial Intelligence

Czy niedostatecznie opracowane hiperskalowe zbiory danych AI są gorsze od samego Internetu?

Zaktualizowano on 9 grudnia 2022 r.

Naukowcy z Irlandii, Wielkiej Brytanii i Stanów Zjednoczonych ostrzegają, że wzrost hiperskalowych zbiorów danych szkoleniowych dotyczących sztucznej inteligencji grozi rozpowszechnieniem najgorszych aspektów ich źródeł internetowych, utrzymując, że niedawno opublikowany akademicki zbiór danych zawiera „kłopotliwe i wyraźne obrazy oraz pary tekstów przedstawiające gwałt, pornografię, złośliwe stereotypy, rasistowskie i etniczne obelgi oraz inne niezwykle problematyczne treści”.

Naukowcy uważają, że nowa fala ogromnych, niedostatecznie przebadanych lub nieprawidłowo przefiltrowanych multimodalnych zbiorów danych (na przykład obrazów i ilustracji) jest prawdopodobnie bardziej szkodliwa ze względu na swoją zdolność do wzmacniania skutków takich negatywnych treści, ponieważ zbiory danych zachowują obrazy i inną treść które mogły od tego czasu zostać usunięte z platform internetowych w wyniku skargi użytkownika, lokalnej moderacji lub algorytmów.

Zauważają ponadto, że zajęcie się długotrwałymi skargami dotyczącymi zawartości zbiorów danych może zająć lata – w przypadku potężnego zbioru danych ImageNet, całą dekadę – oraz że te późniejsze poprawki nie zawsze znajdują odzwierciedlenie nawet w nowych wywodzących się z nich zbiorach danych. .

Połączenia papier, pod tytulem Multimodalne zbiory danych: mizoginia, pornografia i złośliwe stereotypy, pochodzi od badaczy z University College Dublin & Lero, Uniwersytetu w Edynburgu i głównego naukowca platformy uwierzytelniania UnifyID.

Chociaż praca koncentruje się na ostatnim wydaniu CLIP-przefiltrowany Zbiór danych LAION-400M, autorzy sprzeciwiają się ogólnej tendencji polegającej na rzucaniu coraz większej ilości danych na struktury uczenia maszynowego, takie jak model języka neuronowego GPT-3, i twierdzą, że zorientowane na wyniki dążenie do lepszego wnioskowania (a nawet do sztucznej inteligencji ogólnej [AGI] ) skutkuje doraźnym wykorzystaniem szkodliwych źródeł danych przy niedbałym nadzorze nad prawami autorskimi; potencjał powodowania i promowania szkody; oraz możliwość nie tylko utrwalenia nielegalnych danych, które w przeciwnym razie mogłyby zniknąć z domeny publicznej, ale także faktycznego włączenia modeli moralnych takich danych do dalszych wdrożeń sztucznej inteligencji.

LAION-400M

W zeszłym miesiącu wypuszczono zbiór danych LAION-400M, uzupełniając rosnącą liczbę multimodalnych, lingwistycznych zbiorów danych, które opierają się na Wspólne indeksowanie repozytorium, które bezkrytycznie przeszukuje Internet i przekazuje odpowiedzialność za filtrowanie i przeglądanie projektom, które z niego korzystają. Uzyskany zbiór danych zawiera 400 milionów par tekst/obraz.

LAION-400M to wariant open source zamkniętego WIT Google AI (WebImageText) zestaw danych wydany w marcu 2021 r. i zawiera pary tekst-obraz, gdzie obraz w bazie danych został powiązany z towarzyszącym mu tekstem jawnym lub metadanymi (na przykład tekstem alternatywnym obrazu w galerii internetowej). Umożliwia to użytkownikom wyszukiwanie obrazów w oparciu o tekst i ujawnianie skojarzeń, jakie utworzyła podstawowa sztuczna inteligencja w odniesieniu do tych domen (tj. 'zwierzę', 'rower', 'osoba', 'Człowiek', 'kobieta').

Ta relacja między obrazem i tekstem oraz podobieństwo cosinusa, które może wprowadzić błąd w wynikach zapytań, leżą u podstaw wezwania zawartego w artykule do udoskonalenia metodologii, ponieważ bardzo proste zapytania do bazy danych LAION-400M mogą ujawnić stronniczość.

Na przykład zdjęcie pionierki astronautki Eileen Collins w bibliotece scitkit-image zawiera dwa powiązane podpisy w LAION-400M: „To jest portret astronauty z amerykańską flagą” i „To jest zdjęcie uśmiechniętej gospodyni domowej w pomarańczowym kombinezonie z amerykańską flagą”.

Amerykańska astronautka Eileen Collins ma dwa bardzo różne spojrzenia na swoje osiągnięcia jako pierwszej kobiety w kosmosie pod LAION-400M. Źródło: https://arxiv.org/pdf/2110.01963.pdf

Zgłoszone podobieństwa cosinusowe, które sprawiają, że którykolwiek z podpisów może mieć zastosowanie, są bardzo blisko siebie, a autorzy twierdzą, że taka bliskość sprawiłaby, że systemy sztucznej inteligencji korzystające z LAION-400M byłyby stosunkowo prawdopodobne, że będą prezentować którykolwiek z nich jako odpowiedni podpis.

Pornografia znów zdobywa szczyt

LAION-400M stworzył interfejs z możliwością wyszukiwania dostępny, gdzie odznaczenie przycisku „bezpieczne wyszukiwanie” ujawnia, w jakim stopniu obrazy pornograficzne i skojarzenia tekstowe dominują w etykietach i klasach. Na przykład, szukać 'siostra zakonna' (NSFW, jeśli później wyłączysz tryb awaryjny) w bazie danych zwraca wyniki głównie związane z horrorem, cosplayem i kostiumami, z bardzo małą liczbą dostępnych zakonnic.

Wyłączenie trybu awaryjnego podczas tego samego wyszukiwania powoduje wyświetlenie mnóstwa obrazów pornograficznych powiązanych z danym hasłem, które spychają w dół strony wyników wyszukiwania wszelkie obrazy niebędące pornografią, ujawniając, w jakim stopniu LAION-400M przypisał większą wagę obrazom porno, ponieważ w źródłach internetowych powszechne jest określenie „zakonnica”.

Domyślna aktywacja trybu awaryjnego jest zwodnicza w interfejsie wyszukiwania online, ponieważ stanowi dziwactwo interfejsu użytkownika, filtr, który nie tylko niekoniecznie zostanie aktywowany w pochodnych systemach sztucznej inteligencji, ale który został w pewnym sensie uogólniony na domenę „zakonnicy” nie da się tak łatwo przefiltrować ani odróżnić od (względnie) wyników SFW pod względem użycia algorytmu.

Artykuł zawiera niewyraźne przykłady różnych wyszukiwanych haseł w materiałach uzupełniających na końcu. Nie można ich tutaj zaprezentować ze względu na język w tekście towarzyszącym rozmytym zdjęciom, ale badacze zauważają, jakie żniwo poniosło badanie i zamazywanie zdjęć, i przyznają, że wyzwaniem jest gromadzenie takich materiałów w celu nadzoru przez człowieka dużych -skalowalne bazy danych:

„Podczas badania zbioru danych my (a także nasi koledzy, którzy nam pomagali) doświadczyliśmy różnego poziomu dyskomfortu, nudności i bólu głowy. Ponadto tego rodzaju prace nieproporcjonalnie spotykają się po opublikowaniu ze znaczną negatywną krytyką w całej akademickiej sferze sztucznej inteligencji, co nie tylko dodaje dodatkowe emocjonalne żniwo do i tak już ciężkiego zadania badania i analizowania takich zbiorów danych, ale także zniechęca do podobnych przyszłych prac, ze szkodą dla dziedzina sztucznej inteligencji i społeczeństwo w ogóle”.

Badacze twierdzą, że choć selekcja metodą „człowieka w pętli” jest kosztowna i wiąże się z kosztami osobistymi, zautomatyzowane systemy filtrowania zaprojektowane do usuwania lub innego zajmowania się takimi materiałami wyraźnie nie są odpowiednie do tego zadania, ponieważ systemy NLP mają trudności z izolowaniem lub dyskontowaniem ofensywnych treści. materiał, który może dominować w zeskrobanym zbiorze danych, a następnie być postrzegany jako istotny ze względu na samą objętość.

Chronienie zakazanych treści i usuwanie zabezpieczeń praw autorskich

W artykule argumentuje się, że tego rodzaju niedostatecznie opracowane zbiory danych z „wysokim prawdopodobieństwem” utrwalą wyzysk osób należących do mniejszości, a także omawia się, czy podobne projekty dotyczące danych typu open source mają prawne lub moralne prawo do przerzucania odpowiedzialności za materiały na podmioty należące do mniejszości. użytkownik końcowy:

„Osoby fizyczne mogą usunąć swoje dane ze strony internetowej i założyć, że zniknęły one na zawsze, chociaż mogą nadal znajdować się na serwerach kilku badaczy i organizacji. Powstaje pytanie, kto jest odpowiedzialny za usunięcie tych danych ze zbioru danych? W przypadku LAION-400M twórcy delegowali to zadanie użytkownikowi zbioru danych. Biorąc pod uwagę, że takie procesy są celowo skomplikowane i że przeciętnemu użytkownikowi brakuje wiedzy technicznej potrzebnej do usunięcia swoich danych, czy jest to rozsądne podejście?

Twierdzą ponadto, że LAION-400M może nie nadawać się do wypuszczenia na rynek w ramach przyjętego modelu licencji Creative Common CC-BY 4.0, pomimo potencjalnych korzyści dla demokratyzacji dużych zbiorów danych, które wcześniej były wyłączną domeną dobrze finansowanych firm, takich jak Google i OpenAI.

Domena LAION-400M zapewnia, że obrazy ze zbioru danych „objęte są ich własnymi prawami autorskimi” – mechanizm „przekazywania” jest w dużej mierze możliwy dzięki orzeczeniom sądów i wytycznym rządowym z ostatnich lat, które zasadniczo zatwierdzają pobieranie danych z sieci do celów badawczych. Źródło: https://rom1504.github.io/clip-retrieval/

Autorzy sugerują, że obywatele (tj. ochotnicy korzystający z crowdsourcingu) mogliby rozwiązać niektóre problemy związane ze zbiorami danych, a badacze mogliby opracować ulepszone techniki filtrowania.

„Niemniej jednak prawa osoby, której dane dotyczą, pozostają w tym przypadku nieuwzględnione. Lekkomyślne i niebezpieczne jest bagatelizowanie szkód nieodłącznie związanych ze zbiorami danych na tak dużą skalę i zachęcanie do ich wykorzystania w zastosowaniach przemysłowych i komercyjnych. Odpowiedzialność za schemat licencji, w ramach którego udostępniany jest zbiór danych, spoczywa wyłącznie na twórcy zbioru danych”.

Problemy demokratyzacji danych hiperskalowych

W artykule argumentuje się, że wizjonerskie zbiory danych tak duże jak LAION-400M były wcześniej niedostępne poza dużymi firmami technologicznymi i ograniczoną liczbą instytucji badawczych dysponujących zasobami do ich zestawiania, selekcjonowania i przetwarzania. Dalej gratulują duchowi nowego wydawnictwa, krytykując jednocześnie jego wykonanie.

Autorzy twierdzą, że przyjęta definicja „demokratyzacji” w odniesieniu do hiperskalowych zbiorów danych typu open source jest zbyt ograniczona i „nie uwzględnia praw, dobrobytu i interesów bezbronnych jednostek i społeczności, z których wiele prawdopodobnie najbardziej ucierpi z powodu dalszych skutków tego zbioru danych i wytrenowanych na nim modeli”.

Ponieważ rozwój modeli open source w skali GPT-3 ma ostatecznie zostać rozpowszechniony wśród milionów (i przez pełnomocnika, być może miliardów) użytkowników na całym świecie oraz ponieważ projekty badawcze mogą przyjmować zbiory danych przed ich późniejszą edycją lub nawet usunięciem, utrwalając autorzy argumentują, że nieostrożne publikowanie niedostatecznie sprawdzonych zbiorów danych nie powinno stać się nawykową cechą uczenia maszynowego typu open source.

Wkładanie dżina z powrotem do butelki

Niektóre zbiory danych, które zostały ukryte długo po tym, jak ich zawartość została przekazana – być może w sposób nierozerwalny – do długoterminowych projektów AI, zostały włączony zbiór danych Duke MTMC (Multi-Target, Multi-Camera), który ostatecznie został wycofany ze względu na powtarzające się obawy od organizacji praw człowieka w sprawie jego stosowania przez represyjne władze w Chinach; Microsoft Celeb (MS-Celeb-1M), zbiór danych zawierający 10 milionów zdjęć twarzy „celebrytów”, który wydarzyło się uwzględnić dziennikarzy, aktywistów, decydentów i pisarzy, których ujawnienie danych biometrycznych w komunikacie spotkało się z ostrą krytyką; oraz zbiór danych Tiny Images, wycofany w 2020 roku za samozwańcze „uprzedzenia, obraźliwe i krzywdzące obrazy oraz obraźliwą terminologię”.

Jeśli chodzi o zbiory danych, które zamiast zostać wycofane w wyniku krytyki, zostały zmienione, przykłady obejmują niezwykle popularny zbiór danych ImageNet, który – zauważają naukowcy: zajęło dziesięć lat (2009–2019), aby zareagować w odpowiedzi na powtarzającą się krytykę dotyczącą prywatności i klas, których nie można obrazować.

W artykule zauważono, że LAION-400M skutecznie cofa nawet te opieszałe ulepszenia, „w dużej mierze ignorując” wyżej wymienione zmiany w reprezentacji ImageNet w nowej wersji, i dostrzega szerszą tendencję w tym zakresie*:

„Dowodzi tego pojawienie się większych zbiorów danych, takich jak Zbiór danych obrazów Tencent ML (w lutym 2020 r.), który obejmuje większość z nich klasy nieobrazowe, ciągłą dostępność modeli wyszkolonych na pełnym zbiorze danych ImageNet-21k w repozytoriach takie jak koncentrator TF, dalsze wykorzystanie niefiltrowanego ImageNet-21k w najnowszych modelach SotA (takich jak najnowszy EfficientNetV2 firmy Google i modele CoAtNet) oraz wyraźne zapowiedzi zezwalające na wykorzystanie niefiltrowanego treningu wstępnego-ImageNet-21k w renomowanych konkursach takie jak wyzwanie LVIS 2021.

„Podkreślamy tę kluczową obserwację: zespół o randze ImageNet zarządzający mniej niż 15 milionami obrazów miał jak dotąd trudności z podejmowaniem prób detoksykacji, które zakończyły się niepowodzeniem.

„Skala starannych wysiłków wymaganych do dokładnej detoksykacji tego ogromnego multimodalnego zbioru danych i dalszych modeli wytrenowanych na tym zbiorze danych obejmujących potencjalnie miliardy par obrazów i podpisów będzie niezaprzeczalnie astronomiczna”.

* Moja konwersja cytatów autora na hiperłącza.

Powiązane tematy:Stronniczość AI stronniczość analiza danych Badania naukowe

W przyszłym

Gartner uznaje wiodącą platformę danych Weka za wizjonera

Nie przegap

Badania sugerują, że Amazon Mechanical Turk płaci mniej niż 40% płacy minimalnej w USA

Martin Anderson

Pisarz na temat uczenia maszynowego, sztucznej inteligencji i dużych zbiorów danych.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai

Zjednoczyć.AI

Czy niedostatecznie opracowane hiperskalowe zbiory danych AI są gorsze od samego Internetu?

Artificial Intelligence