Sztuczna inteligencja
Zbiorów danych pozyskiwanych ze skrapowania sieci Web i prywatności: Dlaczego CommonPool zasługuje na uwagę

Sztuczna inteligencja (AI) stała się częścią codziennego życia. Jest widoczna w medycznych czatach, które prowadzą pacjentów i w generatywnych narzędziach, które pomagają artystom, pisarzom i deweloperom. Te systemy wydają się zaawansowane, ale polegają na jednym podstawowym zasobie: danych.
Większość danych wykorzystywanych do szkolenia systemów AI pochodzi z publicznego Internetu. Automatyczne programy zbierają duże ilości tekstu, obrazów i dźwięku z platform internetowych. Te kolekcje tworzą podstawę znanych modeli, takich jak GPT-4, Stable Diffusion i wiele innych. Ta ogromna kolekcja jednak podnosi nierozwiązane problemy dotyczące prywatności, własności i świadomej zgody.
Rynek zbiorów danych szkoleniowych odzwierciedla skalę tej aktywności. Na razie globalna wartość zbiorów danych AI jest szacowana na 3,2 miliarda dolarów. Zgodnie z prognozami, może ona wzrosnąć do 16,3 miliarda dolarów do 2034 roku, z rocznym wskaźnikiem wzrostu wynoszącym 20,5 procent. Za tymi liczbami kryje się ważne wyzwanie. Znaczna część zebranego materiału jest pozyskiwana bez wyraźnej zgody. Często zawiera dane osobowe, prace objęte prawem autorskim i inne wrażliwe treści, które nie były przeznaczone do systemów szkoleniowych.
W odpowiedzi na te problemy, badane są alternatywne podejścia do zarządzania danymi. Przykładem jest CommonPool, wydany w kwietniu 2023 roku jako część DataComp benchmark. Jest to duży zbiór 12,8 miliarda par obrazów i tekstu przeznaczonych do badań wielomodalnej AI. W przeciwieństwie do tradycyjnych wysiłków skrapowania, stosuje metody filtrowania, kładzie nacisk na przejrzystość i uwzględnia udział społeczności w swoim rozwoju. Chociaż pozostaje przedmiotem debaty, CommonPool wskazuje na próbę budowy bardziej odpowiedzialnych i audytowalnych praktyk dla danych szkoleniowych AI. Takie inicjatywy podkreślają potrzebę standardów etycznych w przyszłości sztucznej inteligencji.
Rola danych pozyskiwanych ze skrapowania sieci Web w rozwoju sztucznej inteligencji
Dane są centralne dla AI, a wydajność systemu jest ściśle związana z ilością i różnorodnością informacji dostępnych do szkolenia. W ostatnich latach, skrapowanie sieci Web stało się standardową metodą tworzenia dużych zbiorów danych w skali. Poprzez zbieranie publicznie dostępnych treści online, badacze i deweloperzy uzyskali ogromne i różnorodne zasoby danych.
Popularnym przykładem jest Common Crawl, który do 2025 roku zgromadził petabajty tekstu zebranego za pomocą comiesięcznych skanowań, po ponad 250 terabajtów każdy. Ten zbiór danych jest powszechnie wykorzystywany do szkolenia modeli AI opartych na tekście. Innym przykładem jest LAION-5B, który zawiera około 5,85 miliarda par obrazów i tekstu. Był on ważny dla aplikacji, takich jak Stable Diffusion, które mogą tworzyć realistyczne obrazy z podanych podpowiedzi.
Te zbiory danych są cenne, ponieważ zwiększają dokładność modeli, poprawiają uogólnienie poprzez zróżnicowaną zawartość i pozwalają mniejszym grupom, w tym uniwersytetom, brać udział w rozwoju AI. Stanford AI Index 2025 pokazuje, że większość zaawansowanych modeli nadal opiera się na danych pozyskiwanych ze skrapowania, a zbiory danych rosną szybko pod względem wielkości. To zapotrzebowanie również napędza duże inwestycje, sięgające ponad 57 miliardów dolarów w 2024 roku na centra danych i moc obliczeniową.
Jednocześnie, skrapowanie sieci Web nie jest pozbawione wyzwań. Podnosi pytania dotyczące prywatności, własności i prawnych praw, ponieważ wiele zebranych treści nie zostało pierwotnie stworzonych do użycia przez maszyny. Sprawy sądowe i dyskusje polityczne pokazują, że te wyzwania stają się coraz pilniejsze. Przyszłość zbierania danych AI będzie zależała od znalezienia balansu między postępem a odpowiedzialnością etyczną.
Problem prywatności z danymi pozyskiwanymi ze skrapowania
Narzędzia do skrapowania sieci Web zbierają informacje bez wyraźnego rozdzielenia między ogólną zawartością a wrażliwymi szczegółami. Wraz z tekstem i obrazami, często przechwytują one Osobiste Informacje Identyczne (PII), takie jak nazwy, adresy e-mail i fotografie twarzy.
Audyt audyt zbioru danych CommonPool w lipcu 2025 roku ujawnił, że nawet po filtrowaniu, 0,1% próbek nadal zawierało rozpoznawalne twarze, dokumenty rządowe i dokumenty takie jak CV i paszporty. Chociaż procent wydaje się mały, w skali miliardów rekordów, przekłada się to na setki milionów osób dotkniętych. Przeglądy i audyty bezpieczeństwa potwierdzają, że obecność takiego materiału nie jest niezwykła, a ich ryzyko obejmuje kradzież tożsamości, celowe prześladowanie i niechcianą ekspozycję danych prywatnych.
Spory prawne również się zwiększają, ponieważ obawy dotyczące własności danych i uczciwego użytku przenoszą się do sądów. Między 2023 a 2024 rokiem, firmy takie jak OpenAI i Stability AI zostały pozwane za używanie danych osobowych i objętych prawem autorskim bez zgody. W lutym 2025 roku, sąd federalny Stanów Zjednoczonych orzekł, że szkolenie AI na nieлицencjonowanych danych osobowych stanowi naruszenie. Ta decyzja zachęciła do więcej pozwów grupowych. Prawo autorskie jest również głównym problemem. Wiele zbiorów danych pozyskiwanych ze skrapowania zawiera książki, artykuły, sztuki i kod. Pisarze i artyści twierdzą, że ich praca jest wykorzystywana bez zgody lub wynagrodzenia. Trwający przypadek New York Times v. OpenAI kwestionuje, czy systemy AI nielegalnie powielają chronione treści. Artyści wizualni zgłosili podobne skargi, twierdząc, że AI kopiują ich indywidualny styl. W czerwcu 2025 roku, jeden sąd amerykański poparł firmę AI pod względem uczciwego użytku, ale eksperci mówią, że orzeczenia są niekonsekwentne, a ramy prawne są nadal niejasne.
Brak zgody w szkoleniu AI osłabił zaufanie publiczne. Wiele osób odkrywa, że ich blogi, prace twórcze lub kod są zawarte w zbiorach danych bez ich wiedzy. To podniosło problemy etyczne i wezwało do większej przejrzystości. W odpowiedzi, rządy przechodzą w kierunku ścisłego nadzoru za pomocą praw, które promują uczciwy rozwój modeli AI i staranne wykorzystanie danych.
Dlaczego zbiory danych pozyskiwane ze skrapowania są trudne do zastąpienia
Nawet z obawami dotyczącymi prywatności i zgody, zbiory danych pozyskiwane ze skrapowania pozostają konieczne do szkolenia AI. Powodem jest skala. Współczesne modele AI wymagają bilionów tokenów z tekstu, obrazów i innych mediów. Budowanie takich zbiorów danych tylko za pomocą licencjonowanych lub kuratorowanych źródeł kosztowałoby setki milionów dolarów. To nie jest praktyczne dla większości startupów lub uniwersytetów.
Wysoki koszt nie jest jedynym wyzwaniem z kuratorowanymi zbiorami danych. Często brakuje im różnorodności i koncentrują się na określonych językach, regionach lub społecznościach. To wąskie pokrycie sprawia, że modele AI są mniej zrównoważone. W przeciwieństwie do tego, dane pozyskiwane ze skrapowania, pomimo że są szumione i niedoskonałe, przechwytują szerszy zakres kultur, tematów i punktów widzenia. Ta różnorodność pozwala systemom AI działać lepiej, gdy są stosowane w świecie rzeczywistym.
Ryzyko jednak polega na tym, że surowe regulacje mogą ograniczyć dostęp do danych pozyskiwanych ze skrapowania. Jeśli to się stanie, mniejsze organizacje mogą mieć trudności z konkurowaniem. Duże firmy z prywatnymi lub własnymi zbiorami danych, takie jak Google lub Meta, będą nadal postępować. To nierównowaga mogłaby zmniejszyć konkurencję i spowolnić innowacje otwarte w AI.
Na razie, zbiory danych pozyskiwane ze skrapowania są centralne dla badań AI. Jednocześnie, projekty takie jak CommonPool badają sposoby budowania obszernych, etycznie pozyskiwanych kolekcji. Te wysiłki są konieczne, aby utrzymać ekosystem AI bardziej otwarty, uczciwy i odpowiedzialny.
CommonPool: Ku odpowiedzialnemu inżynierii danych w dużym stopniu
CommonPool jest jednym z najbardziej ambitnych technicznie podejść do budowy otwartego, dużego zbioru danych wielomodalnych. Z około 12,8 miliarda par obrazów i tekstu, jest to porównywalne z LAION-5B, ale integruje silniejsze mechanizmy inżynierii danych i zarządzania. Kluczowym celem projektu było nie tylko maksymalizowanie skali, ale także wyrównywanie skali, jakości i zgodności.
Budowa zbioru danych CommonPool następuje w strukturalnym, trzystopniowym potoku. Pierwszy etap obejmuje ekstrakcję surowych próbek z migawek Common Crawl zebranych między 2014 a 2022 rokiem. Zarówno obrazy, jak i powiązany z nimi tekst, taki jak podpis lub otaczający passaże, są gromadzone. Aby ocenić semantyczną zgodność, administratorzy stosują ocenę podobieństwa opartą na CLIP, odrzucając pary z słabą korelacją między obrazem a tekstem. Ten wczesny krok filtrowania znacznie redukuje szum w porównaniu z naiwnymi potokami skrapowania.
W drugim etapie, zbiór danych przechodzi dużą deduplikację. Techniki hashowania percepcyjnego i MinHash są stosowane w celu identyfikacji i usunięcia prawie duplikatowych obrazów, zapobiegając dominacji redundancji w szkoleniu modelu. Dodatkowe filtry są stosowane w celu wykluczenia uszkodzonych plików, złamanych linków i niskiej rozdzielczości obrazów. Na tym etapie, potok również obejmuje normalizację tekstu i automatyczną identyfikację języka, umożliwiając tworzenie podzbiorów domenowych lub językowych dla ukierunkowanych badań.
Trzeci etap koncentruje się na bezpieczeństwie i zgodności. Zastosowano automatyczne wykrywanie twarzy i rozmywanie, a także usunięto obrazy związane z dziećmi i dane osobowe, takie jak nazwy, adresy e-mail i adresy pocztowe. Potok również próbuje wykryć materiały objęte prawem autorskim. Chociaż żadna automatyczna metoda nie może gwarantować idealnego filtrowania w skali sieci Web, te zabezpieczenia reprezentują znaczny postęp techniczny w porównaniu z LAION-5B, gdzie filtrowanie było głównie ograniczone do treści dla dorosłych i heurystyk toksyczności.
Poza przetwarzaniem danych, CommonPool wprowadza model zarządzania, który odróżnia go od statycznych wydań zbiorów danych. Jest utrzymywany jako żywy zbiór danych z wersjonowanymi wydaniami, strukturalnymi metadanymi i udokumentowanymi cyklami aktualizacji. Każda próbka zawiera informacje o licencjonowaniu, gdzie dostępne, wspierając zgodność z przepisami prawa autorskiego. Protokół usunięcia pozwala osobom i instytucjom na wnioskowanie o usunięcie wrażliwych treści, rozwiązując obawy podniesione przez unijne prawo AI i pokrewne ramy regulacyjne. Metadane, takie jak adresy URL i wyniki filtrowania, poprawiają przejrzystość i powtarzalność, umożliwiając badaczom śledzenie decyzji o włączeniu i wykluczeniu.
Wyniki benchmarkingu z inicjatywy DataComp ilustrują techniczne efekty tych wyborów projektowych. Gdy identyczne architektury widzenia-języka były szkolone na LAION-5B i CommonPool, ten ostatni wyprodukował modele o bardziej stabilnej wydajności downstream, szczególnie w zadaniach pobierania i klasyfikacji zero-shot. Te wyniki sugerują, że wyższa jakość wyrównania CommonPool rekompensuje niektóre zalety skali mniej przefiltrowanych zbiorów danych. Niemniej, niezależne audyty w 2025 roku ujawniły resztkowe ryzyko: około 0,1% zbioru danych nadal zawierało nierozmyte twarze, wrażliwe dokumenty osobiste i rekordy medyczne. To podkreśla granice nawet najnowocześniejszych automatycznych potoków filtrowania.
Porównanie CommonPool z tradycyjnymi zbiorami danych pozyskiwanymi ze skrapowania
W przeciwieństwie do wcześniejszych dużych zbiorów danych pozyskiwanych ze skrapowania, takich jak LAION-5B (5,85 miliarda próbek), COYO-700M (700 milionów próbek) i WebLI (400 milionów próbek), CommonPool kładzie nacisk na strukturę, powtarzalność i zarządzanie. Zachowuje metadane, takie jak adresy URL i znaczniki czasu, które wspierają śledzenie i częściowe sprawdzanie licencji. Dodatkowo, stosuje filtrowanie semantyczne oparte na CLIP, aby usunąć pary obrazów i tekstu o słabej jakości lub słabej zgodności, co skutkuje poprawą jakości danych.
W porównaniu, LAION-5B i COYO zostały złożone z Common Crawl z ograniczonym filtrowaniem i bez szczegółowej dokumentacji licencjonowania. Te zbiory danych często zawierają wrażliwe materiały, w tym rekordy medyczne, dokumenty tożsamości i nierozmyte twarze. WebLI, wykorzystywany wewnętrznie przez OpenAI, również brakuje przejrzystości, ponieważ nigdy nie został wydany do zewnętrznej recenzji lub replikacji.
CommonPool próbuje rozwiązać te problemy, wykluczając dane osobowe i treści NSFW, jednocześnie uznając, że pełna zgoda użytkowników pozostaje nierozwiązana. To czyni go bardziej niezawodnym i etycznie wyrównanym niż wcześniejsze alternatywy.
Podsumowanie
Rozwój CommonPool odzwierciedla ważną transformację w tym, jak duże zbiory danych AI są postrzegane i utrzymywane. Podczas gdy wcześniejsze kolekcje, takie jak LAION-5B i COYO, priorytetowo traktowały skalę z ograniczonym nadzorem, CommonPool demonstruje, że przejrzystość, filtrowanie i zarządzanie mogą być zintegrowane z konstrukcją zbioru danych bez podważania ich użyteczności w badaniach.
Poprzez zachowanie metadanych, zastosowanie kontroli wyrównania semantycznego i wbudowanie zabezpieczeń prywatności, oferuje bardziej powtarzalne i odpowiedzialne zasoby. Jednocześnie, niezależne audyty przypominają nam, że automatyczne zabezpieczenia nie mogą całkowicie wyeliminować ryzyka, podkreślając potrzebę dalszej czujności.












