Connect with us

Umělá inteligence rozděluje webové vyhledávání do tří různých realit

Andersonův úhel

Umělá inteligence rozděluje webové vyhledávání do tří různých realit

mm
AI-generated image (GPT-2): Three very different library staff members, a traditional librarian, a friendly service robot, and a salesman-like attendant, compete for a visitor's attention at a public library help desk.

Nový výzkum zjistil, že Google nyní používá tři různé informační systémy uvnitř své vlastní vyhledávací říše, s běžným vyhledáváním, přehledy AI a Gemini, které všechny upřednostňují různé zdroje, hodnocení a obsah.

 

Redukcionismus vládne. Za posledních dvanáct měsíců byl ‘Dej mi to vyhledat pro tebe’ mém nahrazen novým ‘Dej mi to shrnout z vyhledávání Google’ trendem, kdy přehledy AI ve vyhledávacích výsledcích stále častěji šetří čtenářům potíže s klikáním na odkazy ve vyhledávacích výsledcích (arguably de-financují zdroj stránek v procesu), kondenzují celé vyhledávací výsledky do několika generovaných odstavců.

Jedna by si mohla myslet, že základní znalosti, které se objevují, a výběr stránek, ze kterých se tyto znalosti získávají, by byly relativně podobné napříč všemi třemi nejoblíbenějšími metodami vyhledávání informací na internetu: v tradičním webovém vyhledávání; v přehledech AI (AIOs), které nyní vedou většinu vyhledávacích výsledků; a prostřednictvím zvyšujícího se použití LLM jako webových oracle (s nebo bez externích RAG volání).

Nicméně, recentní výzkum z USA ukazuje, že tomu tak překvapivě není; a že dokonce i uvnitř Googleovy vlastní trojice oracle – SERPS*, AI souhrnů a přímé interakce s Gemini LLM sérií – existují významné a zajímavé rozdíly, pro každou cestu.

Tři cesty

V jasném a rozsáhlém novém článku, nazvaném Jak generativní AI narušuje vyhledávání: Empirický výzkum Google Vyhledávání, Gemini a Přehledy AI, šest výzkumníků z New Jersey Institute of Technology popisuje způsoby, kterými se tři vyhledávací metody rozcházejí, a nabízí některé možné teorie pro tyto trhliny v přístupu.

Článek uvádí:

‘[První, my] zjistili, že pro 51,5% reprezentativních, reálných uživatelských dotazů, jsou AIOs generovány a zobrazovány nad organickými vyhledávacími výsledky. Sporné otázky často vedou k AIO.

‘Druhý, my ukazujeme, že načtené zdroje jsou podstatně odlišné pro každý vyhledávací stroj (<0,2 průměrná Jaccardova podobnost). Tradiční Google Vyhledávání je výrazně více pravděpodobné, že načte informace z populárních nebo institucionálních webových stránek ve vládě nebo vzdělávání, zatímco generativní vyhledávací stroje jsou výrazně více pravděpodobné, že načtou obsah vlastněný Googlem.

‘Třetí, my pozorujeme, že webové stránky, které blokují Googleův AI crawler, jsou podstatně méně pravděpodobné, že budou načteny AIOs, navzdory přístupu k obsahu.’

Jelikož článek je smorgasbord fascinujících poznatků, spíše než konformuje s obvyklým lineárním a metodicky řízeným pracovním postupem, budeme se blíže zabývat těmito a některými dalšími z jeho nejvíce překvapivých a osvětlujících poznatků.

Starý ‘Dva-Jedna’

Jedním z mnoha zajímavých zjištění ve studii je, že Googleovy přehledy AI tendují být potlačeny pro náhlé události, jelikož nejranější a nejvíce dostupné zdroje nemusí být nejpreciznější.

Tento systém nefunguje vždy: v příkladu níže, který výzkumníci poznamenali, Google AI přehled o výsledku boxerského zápasu připsal vítězství špatnému boxerovi, i když jediným zdrojem, který uváděl tento (nesprávný) výsledek, byla satirická sportovní stránka na Facebooku:

Jedním z důvodů, proč Googleovy přehledy AI vyhýbají se časově kritickým souhrnům, je, že raná informace mohou být neúplné nebo zcela nesprávné. V tomto případě boxer Jake Paul skutečně prohrál zápas. Zdroj - https://arxiv.org/pdf/2604.27790

Jedním z důvodů, proč Googleovy přehledy AI vyhýbají se časově kritickým souhrnům, je, že raná informace mohou být neúplné nebo zcela nesprávné. V tomto případě boxer Jake Paul skutečně prohrál zápas. Zdroj

Autorové poznamenávají, že AIOs tendují se objevovat, když je událost alespoň pět dní stará, což kvalifikuje tento případ jako anomálii – ale přesto, jeden, který výzkumníci byli schopni snadno vyvolat.

AIOs byly nalezeny být více pravděpodobné, že budou generovány, když dotaz byl uzavřen otazníkem, a že dotazní záměr byl faktorem, zda bude AIO prezentován:

Procento incidentů, kdy byl vygenerován AI vyhledávací souhrn v jednom z testů výzkumníků. Zde 'informační' označuje přímé otázky, které tendují produkovat AIOs více než jakýkoli jiný typ interakce.

Procento incidentů, kdy byl vygenerován AI vyhledávací souhrn v jednom z testů výzkumníků. Zde ‘informační’ označuje přímé otázky, které tendují produkovat AIOs více než jakýkoli jiný typ interakce.

Navíc, článek tvrdí, delší dotazy tendují být více pravděpodobné, že produkuje AI souhrn místo přímých vyhledávacích výsledků, i když autoři dosud nepředkládají teorii, která by vysvětlovala tento jev.

Rozdělené království

Možná nejvíce překvapivým výsledkem z nové práce je relativně malá překryvnost výsledků mezi Googleovými (uvedenými) třemi vyhledávacími platformami.

Článek opakovaně ukazuje, že běžné Google Vyhledávání, přehledy AI a Gemini (LLM) načtou překvapivě odlišné zdroje pro stejný dotaz, s překryvností dostatečně nízkou, aby naznačovala tři soutěžící logiky načtení uvnitř jedné společnosti, zatímco uživatelé by mohli předpokládat, že Google má jeden autoritativní index a jeden rankingový filozof:

I když uvnitř Googleovy vlastní ekosystémy, překryvnost mezi tradičním Vyhledáváním, Přehledy AI a Gemini prokázala překvapivě malou, s tím, že stejný dotaz často produkoval podstatně odlišné seznamy zdrojů v závislosti na tom, který Google systém zpracoval požadavek. V tomto srovnání vidíme, jak blízko se tři systémy shodují navzájem napříč tisíci vyhledávacími dotazy, od nákupních a debatních témat až po místní vyhledávání a obecné znalosti, s nižšími skóre označujícími méně souhlasu mezi vybranými zdroji.

I když uvnitř Googleovy vlastní ekosystémy, překryvnost mezi tradičním Vyhledáváním, Přehledy AI a Gemini prokázala překvapivě malou, s tím, že stejný dotaz často produkoval podstatně odlišné seznamy zdrojů v závislosti na tom, který Google systém zpracoval požadavek. V tomto srovnání vidíme, jak blízko se tři systémy shodují navzájem napříč tisíci vyhledávacími dotazy, od nákupních a debatních témat až po místní vyhledávání a obecné znalosti, s nižšími skóre označujícími méně souhlasu mezi vybranými zdroji.

Co se týče této části jejich analýzy, autoři uvádějí:

‘[Tabulka výše] představuje průměrnou podobnost mezi seznamem zdrojů vrácených AIO, Gemini a tradičním SERP pro každý dotaz v benchmarkovém datasetu.

‘Hlavní závěr je, že bez ohledu na dotazní podmnožinu a kterou dvojici vyhledávacích strojů je srovnávána, načtené seznamy jsou odlišné, navzdory tomu, že všechny tři byly vyvinuty Googlem.’

Výzkumníci dále uvádějí, že žádný vyhledávací stroj, který byl testován, neměl rank-biased overlap (RBO) nad 0,27, což je velmi nízké skóre. Poznamenávají dále, že Amazon Retail a lokalizované dotazy (tj. ‘obchody poblíž mě’) měly nejnižší podobnost mezi vyhledávacími metodami.

Připisují nízkou shodu fundamentální ‘nesoulad mezi vyhledávacími stroji’, přičemž poznamenávají, že náhodnost ani žádný jiný zjevný faktor nemůže být učiněn odpovědným za tento nesoulad.

Jedním intuitivním vysvětlením, arguable, je, že tréninková data jsou přiřazena ranku velmi odlišným způsobem, než metody, které Google vyvinul pro PageRank a jeho následovníky za posledních dvacet let. Dále, v případě, že Google Searchův algoritmus má tajný program, je mnohem těžší konzistentně implementovat takový zásah v difuzních AI, jako je Gemini (i prostřednictvím filtrování, systémových promptů a různých jiných metod korelace, které jsou uvaleny na komerční modely).

Samoobslužný..?

Některé webové stránky nebo kategorie webových stránek se zdají být ovlivněny příchodem přehledů AI a pronikáním LLM-založeného vyhledávání do tradičního vyhledávacího prostoru – jak negativně, tak pozitivně, v závislosti na případě:

Ve srovnání s tradičním Google Vyhledáváním, Přehledy AI a Gemini obě snižují citace z mnoha hlavních webových stránek, zatímco zvyšují viditelnost pro menší počet preferovaných domén. YouTube se ukázal být jedním z největších příjemců na obou systémech, zatímco Reddit, Wikipedia, Facebook a mnoho institucionálních zdrojů se objevilo méně často v AI-generovaném načtení.

Ve srovnání s tradičním Google Vyhledáváním, Přehledy AI a Gemini obě snižují citace z mnoha hlavních webových stránek, zatímco zvyšují viditelnost pro menší počet preferovaných domén. YouTube se ukázal být jedním z největších příjemců na obou systémech, zatímco Reddit, Wikipedia, Facebook a mnoho institucionálních zdrojů se objevilo méně často v AI-generovaném načtení.

Autoři poznamenávají, že některé neočekávané preference se objevují mezi třemi metodami, během testování:

‘Máme tři hlavní závěry z [grafů výše]. První, velké a dobře známé webové stránky jsou nejvíce ovlivněny (jak pozitivně, tak negativně). To je intuitivní, jelikož velké webové stránky mají reputaci a rozmanitost obsahu, aby byly relevantní pro mnoho různých dotazů.

‘Druhý, většina z nich dostává méně celkových a méně top tří citací s generativními vyhledávacími stroji (označeno červenými pruhy a negativními čísly v [grafy výše]). To naznačuje, že generativní vyhledávání tenduje načítat informace z více niklových zdrojů než tradiční vyhledávací stroje.

‘Třetí, Googleovy AIOs preferují webové stránky vlastněné Googlem (tj. google.com a youtube.com domény).

‘Gemini také preferuje YouTube ve srovnání s tradičním Google Vyhledáváním, ale absolutní rozdíl je menší.’

Jaké ‘blokátory’..?

Studie také zjistila, že vydavatelé, kteří blokují Googleův AI webový crawler – automatizovaného webového robota, který scroluje data z vaší stránky, pokud mu to neřeknete s robots.txt souborem – tendují k tomu, aby se neobjevily v AI přehledech.

To se může zdát jako zjevně sebepoškozující, ale ve skutečnosti Google veřejně prohlásil, že obsah z platforem, které blokují AI crawlers, nebude bránit se objevit v AI přehledech; spíše, vydavatelé prostě nebudou mít svá data scrollována, kurátorská do kolekce a spuštěná do dalšího kola AI tréninku pro Gemini a další Google AI projekty.

Nicméně, to nebyl závěr, ke kterému autoři studie dospěli, ale místo toho zjistili, že populární AI-blokující vydavatelé byli velmi zřídka citováni Gemini, buď v LLM nebo v odstraněné a více agilní verzi vyhledávacích výsledků. ‘Účinně zablokovaní’ vydavatelé byli podle článku hlášeni jako NYTimes, CNN, BBC, ScienceDirect, Reuters, Wiley, Nature, ESPN, Business Insider, CNBC, NPR, WIRED, USA Today, NBC News, Genius, National Geographic, The Conversation, U.S. News & World Report, Scientific American, Consumer Reports, a STAT.

Některé z robots.txt AI-scrollovacích zákazů provedených uvedenými vydavateli. Ale vedlo to k širšímu cenzurování ze strany Google?

Některé z robots.txt AI-scrollovacích zákazů provedených uvedenými vydavateli. Ale vedlo to k širšímu cenzurování ze strany Google?

Autoři uvádějí:

‘V naší analýze nejvíce postižených domén jsme zjistili, že 21 populárních [vydavatelů] (které jsou načteny pro alespoň 20 jedinečných dotazů oběma Google Vyhledáváním a AIOs) nebylo nikdy citováno Gemini.

‘Několik populárních sociálních médií (Facebook, Instagram, Tiktok) a recenzních webových stránek (IMDb, Yelp, Tripadvisor) také dostalo nulové citace od Gemini. Při dalším vyšetřování jsme zjistili, že všechny tyto webové stránky blokují Google-Extended bot v jejich robots.txt souborech.’

Pokud se toto zjištění ukáže být ověřeno jinde a trvalé, lze spekulovat, že tyto společnosti jsou potenciálně vystaveny tlaku ze strany Google, aby se podrobily jeho AI operacím prostřednictvím částečného odstranění. Na první pohled výsledky vypadají jako pomsta – ale pak, výsledky nové práce jsou více indikativní chaosu než premeditace; proto jediným rozumným komentářem, na který se lze dohodnout, je, že tyto výsledky vypadají povrchně ‘zlobně’, ať je příčina jakákoli.

Závěr

Opinion Tento článek je jasným zip-bomb článkem, jehož pouhých deset primárních stránek se rozvine do téměř ohromující kaskády dalších zjištění. Jelikož jsme měli čas pokrýt pouze malou část z nich, doporučuji zdroj PDF i běžnému čtenáři (vzácná událost).

Although ‘žlutá’ dispozice by mohla vyvolat mnoho negativních interpretací autorů, práce je možná nejlépe léčena jako indikativní globálního technologického lídra, který se snaží získat a udržet globální vedení v AI-založeném vyhledávání, pomocí vysoce kontrastních platforem, které se vyvinuly v různých okolnostech a různých érách.

Zatímco tři vyhledávací metody jsou zkoumány v článku, skutečný spor je mezi tradičními vyhledávacími výsledky, hodnocenými proprietárními metodami, a ostře kontrastními distribucemi založenými na výběru, které dominují kuraci dat a AI tréninku.

AI jako v roce 1999

Před příchodem Google, bylo možné ‘hrát’ vyhledávací výsledky prostřednictvím pouhého objemu, a tímto způsobem, bylo možné často dosáhnout front-page SERPS umístění s minimálním (často automatizovaným) úsilím. Tato ‘čísla hra’ byla efektivě ukončena kolem roku 2002 Googleovým více sofistikovaným a tajným vyhledávacím algoritmem. Ale jelikož byly sázky významné, high-volume a low-kvalitní obsah nikdy nezmizel v žádném smyslu.

Proto, do doby, kdy byly hyperscale kolekce, jako je Common Crawl, nastaveny základy moderní AI revoluce, data-prominence byla určena k tomu, aby byla ovlivněna rozsahem, v jakém automatizované procesy mohly filtr a rankovat kvalitu příchozích dat, a (ještě méně pravděpodobně), rozsahem, v jakém byly k dispozici peníze na zaplacení lidí, aby tato data rankovali.

Byla tam spousta špatných nebo nízkokvalitních dat v těch obrovských a nekontrolovaných kolekcích; data, která nemusela obsahovat nahotu nebo sprostá slova nebo rasistické tropy, nebo cokoliv jiného, co je relativně snadné filtrovat z tréninkových dat – ale která nebyla nicméně sebestředná a objemná, stejně jako výsledky z internetového vyhledávání kolem roku 1999-2001.

Protože tyto datové indukční procesy jsou stále nevelké, je velmi těžké i pro Google, aby se choval AI způsobem, který je obchodně přijatelný, jelikož Geminiho PageRank-styl rozhodnutí je diktován nikoli Googleovými politickými inženýry, ale nedokonalým pochopením, jak hyperscale data transformují do datových distribucí a latentních vložených během tréninku AI modelu.

 

* Vyhledávací výsledky stránek.

Autoři zdůrazňují, ne já. Ale nahradil jsem tučné písmo kurzívou, protože kurzívní zdůraznění nefunguje dobře v citacích, které jsou již primárně kurzívou.

První publikováno ve středu, 13. května 2026

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai