Connect with us

AIはウェブ検索を3つの異なる現実に分割する

Andersonの視点

AIはウェブ検索を3つの異なる現実に分割する

mm
AI-generated image (GPT-2): Three very different library staff members, a traditional librarian, a friendly service robot, and a salesman-like attendant, compete for a visitor's attention at a public library help desk.

新しい研究によると、Googleは自身の検索帝国の中で3つの異なる情報システムを使用しており、通常の検索、AI概要、Geminiはそれぞれ異なるソース、ランキング、コンテンツを優先している。

 

還元主義が支配的である。過去12ヶ月間で、‘私にGoogleで検索させてください’というメームは、新しい‘私にGoogle検索結果を要約させてください’トレンドに取って代わられ、検索結果でAI概要が増えてきており、読者が検索リンクをクリックする手間を省略できるように検索結果をいくつかの生成された段落に凝縮している(おそらく、ソースサイトの資金を減らしている)。

誰もが考えるとおり、表面化する核心知識や知識を抽出するためのサイトの選択は、インターネットを検索するための3つの最も人気のある方法(従来のウェブ検索AI概要LLMの使用増加)で相対的に似ていると思われる。しかし、最近の米国の研究によると、これは驚くほど遠いことである。さらに、Google自身の三位一体の神諭(SERPS、AIサマリー、Gemini LLMシリーズとの直接対話)の中でも、各ルートで興味深い差異が見られる。

三つに分割

ニュージャージー工科大学の6人の研究者による、新しい論文では、3つの検索方法がどのように分岐しているか、そしてこれらの分岐の可能な理論を示している。

論文では次のように述べられている。

‘[まず、私たちは] 代表的なリアルユーザーのクエリの51.5%でAIOが生成され、有機検索結果の上に表示されることを発見した。論争的な質問は頻繁にAIOをもたらす。 ‘

‘2番目に、私たちは、各検索エンジンで取得されるソースが大きく異なることを示した(平均ジャッカード類似度0.2未満)。従来のGoogle検索は、政府や教育機関の人気サイトまたは機関サイトからの情報を取得する可能性が高い一方で、生成的な検索エンジンはGoogleが所有するコンテンツを取得する可能性が高い。 ‘

‘3番目に、私たちは、GoogleのAIクローラをブロックするウェブサイトは、コンテンツにアクセスできるにもかかわらず、AIOによって取得される可能性が大きく低いことを観察した。 ‘

この論文は、通常の線形ワークフローに従わないため、最も驚くべき洞察のいくつかを詳しく見てみよう。

旧来の「2-1」

研究で発見された興味深い事実の1つは、GoogleのAI概要が突然のニュースイベントの際に抑制される傾向があることである。なぜなら、最も早く利用可能な情報源は最も正確なものではない可能性があるからである。

このシステムは常に機能するわけではない。研究者が注目した以下の例では、GoogleのAI概要はボクシングマッチの結果を間違ったボクサーに帰属させた。間違った結果を示した唯一の情報源は、Facebookの風刺的なスポーツフィードだった。

GoogleのAI概要が時間臨界的な要約を避ける理由の1つは、初期の情報が不完全または完全に不正確である可能性があることである。この場合、ボクサーJake Paulは実際に試合に負けた。ソース - https://arxiv.org/pdf/2604.27790

GoogleのAI概要が時間臨界的な要約を避ける理由の1つは、初期の情報が不完全または完全に不正確である可能性があることである。この場合、ボクサーJake Paulは実際に試合に負けた。ソース – https://arxiv.org/pdf/2604.27790

研究者は、AIOはイベントが少なくとも5日経過したときに表示されることが多いと指摘しているが、これは異常である。しかし、研究者はこれを容易に呼び出すことができた。

AIOは、クエリが疑問符で終わる場合に生成される可能性が高く、クエリの意図がAIOが提示されるかどうかの要因であることも発見された。

研究者のテストの1ラウンドでAI検索サマリが生成されたインシデントの割合。ここで、「情報提供」とは、AIOを生成する可能性が高い直接の質問を示す。

研究者のテストの1ラウンドでAI検索サマリが生成されたインシデントの割合。ここで、「情報提供」とは、AIOを生成する可能性が高い直接の質問を示す。

さらに、論文では、長いクエリは、単なる検索結果ではなくAIサマリを生成する可能性が高いと主張しているが、研究者はこれに説明する理論を提示していない。

分裂した王国

新しい研究から得られる最も驚くべき結果の1つは、Googleの3つの検索プラットフォーム間の結果の質やタイプの比較的小さな重複である。

論文では、通常のGoogle検索、AI概要、Gemini(LLM)が同じクエリに対して明らかに異なるソースを取得することを繰り返し示しており、ユーザーがGoogleに1つの権威あるインデックスと1つのランキング哲学があると仮定するのに対し、1社内に3つの競合する取得ロジックが存在することを示唆している。

Googleのエコシステム内での伝統的な検索、AI概要、Geminiの重複は驚くほど小さかった。同じクエリに対して、3つのシステムは頻繁に大きく異なるソースリストを生成した。ここでは、ショッピングや議論のトピック、ローカル検索、一般的な知識の質問など、数千の検索クエリに対して、3つのシステムがどれほどよく一致したかを示している。スコアが低いほど、選択されたソース間の合意は低い。

Googleのエコシステム内での伝統的な検索、AI概要、Geminiの重複は驚くほど小さかった。同じクエリに対して、3つのシステムは頻繁に大きく異なるソースリストを生成した。ここでは、ショッピングや議論のトピック、ローカル検索、一般的な知識の質問など、数千の検索クエリに対して、3つのシステムがどれほどよく一致したかを示している。スコアが低いほど、選択されたソース間の合意は低い。

この分析のセクションについて、著者は次のように述べている。

上の表は、ベンチマークデータセットの各クエリに対して、AIO、Gemini、伝統的なSERPによって返されるソースのリストの平均類似性を示している。 ‘

‘主な結論は、クエリのサブセットや比較される検索エンジンのペアに関係なく、取得されたリストは似ていないということである。さらに、すべての3つがGoogleによって開発されたにもかかわらず、 ‘

研究者は、どの検索方法もランクバイアスオーバーラップ(RBO)が0.27を超えることがないことを発見し、これは非常に低いスコアであると指摘している。Amazon Retailやローカライズされたクエリ(たとえば、「私の近くでショッピング」)が検索方法間で最も類似性が低かったことも指摘している。

著者らは、低い合意は検索エンジン間の不一致に起因するものであり、ランダム性や他の明らかな要因がこの不一致を説明することはできないと述べている。

ある直感的な説明は、訓練データポイントがPageRankやその後継システムの開発においてGoogleが過去20年間で開発してきた方法とは非常に異なる方法でランク付けされるということである。さらに、Google検索のアルゴリズムが秘密の議題を持っている可能性があるが、このような操作や「ゲーム化」は、Geminiのような拡散ベースのAIでは一貫して実装することが難しい。

セルフサービス..?

特定のウェブサイトまたはウェブサイトのカテゴリは、AIサマリの出現やLLMベースの検索の伝統的な検索空間への浸透によって、悪影響を受けたり、好影響を受けたりしている。

伝統的なGoogle検索と比較して、AI概要とGeminiは多くの主要ウェブサイトからの引用を減らし、より少数の優先ドメインの可視性を高めた。YouTubeは両方のシステムで最大の利益者となった一方で、Reddit、Wikipedia、Facebook、多くの機関ソースはAI生成の取得でより頻繁に表示されなかった。

伝統的なGoogle検索と比較して、AI概要とGeminiは多くの主要ウェブサイトからの引用を減らし、より少数の優先ドメインの可視性を高めた。YouTubeは両方のシステムで最大の利益者となった一方で、Reddit、Wikipedia、Facebook、多くの機関ソースはAI生成の取得でより頻繁に表示されなかった。

著者らは、テスト中にいくつかの予期せぬ好みが現れたことを指摘している。

‘上のグラフから3つの主な結論が導かれる。まず、大きな有名なウェブサイトが最も影響を受ける。これは、多くの異なるクエリに対して関連するコンテンツの多様性と評判があるため、当然のことである。 ‘

‘2番目に、ほとんどのこれらのウェブサイトは、生成的な検索エンジン(上のグラフの赤いバーと負の数で示される)で全体的な引用とトップ3の引用が減少している。これは、生成的な検索が従来の検索エンジンよりもニッチなソースから情報を取得することを示唆している。 ‘

‘3番目に、GoogleのAIOはGoogleのウェブサイト(google.comとyoutube.comドメイン)を優先する。 ‘

‘Geminiも、伝統的なGoogle検索と比較してYouTubeを優先するが、絶対的な差は小さい。 ‘

ブロッカーはありますか..?

研究では、GoogleのAIウェブクローラをブロックする発行者は、AIOに表示されない可能性が高いことも発見された。

これは、表面的に見ると自ら招いた結果のように思えるが、実際にはGoogleは、AIクローラをブロックするプラットフォームのコンテンツがAIOに表示されないことを公に述べている。ただし、発行者はデータのスクレイピングを許可せず、Geminiや他のGoogleのAIプロジェクトの次のAIトレーニングラウンドにデータを組み込むことを許可しないだけである。

しかし、これは新しい論文の研究者が得た結論ではなかった。代わりに、彼らは、Geminiによって頻繁に引用されることがない人気のあるAIブロッキング発行者を発見した。研究では、NYTimes、CNN、BBC、ScienceDirect、Reuters、Wiley、Nature、ESPN、Business Insider、CNBC、NPR、WIRED、USA Today、NBC News、Genius、National Geographic、The Conversation、U.S. News & World Report、Scientific American、Consumer Reports、STATが「実質的にブロックされた」発行者であると報告された。

上記の発行者によって行われたいくつかのrobots.txt AIスクレイピングブロック。ただし、これがGoogleによるより広範な非難につながったのでしょうか?

上記の発行者によって行われたいくつかのrobots.txt AIスクレイピングブロック。ただし、これがGoogleによるより広範な非難につながったのでしょうか?

著者らは次のように述べている。

‘最も影響を受けるドメインの分析では、21の人気のある発行者(Google検索とAIOの両方によって少なくとも20のユニークなクエリで取得される)がGeminiによって引用されることはなかった。 ‘

‘Facebook、Instagram、TiktokなどのソーシャルメディアやIMDb、Yelp、TripadvisorなどのレビューサイトもGeminiによって引用されることはなかった。さらに調査したところ、これらのウェブサイトはすべて、robots.txtファイルでGoogle拡張ボットをブロックしていることがわかった。 ‘

これらの結果が他の場所で検証され、持続する場合、GoogleのAI運用と協力するためにこれらの企業に圧力がかかっている可能性があると推測できる。結果は表面的に見ると「復讐的」であるが、新しい研究の結果は、復讐よりも混沌を示唆している。

結論

意見 この論文は、10ページの論文が膨大な量の追加の発見に広がるジップボムである。私たちがまだ小さなセクションしかカバーできていないため、ソースPDFは、偶発的な読者にさえもお勧めするものである。

「黄色」の姿勢が著者の発見に対する多くの否定的な解釈を引き出すかもしれないが、この研究は、AIベースの検索で世界的なリーダーシップを獲得し、維持しようとしている世界的なテクノロジー企業として扱われるべきである。

3つの検索方法が論文で調査されているが、実際の争点は、伝統的な検索エンジンの結果と、データのキュレーションやAIトレーニングを支配する、データベース選択方法の間にある。

AI Like It’s 1999

Googleの登場以前、検索結果を大量のボリュームで「ゲーム化」することで、SERPSのフロントページに最小限の(そして頻繁に自動化された)努力で到達することができた。しかし、この「数字のゲーム」は2002年頃にGoogleのより洗練された、より秘密の検索ランキングアルゴリズムによって終了された。しかしながら、利害関係が大きいため、大量の低品質のコンテンツは、実質的な意味で消滅しなかった。

したがって、Common Crawlなどの膨大なコレクションが現代のAI革命の基礎を築いたとき、データの優位性は、自動化されたプロセスが受信データの品質をフィルタリングおよびランク付けする程度に、そして(より可能性が低いが)、データをランク付けするために人に支払うお金が利用可能である程度に支配されることになった。

これらの巨大で無差別なコレクションには、多くの悪質または低品質のデータが含まれていた。データは、トレーニングデータセットから容易にフィルタリングできるもの(ヌード、汚言、人種差別的なトロープなど)を含んでいなかったかもしれないが、1999年から2001年頃のインターネット検索の結果と同様に、自己中心的で大量であった。

これらのデータの導入プロセスはまだ素晴らしいものではないため、Geminiのような拡散ベースのAIがビジネスライクに動作するようにGoogleにさせることは非常に難しい。GeminiのPageRankスタイルの決定は、Googleの政策エンジニアによってではなく、AIモデルをトレーニングするときに膨大なデータがどのようにデータの分布や潜在的な埋め込みに変換されるかという、不完全な理解によって決まるからである。

 

* 検索エンジン結果ページ。

著者の強調、自分ではありません。ただし、引用内の強調をイタリックから太字に置き換えました。

最初に公開されたのは2026年5月13日(水曜日)

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。