Doris Xin, CEO & Co-Founder, Disarray

ドリス・シンは、DisarrayのCEOおよび共同創設者です。UC Berkeley RISELabの博士課程およびNSF Graduate Research Fellowとして、ドリスはMLの専門知識を身に付け、LinkedInでの初期のMLエンジニアとしても活動しました。

A stylized digital landscape showing illuminated lines connecting data structures. A cluster representing

ソートリーダー April 14, 2026

モデル開発の自動化への重要な道

AI 研究の次の重要なマイルストーンは、モデル開発の自動化です。推論、言語、認識のすべての進歩は、ある意味で、その目標に向けたステップです。ただし、モデル自動化への道は、まず解決する必要がある一連の基礎的な課題があります。その目標への橋は、機械学習 (ML) エンジニアリングを通じて直接走ります。一般的な誤解は、ML が現代の AI の前身技術であり、基礎モデルがそれに取って代わったというものです。これは関係を誤解しています。学術的な分野として、ML はモデル訓練のすべての側面、現在の AI の中心にある基礎モデルの訓練を含むことを包含しています。ただし、スケールとデータの複雑さには、意味のある違いがあります。伝統的な ML モデルは、通常、慎重にキュレーションされた、ドメイン固有のデータセットに基づいて訓練されます。これらのデータセットには、数千または数百万の例が含まれています。一方、基礎モデルは、同時に数千のデータセットに基づいて訓練されます。これらのデータセットは、さまざまなソースから取得され、フォーマット、出典、品質が一貫しません。このデータのスケールとヘテロジニアス性の違いは、データ管理がより困難になり、モデルがより強力になるにつれてより重要になる根本的な理由です。これにより、データの理解がモデル開発の自動化におけるボトルネックになります。ヘテロジニアスなデータを解釈し、周囲のパイプラインを改善できる AI システムは、原則として、自身の訓練プロセスを改善し、より優れたモデルを構築するのに役立ちます。AI が自身の訓練プロセスを改善できるようになると、AI が適用されるすべてのドメインに改善がカスケードします。道に立ちはだかる 3 つの障壁最初の障壁は、コンテキストの断片化です。ほとんどの組織では、特定のモデリング問題に関連するシグナル、実験、特徴定義、機関知識は、相互に通信するように設計されていないデータウェアハウス、ノートブック、パイプラインに分散しています。ヘルスケアシステムが敗血症検出モデルを構築していることを考えてみましょう。該当する問題の臨床基準、たとえばバイタルサインのしきい値、ラボ値、文書化基準は、電子ヘルスレコードシステムのまったく別のモジュールに存在する可能性があります。2 番目の障壁は、意味の曖昧さです。意味はデータに固有のものではなく、コンテキストと組織によって決まります。2 つの異なるデータベースの同じフィールド名は、微妙に異なるものを参照する可能性があります。収益、活性ユーザー、チャーンなどの概念は、1 つの会社内で複数の有効な定義を持つことができます。収益という概念は、問題を引き起こす可能性があります。セールスチームは、収益を今四半期に署名された契約の総価値として定義するかもしれませんが、財務チームは、実際に受け取ったキャッシュとして定義します。プロダクト...

Unite.AI

Doris Xin, CEO & Co-Founder, Disarray

モデル開発の自動化への重要な道