インタビュー4 days ago
Steve Nemzer, Sr. Director, AI Growth & Innovation, TELUS Digital – インタビューシリーズ
Steve Nemzer氏は、TELUS DigitalのAI成長・イノベーション担当シニアディレクターとして、次世代人工知能システムのためのAIトレーニングデータとインフラの高度化に焦点を当てた取り組みを率いています。彼の仕事には、深層研究モデル、強化学習環境、世界モデルデータ、主権AIイニシアチブ、AIリスク軽減フレームワークのためのデータセット開発が含まれており、データセットのバイアスへの対処やAIトレーナーの公正な労働条件の支援など、責任あるAI実践を強く重視しています。キャリアの初期には、Nemzer氏はVeriTest Labsを創業し、同社がLionbridgeに買収される前に、Microsoft、Intel、Oracle、Sun Microsystemsなどの初期のテクノロジーリーダーが繁栄するサードパーティソフトウェアエコシステムを構築するのを支援しました。 TELUS Digitalは、組織がデジタルプラットフォームとAIを活用したソリューションを設計、構築、運用するのを支援するグローバルなテクノロジーサービス企業です。数十か国で事業を展開し、AIトレーニングデータとアノテーション、デジタルプロダクトエンジニアリング、カスタマーエクスペリエンス管理などのサービスを提供しています。同社のプラットフォームとサービスは、テクノロジー、金融、医療、通信、ゲームなどの業界にわたる企業が、業務の近代化と高度なAI機能の導入を進める際にサポートしています。 AIテスト、データ検証、責任ある導入に関するご経歴を踏まえて、言語駆動型の生成AIから、現実世界の状況や結果について推論を目指す世界モデルへの移行を、特にTELUS Digitalでの現在の役割においてどのようにお考えですか? 大規模言語モデル(LLM)は、本質的にパターン予測システムです。それらは、大規模で静的なコーパスから学習したパターンに基づいて次のトークンを予測することで応答を生成します。これは推論のように見えるかもしれませんが、モデルは実際には行動が世界の状態をどのように変化させるかをモデル化しているわけではありません。 世界モデルは異なるアプローチを取ります。次の単語やトークンを予測する代わりに、状態遷移をモデル化することでシステムの次の状態を予測することを目指します。これにより、システムは行動に応じて環境がどのように進化するかをシミュレートできるようになります。実際には、これにより仮説推論への道が開かれ、モデルは決定を下す前にさまざまな可能な結果を評価できるようになります。対話型システムにとって、これはより信頼性の高い意思決定と計画をサポートすることができます。 この移行は、責任ある導入についての考え方も変えます。従来の生成AIシステムでは、バイアスや幻覚といった問題に焦点が当てられてきました。モデルが環境や行動についての推論に向かうにつれて、他のリスクがより顕著になります。 例えば、組織は「シミュレーションから現実へのギャップ」を考慮する必要があります。これは、シミュレーション環境で学習した行動が、現実世界の状況にそのまま移行しない可能性があるという問題です。分布シフトも重要な懸念事項となります。なぜなら、導入時にモデルが遭遇する環境は、トレーニングに使用されたデータとは異なる可能性があるからです。 ここで、テストと検証が極めて重要になります。これは、私がTELUS Digitalで担う役割の大きな焦点です。AIシステムが言語生成を超えて、環境と相互作用し意思決定を行うシステムへと移行するにつれて、組織はモデルが現実世界の条件下で確実に動作することを保証するための厳格な評価フレームワークを必要としています。 多くの人々は大規模言語モデルには馴染みがありますが、世界モデルを理解している人ははるかに少ないです。簡単に言えば、世界モデルが解決しようとしている、LLMが本質的に苦手とする問題は何ですか? 世界モデルとは、現在の状態と行動が与えられたときに「次に何が起こるか」を予測できるシステムです。その公式は次の通りです:状態 + 行動 → 次の状態 私がリンゴを持っていて手を放すと、世界モデルはリンゴが落ちると予測します。それはリンゴが「どのように見えるか」や人々がリンゴを落とすことについて「何と言うか」を知っているだけではありません。物理法則の理解に基づいて結果を予測するのです。洗練された世界モデルは、地球の表面にいる場合と国際宇宙ステーションにいる場合で同じことをしたらどうなるかを予測するでしょう。 これはLLMとは異なります。LLMは次のように予測します:「この一連のトークンが与えられたとき、次に来るトークンは何か?」それはテキスト、つまり世界そのものではなく、人間が世界について書いたものについてトレーニングされています。落としたリンゴが落ちることを教えてくれるのは、それについて読んだことがあるからです。しかし、落下をシミュレートする内部の物理エンジンを持っているわけではありません。 言い換えれば、LLMは質問への答えの中で次の単語を統計的に予測することは得意ですが、現実世界を理解することは言語による記述や一貫性を超えています。世界モデルは、状況がどのように段階的に進化するか、現在の状態と起こりうる行動が与えられたときの次の状態は何か、どのような制約があるかを理解することを目指しています。 世界モデルは、AIシステムが行動を起こす前に結果をシミュレートできるようにするとよく説明されます。実際にはそれはどのようなものですか?また、研究環境の外でこれが確実に機能するのを見るまでに、どれほど近づいているのでしょうか? この質問に答える際の課題は、「世界モデル」という用語がかなり広く使われており、文脈によって意味が変わる傾向があることです。簡単な世界モデルの定義は、エージェントが現在の状態環境をシミュレートし、将来の状態を予測し、下流の結果について推論できるようにするものです。研究者は、表現と処理方法に基づいて、世界モデルをもう少し細かく分類する傾向があります。環境の「本質」をコンパクトで焦点を絞った空間に蒸留する「潜在世界モデル」があります。物理を「理解」してフレームごとの視覚的表現を作成する「生成世界モデル」があります。そして、過去の行動から結果を予測する「Joint-Embedding...