人工知能
DeepSeekが5.6Mでコストの壁を突破した方法

従来のAIの知恵によれば、大規模な言語モデル(LLM)を構築するには、深いポケット – 通常、数十億ドル規模の投資が必要である。ただし、DeepSeekという中国のAIスタートアップは、最新の成果でこのパラダイムを打ち破った:世界クラスのAIモデルをわずか560万ドルで開発した。
DeepSeekのV3モデルは、GoogleのGeminiやOpenAIの最新モデルと並ぶことができ、通常の計算リソースのごく一部しか使用していない。 この成果は多くの業界リーダーの注目を集め、特に注目すべきは、米国の輸出制限により、最新のNvidiaチップへのアクセスが制限されていたにもかかわらず、会社がこれを成し遂げたことである。
効率的なAIの経済学
数字は効率の物語を語っている。ほとんどの高度なAIモデルは、16,000から100,000のGPUを必要とするのに対し、DeepSeekはわずか2,048個のGPUで57日間実行するだけで済んだ。モデルのトレーニングには、Nvidia H800チップで2,780万GPU時間が消費された – 671億パラメータのモデルとしては、驚くほど控えめである。
これを視覚的に見ると、Metaは405億パラメータのLlama 3モデルのトレーニングに約3,080万GPU時間 – 約11倍の計算能力 – を必要とした。DeepSeekのアプローチは、制約の下での最適化のマスタークラスに似ている。H800 GPU – Nvidiaが中国市場向けに設計したAIチップで、機能が制限されている – を使用して、会社は潜在的な制限を革新に変えた。オフザシェルフのソリューションではなく、プロセッサ間の通信を最大限に効率化するためのカスタムソリューションを開発した。
競合他社が、巨額の投資が必要であるという仮定の下で運営を続ける一方で、DeepSeekは、工夫と効率的なリソースの活用が競争力を均等にすることを実証している。

Image: Artificial Analysis
不可能を達成するエンジニアリング
DeepSeekの成果は、革新的な技術的アプローチにあり、時には最も大きなブレークスルーが、無限のリソースを投入するのではなく、制約の中で作業することから来ることがあることを示している。
この革新の核心にあるのは、「補助損失フリーの負荷分散」と呼ばれる戦略である。巨大な並列処理システムを調整することを想像してみてください。従来、スムーズに動作させるために複雑なルールとペナルティが必要でした。DeepSeekは、伝統的な知恵を覆し、従来のアプローチのオーバーヘッドなしにバランスを自然に維持するシステムを開発しました。
チームはまた、「マルチトークン予測」(MTP)と呼ばれるテクニックを先駆的に開発しました – モデルが複数のトークンを予測することを可能にするテクニックです。実践では、これはさまざまなトピックで予測の85-90%の承認率をもたらし、以前のアプローチよりも1.8倍高速な処理速度を実現します。
技術的なアーキテクチャ自体が効率の傑作である。DeepSeekのV3は、671億のパラメータを持つ専門家の混合アプローチを採用していますが、ここが重要な点です – 各トークンにのみ37億を活性化します。この選択的な活性化により、巨大なモデルの利点を維持しながら、実用的効率を維持することができます。
FP8混合精度トレーニングフレームワークの選択も、飛躍的な進歩です。低減された精度の従来の制限を受け入れるのではなく、精度を維持しながら、メモリと計算要件を大幅に削減するためのカスタムソリューションを開発しました。
AIのエコシステムへの波及効果
DeepSeekの成果の影響は、単に一つの成功したモデルに留まらない。
ヨーロッパのAI開発にとって、このブレークスルーは特に重要です。多くの高度なモデルは、MetaやOpenAIのような会社がEU AI法に適応できない、または適応しないことが多いため、EUに到達しません。DeepSeekのアプローチは、先端のAIを構築するには、必ずしも巨大なGPUクラスターが必要ではないことを示しています – それは利用可能なリソースを効率的に使用することについてです。
この開発はまた、輸出制限が実際に革新を促進する方法を示しています。DeepSeekの高性能ハードウェアへのアクセスが制限されたことは、ソフトウェアの最適化を促し、リソースが豊富な環境では出現しなかったかもしれないソリューションにつながりました。この原則は、世界中でのAI開発のアプローチを変える可能性があります。
民主化の影響は深刻です。巨大企業が数十億ドルを費やし続ける一方で、DeepSeekは効率的でコスト効率の高いAI開発の青写真を作成しました。これにより、以前はリソースの制限により競争できなかった小規模企業や研究機関がドアが開かれる可能性があります。
しかし、これは大規模な計算インフラストラクチャが時代遅れになっていることを意味しない。業界は、推論時間 – モデルが回答を生成するのにかかる時間 – をスケールすることに焦点を当てています。この傾向が続くにつれて、将来は現在よりも多くの計算リソースが必要になる可能性があります。
しかし、DeepSeekは会話を根本的に変えました。長期的な影響は明らかです:革新的な思考と効率的なリソースの使用が、純粋な計算能力よりも重要になる時代に入りつつあります。AIコミュニティにとって、これは、利用可能なリソースにのみ焦点を当てるのではなく、どのように創造的に、効率的にそれらを使用するかについて考えることを意味します。












