私達と接続

GPU の現在開裂中:後トランスフォーマー フレームワーク中に見られない革命

Artificial Intelligence

GPU の現在開裂中:後トランスフォーマー フレームワーク中に見られない革命

mm

5 年が経ち、人工知能の製品はトランスフォーマーと同じものになりました。2017 年からは、「注意はあなたが必要とするすべてです「」の発表以来、このようなアーキテクチャはあらゆる分野で使用されています。GPTクロード、すべての主役の注目を集めるモデルはすべて、同じ底層機構に依存しています—自注意力実際には、これは、より多くのデータをより大きな GPU グループ上で使用することが、より大きな Transformer になることを意味します。

このような信念は多くの進歩を推進しますが、すでに限界に達しています。世界が万パラメータモデルに焦点を当てているとき、計算能力の障壁、また内部メモリおよび持続性の障壁が研究される。この変化は、AI をより高性能にし、より簡単に取得し、無制限に実行できるようにすることを目的として、新しい「後変圧器フレームワーク」が現在進行中であると考えられています。

硅基天花板:何Transformer正撞上南墙

変換が必要であることを理解するには、まず現在のシステムのトランスが重要であるが、ある面ではその能力が著しく低いことを理解する必要がある。 「注意力メカニズム」では、このメカニズムはモデルのシーケンス内の各マークを許可し、他の各マークとの関係を考慮します。

しかし、この能力には危険な問題が伴います—二次方缩放所望のAIリクエストの文書長が増加した場合、必要な計算量は単に2倍になるだけでなく、4倍になる。ピクチャまたはコードの「無制限コンテキスト」モデルを開発するために私たちが努力するにつれて、計算の必要性が非常に高くなりました。

しかし、より直接的な問題は内部に存在すること、特に「KV缓存テキストをストリーム的に生成するには、Transformer が GPU の高速内 (VRAM) に保存する必要があります。セッションが長くなるにつれて、このストレージは膨張し、第 3 段階以前のコンテンツのみを大量に消費します。

これにより、「GPU の問題」が形成されます。私たちは、チップが短く、内部メモリがより不足しているだけです。長い年月を経て、交通手段はますます大きくなっているが、その解決策はますます高価になっている。エヌビディア H100しかし、この蛮力はすでに到達しています收益递减私たちが必要としているのは、燃料を消費せずに二次的に長く続くアーキテクチャではなく、新しいフレームワークです。

見えない革命

主流の研究が LLM に焦点を当てているとき、一群研究者はずっと新しい考えを見直しています:循環神经网络Transformer の前では、RNN はテキストを処理するための標準であり、処理中にさらにテキストが処理されます。新しいハブの内部の「状態」は、履歴全体を振り返る必要がなく、その「要点」を保持するだけで済むため、非常に効果的です。

RNNが失われるのは、それらが無法に処理される距離に依存するためであり、それらは、無法に実行されるため、その速度が遅くなる可能性がある。 Transformer は、すべてのコンテンツを同時に処理し(実行し)、すべてのコンテンツを内部に保存する(注意)ことによって、この問題を解決します。

そこで、我々は、両者を融合することが好ましいフレーム構造であると考えている。状態空间モデルこれらは、Transformer の速度 (実行可能) と RNN の滞空効率 (線形圧縮) を提供します。

この股新浪潮中一突き出た架構ですマンバマンバは 2023 年に初公開され、2024 年には完全に終了し、モデル処理情報方式の根本的な変化を表しています。前者は、その内部の保存領域に、各実行のオリジナルのサブブックの相違を保持し、Mamba は「選択状態空間」を使用します。

私たちは、Transformer と Mamba の間の領域を理解することができました。つまり、Transformer は 1 位の学者であり、関係を把握するために、各一本ごとに巨大な領域に展開されています。それに比べて、Mamba は一桁学者であり、その高効率のファイルを一本に圧縮しています。 amba が次のセッションを生成するときに、この領域で AI 配置の機能を変更する必要はありません。RWKV(重み付けキーの受信プロセス上、これらのモデルは、100 万回の練習を入力した場合に、次の練習用の計算を生成し、10 練習を入力しただけでは変化しません。

循環の回归

マンババック後の技術の進歩は「選択性」です。以前に高速化された RNN のメッセージは、均等に圧縮されたために失われています。 Mamba には、データのストリーミング処理中にモデルが何を認識し、何を忘れるかを許可するメカニズムが導入されています。

モデルは、コードブロック内の量指定などの重要な情報を取得すると、「オン」になり、その状態にその力が書き込まれます。

このような選択は、多くの実験において、Mamba ベースのモデルは、性能面では同等の Transformer と同等でありながら、探索中の実行速度を 5 倍に向上させました。さらに重要なのは、これらの内部メモリの占有量が少ないということです。これは、高性能 LLM が以前は実行できないと考えられていた設計であるためです。クラウド端末にダウンロードする必要なく、電源、ネットワーク、さらにはスマートコンピュータなどの大きなサービスをオンにして実行できます。

我们也見到了ハイエナこれは、Mamba と同様に、Transformer の重みを削除することを目的とした、別の二次フレームワークです。これらのモデルは、主にメインで使用されている Transformer の代わりに、ハードウェアを使用して実行されます。

混合モデルの起立

しかし、この業界の革命はトランスフォーマーを完全に置き換えるのではなく、混合形式で実行される可能性があると考えています。ジャンバ(AI21 Labs から) このようなモデルは、Transformer 層と Mamba 層を組み合わせたものとして提案されました。

この混合方法は、トランスフォーマーの限界を解決するための使用の可能性を提供します。私たちは、Mamba 層 (大部分のデータ処理と長時間の予測) と少数の Transformer 注意力層 (高感度モバイルの即時待機) を混合することによって、両方のコレクションの長期モデルを取得しました。

ミックス モデルは、実際に使用できる大規模なモデルのコンテキスト ボックスを構築しました。現在、多くの「ロング コンテキスト テキスト」トランスフォーマ音声は 10 万個のマークを処理できますが、コンテキスト テキストが詰め込まれると、そのパフォーマンスは急速に低下します。迷失在中SSM層は時間の経過とともに圧縮され、持ち運び可能な状態になるように設計されているため、混合フレームは、その耐久性をより良好に維持できるように構成されている。

これらの公開展は、「训练計算力」(私は多大な収集群が来て構築モデルを必要としますか?)から「敏速性」(私が能力以上に低い本を十亿用者に提供します)に方向性を持っています。混合モデル サービスのユーザーの割合が Transformer の 10% であれば、AI アプリケーションの例は一晩で変わるでしょう。

AI発展の未来

この分野の後のTransformer革命の影響はデータセンターに限定されません。 Mamba と RWKV のような巨大なアーキテクチャは、このような電力量を軽減します。ランクは、GPT-4 レベルのモデルを実行します。これは、数 TB の VRAM を必要とせずに AI の集中制御が開始されるためです。私が所有する AI エージェントは、クラウド エンドにデータ パケットを送信することなく、完全にコンピュータ上で実行され、個人データを処理する可能性があります。

さらに、このような効率は破壊的です」エージェントベースAI現在のシステムは、トランスを実行するために数時間または数日間、後段で動作する可能性があります。高性能のリニアタイムフレームワークは、ユーザーが壊れたりハードウェアが熱くなったりすることなく、「思考」と処理のサイクルを継続できます。

要点

Transformer は AI の主要な要素を新たに導入しましたが、スクリーンの後、静的に構築された革命が進行中です。これらのモデルと混合モデルにより、人工知能の将来はより大きなモデルではなく、より効率的に認識、認識、および拡張が可能になり、より低コストで利用できるようになります。

テーシーンZia 博士は、伊斯堡COMSATS 大学の副教授であり、奥深くも技術大学の人工知能博士の地位にあります。テーシーン博士はまた、多数の産業分野の研究の首席として、人工知能の研究を担当しました。