人工知能
ニューラル・プロセッシング・ユニットの台頭: デバイス上のジェネレーティブAIの高速化と持続可能性の向上
ジェネレーティブAIの進化は、コンピューティング・デバイスとのやり取りと経験を再定義するだけでなく、コア・コンピューティングも再定義している。変革の重要な原動力の1つは、ジェネレーティブAIを計算資源が限られたデバイスで動作させる必要性である。この記事では、この課題とそれを解決するためにジェネレーティブAIの進化がもたらす課題について論じ、ニューラル・プロセッシング・ユニット(NPUs)がこれを解決するために登場していることを紹介する。また、この分野を牽引する最新のNPUプロセッサも紹介する。
デバイス上のジェネレーティブAIインフラストラクチャの課題
ジェネレーティブAIは、画像合成、テキスト生成、音楽作曲の背後にある強力なエンジンであり、多大な計算資源を必要とする。従来、これらの需要は、クラウド・プラットフォームの膨大な能力を利用することで満たされていた。ただし、このアプローチには、デバイス上のジェネレーティブAIのためのインターネット接続と集中型インフラストラクチャへの依存などの課題が伴う。これにより、待ち時間、セキュリティの脆弱性、エネルギー消費量が増大する。
クラウドベースのAIインフラストラクチャの骨子となるのは、主に中央処理装置(CPUs)とグラフィック処理装置(GPUs)で、ジェネレーティブAIの計算需要を処理する。ただし、これらのプロセッサは、デバイス上のジェネレーティブAIに適用されると、重大な障害に直面する。CPUsは、汎用タスクに設計されているため、ジェネレーティブAIワークロードの効率的で低消費電力の実行に必要な専用アーキテクチャが不足している。その制限された並列処理能力により、スループットが低下し、待ち時間が長くなり、消費電力が増加するため、デバイス上のAIにはあまり適していない。一方、GPUsは並列処理で優れているが、主にグラフィック処理タスクに設計されている。ジェネレーティブAIタスクを効果的に実行するには、GPUsには高消費電力と大量の熱を発生させる特殊な集積回路が必要である。また、大きな物理的なサイズにより、コンパクトなデバイス上のアプリケーションでの使用が困難になる。
ニューラル・プロセッシング・ユニット(NPUs)の登場
上記の課題に対応して、ニューラル・プロセッシング・ユニット(NPUs)が、デバイス上のジェネレーティブAIの実装のために変革的な技術として登場している。NPUsのアーキテクチャは、主に人間の脳の構造と機能、特にニューロンとシナプスが情報を処理する方法から着想を得ている。NPUsでは、人工ニューロンが基本的な単位となり、生体ニューロンと同様に入力を受け取り、処理し、出力を生成する。これらのニューロンは、人工シナプスを介して相互に接続されており、シナプスはシグナルをニューロン間に伝達するが、その強度は学習プロセス中に調整される。これは、脳におけるシナプス結合の変化のプロセスを模倣している。NPUsは層で構成されており、生データを受け取る入力層、中間処理を行う隠れ層、結果を生成する出力層がある。この層構造は、脳の多段階的かつ並列な情報処理能力を反映している。ジェネレーティブAIも同様の構造の人工ニューラル・ネットワークで構成されているため、NPUsはジェネレーティブAIワークロードを管理するのに適している。この構造上の整合性により、特殊な集積回路の必要性が低減され、よりコンパクトでエネルギー効率が高く、高速で持続可能なソリューションにつながる。
ジェネレーティブAIの多様な計算需要への対応
ジェネレーティブAIには、画像合成、テキスト生成、音楽作曲など、各々が独自の計算需要を持つ幅広いタスクが含まれる。たとえば、画像合成は行列演算に大きく依存しているのに対し、テキスト生成は順序付けられた処理を伴う。这些多様な計算需要に効果的に対応するために、システム・オン・チップ(SoC)技術を利用して、ニューラル・プロセッシング・ユニット(NPUs)をCPUsとGPUsとともに統合する。
各プロセッサには、独自の計算上の強みがある。CPUsは順序制御と即時性に優れており、GPUsは並列データ・ストリーミングに優れており、NPUsはスカラー、ベクトル、テンソル演算を扱うコアAI操作に適している。ヘテロジニアス・コンピューティング・アーキテクチャを利用することで、各タスクをプロセッサの強みとタスクの需要に基づいて割り当てることができる。
NPUsはAIワークロードに最適化されているため、ジェネレーティブAIタスクをメインCPUから効率的にオフロードできる。これにより、高速でエネルギー効率の高い動作が保証され、AI推論タスクが加速され、ジェネレーティブAIモデルがデバイス上でよりスムーズに実行される。NPUsがAI関連タスクを処理することで、CPUsとGPUsは他の機能にリソースを割り当てることができ、全体的なアプリケーションのパフォーマンスが向上し、熱効率も維持される。
NPUsの実世界例
NPUsの進歩は勢いを増している。以下はNPUsの実世界例である:
- Hexagon NPUs by Qualcommは、低電力と低リソース・デバイスでのAI推論タスクの加速に特化して設計されている。テキスト生成、画像合成、オーディオ処理などのジェネレーティブAIタスクを処理するように構築されている。Hexagon NPUは、QualcommのSnapdragonプラットフォームに統合されており、Qualcomm AI製品を搭載したデバイスでのニューラル・ネットワーク・モデルを効率的に実行する。
- Apple’s Neural Engineは、AシリーズとMシリーズチップの重要なコンポーネントであり、Face ID、Siri、拡張現実(AR)などのAI駆動機能を支えている。Neural Engineは、Face IDのための顔認識、Siriのための自然言語処理(NLP)、ARアプリケーションのためのオブジェクト追跡とシーン理解の強化などのタスクを加速する。これにより、AppleデバイスでのAI関連タスクのパフォーマンスが大幅に向上し、シームレスで効率的なユーザー体験が提供される。
- SamsungのNPUは、AI計算用に特化したプロセッサであり、同時に数千の計算を処理できる。最新のSamsung Exynos SoCsに統合されており、多くのSamsungスマートフォンを動かしている。このNPU技術により、低電力で高速なジェネレーティブAI計算が可能になる。SamsungのNPU技術は、AI駆動型サウンド・イノベーションを可能にし、ユーザー体験を向上させるために、フラッグシップTVにも統合されている。
- HuaweiのDa Vinciアーキテクチャは、Ascend AIプロセッサのコアであり、AI計算能力を強化するために設計されている。このアーキテクチャは、高性能3Dキューブ・コンピューティング・エンジンを利用しており、AIワークロードに強力である。
まとめ
ジェネレーティブAIは、デバイスとのやり取りを変え、コンピューティングを再定義している。計算資源が限られたデバイスでジェネレーティブAIを動作させるという課題は重大であり、従来のCPUsとGPUsはしばしば不足している。ニューラル・プロセッシング・ユニット(NPUs)が、専用のアーキテクチャでジェネレーティブAIの需要に応えることを約束している。NPUsをSoC技術にCPUsとGPUsとともに統合することで、各プロセッサの強みを活かし、タスクを割り当てることができ、デバイス上でのAIパフォーマンスが速く、効率的で、持続可能になる。NPUsが進化を続けるにつれ、デバイス上のAI能力を強化し、アプリケーションをより反応性が高く、エネルギー効率の高いものにすることになる。












