ソートリーダー
オープンソースを再考する:ジェネレーティブAIの時代

オープンソースモデル – ソフトウェア開発におけるエチオスであり、ソースコードが公開され、再配布または変更が自由に行える – は長年にわたり、イノベーションの原動力となってきた。1983年に、ソフトウェア開発者であるリチャード・ストールマンが、クローズドソースのプリンターのブラックボックス的な性質に苛立ちを感じたときに、この理想は生まれた。
彼のビジョンは、フリーソフトウェア運動を生み出し、今日のインターネットとソフトウェアイノベーションの多くを支えるオープンソースエコシステムの道を切り開いた。
しかし、それは40年以上前のことである。
今日、ジェネレーティブAIは、独自の技術的および倫理的課題をもたらしており、オープンソースのパラダイムを再考することを求めている – それを放棄するのではなく、それを適応させるためである。
AIとオープンソースの自由
オープンソースソフトウェアの4つの基本的な自由 – ソフトウェアコードを 実行、研究、変更、再配布 する能力 – は、ジェネレーティブAIの性質と幾つかの点で対立している:
- 実行: AIモデルは非常に高いインフラと計算コストを必要とするため、リソース制約により アクセス が 制限 される。
- 研究と変更: AIモデルは非常に複雑であるため、コードとそれに影響を与えるデータへのアクセスなしに 理解と変更 することは重大な課題である。
- 再配布: 多くのAIモデルは、特にトレーニング済みの重みとプロプライエタリデータセットを所有するプラットフォームプロバイダーによって設計されたものであるため、 再配布 を制限する。
これらの核心的な原則の侵食は、悪意のある意図によるものではなく、現代のAIシステムの複雑さとコストのためである。実際、最新のAIモデルをトレーニングするための費用は近年著しく増加しており、OpenAIのGPT-4のトレーニングコストは、7,800万ドル, スタッフの給与を除く、総費用は 1億ドル を超える。
「オープンソース」AIの複雑さ
真正にオープンなAIモデルは、推論ソースコード、トレーニングソースコード、モデル重み、トレーニングデータの完全な透明性を必要とする。しかし、多くのモデルは「オープン」とラベル付けされているが、推論コードまたは部分的な重みのみをリリースしているか、または商業利用を制限している。
この中立的なオープン性は、オープンソースの原則の幻想を生み出しているが、実践ではそれに達していない。
オープンソースイニシアティブ(OSI)による分析によると、Llama2やLlama 3.x(Metaによって開発された)、Grok(X)、Phi-2(Microsoft)、Mixtral(Mistral AI)などの人気のある大規模言語モデルは、オープンソースを主張 しているが、構造的にオープンソースの原則と互換性がない。
持続可能性とインセンティブの課題
ほとんどのオープンソースソフトウェアは、ボランティア主導または助成金ベースの努力によって構築されたが、AIモデルは、高コストのインフラと計算リソースを必要とする。AnthropicのCEO、Dario Amodeiは、将来、最先端のモデルをトレーニングするコストは、$100 billion に達する可能性があると予測している。
持続可能な資金調達モデルやインセンティブ構造がない場合、開発者は、クローズドソースまたは非商用ライセンスを制限するか、または財政崩壊のリスクを負うかという選択に直面する。
「オープン重み」とライセンスに関する誤解
AIモデルへのアクセスは、多くのプラットフォームが「オープン」としてマーケティングしながら、真のオープンソースの原則と根本的に矛盾する制限を課しているため、ますます複雑になっている。この「手品」は、複数の方法で現れる:
- 「オープン重み」とラベル付けされたモデルは、商業利用を完全に禁止する可能性があり、学術的な好奇心の対象物としてではなく、実用的ビジネスツールとしてではなく、一般に公開される。
- 一部のプロバイダーは、事前トレーニング済みのモデルへのアクセスを提供するが、トレーニングデータセットと方法論を厳密に保護しており、有意義に再現または検証することは不可能である。
- 多くのプラットフォームは、再配布を制限するため、開発者はコミュニティのためにモデルを構築または改善することができない、たとえコードに完全に「アクセス」できる場合でも。
これらの場合、「研究用にオープン」とは、「ビジネスに閉鎖的」ということの言い換えにすぎない。結果として、ベンダーロックインが発生し、組織は、時間とリソースを、実際には重要な制限があるにもかかわらず、オープンにアクセスできるように見えるプラットフォームに投資する。
開発者だけが挫折するのではなく、これによりAIエコシステムに対する信頼が損なわれる。オープンソースソフトウェアコミュニティと同等の「オープン」AIが期待されるが、そこでは透明性、変更権、商業的自由が維持される。
法律の遅れ
GenAIの急速な進歩は、すでに適切な法的枠組みの開発を上回っており、知的財産の課題を複雑な網の目にしている。
最初の主要な法的戦場は、トレーニングデータの使用に関するものである。ディープラーニングモデルは、インターネット上の大量のデータセット、たとえば一般に利用可能な画像やWebページのテキストからデータを取得する。この大量のデータ収集は、知的財産権に関する激しい論争を引き起こしている。テクノロジー企業は、AIシステムが著作権で保護された資料を研究して学習し、新しい変換可能なコンテンツを作成するためであると主張する。一方、著作権所有者は、AI企業が著作権で保護された作品を違法にコピーし、競合するコンテンツを生成して彼らの生計を脅かすと主張する。
AI生成の派生作品の所有権も、別の法的曖昧さを表す。AIが完全にコンテンツを生成する場合、US著作権局は「それが著作権で保護されることはない」と述べている。
GenAI、特に著作権侵害、AI生成作品の所有権、トレーニングデータのライセンスされていないコンテンツに関する法的不確実性は、基礎となるAIモデルが地政学的重要性のツールとして登場するにつれて、さらに複雑になる。AIの優位性を開発しようとする国々は、データへのアクセスを制限する可能性は低く、厳格な知的財産保護を持つ国々は競争上の不利を被る可能性がある。
AI時代のオープンソースの必要性
GenAIの列車はすでに出発し、減速する兆しを見せていない。私たちは、AIがイノベーションを促進するのではなく、阻害するのではなく、将来を築きたい。そうするためには、安全で透明な商業利用を保証するフレームワークが必要であり、責任あるイノベーションを促進し、データ所有権とライセンスを扱い、「オープン」と「無料」の違いを明確にする。
新たに登場した概念である、オープンコマーシャルソースライセンスは、非商用利用の無料アクセス、商用利用のライセンスアクセス、データの出典と所有権の認識と尊重を提案することで、道を示す可能性がある。
この新しい現実に適応するために、オープンソースコミュニティは、AI特有のオープンライセンスモデルを開発し、公私パートナーシップを形成してこれらのモデルを資金提供し、透明性、安全性、倫理性のための信頼できる標準を確立する必要がある。
オープンソースは、世界を一度変えた。ジェネレーティブAIは、再び世界を変えている。オープンソースの精神を維持するために、AIの独自の要求を認識し、課題に立ち向かうことで、包括的で持続可能なエコシステムを作成するために、私たちはその原則を進化させる必要がある。












