LongWriter: 10,000語以上の文章生成フレームワーク
現在の長文脈の大規模言語モデル(LLM)は、最大100,000トークンの入力処理が可能ですが、2,000語を超える長さの出力生成に苦労しています。制御された実験により、モデルが出力長に制限を設ける根本的な要因は、教師ありファインチューニング(SFT)中に見られる例の長さであることが明らかになりました。言い換えると、この出力制限は、既存のSFTデータセットに長出力例が不足していることから生じています。長文脈LLMの最近の進歩により、記憶容量が大幅に拡張されたモデルが開発され、最大100,000トークンの長さの履歴を処理できるようになりました。ただし、長い入力を処理できる能力を持っているにもかかわらず、現在の長文脈LLMは同等の長さの出力を生成するのに苦労しています。この制限を調査するために、LongWriterは、さまざまな長さの応答を必要とするクエリで、最先端の長文脈モデルの最大出力長を調べます。たとえば、「ローマ帝国の歴史について10,000語の記事を書いてください。」というクエリです。結果は、すべてのモデルが2,000語を超える出力を生成するのに失敗していることを示しています。さらに、ユーザーインタラクションログの分析により、1%以上のユーザープロンプトがこの制限を超える出力を明示的に要求していることが明らかになり、現在の研究でこの問題を解決する必要性が強調されました。この制限を解決するために、LongWriterは、AgentWriteと呼ばれるエージェントベースのパイプラインを導入します。AgentWriteは、オフザシェルフLLMを使用して、自動的に長出力SFTデータを構築します。AgentWriteは、2つのステージで動作します。まず、ユーザーの入力に基づいて、各段落の構造とターゲット語数を含む詳細な執筆計画を策定します。次に、モデルを順番に呼び出して、計画に従って各段落のコンテンツを生成します。LongWriterの実験は、AgentWriteが高品質で一貫性のある出力を最大20,000語まで生成できることを検証しています。LongWriterは、LongBench-Writeと呼ばれる、超長出力生成のための包括的なベンチマークも開発しています。LongBench-Writeには、さまざまなユーザーの書き込み指示が含まれており、出力長の指定は0〜500語、500〜2,000語、2,000〜4,000語、4,000語以上と変化しています。LongBench-Writeでの評価は、LongWriterの9Bパラメータモデルが、最先端のパフォーマンスを達成し、より大きな独自モデルを上回っていることを示しています。この記事では、LongWriterフレームワークについて説明し、そのアーキテクチャを探り、最先端の長文脈LLMとのパフォーマンスを比較します。では、始めましょう。LongWriter: 10,000語以上の文章生成フレームワーク長文脈LLMの最近の進歩により、記憶容量が大幅に拡張されたモデルが開発され、最大100,000トークンの長さの履歴を処理できるようになりました。ただし、長い入力を処理できる能力を持っているにもかかわらず、現在の長文脈LLMは同等の長さの出力を生成するのに苦労しています。LongWriterは、最先端の長文脈モデルの最大出力長を、さまざまな長さの応答を必要とするクエリで調べます。結果は、すべてのモデルが2,000語を超える出力を生成するのに失敗していることを示しています。さらに、ユーザーインタラクションログの分析により、1%以上のユーザープロンプトがこの制限を超える出力を明示的に要求していることが明らかになり、現在の研究でこの問題を解決する必要性が強調されました。LongWriterの研究は、次の新しい貢献をもたらします。 生成長制限の分析: LongWriterは、現在の長文脈LLMの出力長を制限する主な要因を特定しました。これは、SFTデータの出力長の制限です。 AgentWrite: この制限を克服するために、LongWriterはAgentWriteを提案します。AgentWriteは、オフザシェルフLLMを使用して、自動的に長出力SFTデータを構築します。AgentWriteを使用して、LongWriterはLongWriter-6kと呼ばれる6,000個の長出力SFTデータを構築します。 出力ウィンドウサイズの拡大: LongWriterは、LongWriter-6kをSFTデータに組み込むことで、既存のモデルの出力ウィンドウサイズを10,000語以上に拡大します。LongWriterは、DPOがさらにモデルが出力長の要件を満たす能力を向上させることも示しています。 AgentWrite: 自動データ構築LongWriterは、オフザシェルフLLMを使用して、自動的に長出力SFTデータを構築するために、AgentWriteと呼ばれるエージェントベースのパイプラインを設計しました。AgentWriteは、2つのステージで動作します。まず、ユーザーの入力に基づいて、各段落の構造とターゲット語数を含む詳細な執筆計画を策定します。次に、モデルを順番に呼び出して、計画に従って各段落のコンテンツを生成します。ステップI: 計画LongWriterは、人間のライターが長文を書く際に最初に全体的な計画を立てるように、LLMの計画能力を使用して、書き込み指示に基づいて執筆計画を出力します。この計画には、各段落の主な内容と語数要件が含まれます。ステップII: 書き込みステップIで生成された執筆計画に基づいて、LongWriterはモデルを順番に呼び出して、各段落のコンテンツを生成します。各段落のコンテンツを生成する際には、既に生成された段落のテキストも入力として使用します。検証LongWriterは、2つの長文書き込みデータセットで、提案されたAgentWrite方法の生成長と品質をテストします。結果は、AgentWriteが20,000語までの長出力を生成できることを示しています。教師ありファインチューニングLongWriterは、GLM-4-9BとLlama-3.1-8Bの2つの最新のオープンソースモデルに基づいて、教師ありファインチューニングを実施します。両方のモデルは、最大128kトークンのコンテキストウィンドウをサポートし、長出力のトレーニングに適しています。トレーニングの効率を向上させるために、LongWriterはパッキングトレーニングと損失重み付けを採用します。LongWriter: 実験と結果LongWriterは、LongBench-Writeで4つの独自モデルと5つのオープンソースモデルを評価します。結果は、LongWriterの9Bモデルが最先端のパフォーマンスを達成し、より大きな独自モデルを上回っていることを示しています。以前のモデルは2,000語を超える出力長の要件を満たすことができないのに対し、LongWriterモデルは一貫して長く豊かな応答を提供します。LongWriterは、LongBench-Writeでの評価結果を示しています。結果は、LongWriterの9Bモデルが、2,000語を超える出力長の要件を満たすことができ、より大きな独自モデルを上回っていることを示しています。DPOは、モデルの出力品質と長出力生成における出力長の要件を満たす能力を向上させます。LongWriterは、DPOがモデルの出力品質と長出力生成における出力長の要件を満たす能力を向上させることを示しています。LongWriterモデルの出力長制限は10,000語から20,000語に拡大されますが、さらに長い出力をサポートするには、より多くの長出力データが必要です。LongWriterは、LongWrite-Rulerテストの結果を示しています。結果は、LongWriterモデルの出力長制限が10,000語から20,000語に拡大されていることを示しています。最終的な考えこの研究では、LongWriterと呼ばれるエージェントベースのパイプラインを提案し、2,000語の生成長制限を克服するために、長出力SFTデータを構築します。LongWriterは、LongBench-Writeと呼ばれる包括的なベンチマークを開発し、最先端の長文脈LLMとのパフォーマンスを比較します。LongWriterは、長出力生成における出力長の要件を満たす能力を向上させるために、DPOを使用します。将来的には、LongWriterは、さらに長い出力をサポートするために、より多くの長出力データを構築することを提案します。