SpecBundleとSpecForge v0.2:本番環境対応の推測デコーディングモデルとフレームワークが重大リリース

TL;DR

SpecForgeチームは、AntMeituanNex-AGIEigenAIを含む複数の業界パートナーと協力し、SpecBundle(Phase 1)を発表しました。これは大規模データセットで訓練された本番環境対応のEAGLE-3モデルチェックポイント集です。SpecBundleは推測デコーディングの利用可能性と実際のパフォーマンスを向上させることを目的としており、第1段階では命令チューニングモデルに焦点を当てています。

同時に、SpecForge v0.2は重要なシステムアップグレードをもたらし、使いやすさを改善するための全面的な再構築と、複数の実行バックエンドのサポートを含み、スケーラビリティと本番環境への対応をさらに強化しています。

背景

推測デコーディングは2023年に初めて提案された技術で、軽量なドラフトモデルが複数のトークンを提案し、その後より強力なターゲットモデルが検証することで、大規模言語モデル(LLM)の推論を高速化する有望な手法です。この方法は原理的に、出力品質を犠牲にすることなくデコーディングのレイテンシを大幅に削減でき、ローカルおよびエンタープライズ展開に適しています。近年、研究コミュニティはこのパラダイムを継続的に改善し、EAGLE3などのSOTA手法が登場しています。これらの手法はトークン受理率とエンドツーエンドの高速化において、強力な理論的保証と実証的な利益を示しています。

既存の問題

これらの進歩にもかかわらず、推測デコーディング—特にEAGLE3などのSOTA手法—はオープンソースコミュニティでまだ広く採用されていません。このギャップは主に3つの要因に起因すると考えています。

要因1:使いやすく本番環境対応の推測デコーディングモデル訓練ツールの欠如。既存の実装の多くは依然として研究プロトタイプの段階にとどまっており、メンテナンスが不十分、範囲が狭い、またはシステムレベルの最適化を欠いた単純な実装のみを提供しています。これらのツールは、現在のLLMエコシステムで一般的な多様なモデルアーキテクチャや規模をサポートすることが困難です。

要因2:高品質なドラフトモデルの可用性が主なボトルネックです。推測デコーディングの効果はドラフトモデルの強度に大きく依存しますが、オープンソースコミュニティにはそのようなモデルが不足しています。下表は現在の状況をまとめたものです。EAGLE3などの手法はドラフトモデルの追加訓練を必要としますが、公開されているEAGLE3チェックポイントは主に原著者によるリリースに限定されており、これがより広範な採用を深刻に制約しています。

ModelNative MTPCommunity EAGLE3SpecBundle
meta-llama/Llama-3.1-8B-Instruct
meta-llama/Llama-3.3-70B-Instruct
meta-llama/Llama-4-Scout-17B-16E-Instruct
Qwen/Qwen3-30B-A3B-Instruct-2507
Qwen/Qwen3-235B-A22B-Instruct-2507
Qwen/Qwen3-Next-80B-A3B-Instruct-FP8
Qwen/Qwen3-Coder-30B-A3B-Instruct
Qwen/Qwen3-Coder-480B-A35B-Instruct
inclusionAI/Ling-flash-2.0
moonshotai/Kimi-K2-Instruct
nex-agi/Qwen3-30B-A3B-Nex-N1
nex-agi/Qwen3-32B-Nex-N1

要因3:既存のドラフトモデルの多くは、より小規模または選別されたデータセットでのみ訓練されており、現代のLLM訓練で使用される大規模で多様なコーパスに拡張されていません。結果として、これらのモデルは強力なターゲットモデルと組み合わせた際の汎化能力に限界があり、トークン受理率が低く、実際の高速化効果が損なわれます。大規模で本番環境対応のドラフトモデルがなければ、EAGLE3などの先進的な手法の潜在能力を十分に発揮することは困難です。

動機

上記のギャップが、SpecForge v0.2SpecBundleのリリースを促しました。中立的なオープンソースコミュニティとして、SpecForgeチームは本番環境対応の訓練フレームワークと高性能ドラフトモデルを提供することで、推測デコーディングの発展を積極的に推進し、より実用的でアクセスしやすいものにすることを目指しています。

この取り組みは複数の主要な利点をもたらします:

  • 標準化されたスケーラブルなベースラインを通じて研究の可能性を拡大し、推測デコーディング手法のイノベーションを推進
  • より高速なローカル推論とモデルサービスを可能にし、Ollamaなどの軽量デプロイメントシナリオをサポート
  • SGLangなどの推論エンジンを活用してエンタープライズデプロイメントコストを削減し、出力品質を犠牲にすることなくスループットを向上
  • EAGLE3チェックポイントを強力な初期化ポイントとして提供し、ドメイン固有タスクの効率的なファインチューニングを容易に
  • 強化学習ワークフローの効率を向上させ、ReSpecslimeなどのフレームワークとの統合をサポート

SpecForge v0.2

SpecForgeは約5か月前にオープンソース化され、コミュニティのサポートにより、システムはより信頼性が高く、効率的で、スケーラブルなソリューションへと進化しました。SpecBundleのために2か月間多様なモデルを訓練する中で、元の設計にいくつかの制限があることを発見しました。これらの洞察が、パフォーマンスと使いやすさを向上させるフレームワークの全面的なアップグレードを推進しました。SpecForge v0.2の主な変更点は以下の通りです。

ユーザーフレンドリー性の向上

初期バージョンでは、いくつかの機能が独立して開発され、長期的なメンテナンス性とユーザーエクスペリエンスが十分に考慮されていなかったため、ユーザーの混乱を招いていました。過去2か月間、私たちは使いやすさの最適化を優先し、フレームワークの大幅な再構築を行いました。主な改善点には以下が含まれます:

  • データ処理パイプラインの再構築により、冗長性を排除し効率を向上。例えば、データ並列処理と非同期処理により、データ再生成速度がv0.1と比較して10倍高速化
  • オンラインとオフラインの訓練スクリプトを単一の実装に統一し、訓練ロジックの一貫性を確保し、モード間の相違を回避
  • ドキュメント構造と明確性を最適化し、より明確な論理フローと可読性を提供し、ユーザーが迅速に開始して反復できるよう支援

マルチバックエンドサポート

初期バージョンは内部ターゲットモデル実装に高度に依存しており、モデルサポートが煩雑でエラーが発生しやすくなっていました。この問題を解決し、エコシステムをよりよく活用するために、統一されたターゲットモデル統合インターフェースを導入しました。

v0.2では新しいEagle3TargetModelインターフェースを追加し、複数の実行バックエンドのシームレスなサポートを実現しています。現在、SGLangHugging Face Transformersをバックエンドとして統合しています。新しいバックエンドはEagle3TargetModel.generate_eagle3_dataメソッドを実装するだけで良く、拡張の障壁を大幅に下げ、長期的なメンテナンス性を向上させています。

target_model = get_eagle3_target_model(
    pretrained_model_name_or_path="meta-llama/Llama-3.1-8B-Instruct",
    backend="sglang",
    torch_dtype=torch.bfloat16,
    device="cuda",
    cache_dir=args.model_download_dir,
    **target_model_kwargs,
)

これらのバックエンドは、開発者のモデル実装とパフォーマンス最適化の負担を軽減するだけでなく、ユーザーに柔軟な選択肢を提供し、さまざまな訓練シナリオに対応します。

マルチバックエンドサポートの概略図

SpecBundle計画

前述の通り、オープンソースコミュニティは推測デコーディングソリューションの可用性とパフォーマンスにおいて依然として重大なボトルネックに直面しています。SpecBundleはこれらの課題に対する直接的な対応です—オープンソースコミュニティと業界パートナーが共同で推進する取り組みであり、主要なオープンソースモデルに高性能なEAGLE3ドラフトモデルの重みを装備し、推測デコーディングの民主化を実現することを目指しています。私たちの知る限り、これは初の公開された取り組みです。

👉 SpecBundleドキュメントをご覧ください。

今回の初回リリースでは、SpecBundleのロードマップは命令チューニングモデルに焦点を当てています。より広範なモデルへの推測デコーディングサポートの拡大により、ローカルおよびエンタープライズデプロイメントのコストがさらに削減されると信じています。