いかなるTokenも取りこぼさない:MilesフレームワークのTITO原則の徹底解析

いかなるTokenも取りこぼさない:MilesフレームワークのTITO原則の徹底解析

智能体強化学習(Agentic RL)において、1回のrolloutは単純な1回の生成ではなく、モデル呼び出し、ツール出力、harnessメッセージ、および生成再開からなる連鎖プロセスである。Token-In-Token-Out(TITO)は、このプロセスにおけるトレーニングと推論の不一致を解消するためのコア設計原則である。すなわち、トレーナーはrollout期間中に推論エンジンが実際に消費・生成したものと完全に同一のトークン列を評価しなければならない。

TITOの定義

Agentic rolloutにおいて、モデルは外部環境と繰り返しやり取りを行う。各ターン(turn)において、推論エンジンはトークン列をpromptとして受け取り、新たなトークン列を生成する。TITO原則が満たされる場合、すべてのnに対して、第n-1ターンのトータルトークン列(prompt + response)は、第nターンのpromptトークン列のbit-perfect前置列(prefix)でなければならない。

TITO definition diagram

TITOがなぜ重要なのか

トレーニング効率:タスクごとに1サンプルのみ

数十ターンに及ぶAgentic タスクにおいて、「タスクごとに1サンプル」という戦略を採用することで、計算コストを桁違いに削減でき、トレーニングのスケーラビリティを大幅に向上させることができる。

数学的正確性:on-policyの維持

TITOが違反された場合、トレーナーと推論エンジンが同一トークンに対して持つ条件分布が大きく乖離し、不安定な更新を引き起こす可能性がある。

TITOが破壊されうるシナリオ

シナリオ1:Detokenize-retokenizeの不一致

モデルが生成したトークンがデコードされ再エンコードされる過程で、元のトークン列が失われる可能性がある。

Detokenize-retokenize mismatch

シナリオ2:チャットテンプレートによる推論内容の切り捨て

cut-thinkingの境界がUserメッセージの挿入によって前方にずれ、過去の推論内容が消去される。

Cut-think boundary breakage

シナリオ3:チャットテンプレートの再レンダリングによるバイトドリフト

JSONシリアライズの差異がトークンIDを変化させ、bit-perfect prefixが破壊される。

MilesフレームワークにおけるTITOの実装

Milesは4つのコンポーネントによって機械的にTITOの不変性を保証する。

(1)推論セッションサーバー

トラジェクトリごとに増大するトークンバッファを管理し、直接トレーニングに渡す。

Inference session server architecture

(2)3層のappend-onlyによる保証

メッセージリスト、チャットテンプレートのレンダリング、およびトークン列のいずれも厳密にappendのみとし、いかなる書き換えも回避する。

Assistant text anomalies

Qwen3とGLM-4.7のテンプレートを固定することで、Milesは低コストでのモデル統合を実現している。