AnthropicがClaude Fable 5のポリシーを修正、未公開のモデル降格を認める

Anthropicは2026年6月11日、Claude Fable 5の安全機能の変更を発表し、これまで非公開だったモデル降格の動作をユーザーに表示される警告へと改めることを明らかにした。

事件の経緯と具体的な動作

Claude Fable 5はMythosシステムを基盤として構築されており、リリース後に研究者たちは、競合する大規模モデルのトレーニング、AIコードのデバッグ、ニューラルネットワークアーキテクチャの最適化などのリクエストを処理する際に、タスクが自動的により能力の低いモデルへ転送されるか、直接拒否されることを発見した。ユーザーはそのためにトークンを消費したにもかかわらず、期待した出力を得られなかった。

Anthropicは当初、この動作をモデルのドキュメントに明記していなかった。そのため研究者たちは、同社の学術コミュニティへの支援姿勢に疑問を呈した。

同社の対応と変更内容

Anthropicは声明の中で「誤ったトレードオフを行った」と認め、謝罪した。新しい対応として、システムがユーザーによる高性能AIの構築の可能性を判断した場合、リクエストが拒否されるかより能力の低いモデルへ転送される旨をユーザーに明示的に通知するようになる。

同社は既存の制限自体を撤廃したわけではなく、動作をサイレント実行から明示的な通知へと変更したにとどまる。

研究コミュニティの反応

ユーザーに告知することなくMLリサーチのパフォーマンスを低下させることは、驚くほど敵対的であり、非常に悪い印象を与える。—— Dean W. Ball、研究者・Substack著者

同様のフィードバックがXプラットフォーム上に集中して寄せられた。研究者たちは、降格を隠蔽することは計算リソースを無駄にするだけでなく、モデル出力への信頼を損なうとも指摘した。

透明性と実際の効果の乖離

これまでAnthropicは、より倫理を重視し研究者に優しい企業であると自負することが多かった。Fable 5の一件は、安全ポリシーの実施方法と公表内容との間に乖離があることを示している。研究者が実験を効果的に計画するためには、モデルがいつ出力品質を低下させるかを明確に把握する必要がある。

AI研究プロセスへの影響

Claude Fable 5を用いてモデルのトレーニングやアーキテクチャ探索を行う研究者は、今後は事前に警告を確認できるため、無効なトークン消費を回避できるようになる。ただし、高性能な出力を必要とするタスクについては、引き続き他のモデルへの移行が必要となる。

この変更は、公開声明だけでなく研究支援における実際のパフォーマンスについても、より多くの研究者がさまざまなサービスプロバイダーを評価するきっかけになる可能性がある。

今回の事案の核心は、安全上の制限そのものの存在ではなく、その制限の開示方法にある。