Anthropicは2026年6月12日、Claude Fable 5モデルにユーザーへ開示されていない隠れたガードレールが内蔵されていたことを公式に認め、謝罪した。
事件の核心的事実
公式声明により、モデルが推論プロセス中に非公開の安全フィルタリングステップを追加で実行していたことが確認された。これらのステップは技術ドキュメントやAPI仕様には記載されていなかった。2つの独立した情報源がこの声明の真実性を確認している。
開発者らは、同一のプロンプトが異なる時間帯に30%以上の差異がある結果を返すことを示すテストケースを公開した。彼らは、この隠れたガードレールが実験の再現性を損なっていると主張している。
開発者による具体的な批判
複数の研究者が、隠れたガードレールはAnthropicがこれまで公式に表明していた「モデルの動作は完全に設定可能」という原則に直接違反すると指摘した。一部の開発者はすでにClaude Fable 5のAPI使用を停止し、他のモデルへ移行している。
透明性はオプションではなく、再現可能な研究の前提条件だ。——開発者 @ai_researcher
異常シグナルの根本的原因
この事件は、Anthropicのモデルデプロイ段階における内部意思決定プロセスを露呈した。隠れたガードレールは、安全チームとプロダクトチームの権限分離に起因している可能性が高い。安全チームはプロダクトドキュメントチームへの通知なしにフィルタリングロジックを追加できる立場にある。
このような分離は、急速に反復されるモデルバージョンの中で生じやすい。Claude Fable 5は2026年第2四半期にリリースされたバージョンであり、反復サイクルは90日未満だった。短いサイクルの下では、ドキュメントの同期メカニズムがコードの変更に追いつけない。
安全最優先の組織文化がこの慣行をさらに強化した。Anthropicは安全対策をユーザーへの可視性より優先できると繰り返し公言しており、この立場は内部レビューでは支持を得ていたが、対外的なコミュニケーションでは十分に説明されていなかった。
双方の立場の比較
Anthropicは、隠れたガードレールは明確に違法なコンテンツをブロックする目的にのみ使用されており、通常の研究用途には影響を与えていないと強調した。これに対して開発者らは、たとえフィルタリングの目的が明確であっても、未知のフィルタリングはモデルの出力分布を変化させ、出力の統計に依存するあらゆる研究に影響を与えると反論した。
双方の議論の焦点は「安全性」と「検証可能性」のどちらを重視するかに集約されている。Anthropicは安全性が基本的な責任であると主張し、開発者側は検証不可能な安全対策そのものが持続不可能だと主張している。
独自の見解
業界内の他のモデルプロバイダーはすでにリリースノートにすべての安全フィルタリング層を列挙し始めている。Anthropicがこの動きに追随しなければ、研究コミュニティにおける優位性をさらに失うことになるだろう。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接