Claude Opus 4.6の安定性が22.5ポイント急落：出力フォーマットの混乱が注目を集める

2026年3月22日 787 約5分 winzheng.com

Claude 稳定性测试 AI评测性能波动输出格式

今週の評価データによると、Claude Opus 4.6の安定性スコアが断崖式の下落を示し、先週の53.5ポイントから31.0ポイントへと、42.1%の下落幅を記録した。この異常な表現は、当該モデルバージョンの安定性に対する業界の広範な注目を集めている。

失点した問題の詳細な分析を通じて、安定性の問題は主に以下のいくつかの側面に集中していることが分かった：

テスト問題の例：構造化されたJSON形式の製品情報の生成を要求
期待される出力：標準的なJSON形式
実際の出力：一部のテストでは、Markdownと平文コンテンツを含む混合形式が返された

複数ラウンドの対話テストにおいて、モデルは明らかなコンテキスト理解の不一致性を示した。同じ質問に対する異なる時点での回答に大きな差異が存在し、これが安定性スコアに直接影響を与えた。

注目すべきは、安定性が大幅に低下する一方で、Claude Opus 4.6は他の次元では優れた表現を示していることだ：

この「一長一短」の現象は、モデルが特定の能力に対する最適化調整を経験した可能性を示しているが、この調整は出力の一貫性を犠牲にする代償を伴った可能性がある。

評価データと業界経験に基づくと、安定性の低下は以下の技術的要因に由来する可能性がある：

1. モデル重み調整の副作用
プログラミング能力を向上させるために行われたモデルのファインチューニングが、他のタスクの出力安定性に影響を与えた可能性がある。プログラミングタスクは通常、より強い論理的推論能力を必要とし、この能力の強化がモデルの全体的な行動パターンを変化させた可能性がある。

2. サンプリングパラメータ設定の変更
出力の不一致性は、温度パラメータまたは他のサンプリング戦略の調整が存在する可能性を示唆している。高い温度設定は創造性を高めることができるが、出力の予測可能性を低下させる。

3. 推論最適化による副作用
コストパフォーマンスが2.8ポイントから4.0ポイントへと向上（42.9%増加）したことは、推論効率の最適化が行われた可能性を示唆している。この種の最適化は量子化やプルーニングなどの技術によって実現されることがあり、モデルの安定性に影響を与える可能性がある。

安定性の低下は、異なる応用シーンに対して異なる程度の影響を与える：

Claude Opus 4.6の総合スコアが40.3から51.3へと向上したことは、全体的な性能が依然として改善していることを示している。しかし、安定性の大幅な低下は、AIモデルの最適化が複数の次元のバランスを必要とする複雑なプロセスであることを改めて認識させる。

ユーザーにとっては、具体的な応用シーンに基づいて適切なモデルバージョンを選択することを推奨する。アプリケーションが出力の一貫性に高い要求を持つ場合、後続バージョンの安定性改善を待つ必要があるかもしれない。一方、プログラミングや長文処理タスクについては、新バージョンが示す能力向上は試す価値がある。

今回の評価結果は、AIモデルの進化が線形的な進歩ではなく、異なる能力次元間で最適なバランスを探る継続的な探索プロセスであることを再び証明している。

データソース：YZ Index | 元データ

関連記事