Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド

2026年6月12日から14日にかけて連続3日間実施されたSmoke速報テストにおいて、Claude Opus 4.7は初日の96.83点から最終日の69.91点へと下落し、降落幅26.9点で全モデル中最大の下落を記録した。

唯一上昇したモデルのパフォーマンス

GPT-5.5は今回唯一の上昇トレンドを示したモデルであり、初日92.19点・最終日95.24点、トレンド値+3.1、平均90.7、変動幅10.5を記録した。誠実性評価は3日間でpassからwarn、再びpassへと変化し、一定の不安定性が見られたものの、総合スコアは90点以上の水準を維持した。

Claudeシリーズが揃って大幅下落

Claude Opus 4.7とClaude Sonnet 4.6が同時に大幅な下落を示した。Claude Sonnet 4.6は94.9点から69.35点へと下落し、トレンド-25.6、変動幅25.6を記録したほか、誠実性評価もwarn-pass-warnの間を繰り返した。両モデルの平均点はそれぞれ85.8点と82.8点であり、最終日のスコアはすでに70点に迫る水準となっており、連続テストにおける一貫性の明確な低下が示された。

変動幅が最大だった3モデル

Claude 2モデルを除くと、Qwen3 Maxの変動幅が31.1点、豆包 Proの変動幅が31.1点、Gemini 2.5 Proの変動幅が19.3点であった。これらのモデルは標準偏差が大きく、同種の問題でも日付によってスコアの差異が顕著であることを意味する。Qwen3 Maxは72.91点から52.89点へと一貫して下落し、平均値はわずか69.9点と、今回の期間で最も低い平均値を持つモデルの一つとなった。

誠実性評価変化のシグナル

今回の期間に誠実性評価の変動が見られたモデルはClaude Sonnet 4.6とGPT-5.5である。Claude Sonnet 4.6のwarn-pass-warnの推移はスコアの急落と同期しており、GPT-5.5はpass-warn-passの間を切り替えながらもスコアはわずかに上昇した。誠実性評価は参入基準として機能しており、繰り返しの変動は通常、モデルの事実一貫性や出力規範に潜在的な問題があることを予兆する。

横ばい・小幅下落モデル

GPT-o3は相対的に安定を維持し、初日90.51点・最終日91.43点、トレンド+0.9、変動幅わずか8.2と、全モデル中最も変動幅の小さいモデルであった。Gemini 3.1 ProとGrok 4はそれぞれ4.5点と13.2点の下落にとどまり、最終日のスコアは依然として80点以上を維持しており、下落幅は比較的穏やかであった。

来週のFull評価テストの予測

3日間のSmokeテストデータに基づくと、GPT-5.5は来週のFull評価テストにおいてメインランキングの順位を維持もしくは小幅に上昇させる可能性がある。一方、Claude Opus 4.7とClaude Sonnet 4.6は現在の変動幅が継続した場合、core_overall_displayスコアへの下押し圧力が続く可能性がある。変動幅が25点を超えたモデルについては、groundingおよびexecutionの各次元における安定性を重点的に観察する必要がある。

3日間連続のSmoke速報テストがすでに明らかにしたこと:スコアの大幅な変動と誠実性評価の繰り返しは、メインランキングの崩壊に先行して現れることが多い。

データ出典:YZ Index | Run #170 | 元データを見る