GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転:Smoke 7 日間データが明かす真の動向
Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。
Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。
2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい
Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。
最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。
WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。
WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。
WDCD遵守テストで11モデルのうち、Claude Opus 4.7、GPT-5.5、GPT-o3の3モデルが70点で並びトップとなり、文心一言4.5は50点で明らかな断層を見せ最下位となった。
Smoke 本日のクイックテストで Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5 が 87.76 点で並列首位となり、コード実行は満点だが材料制約次元で warn シグナルが発生した。
本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。
Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。
最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。
WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。
11の主流モデルがWDCD三回テストで明確な減衰軌跡を示し、R1段階ではほぼ全員が制約を確認したものの、R3段階での直接的な圧力下では平均誠実率がわずか30.5%にまで低下し、200回のテストで直接ゼロになった事例もあった。
WDCD 遵守テスト第1ラウンドの公開ランキングで、Qwen3 Max が70.83点で首位、Grok4 が51.67点で最下位となり、R3段階での平均違反率は60.6%に達し、多くのモデルが実際の企業制約下で依然として容易に違反することが
Smoke クイックテストの直近7日間データによると、DeepSeek V4 Pro は97.08から66.88まで急落し、平均79.8、トレンド-30.2を記録。一方GPT-5.5とClaude Sonnet 4.6は安定的に反発し、誠実
ERNIE Bot 4.5は本日のSmoke快速テストにおいて、メインランキングが74点から62.96点へと11ポイント下落し、コード実行スコアは100点から50点へ崩壊した。単日の変動か、それとも実質的な退化か、引き続き観察が必要である。
ERNIE Bot 4.5の実行スコアが昨日の100から50へ半減し、メインランキングが11ポイント下落して62.96となった。GPT-o3とGPT-5.5は同時に回復し、Claude双璧が引き続き首位を独占している。
DeepSeek V4 Proが本日のSmoke評価で極端に分化した結果を示し、メインボードは87.99点まで急騰した一方、工程判断は10.00点に半減した。コード実行は満点を獲得したが、安定性とシステム的思考に明らかな短所が露呈している。
Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。
Doubao Pro が本日の Smoke 評価でメインランキングが81.33点から40.12点へ41.2点下落。コード実行次元が満点100点から20点へ崩落し、単日で80点を失った。