Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増
Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった
Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった
本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。
本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下
Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。
Gemini 3.1 Pro は本日の Smoke 評価でメインスコアが8.5点下落し、コード実行次元は66.70から57.20へと急落しました。サンプル数の少なさによる変動か、それとも実質的な能力低下なのかを分析します。
本日のSmoke簡易評価でDoubaoProが91.23点で首位を独占し、コード実行で100点満点を獲得。一方、他の主要モデルは実行スコアが軒並み崩壊し、Gemini 2.5 Proなど9モデルが主要ランキングで30点以上の大幅下落となった
DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。
Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。
Smoke 10問クイックテストで Grok 4 が98.34点で首位を獲得し、コード実行は満点を達成。一方 Claude Opus 4.7 は前日から31.3点も下落し、モデル間の実行能力の差が顕著に表れた。
今回のWDCDサイクル変化追跡では、11の評価対象モデルのうち6つが顕著な下落を示し、上昇したモデルはゼロでした。GPT-5.5は19.2ポイントの下落で最大の敗者となり、Claudeシリーズが遵守能力で他を引き離す傾向が鮮明になっています
WDCD遵守テストの試験運用データによると、業務ルールシナリオは全モデル共通の弱点となり最高得点はわずか2.5点、一方で安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。
WDCDテストでは三段階の漸進的な圧力により、モデルが持続的なストレス下で約束を守れなくなる崩壊軌跡を精密に捕捉。R1段階ではほぼ全モデルが完璧な確認を示すが、R3直接圧力段階では平均誠実率が17.7%まで急落することが判明した。
今回の WDCD 遵守テストでは Claude Opus 4.7 が 65.00 点で首位に立ち、DeepSeek V4 Pro は 47.50 点で最下位となった。R3 段階の全体崩壊率は 77.3% に達し、高圧的な追及下での持続的拒否
Gemini 2.5 Proが本日のSmoke評価でメインランキング22.6点を失い、コア実行スコアは100点から95点に下落。サブランキングのエンジニアリング判断は66.7点から30点へ崩落し、誠実性評価もfailとなった。
ERNIE Bot 4.5は本日のSmoke速報テストで、主榜の得点が小幅上昇したものの、誠実性評価がpassからfailに転落。コード実行は42.5点急騰した一方、工程判断と任務表現は崩壊的な下落を見せた。
本日のSmoke 10問快速テストでClaude Sonnet 4.6が97.5点で首位を獲得、Gemini 3.1 Proは前日比23.2点の大幅下落となった。ERNIE Bot 4.5はFail判定を受け、誠実性評価で異常信号が集中した
Claude Opus 4.7は本日のSmoke評価でメイン指標が93.48点から70.93点へと一日で22.6点下落し、コード実行次元が満点100点から50点へと半減したことが主な要因となった。
DoubaoProが本日のSmoke評価でマテリアル制約スコアが95点から79.8点へ15.2点急落し、メインランキングも97.75点から90.91点に下落した。原因は出題抽選による偶発性か、それともモデル能力の短期的退化か注目される。
Smokeの10問クイックテストでAIモデルの実行能力の弱点が浮き彫りに。Grok 4が97.44点で首位に立つ一方、GPT-o3は昨日から28.1点暴落した。
同じSQL連続ログイン問題で、11個の主流モデルが2つの陣営にはっきり分かれた。8個は完全に正しい回答を出した一方、3個は完全に崩壊した。