Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ 素材制約が最大の分水嶺に
本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。
本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。
Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。
2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい
Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。
Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。
Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。
Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。
Claude Opus 4.7は本日のSmoke評価でメイン指標が93.48点から70.93点へと一日で22.6点下落し、コード実行次元が満点100点から50点へと半減したことが主な要因となった。
Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適
本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン
11モデルを対象とした軽量評価Smokeで、Claude Opus 4.7が88.75点で首位を獲得。9モデルがコード実行満点を取る中、ERNIE Bot 4.5とGrok 4はコード実行でゼロ点となった。
本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ