Claude Opus 4.7 Smoke評価でメインランキング9.6点暴落:退化のシグナルか、それとも抽選のドタバタ劇か?
本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ
本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ
本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開
Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質
Gemini 3.1 Pro は信頼性評価が fail から pass に転換し、メインボード得点が 74.00 から 88.98 へと 15 点急騰しました。本記事では、Smoke 評価データを詳細に分析し、この変動が抽選による偶然か、モ
DeepSeek V4 Proが本日のSmoke評価でメイン榜得点が16.1点暴落し、誠実性評価もpassからfailに転落しました。単日のランダム変動ではなく、モデルの本当の退化を示唆する可能性が高いと分析します。
Claude Opus 4.7 が本日の Smoke 評価で材料制約スコアが82.60点から66.80点へと15.8点急落し、誠実性評価も pass から warn に転じた。本記事ではこの急落が抽選による変動か真の劣化かを分析する。