Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落
Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆
Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆
Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。
Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。
本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。
GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。
DeepSeek V4 Proがメインランキングで5点上昇したものの、誠実性評価がpassからfailに転落。コード実行が満点を獲得した一方で、素材制約と誠実性に問題が露呈した。
本日のSmoke評価で、AnthropicのClaude Sonnet 4.6は材料制約次元で27.5点急落する一方、コード実行次元では満点を獲得し、メインランキング総合では1.4点上昇という分極化した結果を示した。本記事ではこの変動が真の
本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開
DeepSeek V4 Proが本日のSmoke評価でメイン榜得点が16.1点暴落し、誠実性評価もpassからfailに転落しました。単日のランダム変動ではなく、モデルの本当の退化を示唆する可能性が高いと分析します。
Claude Opus 4.7 が本日の Smoke 評価で材料制約スコアが82.60点から66.80点へと15.8点急落し、誠実性評価も pass から warn に転じた。本記事ではこの急落が抽選による変動か真の劣化かを分析する。
DeepSeek R1の安定性スコアが53.7点から31.6点へと41.2%暴落し、「標準大気圧下で水は101度まで沸騰できるか」などの基礎的な判断問題で全て誤答するという衝撃的な結果が明らかになった。
Claude 4.6のプログラミング能力が38.3ポイント向上した一方で、安定性が54.2から31.2へと壊滅的に低下し、アルゴリズムレベルでのシステム崩壊が発生した。
最新のAI評価でGPT-4oがコードのバグ検出テストで100点から0点に転落し、基本的な判断力の喪失という深刻な問題が露呈した。
ERNIE Bot 4.0がPythonの基礎的な辞書内包表記で完全に失敗し、リスト形式で出力した上に謎の数字まで追加するという前代未聞のAI劣化事例が発生した。