得分波动に関するAIニュース | Winzheng AI ニュース

GLM-4.6、材料制約スコアが25点急落・コード実行は50点上昇——Smokeテスト総合ランキングは逆に上昇

GLM-4.6は本日のSmokeテストで材料制約スコアが50点から25点へ急落した一方、コード実行スコアが25点から75点へ上昇し、総合ランキングのスコアは36.25点から52.50点へ上昇した。

YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増

YZ Index の Smoke 評価において、Qwen3 Max の材料制約スコアが1日で28.9点下落したが、メインランキングスコアは微増しており、モデル能力の系統的な劣化よりも問題抽選によるばらつきである可能性が高いと分析されている。

GPT-o3は今回のv6評価で総合スコアが向上したものの、厳格問題「蓄水池サンプリング」で100点から0点に急落し、コード実行の信頼性に課題が露呈した。エンジニアリング判断は急上昇したが、正確なアルゴリズム実装能力には依然として系統的なリス