2026-06-16 Smoke軽量評価結果によると、Claude Opus 4.7はメインランキングスコア100点、コード実行100点、資料制約100点を記録し、誠実性評価もpassとなり、当日唯一の満点モデルとなった。
スコア構造が示すモデルの分化
メインランキングの算出式はcore_overall = 0.55 × コード実行 + 0.45 × 資料制約である。当日の11モデルのうち、9モデルは資料制約で100点を維持したが、コード実行は50点または0点にとどまり、メインランキングのスコアは45〜72.5点の範囲に集中した。文心一言4.5はコード実行66.7点・資料制約100点でメインランキング81.69点を獲得し2位につけており、そのコード実行スコアは他の50点モデルより16.7点高い。
Claude Sonnet 4.6、豆包Pro、GPT-o3、Grok 4、Qwen3 Maxの5モデルはいずれもコード実行50点・資料制約100点で、メインランキングは同じく72.5点となった。DeepSeek V4 ProとGPT-5.5はコード実行50点・資料制約94.5点でメインランキング70.03点。Gemini 2.5 ProとGemini 3.1 Proはコード実行0点・資料制約100点でメインランキング45点となった。
前日比における異常な変動
前日データとの比較では、文心一言4.5のメインランキングスコアが31.1点上昇し、コード実行が16.7点・資料制約が48.7点それぞれ増加した一方、誠実性評価はpassからwarnへと変化した。Claude Opus 4.7はメインランキングスコアが18.3点上昇し、資料制約が40.7点増加、誠実性評価はwarnからpassへと改善した。
9モデルでコード実行が-50点、またはメインランキングスコアの明確な下落が確認された。具体的にはGPT-5.5が12.3点下落、Grok 4が10.1点下落、豆包Proが9.9点下落、Qwen3 Maxが9.6点下落、Gemini 2.5 Proが8.4点下落した。Claude Sonnet 4.6とGPT-o3はコード実行スコアがいずれも50点暴落した。
コード実行と資料制約のアンバランスが示すシグナル
資料制約の次元が高水準を維持する一方でコード実行が軒並み低下したことは、当日のテスト問題がコード生成またはデバッグ工程に対してより高い要求を課していた可能性を示している。Geminiシリーズはコード実行スコアが直接ゼロとなり、前日比でメインランキングが約8点下落しており、コード実行における出力と採点基準のズレが拡大したことを示している。
文心一言4.5はコード実行次元において相対的に優れた結果を示しており、当日の10問においてコード系問題への応答がより安定していた可能性がある。Claude Opus 4.7は両次元ともに満点を獲得しており、コード実行の正確性と資料引用の制約遵守の両面で採点基準を満たしていることを示している。
Claude Opus 4.7がダブル100点で築いたリードは、コード実行スコアが軒並み50点以下に留まる他モデルが短期間で追いつくことは難しいだろう。
データ出典:YZ Index | Run #182 | 元データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接