Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落
YZ Index 2026年6月の実測において、Qwen3 Maxのメインランキングスコアが前日の100点から80.82点へと19.2点下落した。主因はコード実行次元の31.2点急落であり、モデルの能力退化と断定するには単日データのみでは不
YZ Index 2026年6月の実測において、Qwen3 Maxのメインランキングスコアが前日の100点から80.82点へと19.2点下落した。主因はコード実行次元の31.2点急落であり、モデルの能力退化と断定するには単日データのみでは不
YZ Index による2026年6月17日の11モデル実測において、Qwen3 Max の材料制約スコアが前日の100点から71.1点へ急落し、メインランキングでも73.25点にとどまった。実行スコアが各社で満点に達する中、材料制約の安定
YZ Indexが2026年6月に実施したSmokeテストで、豆包Proのメインランキングスコアが82.36点から72.50点へと9.9点下落した。主な原因はコード実行スコアが100.00点から50.00点へ半減したことにある。
YZ Index 2026年6月の実測において、Claude Sonnet 4.6のSmokeテストにおけるコード実行スコアが前日の100.00から50.00へ急落し、メインランキング全体も79.44から72.50に低下した。この変動が題目
2026年6月16日のSmoke軽量評価結果において、Claude Opus 4.7が全項目満点の100点を獲得し唯一の満点モデルとなった一方、9モデルでコード実行スコアが50点以上急落する大きな格差が生じた。
本日のSmokeテストにおいて、豆包Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプルによる問題
YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7の材料制約スコアが96.00点から79.50点へ大幅に低下し、メインランキングも96.83点から90.78点へ下落した。単日データのみのため断定は早計
Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。
今週のYZ Index v6メインランキングでは、旧モデルが一斉に退場し新モデルが大量に参入。Grok 4がメインランキング89.90点で首位を獲得し、Claude Opus 4.7、豆包Proがそれに続いた。
Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。
Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。
2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。