主榜排名に関するAIニュース | Winzheng AI ニュース

Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

YZ Index 2026年6月の実測において、Qwen3 Maxのメインランキングスコアが前日の100点から80.82点へと19.2点下落した。主因はコード実行次元の31.2点急落であり、モデルの能力退化と断定するには単日データのみでは不

Qwen3 Max 代码执行 Smoke评测模型波动

5日前 276

レビュー

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

YZ Index による2026年6月17日の11モデル実測において、Qwen3 Max の材料制約スコアが前日の100点から71.1点へ急落し、メインランキングでも73.25点にとどまった。実行スコアが各社で満点に達する中、材料制約の安定

Qwen3 Max 材料约束 Smoke轻量评测代码执行

2026年6月17日 163

レビュー

豆包Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

YZ Indexが2026年6月に実施したSmokeテストで、豆包Proのメインランキングスコアが82.36点から72.50点へと9.9点下落した。主な原因はコード実行スコアが100.00点から50.00点へ半減したことにある。

豆包 Pro 代码执行 Smoke评测模型波动

2026年6月16日 234

レビュー

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

YZ Index 2026年6月の実測において、Claude Sonnet 4.6のSmokeテストにおけるコード実行スコアが前日の100.00から50.00へ急落し、メインランキング全体も79.44から72.50に低下した。この変動が題目

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月16日 263

レビュー

Claude Opus 4.7が100点で首位独走、9モデルのコード実行スコアが50点暴落

2026年6月16日のSmoke軽量評価結果において、Claude Opus 4.7が全項目満点の100点を獲得し唯一の満点モデルとなった一方、9モデルでコード実行スコアが50点以上急落する大きな格差が生じた。

Claude Opus 4.7 代码执行 Smoke评测主榜排名

2026年6月16日 216

レビュー

豆包Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰

本日のSmokeテストにおいて、豆包Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプルによる問題

豆包 Pro 材料约束 Smoke测试模型波动

2026年6月15日 313

レビュー

Claude Opus 4.7の材料制約スコアが16.5点急落――メインランキングは96.83から90.78へ

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7の材料制約スコアが96.00点から79.50点へ大幅に低下し、メインランキングも96.83点から90.78点へ下落した。単日データのみのため断定は早計

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年6月13日 220

レビュー

Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差

Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。

Claude Sonnet 4.6 材料约束 Smoke轻量评测主榜排名

2026年6月10日 228

レビュー

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

今週のYZ Index v6メインランキングでは、旧モデルが一斉に退場し新モデルが大量に参入。Grok 4がメインランキング89.90点で首位を獲得し、Claude Opus 4.7、豆包Proがそれに続いた。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 268

レビュー

Smokeクイックテスト：文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 371

レビュー

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 357

レビュー

11モデル世代交代戦：首位は安定維持、Grokが最下位

2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 442

主榜排名 に関するニュース

Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

豆包Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

Claude Opus 4.7が100点で首位独走、9モデルのコード実行スコアが50点暴落

豆包Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰

Claude Opus 4.7の材料制約スコアが16.5点急落――メインランキングは96.83から90.78へ

Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

Smokeクイックテスト：文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

11モデル世代交代戦：首位は安定維持、Grokが最下位

主榜排名に関するニュース