代码执行に関するAIニュース | Winzheng AI ニュース

レビュー

GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈

2026年7月3日のSmoke軽量評価において、GPT-5.5がコード実行100点・素材制約71点の組み合わせで主ランキング86.95点を獲得し首位に立った。一方で、素材制約が現行モデル全般の共通課題であることも明らかになった。

GPT-5.5 代码执行 Smoke 轻量评测模型结构分析

2026年7月3日 243

レビュー

Gemini 3.1 Pro が82.97点で首位、実行スコア75点で2位との差を広げる

YZ Index 2026年7月2日のSmoke軽量評価において、Gemini 3.1 Proが82.97点で1位を獲得。実行スコアが順位を左右する主要因となった。

Gemini 3.1 Pro 代码执行材料约束 Smoke 评测

2026年7月2日 509

レビュー

Doubao Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

YZ Index 2026年6月の11モデル実測において、Doubao Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデ

豆包 Pro 代码执行 Smoke快测单日波动

2026年7月1日 944

レビュー

Grok 4のSmoke評価でメインスコアが1日で15.3点急落、コード実行は31.4点下落

YZ IndexのSmoke評価において、Grok 4のメインスコアが97.98点から82.73点へと15.3点急落し、特にコード実行ディメンションが100.00点から68.60点へと31.4点の大幅下落を記録した。ただし、少数サンプルによ

Grok 4 代码执行单日波动 Smoke快测

2026年7月1日 288

レビュー

Claude Opus 4.7が94.82点で首位、Gemini 3.1 Proは32.2点急落

2026年7月1日のSmokeライト評価において、Claude Opus 4.7が94.82点でメインランキング1位を獲得。一方、Gemini 3.1 Proはメインランキングで32.2点の大幅下落を記録した。

Claude Opus 代码执行模型排名执行约束失衡

2026年7月1日 484

レビュー

Claude Sonnet 4.6、YZ Index Smokeランキングで15.3点急落――コード実行が1日で25点下落

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインランキングスコアが97.84点から82.52点へと1日で15.3点下落した。ただし、サンプル数の少なさによる抽選変動の可能性が高く、真のモデ

Claude Sonnet 4.6 代码执行 Smoke评测主榜波动

2026年6月30日 262

レビュー

Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7のメインスコアが前日の100.00点から84.01点へ急落し、コード実行次元では100.00点から72.80点へ大幅に低下した。

Claude Opus 4.7 代码执行 Smoke评测单日波动

2026年6月30日 286

レビュー

Gemini 3.1 Pro が98.47点で首位に、Claude の実行スコアが27.2点急落し72.8点のみに

YZ Index 2026年6月30日 Smoke 軽量評価において、Gemini 3.1 Pro が主榜98.47点で首位を獲得。一方、複数モデルで実行スコアの大幅下落が確認され、Claude Opus 4.7は27.2点減の72.8点に

Gemini 3.1 Pro 代码执行 Smoke 轻量评测主榜跌幅

2026年6月30日 280

レビュー

Doubao Pro のSmoke評価メインランキングが13.8点急落、コード実行が100点から75点に直落

Winzheng のYZ Index 2026年6月の実測において、Doubao Pro のメインランキングスコアが98.61点から84.77点へと13.8点下落した。主な原因はコード実行次元の25点急落であり、モデル能力の全体的な劣化では

豆包 Pro 主榜 Smoke测试代码执行

2026年6月29日 246

レビュー

Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアが96.45点から70.52点へと25.9点急落した。主な原因はコード実行ディメンションが100.00点から50.00点へと半減したこ

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月28日 282

レビュー

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年6月28日 237

レビュー

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。

Claude Opus 4.7 代码执行 Smoke轻量评测材料约束

2026年6月27日 251

レビュー

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

Qwen3 Max 代码执行烟雾测试主榜波动

2026年6月24日 356

レビュー

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

Claude Opus 4.7 代码执行 Smoke快测单日波动

2026年6月24日 386

レビュー

4モデルの実行スコアが50に急落、ERNIE Botはメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、ERNIE Bot 4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコ

代码执行材料约束文心一言4.5 Claude Opus 4.7

2026年6月24日 453

レビュー

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月22日 352

レビュー

Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

YZ Index 2026年6月の実測において、Qwen3 Maxのメインランキングスコアが前日の100点から80.82点へと19.2点下落した。主因はコード実行次元の31.2点急落であり、モデルの能力退化と断定するには単日データのみでは不

Qwen3 Max 代码执行 Smoke评测模型波动

2026年6月21日 471

レビュー

Qwen3 Max が主要ランキングで19.2点急落——4モデルが実行・制約でダブル満点を達成

2026年6月21日のSmoke軽量評価において、DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4の4モデルが主要ランキング・コード実行・素材制約の全3項目で満点を獲得。一方、Qwen3 Maxはコー

Qwen3 Max 代码执行 Smoke轻量评测材料约束

2026年6月21日 308

レビュー

ERNIE Bot 4.5 Smokeメイン評価ランキングが1日で22.2点急落、コード実行スコアは半減して50点に

YZ Indexの2026年6月における11モデルの実測評価で、ERNIE Bot 4.5 Smokeのメインランキングスコアが93.25点から71.02点へと1日で22.2点下落した。特にコード実行ディメンションが44.1点の大幅下落を記

文心一言4.5 代码执行 Smoke测试单日波动

2026年6月20日 391

レビュー

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

GPT-5.5が本日のSmokeテストで主榜スコアが93.03点から72.50点へと20.5点下落した。コード実行ディメンションが100点から50点へと急落したことが主な要因だが、ランダムな出題による変動である可能性が高い。

GPT-5.5 代码执行 Smoke快测单日波动

2026年6月20日 325

代码执行 に関するニュース

GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈

Gemini 3.1 Pro が82.97点で首位、実行スコア75点で2位との差を広げる

Doubao Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

Grok 4のSmoke評価でメインスコアが1日で15.3点急落、コード実行は31.4点下落

Claude Opus 4.7が94.82点で首位、Gemini 3.1 Proは32.2点急落

Claude Sonnet 4.6、YZ Index Smokeランキングで15.3点急落――コード実行が1日で25点下落

Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

Gemini 3.1 Pro が98.47点で首位に、Claude の実行スコアが27.2点急落し72.8点のみに

Doubao Pro のSmoke評価メインランキングが13.8点急落、コード実行が100点から75点に直落

Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

4モデルの実行スコアが50に急落、ERNIE Botはメインランキングで34.1点の大幅下落

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

Qwen3 Max が主要ランキングで19.2点急落——4モデルが実行・制約でダブル満点を達成

ERNIE Bot 4.5 Smokeメイン評価ランキングが1日で22.2点急落、コード実行スコアは半減して50点に

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

代码执行に関するニュース