Smoke评测に関するAIニュース | Winzheng AI ニュース

Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアが96.45点から70.52点へと25.9点急落した。主な原因はコード実行ディメンションが100.00点から50.00点へと半減したこ

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

15時間前 58

レビュー

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。

Claude Opus 4.7 代码执行 Smoke评测主榜波动

15時間前 42

レビュー

豆包Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

2026年6月28日のSmokeライト評価において、豆包Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落した。

豆包 Pro Claude Opus 执行维度材料约束

15時間前 46

レビュー

4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5

代码执行材料约束文心一言4.5 Claude Opus 4.7

4日前 248

レビュー

Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

YZ IndexによるSmoke評価において、Qwen3 Maxの主榜スコアが85.96点から74.00点へと12点下落した。同時に誠実性評価がpassからfailへと転落したことが注目される。

Qwen3 Max 主榜 Smoke评测材料约束

5日前 251

レビュー

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

6日前 213

レビュー

Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇

YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増

Qwen3 Max 材料约束 Smoke评测得分波动

6日前 208

レビュー

Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

YZ Index 2026年6月の実測において、Qwen3 Maxのメインランキングスコアが前日の100点から80.82点へと19.2点下落した。主因はコード実行次元の31.2点急落であり、モデルの能力退化と断定するには単日データのみでは不

Qwen3 Max 代码执行 Smoke评测模型波动

2026年6月21日 311

レビュー

GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減

2026年6月20日のSmoke軽量評価において、GPT-5.5の総合スコアが93点から72.5点に急落し、実行スコアが100点から50点へと半減した。Gemini 3.1 ProやGemini 2.5 Pro、文心一言4.5も同様に実行ス

GPT-5.5 代码执行 Smoke评测执行约束失衡

2026年6月20日 214

レビュー

豆包 Pro の材料制約スコアが15.9点急落——Smoke単日テスト異常の原因分析

YZ Index 2026年6月の実測において、豆包 Pro のSmokeテスト材料制約スコアが前日の100.00点から84.10点に急落した。本記事ではその原因がモデルの退化ではなくサンプル数の少なさによる統計的変動である可能性を解説する

豆包 Pro 材料约束 Smoke评测单日波动

2026年6月19日 224

レビュー

GPT-o3の材料制約スコアが1日で15.2点急落、Smoke主榜が100点から93.16点に低下

YZ Index 2026年6月の実測において、GPT-o3のSmokeベンチマーク「材料制約」スコアが前日の100.00点から84.80点に急落し、主榜全体も100.00点から93.16点に低下した。現時点では抽選による変動の可能性が高く

GPT-o3 材料约束 Smoke评测单日波动

2026年6月19日 230

レビュー

Grok 4の材料制約スコアが25.6点急落、メインランキングは逆に87点へ上昇

YZ IndexのSmoke評価テストにおいて、Grok 4の材料制約スコアが96.70点から71.10点へ25.6点下落した一方、コード実行スコアは満点となり、メインランキングは80.20点から87点へ上昇した。

Grok 4 材料约束 Smoke评测单日波动

2026年6月18日 232

レビュー

Grok 4の材料制約スコアが25.6点急落、4モデルが主要ランキングで満点並び

2026年6月18日のSmoke軽量評価において、Claude Opus 4.7、DeepSeek V4 Pro、豆包 Pro、GPT-o3の4モデルがコード実行と材料制約の両コア指標で100点を獲得し、主要ランキング総合スコア100点を達

Grok 4 材料约束 Smoke评测执行与约束

2026年6月18日 251

レビュー

文心一言4.5のメインランキングが10.4点急落、タスク表現次元が90点から46.3点へ半減

YZ Indexの2026年6月における11モデルの実測において、文心一言4.5のSmokeテストメインランキングスコアが81.69点から71.33点へと1日で10.4点下落した。ただし、抽選によるランダム変動の可能性が高く、モデル能力の系

文心一言4.5 主榜 Smoke评测维度波动

2026年6月17日 213

レビュー

Qwen3 Max の材料制約スコアが28.9点急落——メインランキングはわずか0.8点上昇

YZ Index の Smoke 評価において、Qwen3 Max の材料制約スコアが1日で28.9点下落したが、メインランキングスコアは微増しており、モデル能力の系統的な劣化よりも問題抽選によるばらつきである可能性が高いと分析されている。

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月17日 203

レビュー

豆包Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

YZ Indexが2026年6月に実施したSmokeテストで、豆包Proのメインランキングスコアが82.36点から72.50点へと9.9点下落した。主な原因はコード実行スコアが100.00点から50.00点へ半減したことにある。

豆包 Pro 代码执行 Smoke评测模型波动

2026年6月16日 253

レビュー

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

YZ Index 2026年6月の実測において、Claude Sonnet 4.6のSmokeテストにおけるコード実行スコアが前日の100.00から50.00へ急落し、メインランキング全体も79.44から72.50に低下した。この変動が題目

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月16日 302

レビュー

Claude Opus 4.7が100点で首位独走、9モデルのコード実行スコアが50点暴落

2026年6月16日のSmoke軽量評価結果において、Claude Opus 4.7が全項目満点の100点を獲得し唯一の満点モデルとなった一方、9モデルでコード実行スコアが50点以上急落する大きな格差が生じた。

Claude Opus 4.7 代码执行 Smoke评测主榜排名

2026年6月16日 256

レビュー

Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に

YZ IndexのSmoke評価において、Grok 4の材料制約スコアが83.00から61.30へと21.7点急落した一方、コード実行スコアは80.90から100.00へと満点を記録した。

Grok 4 材料约束 Smoke评测单日波动

2026年6月15日 324

レビュー

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月14日 290

Smoke评测 に関するニュース

Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

豆包Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落

Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇

Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減

豆包 Pro の材料制約スコアが15.9点急落——Smoke単日テスト異常の原因分析

GPT-o3の材料制約スコアが1日で15.2点急落、Smoke主榜が100点から93.16点に低下

Grok 4の材料制約スコアが25.6点急落、メインランキングは逆に87点へ上昇

Grok 4の材料制約スコアが25.6点急落、4モデルが主要ランキングで満点並び

文心一言4.5のメインランキングが10.4点急落、タスク表現次元が90点から46.3点へ半減

Qwen3 Max の材料制約スコアが28.9点急落——メインランキングはわずか0.8点上昇

豆包Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

Claude Opus 4.7が100点で首位独走、9モデルのコード実行スコアが50点暴落

Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

Smoke评测に関するニュース