材料约束に関するニュース

DeepSeek V4 Pro、材料制約スコアが31.8点急落——コード実行は69.5から100点に急上昇

DeepSeek V4 ProのSmoke評価において、材料制約スコアが31.8点急落した一方、コード実行スコアは30.5点急上昇し、ほぼ対称的な変動を示した。専門家はこれをモデルの構造的劣化ではなく、サンプリングのランダム性によるものと分

DeepSeek V4 Pro 材料约束 Smoke评测主榜波动

GPT-o3、コード実行スコアが52.5点急上昇――素材制約は15.7点下落、総合ランキングは21.8点上昇

GPT-o3が本日のSmokeベンチマークにおいて、コード実行スコアを44.50点から97.00点へと大幅に伸ばした一方、素材制約スコアは100.00点から84.30点へ低下した。総合ランキングスコアは69.48点から91.29点へと21.

GPT-o3 材料约束 Smoke评测主榜波动

GLM-4.6、材料制約で93.30点を記録も誠実性評価はfail――コード実行25.00点が総合ランキングの足を引っ張る

2026年7月23日実施のRun#243 Smokeテストにおいて、GLM-4.6は総合ランキング55.74点を記録。材料制約で93.30点の高得点を挙げた一方、コード実行は25.00点にとどまり、誠実性評価はfail（プローブ30.00点

GLM-4.6 诚信评级代码执行材料约束

GLM-4.6の誠実性評価がpassからfailに転落、コード実行スコアは47点急上昇

GLM-4.6は本日のSmoke評価テストにおいて誠実性評価がpassからfailに急落した一方、コード実行スコアが50.00点から97.00点へと47点上昇し、メインランキング総合スコアも62.83点から74.00点に改善した。

GLM-4.6 诚信评级 Smoke 评测代码执行

Claude Opus 4.7、Smoke評価でメインスコアが26.1ポイント急落——コード実行と資料制約の両次元で失守

本日のSmoke評価において、Claude Opus 4.7のメインスコアが100.00点から73.92点へと26.1ポイント下落した。コード実行・資料制約の両次元で25ポイント以上の降下が確認されたが、小サンプルによる変動の可能性が高いと

Claude Opus 4.7 代码执行 Smoke评测材料约束

2026年7月21日 189

Gemini 3.1 Pro、材料制約スコアが17.8点急落――総合ランキングも6点下落

本日のSmoke評価において、Gemini 3.1 Proの材料制約スコアが90.40点から72.60点へと17.8点下落し、総合ランキングも81.93点から75.90点に低下した。ただし、コード実行・エンジニアリング判断の各スコアは改善し

Gemini 3.1 Pro 材料约束 Smoke评测主榜波动

2026年7月21日 158

Gemini 2.5 Pro、コード実行スコアが1日で24.6点下落――メインランキングも6.5点低下

本日のSmoke評価において、Gemini 2.5 Proのコード実行スコアが74.60点から50.00点へと24.6点急落し、メインランキング全体も76.49点から69.98点に低下した。ただし、サンプル数の少なさによる抽選変動が主因と分

Gemini 2.5 Pro 代码执行 Smoke评测材料约束

2026年7月20日 164

Gemini 3.1 Pro、材料制約スコアが26.6点下落も総合ランキングは5.4点上昇

本日のSmoke評価においてGemini 3.1 Proの材料制約スコアが90.90点から64.30点へ26.6点急落した一方、コード実行スコアの大幅回復により総合ランキングは51.03点から56.44点へと上昇した。

Gemini 3.1 Pro 材料约束 Smoke评测维度波动

2026年7月19日 143

Grok 4のSmokeベンチマーク主榜スコアが17.5点急落——材料制約次元は1日で21.9点下落

Grok 4が本日のSmokeベンチマーク評価において、主榜スコアが昨日の94.15点から76.65点へと17.5点下落した。特に材料制約次元の単日下落幅が21.9点と最大で、日次の問題抽選による変動が主因と分析されている。

Grok 4 材料约束 Smoke评测代码执行波动

2026年7月17日 155

Gemini 3.1 Pro、Smoke評価のメインランキングで8.5点急落——コード実行は75点から半減

Gemini 3.1 ProがSmokeベンチマーク評価のメインランキングで80.99点から72.50点へ8.5点下落し、特にコード実行次元が75点から50点へ25点の大幅下落を記録した。サンプル数の少なさによる抽選変動が主因とみられる。

Gemini 3.1 Pro 代码执行 Smoke 评测主榜波动

2026年7月15日 104

Claude Opus 4.7、主要ランキングで14点下落――コード実行スコアが100から69へ

Claude Opus 4.7はSmoke評価の主要ランキングにおいて96.99点から82.95点へと下落し、コード実行ディメンションが100.00点から69.00点へ31点落ち込んだ。ただし、モデル全体の能力低下ではなく、当日の出題サンプ

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年7月13日 212

GLM-4.6、材料制約スコアが25点急落・コード実行は50点上昇——Smokeテスト総合ランキングは逆に上昇

GLM-4.6は本日のSmokeテストで材料制約スコアが50点から25点へ急落した一方、コード実行スコアが25点から75点へ上昇し、総合ランキングのスコアは36.25点から52.50点へ上昇した。

GLM-4.6 材料约束 Smoke评测得分波动

2026年7月12日 371

Grok 4、メインランキングが8.4点急落——材料制約スコアが1日で17.6点下落

Grok 4は本日のSmoke評価においてメインランキングのスコアが昨日の87.66点から79.30点へと8.4点下落した。主な要因は材料制約ディメンションの大幅な低下であり、誠実性評価もpassからwarnに変化した。

Grok 4 材料约束 Smoke 评测主榜波动

2026年7月10日 190

GPT-o3、材料制約スコアが16.8点急落——タスク表現も同期して28.3点下落

GPT-o3が本日のSmoke評価テストで材料制約スコアが66.80点と昨日の83.60点から16.8点下落し、メインランキング総合スコアも83.44点から80.39点に低下した。材料制約とタスク表現が同時に大幅下落した一方、コード実行スコ

GPT-o3 材料约束 Smoke评测维度波动

2026年7月9日 203

Qwen3 Max、材料制約スコアが15.1点急落——コード実行は18.4点上昇

Qwen3 MaxのSmoke評価において、材料制約スコアが83.60点から68.50点へ15.1点下落した一方、コード実行スコアは73.10点から91.50点へ18.4点上昇した。主要ランキングスコアは77.83点から81.15点へ上昇し

Qwen3 Max 材料约束 Smoke评测主榜波动

2026年7月9日 178

GLM-4.6、資料制約25点・コード実行88.7点・誠実性プローブがゼロ

GLM-4.6は2026-07-05 Run#214のSmokeクイックテストにおいて、コード実行で88.70点を記録した一方、資料制約は25.00点にとどまり、誠実性評価はfailと判定された。同日テストされた11モデルの中で、誠実性プロ

GLM-4.6 材料约束诚信评级 Smoke快测

2026年7月5日 318

Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

YZ Index 2026年7月4日のSmoke軽量評価（11モデル対象）で、Gemini 2.5 Pro が主榜96.99点で首位を獲得。一方、Qwen3 Max は12.9点急落し72.02点に後退した。

Gemini 2.5 Pro Qwen3 Max Smoke评测代码执行

2026年7月4日 291

Gemini 3.1 Pro が82.97点で首位、実行スコア75点で2位との差を広げる

YZ Index 2026年7月2日のSmoke軽量評価において、Gemini 3.1 Proが82.97点で1位を獲得。実行スコアが順位を左右する主要因となった。

Gemini 3.1 Pro 代码执行材料约束 Smoke 评测

2026年7月2日 509

Doubao Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

2026年6月28日のSmokeライト評価において、Doubao Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落

豆包 Pro Claude Opus 执行维度材料约束

2026年6月28日 239

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。

Claude Opus 4.7 代码执行 Smoke轻量评测材料约束

2026年6月27日 251