代码执行に関するニュース

Claude Sonnet 4.6、コード実行スコアが22点急落――資料制約は25.7点上昇

本日のSmokeベンチマークにおいて、Claude Sonnet 4.6のコード実行スコアが97.00点から75.00点へと22点急落した一方、資料制約スコアは60.20点から85.90点へと25.7点上昇した。主要ランキングの総合スコアは

Claude Sonnet 4.6 代码执行 Smoke评测维度波动

DeepSeek V4 Pro、コード実行スコアが25点急落——材料制約は26.8点上昇

本日のSmokeベンチマークにおいて、DeepSeek V4 Proのコード実行スコアが100.00点から75.00点へと25点急落した一方、材料制約スコアは68.20点から95.00点へと26.8点上昇し、総合ランキングのスコアは85.6

DeepSeek V4 Pro 代码执行 Smoke评测分数波动

DeepSeek V4 Pro、材料制約スコアが31.8点急落——コード実行は69.5から100点に急上昇

DeepSeek V4 ProのSmoke評価において、材料制約スコアが31.8点急落した一方、コード実行スコアは30.5点急上昇し、ほぼ対称的な変動を示した。専門家はこれをモデルの構造的劣化ではなく、サンプリングのランダム性によるものと分

DeepSeek V4 Pro 材料约束 Smoke评测主榜波动

GLM-4.6、材料制約で93.30点を記録も誠実性評価はfail――コード実行25.00点が総合ランキングの足を引っ張る

2026年7月23日実施のRun#243 Smokeテストにおいて、GLM-4.6は総合ランキング55.74点を記録。材料制約で93.30点の高得点を挙げた一方、コード実行は25.00点にとどまり、誠実性評価はfail（プローブ30.00点

GLM-4.6 诚信评级代码执行材料约束

GLM-4.6の誠実性評価がpassからfailに転落、コード実行スコアは47点急上昇

GLM-4.6は本日のSmoke評価テストにおいて誠実性評価がpassからfailに急落した一方、コード実行スコアが50.00点から97.00点へと47点上昇し、メインランキング総合スコアも62.83点から74.00点に改善した。

GLM-4.6 诚信评级 Smoke 评测代码执行

GPT-o3のSmokeベンチマーク総合スコアが急落8.3点――コード実行は100点から88.3点へ

GPT-o3が本日のSmokeベンチマークで総合スコアを昨日の96.27点から87.94点へと8.3点落とした。コード実行・工程判断の両次元が大幅に下落し、誠実性評価も「pass」から「warn」に転じた。

GPT-o3 代码执行 Smoke评测主榜波动

Claude Opus 4.7、Smoke評価でメインスコアが26.1ポイント急落——コード実行と資料制約の両次元で失守

本日のSmoke評価において、Claude Opus 4.7のメインスコアが100.00点から73.92点へと26.1ポイント下落した。コード実行・資料制約の両次元で25ポイント以上の降下が確認されたが、小サンプルによる変動の可能性が高いと

Claude Opus 4.7 代码执行 Smoke评测材料约束

2026年7月21日 189

Qwen3 Max、メインランキングで14.9点急落——コード実行スコアが96.9から65.6へ激減

Qwen3 MaxがSmoke評価テストのメインランキングで前日比14.9点下落し、特にコード実行次元が31.3点の急落を記録した。誠実性評価もpassからwarnに変化し、明確なリスクシグナルが発生している。

Qwen3 Max 代码执行 Smoke评测主榜波动

2026年7月20日 157

Gemini 2.5 Pro、コード実行スコアが1日で24.6点下落――メインランキングも6.5点低下

本日のSmoke評価において、Gemini 2.5 Proのコード実行スコアが74.60点から50.00点へと24.6点急落し、メインランキング全体も76.49点から69.98点に低下した。ただし、サンプル数の少なさによる抽選変動が主因と分

Gemini 2.5 Pro 代码执行 Smoke评测材料约束

2026年7月20日 164

GPT-o3、メインランキングで13.8点急落――コード実行が70.3点から48.5点へ

GPT-o3が本日のSmokeテストにおいてメインランキングで80.61点から66.86点へ急落し、コード実行スコアが70.30点から48.50点へ単日21.8点の下落を記録した。各次元のスコア変動の原因と利用者への影響を分析する。

GPT-o3 代码执行 Smoke评测主榜波动

2026年7月19日 153

DeepSeek V4 Pro、メインランキングで11.9ポイント急落――コード実行は13.3ポイント低下

DeepSeek V4 Proが本日のSmoke評価においてメインランキングのスコアが93.84点から81.93点へと11.9ポイント下落した。特にコード実行と材料制約の2次元で大幅な低下が確認された。

DeepSeek V4 Pro 代码执行 Smoke评测主榜波动

2026年7月17日 152

Doubao Pro がメインランキングで15点急落：コード実行が75点から58.3点に下降

Doubao ProがSmoke評価テストのメインランキングで86.25点から71.22点に急落し、コード実行次元が75.00点から58.30点へと大幅に低下した。今回の変動は主に問題抽選のランダム性によるものとみられるが、複数のコア次元が

豆包 Pro 代码执行 Smoke评测主榜波动

2026年7月16日 132

Claude Opus 4.7がメインランキングで19.9点急落——コード実行は1日で25点低下

Claude Opus 4.7は本日のSmokeベンチマークにおいて、メインランキングスコアが100.00点から80.09点へと急落した。コード実行と資料制約の両次元が同日に大幅な失点を記録している。

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年7月16日 108

Gemini 3.1 Pro、Smoke評価のメインランキングで8.5点急落——コード実行は75点から半減

Gemini 3.1 ProがSmokeベンチマーク評価のメインランキングで80.99点から72.50点へ8.5点下落し、特にコード実行次元が75点から50点へ25点の大幅下落を記録した。サンプル数の少なさによる抽選変動が主因とみられる。

Gemini 3.1 Pro 代码执行 Smoke 评测主榜波动

2026年7月15日 104

DeepSeek V4 Proのコード実行スコアが23.7点急落、メインランキングも5.2点下落

DeepSeek V4 ProがSmoke評価のコード実行次元で98.70点から75.00点へと23.7点急落し、メインランキング全体も91.46点から86.25点に下落した。ただし、この変動は問題抽選によるばらつきの可能性が高く、モデルの

DeepSeek V4 Pro 代码执行 Smoke评测维度波动

2026年7月15日 72

DeepSeek V4 Pro、Smoke評価のメインランキングで16.9点急落――コード実行が1日で28点下落

DeepSeek V4 ProがSmoke評価のメインランキングで96.99点から80.10点へと16.9点下落した。主な要因はコード実行次元の28点急落であり、サンプル数が少ないことによる問題抽選の変動が主因とみられる。

DeepSeek V4 Pro 代码执行 Smoke评测主榜波动

2026年7月13日 297

Claude Opus 4.7、主要ランキングで14点下落――コード実行スコアが100から69へ

Claude Opus 4.7はSmoke評価の主要ランキングにおいて96.99点から82.95点へと下落し、コード実行ディメンションが100.00点から69.00点へ31点落ち込んだ。ただし、モデル全体の能力低下ではなく、当日の出題サンプ

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年7月13日 212

Claude Opus 4.7、Smoke評価でメインランキングが1日で19.3点急落――コード実行は22点下落

Claude Opus 4.7が本日のSmoke評価においてメインランキングスコアを90.51点から71.26点へと19.3点落とした。コード実行と素材制約の2次元が同時に大幅下落した一方、エンジニアリング判断は上昇しており、モデルの真の性

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年7月10日 188

Qwen3 Max、メインランキングで12.9ポイント急落――コード実行は1日で26.8ポイント下落

YZ Index 2026年6月のSmokeテストにおいて、Qwen3 Maxのメインランキングスコアが84.92点から72.02点へ12.9ポイント下落し、特にコード実行ディメンションが96.30点から69.50点へ急落した。単日データの

Qwen3 Max 代码执行 Smoke评测单日波动

2026年7月4日 281

Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

YZ Index 2026年7月4日のSmoke軽量評価（11モデル対象）で、Gemini 2.5 Pro が主榜96.99点で首位を獲得。一方、Qwen3 Max は12.9点急落し72.02点に後退した。

Gemini 2.5 Pro Qwen3 Max Smoke评测代码执行

2026年7月4日 291