Smoke评测に関するAIニュース | Winzheng AI ニュース

Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増

Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった

Claude Sonnet 4.6 材料约束 Smoke评测模型波动

2026年5月23日 324

レビュー

Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇

本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。

Grok 4 材料约束 Smoke评测模型波动

2026年5月23日 370

レビュー

Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇

Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。

Claude Opus 4.7 材料约束 Smoke评测 Anthropic更新

2026年5月22日 312

レビュー

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か？

Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。

Gemini 2.5 Pro 材料约束 Smoke评测性能波动

2026年5月21日 298

レビュー

Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減

Gemini 2.5 Proが本日のSmoke評価でメインランキング22.6点を失い、コア実行スコアは100点から95点に下落。サブランキングのエンジニアリング判断は66.7点から30点へ崩落し、誠実性評価もfailとなった。

Gemini 2.5 Pro 工程判断 Smoke评测模型波动

2026年5月20日 298

レビュー

ERNIE Bot 4.5の誠実性評価がFailに、コード実行は42.5点急騰も副榜で崩壊

ERNIE Bot 4.5は本日のSmoke速報テストで、主榜の得点が小幅上昇したものの、誠実性評価がpassからfailに転落。コード実行は42.5点急騰した一方、工程判断と任務表現は崩壊的な下落を見せた。

文心一言4.5 诚信评级 Smoke评测侧榜波动

2026年5月20日 297

レビュー

Claude Opus 4.7メイン指標が22.6点急落、コード実行は100点から半減

Claude Opus 4.7は本日のSmoke評価でメイン指標が93.48点から70.93点へと一日で22.6点下落し、コード実行次元が満点100点から50点へと半減したことが主な要因となった。

Claude Opus 4.7 代码执行 Smoke评测模型波动

2026年5月19日 280

レビュー

DoubaoPro マテリアル制約が15.2点急落 Smokeテストが真の変動を露呈

DoubaoProが本日のSmoke評価でマテリアル制約スコアが95点から79.8点へ15.2点急落し、メインランキングも97.75点から90.91点に下落した。原因は出題抽選による偶発性か、それともモデル能力の短期的退化か注目される。

豆包 Pro 材料约束 Smoke评测模型波动

2026年5月19日 300

レビュー

Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減

本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。

Gemini 3.1 Pro 代码执行 Smoke评测模型退化

2026年5月18日 254

レビュー

GPT-5.5メインランキングが23.5点暴落、DoubaoPro 97.75点でSmokeトップ獲得

本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 262

レビュー

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が

Claude Sonnet 4.6 材料约束 Smoke评测模型性能波动

2026年5月17日 357

レビュー

7日間Smoke簡易テスト：ERNIE Botが53点急騰、GPT-o3は-7.8で下落首位

今週7日連続のSmoke簡易テストで、ERNIE Bot 4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 375

レビュー

GPT-5.5メインランキング28点急落：本当に退化したのか

GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 391

レビュー

Gemini 2.5 Pro が10ポイント下落：能力低下ではなく誠実性で躓く

Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。

Gemini 2.5 Pro 材料约束 Smoke评测诚信评级

2026年5月16日 373

レビュー

3モデルが28分急落、Claudeは依然ほぼ満点

5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 454

レビュー

DeepSeek、5点上昇もFail：10問スモークテストで警報

DeepSeek V4 Proがメインランキングで5点上昇したものの、誠実性評価がpassからfailに転落。コード実行が満点を獲得した一方で、素材制約と誠実性に問題が露呈した。

DeepSeek V4 Pro 诚信评级 Smoke评测模型退化

2026年5月15日 422

レビュー

Claude Sonnet 4.6 材料制約が27.5点急落、メインランキングは逆行で1.4点上昇？

本日のSmoke評価で、AnthropicのClaude Sonnet 4.6は材料制約次元で27.5点急落する一方、コード実行次元では満点を獲得し、メインランキング総合では1.4点上昇という分極化した結果を示した。本記事ではこの変動が真の

Claude Sonnet 4.6 材料约束 Smoke评测模型退化

2026年5月15日 414

レビュー

2モデルがゼロ実行で爆死、Claudeは88.75点を死守

11モデルを対象とした軽量評価Smokeで、Claude Opus 4.7が88.75点で首位を獲得。9モデルがコード実行満点を取る中、ERNIE Bot 4.5とGrok 4はコード実行でゼロ点となった。

Claude Opus 4.7 材料约束 Smoke评测诚信评级

2026年5月15日 391

レビュー

Claude Opus 4.7 Smoke評価でメインランキング9.6点暴落：退化のシグナルか、それとも抽選のドタバタ劇か？

本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ

Claude Opus 4.7 赢政指数 Smoke评测模型波动

2026年5月14日 450

レビュー

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 436

Smoke评测 に関するニュース

Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増

Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇

Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か？

Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減

ERNIE Bot 4.5の誠実性評価がFailに、コード実行は42.5点急騰も副榜で崩壊

Claude Opus 4.7メイン指標が22.6点急落、コード実行は100点から半減

DoubaoPro マテリアル制約が15.2点急落 Smokeテストが真の変動を露呈

Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減

GPT-5.5メインランキングが23.5点暴落、DoubaoPro 97.75点でSmokeトップ獲得

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

7日間Smoke簡易テスト：ERNIE Botが53点急騰、GPT-o3は-7.8で下落首位

GPT-5.5メインランキング28点急落：本当に退化したのか

Gemini 2.5 Pro が10ポイント下落：能力低下ではなく誠実性で躓く

3モデルが28分急落、Claudeは依然ほぼ満点

DeepSeek、5点上昇もFail：10問スモークテストで警報

Claude Sonnet 4.6 材料制約が27.5点急落、メインランキングは逆行で1.4点上昇？

2モデルがゼロ実行で爆死、Claudeは88.75点を死守

Claude Opus 4.7 Smoke評価でメインランキング9.6点暴落：退化のシグナルか、それとも抽選のドタバタ劇か？

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

Smoke评测に関するニュース