模型一致性に関するAIニュース

DeepSeek V4 Pro、メインランキングで11.9ポイント急落――コード実行は13.3ポイント低下

DeepSeek V4 Proが本日のSmoke評価においてメインランキングのスコアが93.84点から81.93点へと11.9ポイント下落した。特にコード実行と材料制約の2次元で大幅な低下が確認された。

2026年7月17日 149

Doubao Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

YZ Index 2026年6月の11モデル実測において、Doubao Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデ

豆包 Pro 代码执行 Smoke快测单日波动

2026年7月1日 943

レビュー

Grok 4のSmoke評価でメインスコアが1日で15.3点急落、コード実行は31.4点下落

YZ IndexのSmoke評価において、Grok 4のメインスコアが97.98点から82.73点へと15.3点急落し、特にコード実行ディメンションが100.00点から68.60点へと31.4点の大幅下落を記録した。ただし、少数サンプルによ

Grok 4 代码执行单日波动 Smoke快测

2026年7月1日 285

レビュー

Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7のメインスコアが前日の100.00点から84.01点へ急落し、コード実行次元では100.00点から72.80点へ大幅に低下した。

Claude Opus 4.7 代码执行 Smoke评测单日波动

2026年6月30日 285

レビュー

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年6月28日 236

レビュー

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

GPT-5.5が本日のSmokeテストで主榜スコアが93.03点から72.50点へと20.5点下落した。コード実行ディメンションが100点から50点へと急落したことが主な要因だが、ランダムな出題による変動である可能性が高い。

GPT-5.5 代码执行 Smoke快测单日波动

2026年6月20日 324

レビュー

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月14日 395

レビュー

11個のモデルが同じクロージャ問題で全て[2,2,2]と回答、しかしYZ Indexでは全員0点

わずか6行のPythonクロージャ問題で、11個のモデルが揃って正解の[2,2,2]を出したにもかかわらず、YZ Indexでは全モデルが0点となった。これは評価軸が「知識」から「指示への完全な従順性」へと移行していることを示している。

代码执行材料约束 Python 闭包模型一致性

2026年6月8日 487

レビュー

DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落

DeepSeek V4 Proが本日のSmoke評価で極端に分化した結果を示し、メインボードは87.99点まで急騰した一方、工程判断は10.00点に半減した。コード実行は満点を獲得したが、安定性とシステム的思考に明らかな短所が露呈している。

DeepSeek V4 Pro 代码执行 Smoke评测模型一致性

2026年5月29日 514

レビュー

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ

DeepSeek V4 Pro 诚信评级 Smoke测试单日波动

2026年5月25日 464

レビュー

DoubaoProの安定性が19.8ポイント急落：同一問題に対する異なる回答が最大の弱点に

DoubaoProは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫

豆包Pro 稳定性测试 AI评测模型一致性

2026年4月27日 1,099

レビュー

DoubaoPro安定性が19.8ポイント急落、同じ質問に異なる回答が最大の弱点に

DoubaoProの最新YZ Index評価で安定性スコアが54.5から34.7へと19.8ポイント急落。同じ質問に対する回答の一貫性欠如が深刻な問題として浮上。

豆包Pro 稳定性模型一致性评测分析

2026年3月24日 928

模型一致性 に関するニュース

DeepSeek V4 Pro、メインランキングで11.9ポイント急落――コード実行は13.3ポイント低下

Doubao Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

Grok 4のSmoke評価でメインスコアが1日で15.3点急落、コード実行は31.4点下落

Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

11個のモデルが同じクロージャ問題で全て[2,2,2]と回答、しかしYZ Indexでは全員0点

DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DoubaoProの安定性が19.8ポイント急落：同一問題に対する異なる回答が最大の弱点に

DoubaoPro安定性が19.8ポイント急落、同じ質問に異なる回答が最大の弱点に

模型一致性に関するニュース