豆包Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落
YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデル全体の能
YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデル全体の能
YZ IndexのSmoke評価において、Grok 4のメインスコアが97.98点から82.73点へと15.3点急落し、特にコード実行ディメンションが100.00点から68.60点へと31.4点の大幅下落を記録した。ただし、少数サンプルによ
YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した
GPT-5.5が本日のSmokeテストで主榜スコアが93.03点から72.50点へと20.5点下落した。コード実行ディメンションが100点から50点へと急落したことが主な要因だが、ランダムな出題による変動である可能性が高い。
2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド
Smoke クイックテストの直近7日間データによると、DeepSeek V4 Pro は97.08から66.88まで急落し、平均79.8、トレンド-30.2を記録。一方GPT-5.5とClaude Sonnet 4.6は安定的に反発し、誠実
Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆
Gemini 3.1 Pro は本日の Smoke 評価でメインスコアが8.5点下落し、コード実行次元は66.70から57.20へと急落しました。サンプル数の少なさによる変動か、それとも実質的な能力低下なのかを分析します。
本日のSmoke 10問快速テストでClaude Sonnet 4.6が97.5点で首位を獲得、Gemini 3.1 Proは前日比23.2点の大幅下落となった。ERNIE Bot 4.5はFail判定を受け、誠実性評価で異常信号が集中した
Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。
Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適