Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ
YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。
YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。
2026年6月23日のSmoke軽量評価において、Qwen3 Maxはメインランキング74点を記録し、誠実性評価のfailにより11モデル中唯一80点を下回る結果となった。Claude Opus 4.7、Gemini 3.1 Pro、Gro
2026年6月22日のSmoke軽量評価テストにて、GPT-5.5とGPT-o3が満点で首位に並ぶ一方、文心一言4.5はメインランキングで前日比40.3点急落し、実行・制約の両次元で大幅な低下を記録した。
2026年6月21日のSmoke軽量評価において、DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4の4モデルが主要ランキング・コード実行・素材制約の全3項目で満点を獲得。一方、Qwen3 Maxはコー
2026年6月19日のYZ Index Smoke軽量評価において、Gemini 3.1 Proが総合99.28点で首位を獲得。Qwen3 Maxは材料制約スコアが23点向上して4位に浮上した一方、GPT-o3と豆包Proは制約スコアが15
YZ Index による2026年6月17日の11モデル実測において、Qwen3 Max の材料制約スコアが前日の100点から71.1点へ急落し、メインランキングでも73.25点にとどまった。実行スコアが各社で満点に達する中、材料制約の安定
2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。
Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。
本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。
Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下
本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン