67.5点で三強並列首位、Grok4はわずか50点で最下位 WDCD遵守ランキング
WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4と文心一言4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。
WDCD遵守テスト第1期の結果が発表され、3モデルが67.50点で並列首位、Grok 4と文心一言4.5が50点で並列最下位、R3段階では65.5%のモデルが崩壊した。
2026年5月14日のSmoke簡易評価で、Claude Sonnet 4.6がメインボード84.68点で首位に躍り出たが、同モデルを含む8大主流AIモデルのコード実行スコアが軒並み25点暴落し、ランキングが大きく洗い替えされた。これは偶然