Smokeクイックテスト:文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50
Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。
Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。
ERNIE Bot 4.5の実行スコアが昨日の100から50へ半減し、メインランキングが11ポイント下落して62.96となった。GPT-o3とGPT-5.5は同時に回復し、Claude双璧が引き続き首位を独占している。
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
今週7日連続のSmoke簡易テストで、ERNIE Bot 4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。
本日のSmoke軽量評価で、ERNIE Bot 4.5がメインランキング24.7点急騰の一方、誠実性評価がpassからfailへ転落。同時にGemini系列が三連敗、DeepSeek V4 Proも-16.1点と崩壊し、モデルイテレーション
Run #98のWDCDデータでは、参加した11モデルのうち3モデルが大幅下落、上昇したのは1モデルのみという、試行段階で最も非対称な周期変動が観測されました。Gemini 2.5 ProとQwen3 Maxが同時に7.5ポイント急落する一
YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、ERNIE Bot 4.0は主要指標で唯一のプラス成長を達成した。
ERNIE Bot 4.0は今週の評価でプログラミング能力が大幅に向上した一方、安定性スコアが52.1点から30.0点へと急落し、モデルのアップグレードプロセスに深刻な問題が存在する可能性を示している。
BaiduがERNIE Bot 4.0 Turbo版を正式リリースし、推論速度を3倍に向上させ、中国語マルチモーダル能力を強化。デモ動画が中国語SNSで急速に拡散し、開発者テストではGPT-4に匹敵する性能と評価された。