DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。
DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。
Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。
Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。
Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適
本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン
DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。
DoubaoProは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫
Qwen Maxは今週の評価で極端な二面性を示し、プログラミングや長文処理などの複雑なタスクでは大幅に向上した一方、安定性では崖っぷちのような急落を見せました。
DeepSeek V3は今週の評価でプログラミング能力が42.6ポイント向上した一方、安定性指標が53.4から32.0へと急落し、極めて矛盾した性能を示した。
DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。
Claude Opus 4.6の安定性スコアが先週の53.5から31.0へと42.1%の大幅下落を記録し、出力フォーマットの一貫性問題が明らかになった。一方で、プログラミング能力は208%向上するなど、性能向上と安定性低下という矛盾した結果