性能波动に関するAIニュース | Winzheng AI ニュース

レビュー

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行

2026年5月25日 174

レビュー

Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇

Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。

Claude Opus 4.7 材料约束 Smoke评测 Anthropic更新

2026年5月22日 249

レビュー

DoubaoPro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か？

DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。

豆包 Pro 代码执行模型评测性能波动

2026年5月21日 211

レビュー

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か？

Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。

Gemini 2.5 Pro 材料约束 Smoke评测性能波动

2026年5月21日 214

レビュー

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 163

レビュー

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適

Claude Opus 4.7 材料约束 Smoke快测性能波动

2026年5月17日 292

レビュー

3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン

Claude Opus 4.7 材料约束 Smoke轻量评测模型迭代

2026年5月17日 268

レビュー

DeepSeek V3の安定性が21.4ポイント急落：出力の一貫性危機を深く分析

DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。

DeepSeek V3 模型稳定性 AI评测性能波动

2026年4月27日 422

レビュー

DoubaoProの安定性が19.8ポイント急落：同一問題に対する異なる回答が最大の弱点に

DoubaoProは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫

豆包Pro 稳定性测试 AI评测模型一致性

2026年4月27日 832

レビュー

Qwen Max 安定性が22.8ポイント急落：モデル更新により出力品質に変動

Qwen Maxは今週の評価で極端な二面性を示し、プログラミングや長文処理などの複雑なタスクでは大幅に向上した一方、安定性では崖っぷちのような急落を見せました。

Qwen Max 稳定性测试 AI评测模型更新

2026年3月22日 523

レビュー

DeepSeek V3の安定性が21.4ポイント急落した技術的分析

DeepSeek V3は今週の評価でプログラミング能力が42.6ポイント向上した一方、安定性指標が53.4から32.0へと急落し、極めて矛盾した性能を示した。

DeepSeek V3 稳定性测试模型评测性能波动

2026年3月22日 445

レビュー

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。

DeepSeek R1 稳定性测试模型评测性能波动

2026年3月22日 457

レビュー

Claude Opus 4.6の安定性が22.5ポイント急落：出力フォーマットの混乱が注目を集める

Claude Opus 4.6の安定性スコアが先週の53.5から31.0へと42.1%の大幅下落を記録し、出力フォーマットの一貫性問題が明らかになった。一方で、プログラミング能力は208%向上するなど、性能向上と安定性低下という矛盾した結果

Claude 稳定性测试 AI评测性能波动

2026年3月22日 543

性能波动 に関するニュース

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇

DoubaoPro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か？

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か？

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

DeepSeek V3の安定性が21.4ポイント急落：出力の一貫性危機を深く分析

DoubaoProの安定性が19.8ポイント急落：同一問題に対する異なる回答が最大の弱点に

Qwen Max 安定性が22.8ポイント急落：モデル更新により出力品質に変動

DeepSeek V3の安定性が21.4ポイント急落した技術的分析

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

Claude Opus 4.6の安定性が22.5ポイント急落：出力フォーマットの混乱が注目を集める

性能波动に関するニュース