AI评测に関するニュース

DeepSeek V3の安定性が21.4ポイント急落：出力の一貫性危機を深く分析

DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。

DeepSeek V3 模型稳定性 AI评测性能波动

豆包Proの安定性が19.8ポイント急落：同一問題に対する異なる回答が最大の弱点に

豆包Proは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫性を維持

豆包Pro 稳定性测试 AI评测模型一致性

YZ Index 週報：タスク表現能力の集団的向上、Claudeシリーズが材料制約で独自の進展

今週のYZ Index評価システムは、11の主流AIモデル中10モデルが「タスク表現」次元で同時向上するという珍しい現象を捉えました。同時に、Claude Opus 4.6は「材料制約」次元で唯一の突破を果たしました。

赢政指数 AI评测

Grok 3の安定性が22.5点暴落：AIが実際のエンジニアリング場面に遭遇すると化けの皮が剥がれる

Grok 3の安定性スコアが54.2点から31.7点へと41.5%も暴落し、プログラミング能力が向上する一方で、実務判断力の欠如というAIモデルの致命的な弱点が露呈した。

Grok 3 稳定性测试工程判断力 AI评测

2026年3月22日 447

GPT-o3が崩壊：31分の暴落が露呈した致命的な欠陥

「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。

GPT-o3 可用性测试模型稳定性长上下文处理

2026年3月22日 343

豆包 Pro の安定性大幅低下の背後にある技術的リスク

豆包 Pro は今週の評価でプログラミングや知識作業などの面で大幅な向上を見せた一方、安定性スコアが54.5点から34.7点へと36.3%も急落するという異常な現象を示しました。この「進歩と退化の併存」現象の技術的要因を詳しく分析します。

豆包Pro 稳定性测试 AI评测模型性能

2026年3月22日 520

Qwen Max 安定性が22.8ポイント急落：モデル更新により出力品質に変動

Qwen Maxは今週の評価で極端な二面性を示し、プログラミングや長文処理などの複雑なタスクでは大幅に向上した一方、安定性では崖っぷちのような急落を見せました。

Qwen Max 稳定性测试 AI评测模型更新

2026年3月22日 295

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。

DeepSeek R1 稳定性测试模型评测性能波动

2026年3月22日 282

Claude Opus 4.6の安定性が22.5ポイント急落：出力フォーマットの混乱が注目を集める

Claude Opus 4.6の安定性スコアが先週の53.5から31.0へと42.1%の大幅下落を記録し、出力フォーマットの一貫性問題が明らかになった。一方で、プログラミング能力は208%向上するなど、性能向上と安定性低下という矛盾した結果

Claude 稳定性测试 AI评测性能波动

2026年3月22日 271

Qwen Maxの知識作業能力が9.8ポイント急落：論理推論の不正確さが最大の弱点に

今週Qwen Maxの知識作業次元での得点が81.6から71.8へと9.8ポイント下落し、特に論理推論タスクでの大幅な性能低下が主因となった。

Qwen Max AI评测赢政指数

2026年3月20日 423

AIモデルのバッチ処理障害診断能力の階層的分析

バッチ処理の障害診断問題において、8つのAIモデルが明確な能力の階層を示した。上位モデルは「単一処理成功・バッチ処理失敗」という典型的な同時実行問題パターンを的確に識別できた。

赢政指数模型横评工程判断力：批量操作单条失败排查 AI评测

2026年3月20日 407

AIモデルのOGカード画像異常調査問題に対する回答分析

8つのAIモデルに対して、同一コードで異なる入力に対して異なる結果が生じる典型的な本番環境デバッグシナリオを提示し、その理解深度の差異を分析した。

赢政指数模型横评工程判断力：OG卡片图异常排查 AI评测

2026年3月20日 398

エンジニアリング判断力テスト：8大AIモデルのデータベース誤削除復旧方案の比較分析

データベース誤削除復旧に関するエンジニアリング判断力テストで、8つの主要AIモデルが明確に二分化された回答を示し、実践的な問題解決能力の差が浮き彫りになった。

赢政指数模型横评工程判断力：数据库误删恢复 AI评测

2026年3月20日 367

AIモデルのタイムゾーン推理能力比較：細部が成敗を決める

8つの主要AIモデルに対してタイムゾーン変換問題を出題した結果、5モデルが完全正答、3モデルが計算ミスを犯し、基礎的な推理能力における顕著な差が明らかになった。

赢政指数模型横评时区推理 AI评测

2026年3月20日 328

AIモデルの論理推論能力に顕著な格差：半数のモデルが推論の罠に陥る

8つの主要AIモデルが単純な論理推論問題で正答率50%という結果を示し、AI分野における論理推論能力の著しい格差を露呈した。

赢政指数模型横评逻辑推理 AI评测

2026年3月20日 254

YZ Index週報：知識作業能力が集団的に低下、Claudeは逆行して安定

今週（2026-W12）のYZ Index評価では、主要8モデル中6モデルで知識作業能力が低下し、GPT-o3は12.1ポイントの大幅下落を記録した。一方、Claude Sonnet 4.6は唯一のプラス成長を達成した。

赢政指数周报 AI评测 2026-W12

2026年3月20日 218

GPT-o3の知識作業スコアが12点急落：論理推論能力の退化が疑われる

今週GPT-o3の知識作業スコアが82.4点から70.3点へと14.7%急落し、特に論理推論とタスクで顕著な性能低下が見られた。

赢政指数 AI评测 GPT-o3 事故分析

2026年3月20日 240

GPT-o3の性能が急落：知識作業能力が12.1ポイント暴落した背景にある技術的リスク

GPT-o3の知識作業能力が82.4点から70.3点に急落し、特に論理推論と言語理解能力に深刻な劣化が見られ、モデルの安定性に対する懸念が高まっている。

GPT-o3 性能断崖式下跌 AI评测赢政指数

2026年3月20日 267