レビュー Gemini 3.1 Proのコード実行が80点急落、メインランキングで一日に33.5点ダウン Gemini 3.1 Proが本日のSmoke評価でメインランキング33.5点を失い、コード実行スコアが100.00から20.00へと急落した。最近の安全アライメント強化が原因の可能性が高い。 Gemini 3.1 Pro 代码执行 Smoke评测 单日波动 2026年5月28日 229
レビュー GPT-o3の崩壊:性能変動ではなく、アーキテクチャレベルでのシステム崩壊 GPT-o3の安定性スコアが53点から28点に急落し、可用性も100点から69点に低下。これは単なる性能変動ではなく、アーキテクチャレベルの根本的な設計欠陥によるシステム崩壊である。 GPT-o3 稳定性测试 模型架构 性能退化 2026年3月22日 574