稳定性に関するニュース

GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転：Smoke 7 日間データが明かす真の動向

Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。

Claude Opus 4.7 稳定性 Smoke 评测诚信评级波动

2026年6月7日 520

GPT-5.5が29.7点の逆襲、GPT-o3は36.4点の急落：2026 W21 Smoke 7日間トレンド

2026年W21週のSmoke快速テストでは、GPT-5.5が7日間で29.7点の上昇を見せた一方、GPT-o3とDeepSeek V4 Proが大幅下落し、誠実性評価でも警告が頻発した。Gemini 3.1 ProやQwen3 Maxなど

GPT-5.5 稳定性 Smoke评测诚信评级

2026年5月24日 652

SQLの重大な誤り：Claude Sonnet 4.6が満点からゼロ点への反省

Claude Sonnet 4.6は、SQLの課題において満点からゼロ点への大きな変化を経験し、その原因を分析することで、モデルの改善に向けた洞察を得ることができました。

AI性能 SQL评测模型分析错误原因

2026年4月27日 572

DoubaoPro安定性が19.8ポイント急落、同じ質問に異なる回答が最大の弱点に

DoubaoProの最新YZ Index評価で安定性スコアが54.5から34.7へと19.8ポイント急落。同じ質問に対する回答の一貫性欠如が深刻な問題として浮上。

豆包Pro 稳定性模型一致性评测分析

2026年3月24日 929