レビュー SQLの重大な誤り:Claude Sonnet 4.6が満点からゼロ点への反省 Claude Sonnet 4.6は、SQLの課題において満点からゼロ点への大きな変化を経験し、その原因を分析することで、モデルの改善に向けた洞察を得ることができました。 AI性能 SQL评测 模型分析 错误原因 16時間前 78
レビュー 豆包Pro安定性が19.8ポイント急落、同じ質問に異なる回答が最大の弱点に 豆包Proの最新YZ Index評価で安定性スコアが54.5から34.7へと19.8ポイント急落。同じ質問に対する回答の一貫性欠如が深刻な問題として浮上。 豆包Pro 稳定性 模型一致性 评测分析 2026年3月24日 376