AI性能に関するニュース

SQLの重大な誤り：Claude Sonnet 4.6が満点からゼロ点への反省

Claude Sonnet 4.6は、SQLの課題において満点からゼロ点への大きな変化を経験し、その原因を分析することで、モデルの改善に向けた洞察を得ることができました。

MLCommonsがAIワークロード下でのストレージシステム性能を評価する標準化ベンチマークテストスイートMLPerf Storage v2.0の結果を発表し、NVIDIA DGX SuperPODとDDN EXAScalerの組み合わせが

MLCommonsがMLPerf Inference v5.1ベンチマークテスト結果を正式公開し、生成AIモデルの推論性能評価に焦点を当て、より挑戦的なワークロードを導入した。