MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加
MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ(初の標準化されたspeculative decoding)を導入し、オープンソースLLMベンチマー
MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ(初の標準化されたspeculative decoding)を導入し、オープンソースLLMベンチマー
MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。
MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。
Googleが2026年2月20日に発表したGemini 3.1 Proモデルが、LMSYS Chatbot Arenaで首位を獲得し、MMLU得点92.5%など複数のベンチマークテストで新記録を達成した。
Google DeepMindの研究者たちは、大規模言語モデル(LLM)の道徳的行動に対して、コーディングや数学能力と同等の厳格な審査を行うよう呼びかけ、AIの「善良さ」が真の道徳的判断力なのか、それとも単なる「道徳的パフォーマンス」なのか
MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。
AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。
DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。
MLCommons組織がエッジAI分野の重要なマイルストーンとなるMLPerf Tiny v1.3ベンチマークテスト結果を正式に発表し、リソース制限のある組み込みデバイスでのAI性能評価において大幅な進歩を示した。
MLCommonsは、オープンソースのプライバシー保護機械学習ベンチマークプラットフォーム「MedPerf」にWebUI機能を正式に追加したと発表しました。この更新により、開発者は複雑な環境設定なしにブラウザから直接モデル評価とベンチマーク