MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加
MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ(初の標準化されたspeculative decoding)を導入し、オープンソースLLMベンチマー
MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ(初の標準化されたspeculative decoding)を導入し、オープンソースLLMベンチマー
MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。
OpenAIが2024年9月に発表したo1-preview・o1-miniモデルが、数学・プログラミング等の複数ベンチマークテストでGPT-4oやClaude 3.5 Sonnetを圧倒的に上回る性能を示し、AI界に衝撃を与えた。
MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。
Googleが2026年2月20日に発表したGemini 3.1 Proモデルが、LMSYS Chatbot Arenaで首位を獲得し、MMLU得点92.5%など複数のベンチマークテストで新記録を達成した。
Google DeepMindの研究者たちは、大規模言語モデル(LLM)の道徳的行動に対して、コーディングや数学能力と同等の厳格な審査を行うよう呼びかけ、AIの「善良さ」が真の道徳的判断力なのか、それとも単なる「道徳的パフォーマンス」なのか
MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。
AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。
DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。
MLCommons組織がエッジAI分野の重要なマイルストーンとなるMLPerf Tiny v1.3ベンチマークテスト結果を正式に発表し、リソース制限のある組み込みデバイスでのAI性能評価において大幅な進歩を示した。
MLCommonsは、オープンソースのプライバシー保護機械学習ベンチマークプラットフォーム「MedPerf」にWebUI機能を正式に追加したと発表しました。この更新により、開発者は複雑な環境設定なしにブラウザから直接モデル評価とベンチマーク
AnthropicがClaude 3.5 Sonnetモデルを正式発表。複数の権威ある基準テストで記録的な成績を達成し、特にコーディングと複雑な推論タスクでOpenAIのGPT-4oを上回り、技術界で注目を集めている。
NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。
Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。
OpenAIが新たに発表したo1-previewとo1-miniモデルが、ARC-AGIベンチマークで87.5%を達成し、AI推論の分野で新たな記録を樹立しました。この成果は、AIの思考能力の革新として世界中の注目を集めています。