MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
MLPerf Training Working Group は、MoE アーキテクチャを評価する新たな事前学習ベンチマーク GPT-OSS 20B を導入。単一の 8-GPU ノードでも実行可能で、統計分散を抑える工夫により公平性と再現性を
MLPerf Training v6.0に新たに追加されたDeepSeek-V3ベースの大規模事前学習ベンチマークについて解説。MoEアーキテクチャ、MLA、無補助損失の負荷分散など、現代のLLM学習における主要な技術革新を捕捉する標準化さ
AIシステムの信頼性を高めることは、市場成長と社会保護において重要です。MLCommons AIリスクと信頼性ワーキンググループは、AI信頼性マップを作成し、これを基に信頼性の向上を目指しています。
AI業界は技術の進化とともに新しいリスク評価基準を必要としています。AILuminateは、持続可能な基準管理を目指し、Prompt Stewardship Systemによって基準の新鮮さを維持し、正確なリスク評価を続けています。
MLCommonsは、個人用コンピュータのAI性能を評価するための最新バージョンであるMLPerf Client v1.6を発表しました。このバージョンでは、基準テストの体験を最適化し、重要なソフトウェアコンポーネントを更新し、利用性と性能
MLCommons®が業界標準のMLPerf® Inference v6.0ベンチマークテスト結果を発表し、現在のAI展開の実際のシナリオをカバーする複数の重要なアップデートを導入しました。
MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ(初の標準化されたspeculative decoding)を導入し、オープンソースLLMベンチマー
MLCommonsが生成式AIの急速な進化に対応するため、API中心のベンチマークテスト「MLPerf Endpoints」を発表。従来の半年周期から四半期ごとの継続的な結果提出モデルに転換し、実運用環境を反映した性能評価を実現する。
文化的な文脈を考慮したAI安全性評価の必要性から、アジア太平洋地域の多様な文化に対応したマルチモーダルベンチマークを開発中。2026年夏に初期ベンチマークを研究コミュニティに公開予定。
MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。
MLCommonsは、急速に発展する動画生成AIの性能評価のため、MLPerf Inference v6.0にText-to-Videoベンチマークを初めて導入し、アリババのWan2.2モデルを採用した。
MLCommonsの医療ワーキンググループが、MedPerfにApache Airflowを統合し、連合臨床研究におけるデータ準備パイプラインの配布、オーケストレーション、監視を大幅に簡素化しました。
MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。
MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。
AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。
MLCommonsが機械学習データセット用メタデータフォーマットCroissant 1.1をリリース。AIエージェント時代に向け、機械操作可能な来歴追跡、語彙の相互運用性、自動ライセンス執行などの新機能を追加。
DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。
MLCommonsとLMSYS OrgがAIモデル評価の新たなベンチマーク「CKAN Croissant」を発表し、Croissant v1.0フォーマットによるモデルメタデータの標準化と共有を実現した。
MLCommonsがAiluminate French Datasetsを公開し、フランス語LLM評価の標準化ツールを提供。GPT-4oが翻訳精度92%でトップ、Llama 3.1 405Bが推論タスクで勝率78%を達成。