AI信頼性マップ:ルールと環境
AIシステムの信頼性を高めることは、市場成長と社会保護において重要です。MLCommons AIリスクと信頼性ワーキンググループは、AI信頼性マップを作成し、これを基に信頼性の向上を目指しています。
AIシステムの信頼性を高めることは、市場成長と社会保護において重要です。MLCommons AIリスクと信頼性ワーキンググループは、AI信頼性マップを作成し、これを基に信頼性の向上を目指しています。
AI業界は技術の進化とともに新しいリスク評価基準を必要としています。AILuminateは、持続可能な基準管理を目指し、Prompt Stewardship Systemによって基準の新鮮さを維持し、正確なリスク評価を続けています。
MLCommonsは、個人用コンピュータのAI性能を評価するための最新バージョンであるMLPerf Client v1.6を発表しました。このバージョンでは、基準テストの体験を最適化し、重要なソフトウェアコンポーネントを更新し、利用性と性能
MLCommons®が業界標準のMLPerf® Inference v6.0ベンチマークテスト結果を発表し、現在のAI展開の実際のシナリオをカバーする複数の重要なアップデートを導入しました。
MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ(初の標準化されたspeculative decoding)を導入し、オープンソースLLMベンチマー
MLCommonsが生成式AIの急速な進化に対応するため、API中心のベンチマークテスト「MLPerf Endpoints」を発表。従来の半年周期から四半期ごとの継続的な結果提出モデルに転換し、実運用環境を反映した性能評価を実現する。
文化的な文脈を考慮したAI安全性評価の必要性から、アジア太平洋地域の多様な文化に対応したマルチモーダルベンチマークを開発中。2026年夏に初期ベンチマークを研究コミュニティに公開予定。
MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。
MLCommonsは、急速に発展する動画生成AIの性能評価のため、MLPerf Inference v6.0にText-to-Videoベンチマークを初めて導入し、アリババのWan2.2モデルを採用した。
MLCommonsの医療ワーキンググループが、MedPerfにApache Airflowを統合し、連合臨床研究におけるデータ準備パイプラインの配布、オーケストレーション、監視を大幅に簡素化しました。
MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。
MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。
AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。
MLCommonsが機械学習データセット用メタデータフォーマットCroissant 1.1をリリース。AIエージェント時代に向け、機械操作可能な来歴追跡、語彙の相互運用性、自動ライセンス執行などの新機能を追加。
DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。
MLCommonsとLMSYS OrgがAIモデル評価の新たなベンチマーク「CKAN Croissant」を発表し、Croissant v1.0フォーマットによるモデルメタデータの標準化と共有を実現した。
MLCommonsがAiluminate French Datasetsを公開し、フランス語LLM評価の標準化ツールを提供。GPT-4oが翻訳精度92%でトップ、Llama 3.1 405Bが推論タスクで勝率78%を達成。
MLCommonsがクライアント推論性能に特化した初の標準化ベンチマークスイート「MLPerf Client v0.6」の結果を発表し、スマートフォン、ノートPC、エッジデバイスなどのシナリオに対応。
AI ベンチマークテストに取り組むグローバル非営利組織 MLCommons に、インド国家ソフトウェア・サービス企業協会(NASSCOM)が正式加盟し、メンバー数が 50 に到達した。
LMSYS OrgがAAAI 2025大会でChatbot Arenaの最新ベンチマーク結果を発表し、グローバルAIチャットボットランキングを更新すると共に、開発者に貴重なモデル最適化の洞察を提供した。