AI信頼性マップ:ルールと環境
AIシステムの信頼性を高めることは、市場成長と社会保護において重要です。MLCommons AIリスクと信頼性ワーキンググループは、AI信頼性マップを作成し、これを基に信頼性の向上を目指しています。
AIシステムの信頼性を高めることは、市場成長と社会保護において重要です。MLCommons AIリスクと信頼性ワーキンググループは、AI信頼性マップを作成し、これを基に信頼性の向上を目指しています。
AI業界は技術の進化とともに新しいリスク評価基準を必要としています。AILuminateは、持続可能な基準管理を目指し、Prompt Stewardship Systemによって基準の新鮮さを維持し、正確なリスク評価を続けています。
MLCommonsは、個人用コンピュータのAI性能を評価するための最新バージョンであるMLPerf Client v1.6を発表しました。このバージョンでは、基準テストの体験を最適化し、重要なソフトウェアコンポーネントを更新し、利用性と性能
文化的な文脈を考慮したAI安全性評価の必要性から、アジア太平洋地域の多様な文化に対応したマルチモーダルベンチマークを開発中。2026年夏に初期ベンチマークを研究コミュニティに公開予定。
MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。
MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。
AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。
MLCommonsとLMSYS OrgがAIモデル評価の新たなベンチマーク「CKAN Croissant」を発表し、Croissant v1.0フォーマットによるモデルメタデータの標準化と共有を実現した。
MLCommonsがAiluminate French Datasetsを公開し、フランス語LLM評価の標準化ツールを提供。GPT-4oが翻訳精度92%でトップ、Llama 3.1 405Bが推論タスクで勝率78%を達成。
AI ベンチマークテストに取り組むグローバル非営利組織 MLCommons に、インド国家ソフトウェア・サービス企業協会(NASSCOM)が正式加盟し、メンバー数が 50 に到達した。
MLCommonsが2025年6月に開催したATXベンチマーク専門家パネルでは、LMSYS OrgをはじめとするAI業界のリーダーが集結し、AIエージェント評価の最前線について議論した。このパネルは、ChatGPT時代以降のAIが生成モデル
MLCommons組織が2025 MLC Rising Starsランキングを発表し、MLPerf Inference v5.0ベンチマークテストに初めて参加したシステムを表彰しました。これらのシステムはMLCフレームワークを採用し、様々な
LMSYS OrgとMLCommonsが協力し、長いコンテキストとマルチエージェント推論に特化したAI業界初のオープンソース標準化フレームワーク「Ares」ベンチマークを正式リリースしました。
MLCommonsのStorage 2ベンチマークは、AI大規模訓練におけるチェックポイント機能の標準化評価を提供し、モデル保存・復元性能を最適化します。
MLCommonsが2025年9月にOpenAI Whisperの音声認識モデル推論性能を評価する最新標準「Whisper Inference v5.1」を公開し、業界向けに公平で比較可能な性能データを提供。
MLCommons組織が小型言語モデル(1-3Bパラメータ)に特化した最新の推論ベンチマーク「Small LLM Inference 5.1」を発表し、実際の推論シナリオにおけるSLMの性能評価を可能にした。
MLCommons が AI モデルカード向けに設計された Croissant メタデータフォーマットの大幅アップグレード版「Croissant MCP」を正式リリースし、現在のモデルドキュメントの断片化問題の解決を目指す。
MLCommonsとLMSYS Orgが共同開発したAILuminate Jailbreak V05ベンチマークが発表され、大規模言語モデルの脱獄耐性評価で新たな基準を確立した。Claude 3.5 Sonnetが1485 Eloで首位を獲
Flux.1はBlack Forest Labsが開発したオープンソースのテキスト画像生成モデルで、本レポートはデータ準備から展開最適化までの学習プロセスの詳細を明らかにしています。
LMSYS OrgとMLCommonsが協力して、Llama 3.1 8Bモデルの訓練ベンチマークレポートを発表し、データ処理からモデル収束までの全プロセスを詳細に開示しました。