MLC に関するニュース

レビュー

AI信頼性マップ：ルールと環境

AIシステムの信頼性を高めることは、市場成長と社会保護において重要です。MLCommons AIリスクと信頼性ワーキンググループは、AI信頼性マップを作成し、これを基に信頼性の向上を目指しています。

MLC AI可靠性 MLCommons AI风险管理

2日前 45

レビュー

新鮮な基準と信頼性のあるスコア：AIリスク評価の持続的提示管理の導入

AI業界は技術の進化とともに新しいリスク評価基準を必要としています。AILuminateは、持続可能な基準管理を目指し、Prompt Stewardship Systemによって基準の新鮮さを維持し、正確なリスク評価を続けています。

MLC AI基准风险评估持续管理

5日前 108

レビュー

MLCommons、MLPerf Client v1.6を発表：性能最適化とユーザーエクスペリエンスの向上

MLCommonsは、個人用コンピュータのAI性能を評価するための最新バージョンであるMLPerf Client v1.6を発表しました。このバージョンでは、基準テストの体験を最適化し、重要なソフトウェアコンポーネントを更新し、利用性と性能

MLC MLPerf Client AI基准测试性能优化

2026年4月7日 311

レビュー

MLCommonsがMLPerf Inference v6.0ベンチマークテストの最新結果を発表

MLCommons®が業界標準のMLPerf® Inference v6.0ベンチマークテスト結果を発表し、現在のAI展開の実際のシナリオをカバーする複数の重要なアップデートを導入しました。

MLC MLPerf Inference AI基准测试大语言模型

2026年4月2日 536

レビュー

MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加

MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ（初の標準化されたspeculative decoding）を導入し、オープンソースLLMベンチマー

MLC MLPerf Inference GPT-OSS 120B DeepSeek-R1

2026年3月25日 422

レビュー

生成式AI サービス評価の標準化：API志向ベンチマークテストの新パラダイム

MLCommonsが生成式AIの急速な進化に対応するため、API中心のベンチマークテスト「MLPerf Endpoints」を発表。従来の半年周期から四半期ごとの継続的な結果提出モデルに転換し、実運用環境を反映した性能評価を実現する。

MLC MLPerf Endpoints 生成式AI基准 API测试

2026年3月20日 449

レビュー

グローバル基準、ローカルな現実：アジア太平洋多言語マルチモーダルAI安全性ベンチマーク試験運用

文化的な文脈を考慮したAI安全性評価の必要性から、アジア太平洋地域の多様な文化に対応したマルチモーダルベンチマークを開発中。2026年夏に初期ベンチマークを研究コミュニティに公開予定。

MLC AI安全多模态基准文化风险

2026年3月14日 557

レビュー

MLPerf Inference v6.0 EdgeスイートがYOLO11にアップグレード

MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 600

レビュー

MLPerf Inference v6.0にText-to-Videoを導入

MLCommonsは、急速に発展する動画生成AIの性能評価のため、MLPerf Inference v6.0にText-to-Videoベンチマークを初めて導入し、アリババのWan2.2モデルを採用した。

MLC MLPerf Text-to-Video Wan2.2

2026年3月12日 587

レビュー

MedPerfがApache Airflowを統合、連合臨床研究のデータ準備体験を向上

MLCommonsの医療ワーキンググループが、MedPerfにApache Airflowを統合し、連合臨床研究におけるデータ準備パイプラインの配布、オーケストレーション、監視を大幅に簡素化しました。

MLC MedPerf Apache Airflow 联邦学习

2026年3月12日 408

レビュー

AI風险の新基準：AILuminate全球保障計画が信頼性を再定義

MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。

MLC AI风险可靠性保障 AILuminate

2026年2月21日 559

レビュー

MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。

MLC MLCommons 越狱攻击基准测试

2026年2月18日 682

レビュー

技術標準：AI大規模採用への架け橋

AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。

MLC AI标准可靠性 MLCommons

2026年2月13日 1,006

レビュー

Croissant 1.1 新機能：拡張可能でエージェント対応のML データセット標準

MLCommonsが機械学習データセット用メタデータフォーマットCroissant 1.1をリリース。AIエージェント時代に向け、機械操作可能な来歴追跡、語彙の相互運用性、自動ライセンス執行などの新機能を追加。

MLC Croissant 1.1 ML数据集元数据标准

2026年2月13日 968

レビュー

DLRMv3：MLPerf Inference生成的推薦ベンチマーク

DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,150

レビュー

CKAN Croissant：MLCommons AIモデルベンチマークの新時代

MLCommonsとLMSYS OrgがAIモデル評価の新たなベンチマーク「CKAN Croissant」を発表し、Croissant v1.0フォーマットによるモデルメタデータの標準化と共有を実現した。

MLC MLCommons CKAN Croissant

2026年2月10日 957

レビュー

MLCommons、Ailuminate法語データセットを公開

MLCommonsがAiluminate French Datasetsを公開し、フランス語LLM評価の標準化ツールを提供。GPT-4oが翻訳精度92%でトップ、Llama 3.1 405Bが推論タスクで勝率78%を達成。

MLC Ailuminate 法语数据集 MLCommons

2026年2月10日 785

レビュー

MLPerf Client v0.6ベンチマークテスト結果発表

MLCommonsがクライアント推論性能に特化した初の標準化ベンチマークスイート「MLPerf Client v0.6」の結果を発表し、スマートフォン、ノートPC、エッジデバイスなどのシナリオに対応。

MLC MLPerf 客户端推理 Llama 2

2026年2月10日 853

レビュー

NASSCOM が MLCommons 連盟に加盟、インドの AI ベンチマーク発展を推進

AI ベンチマークテストに取り組むグローバル非営利組織 MLCommons に、インド国家ソフトウェア・サービス企業協会（NASSCOM）が正式加盟し、メンバー数が 50 に到達した。

MLC MLCommons NASSCOM AI基准

2026年2月10日 792

レビュー

AAAI 2025：LMSYS OrgがChatbot Arenaの最新ベンチマークを発表

LMSYS OrgがAAAI 2025大会でChatbot Arenaの最新ベンチマーク結果を発表し、グローバルAIチャットボットランキングを更新すると共に、開発者に貴重なモデル最適化の洞察を提供した。

MLC AAAI 2025 Chatbot Arena Elo Rating

2026年2月10日 3,311