MLPerf Inference v6.0にText-to-Videoを導入
MLCommonsは、急速に発展する動画生成AIの性能評価のため、MLPerf Inference v6.0にText-to-Videoベンチマークを初めて導入し、アリババのWan2.2モデルを採用した。
MLCommonsは、急速に発展する動画生成AIの性能評価のため、MLPerf Inference v6.0にText-to-Videoベンチマークを初めて導入し、アリババのWan2.2モデルを採用した。
MLCommonsの医療ワーキンググループが、MedPerfにApache Airflowを統合し、連合臨床研究におけるデータ準備パイプラインの配布、オーケストレーション、監視を大幅に簡素化しました。
SGLangがNVIDIA Nemotron 3 Superに即日対応し、1M tokenのコンテキスト長と高効率なMoEアーキテクチャを活用したマルチエージェントシステムの構築を可能にしました。
SGLangチームとNVIDIAの協力により、GB300 NVL72上でDeepSeek R1の推論性能がH200比で最大25倍向上し、大規模MoEモデルの展開コストを大幅に削減しました。
GB300 NVL72は、長いコンテキストでのLLM推論における最強のプラットフォームです。新たな技術的進展により、DeepSeek R1-NVFP4の128K/8K ISL/OSL長いコンテキストサービスが最適化され、GB200と比較して
MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。
SGLang-Diffusionがプロダクショングレードのビデオ生成フレームワークとして、トークンレベルのシーケンス分割、分散VAE、融合カーネルなどの深層最適化を実装し、大規模な拡散モデルのデプロイメントを実現。
MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。
DeepSeek事件を契機に、AIモデルの知識を盗む「モデル蒸留攻撃」が深刻な脅威となっており、API層からモデル内核まで多層的な防御体系の構築が急務となっている。
Qwen C端インフラエンジニアリングチームとAMD AIフレームワークチームが協力し、AMD Instinct™ MI300X GPUプラットフォーム上でQwen3-235BとQwen3-VL-235Bの極限レイテンシ最適化を実施し、TT
AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。
MLCommonsが機械学習データセット用メタデータフォーマットCroissant 1.1をリリース。AIエージェント時代に向け、機械操作可能な来歴追跡、語彙の相互運用性、自動ライセンス執行などの新機能を追加。
DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。
MLCommonsとLMSYS OrgがAIモデル評価の新たなベンチマーク「CKAN Croissant」を発表し、Croissant v1.0フォーマットによるモデルメタデータの標準化と共有を実現した。
MLCommonsがAiluminate French Datasetsを公開し、フランス語LLM評価の標準化ツールを提供。GPT-4oが翻訳精度92%でトップ、Llama 3.1 405Bが推論タスクで勝率78%を達成。
MLCommonsがクライアント推論性能に特化した初の標準化ベンチマークスイート「MLPerf Client v0.6」の結果を発表し、スマートフォン、ノートPC、エッジデバイスなどのシナリオに対応。
AI ベンチマークテストに取り組むグローバル非営利組織 MLCommons に、インド国家ソフトウェア・サービス企業協会(NASSCOM)が正式加盟し、メンバー数が 50 に到達した。
LMSYS OrgがAAAI 2025大会でChatbot Arenaの最新ベンチマーク結果を発表し、グローバルAIチャットボットランキングを更新すると共に、開発者に貴重なモデル最適化の洞察を提供した。
MLCommonsがAIモデル訓練性能評価の最新マイルストーンとなるMLPerf Training v5.0ベンチマーク結果を発表し、大規模AI訓練タスクの性能・効率・拡張性を評価。
MLCommonsが2025年6月に開催したATXベンチマーク専門家パネルでは、LMSYS OrgをはじめとするAI業界のリーダーが集結し、AIエージェント評価の最前線について議論した。このパネルは、ChatGPT時代以降のAIが生成モデル