基准测试に関するAIニュース | Winzheng AI ニュース

MLPerf v6.1、エッジ向けAgentic推論ベンチマークの結果を募集

MLCommonsのEdge LLM Taskforceは、MLPerf Inference v6.1においてEdge Agentic Inferenceベンチマークを新たに導入すると発表した。提出締め切りは2026年7月31日で、ハードウ

MLC MLPerf 边缘AI Agentic AI

3日前 289

レビュー

AI評価が露わにする困境：従来のパッチモデルはなぜ機能しないのか

AIシステムの特性により、30年間にわたりセキュリティコミュニティが依拠してきた協調的脆弱性開示（CVD）モデルが通用しなくなっている。MLCommonsはこの課題に対処すべく、ISO標準化の推進と新たな開示ポリシーの策定に取り組んでいる。

MLC AI安全性模型评估负责任披露

2026年6月29日 306

レビュー

MLCommons、MLPerf Mobile v6.0をリリース——デバイス上でのLLMベンチマークを新たに追加

MLCommonsは本日、MLPerf Mobile v6.0を発表した。Androidデバイス上で大規模言語モデル（LLM）を実行するための生成AIベンチマークテストが新たに追加されている。

MLC MLPerf Mobile 设备端 LLM 基准测试

2026年6月29日 333

レビュー

MLPerf Training v6.0ベンチマーク結果発表：MoEスパース計算に焦点

MLCommonsがMLPerf Training v6.0ベンチマークの最新結果を発表した。今回はMixture-of-Expertsアーキテクチャを採用した2つの新ベンチマークが追加され、AIエコシステムの急速な変革を示している。

MLC MLPerf 基准测试 MoE

2026年6月29日 294

レビュー

MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加

MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ（初の標準化されたspeculative decoding）を導入し、オープンソースLLMベンチマー

MLC MLPerf Inference GPT-OSS 120B DeepSeek-R1

2026年3月25日 1,001

レビュー

MLPerf Inference v6.0 EdgeスイートがYOLO11にアップグレード

MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 1,070

レビュー

AI風险の新基準：AILuminate全球保障計画が信頼性を再定義

MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。

MLC AI风险可靠性保障 AILuminate

2026年2月21日 937

海外

Google Gemini 3.1 Proモデルがベンチマークテストで新記録を再び樹立

Googleが2026年2月20日に発表したGemini 3.1 Proモデルが、LMSYS Chatbot Arenaで首位を獲得し、MMLU得点92.5%など複数のベンチマークテストで新記録を達成した。

谷歌Gemini AI大模型基准测试 LLM

2026年2月20日 803

海外

Google DeepMind、疑問を提起：チャットボットは単なる道徳的パフォーマンスに過ぎないのか？

Google DeepMindの研究者たちは、大規模言語モデル（LLM）の道徳的行動に対して、コーディングや数学能力と同等の厳格な審査を行うよう呼びかけ、AIの「善良さ」が真の道徳的判断力なのか、それとも単なる「道徳的パフォーマンス」なのか

谷歌DeepMind LLM AI道德聊天机器人

2026年2月19日 1,091

レビュー

MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。

MLC MLCommons 越狱攻击基准测试

2026年2月18日 1,033

レビュー

技術標準：AI大規模採用への架け橋

AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。

MLC AI标准可靠性 MLCommons

2026年2月13日 1,452

レビュー

DLRMv3：MLPerf Inference生成的推薦ベンチマーク

DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,749

レビュー

MLPerf Tiny v1.3ベンチマークテスト結果が重要発表

MLCommons組織がエッジAI分野の重要なマイルストーンとなるMLPerf Tiny v1.3ベンチマークテスト結果を正式に発表し、リソース制限のある組み込みデバイスでのAI性能評価において大幅な進歩を示した。

MLC MLPerf Tiny 边缘AI 基准测试

2026年2月10日 1,099

レビュー

MedPerf、WebUI機能を追加しプライバシー保護ベンチマークテストの体験を向上

MLCommonsは、オープンソースのプライバシー保護機械学習ベンチマークプラットフォーム「MedPerf」にWebUI機能を正式に追加したと発表しました。この更新により、開発者は複雑な環境設定なしにブラウザから直接モデル評価とベンチマーク

MLC MedPerf WebUI MLCommons

2026年2月10日 951

基准测试 に関するニュース

MLPerf v6.1、エッジ向けAgentic推論ベンチマークの結果を募集

AI評価が露わにする困境：従来のパッチモデルはなぜ機能しないのか

MLCommons、MLPerf Mobile v6.0をリリース——デバイス上でのLLMベンチマークを新たに追加

MLPerf Training v6.0ベンチマーク結果発表：MoEスパース計算に焦点

MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加

MLPerf Inference v6.0 EdgeスイートがYOLO11にアップグレード

AI風险の新基準：AILuminate全球保障計画が信頼性を再定義

Google Gemini 3.1 Proモデルがベンチマークテストで新記録を再び樹立

Google DeepMind、疑問を提起：チャットボットは単なる道徳的パフォーマンスに過ぎないのか？

MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

技術標準：AI大規模採用への架け橋

DLRMv3：MLPerf Inference生成的推薦ベンチマーク

MLPerf Tiny v1.3ベンチマークテスト結果が重要発表

MedPerf、WebUI機能を追加しプライバシー保護ベンチマークテストの体験を向上

基准测试に関するニュース