基准测试に関するAIニュース | Winzheng AI ニュース

MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加

MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ（初の標準化されたspeculative decoding）を導入し、オープンソースLLMベンチマー

MLC MLPerf Inference GPT-OSS 120B DeepSeek-R1

2026年3月25日 727

レビュー

MLPerf Inference v6.0 EdgeスイートがYOLO11にアップグレード

MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 824

レビュー

AI風险の新基準：AILuminate全球保障計画が信頼性を再定義

MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。

MLC AI风险可靠性保障 AILuminate

2026年2月21日 751

レビュー

MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。

MLC MLCommons 越狱攻击基准测试

2026年2月18日 903

レビュー

技術標準：AI大規模採用への架け橋

AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。

MLC AI标准可靠性 MLCommons

2026年2月13日 1,228

レビュー

DLRMv3：MLPerf Inference生成的推薦ベンチマーク

DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,486

レビュー

MLPerf Tiny v1.3ベンチマークテスト結果が重要発表

MLCommons組織がエッジAI分野の重要なマイルストーンとなるMLPerf Tiny v1.3ベンチマークテスト結果を正式に発表し、リソース制限のある組み込みデバイスでのAI性能評価において大幅な進歩を示した。

MLC MLPerf Tiny 边缘AI 基准测试

2026年2月10日 905

レビュー

MedPerf、WebUI機能を追加しプライバシー保護ベンチマークテストの体験を向上

MLCommonsは、オープンソースのプライバシー保護機械学習ベンチマークプラットフォーム「MedPerf」にWebUI機能を正式に追加したと発表しました。この更新により、開発者は複雑な環境設定なしにブラウザから直接モデル評価とベンチマーク

MLC MedPerf WebUI MLCommons

2026年2月10日 796

レビュー

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 2,373

レビュー

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 909

基准测试 に関するニュース

MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加

MLPerf Inference v6.0 EdgeスイートがYOLO11にアップグレード

AI風险の新基準：AILuminate全球保障計画が信頼性を再定義

MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

技術標準：AI大規模採用への架け橋

DLRMv3：MLPerf Inference生成的推薦ベンチマーク

MLPerf Tiny v1.3ベンチマークテスト結果が重要発表

MedPerf、WebUI機能を追加しプライバシー保護ベンチマークテストの体験を向上

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

基准测试に関するニュース