基准测试に関するニュース

MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加

MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ（初の標準化されたspeculative decoding）を導入し、オープンソースLLMベンチマー

MLC MLPerf Inference GPT-OSS 120B DeepSeek-R1

2026年3月25日 421

レビュー

MLPerf Inference v6.0 EdgeスイートがYOLO11にアップグレード

MLPerf Inference Edgeスイートが従来のRetinaNetベンチマークから最新のUltralytics YOLO11へアップグレードされ、より現代的で高性能な物体検出モデルによる評価が可能になりました。

MLC MLPerf Inference YOLO11 目标检测

2026年3月13日 600

オリジナル

OpenAI o1モデルがベンチマークテストでGPT-4oを全面的に凌駕：推論能力が質的飛躍を実現

OpenAIが2024年9月に発表したo1-preview・o1-miniモデルが、数学・プログラミング等の複数ベンチマークテストでGPT-4oやClaude 3.5 Sonnetを圧倒的に上回る性能を示し、AI界に衝撃を与えた。

o1模型 OpenAI 推理能力基准测试

2026年3月3日 506

レビュー

AI風险の新基準：AILuminate全球保障計画が信頼性を再定義

MLCommonsがAILuminate全球保障計画を発表し、AI システムの信頼性を検証するための構造化されたデータ駆動型評価メカニズムを確立。

MLC AI风险可靠性保障 AILuminate

2026年2月21日 559

海外

Google Gemini 3.1 Proモデルがベンチマークテストで新記録を再び樹立

Googleが2026年2月20日に発表したGemini 3.1 Proモデルが、LMSYS Chatbot Arenaで首位を獲得し、MMLU得点92.5%など複数のベンチマークテストで新記録を達成した。

谷歌Gemini AI大模型基准测试 LLM

2026年2月20日 473

海外

Google DeepMind、疑問を提起：チャットボットは単なる道徳的パフォーマンスに過ぎないのか？

Google DeepMindの研究者たちは、大規模言語モデル（LLM）の道徳的行動に対して、コーディングや数学能力と同等の厳格な審査を行うよう呼びかけ、AIの「善良さ」が真の道徳的判断力なのか、それとも単なる「道徳的パフォーマンス」なのか

谷歌DeepMind 大语言模型 AI道德聊天机器人

2026年2月19日 422

レビュー

MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

MLCommonsは、大規模言語モデルの単一ターン脱獄攻撃に対する防御可能で再現可能な評価手法として、分類法に基づく新しいベンチマーク設計アプローチを発表した。

MLC MLCommons 越狱攻击基准测试

2026年2月18日 681

レビュー

技術標準：AI大規模採用への架け橋

AI技術が企業サービスの汎用技術へと移行する中、信頼性の確保が重要な課題となっており、業界標準の策定と標準化された評価システムの構築が不可欠である。

MLC AI标准可靠性 MLCommons

2026年2月13日 1,005

レビュー

DLRMv3：MLPerf Inference生成的推薦ベンチマーク

DLRMv3は、MLPerf DLRM系列初のシーケンス推薦推論ベンチマークであり、HSTU アーキテクチャに基づく1TBモデルで、現代の推薦システムの計算パターンを反映している。

MLC DLRMv3 MLPerf 推荐系统

2026年2月11日 1,150

レビュー

MLPerf Tiny v1.3ベンチマークテスト結果が重要発表

MLCommons組織がエッジAI分野の重要なマイルストーンとなるMLPerf Tiny v1.3ベンチマークテスト結果を正式に発表し、リソース制限のある組み込みデバイスでのAI性能評価において大幅な進歩を示した。

MLC MLPerf Tiny 边缘AI 基准测试

2026年2月10日 650

レビュー

MedPerf、WebUI機能を追加しプライバシー保護ベンチマークテストの体験を向上

MLCommonsは、オープンソースのプライバシー保護機械学習ベンチマークプラットフォーム「MedPerf」にWebUI機能を正式に追加したと発表しました。この更新により、開発者は複雑な環境設定なしにブラウザから直接モデル評価とベンチマーク

MLC MedPerf WebUI MLCommons

2026年2月10日 636

オリジナル

Claude 3.5 Sonnet、AI基準記録を更新：複数のテストでGPT-4oを上回り、コーディング能力が議論を巻き起こす

AnthropicがClaude 3.5 Sonnetモデルを正式発表。複数の権威ある基準テストで記録的な成績を達成し、特にコーディングと複雑な推論タスクでOpenAIのGPT-4oを上回り、技術界で注目を集めている。

Claude 3.5 Sonnet Anthropic 基准测试 GPT-4o

2026年2月7日 428

レビュー

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 1,787

レビュー

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 725

オリジナル

OpenAI o1モデルのベンチマークテストが記録更新：ARC-AGIで87.5%、AI推論能力が飛躍

OpenAIが新たに発表したo1-previewとo1-miniモデルが、ARC-AGIベンチマークで87.5%を達成し、AI推論の分野で新たな記録を樹立しました。この成果は、AIの思考能力の革新として世界中の注目を集めています。

OpenAI o1模型推理AI 基准测试

2026年2月3日 318

基准测试 に関するニュース

MLPerf Inference v6.0、GPT-OSS 120B ベンチマークとDeepSeek-R1低遅延インタラクション最適化を新規追加

MLPerf Inference v6.0 EdgeスイートがYOLO11にアップグレード

OpenAI o1モデルがベンチマークテストでGPT-4oを全面的に凌駕：推論能力が質的飛躍を実現

AI風险の新基準：AILuminate全球保障計画が信頼性を再定義

Google Gemini 3.1 Proモデルがベンチマークテストで新記録を再び樹立

Google DeepMind、疑問を提起：チャットボットは単なる道徳的パフォーマンスに過ぎないのか？

MLCommonsが防御可能な脱獄ベンチマークテストの基礎を構築

技術標準：AI大規模採用への架け橋

DLRMv3：MLPerf Inference生成的推薦ベンチマーク

MLPerf Tiny v1.3ベンチマークテスト結果が重要発表

MedPerf、WebUI機能を追加しプライバシー保護ベンチマークテストの体験を向上

Claude 3.5 Sonnet、AI基準記録を更新：複数のテストでGPT-4oを上回り、コーディング能力が議論を巻き起こす

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

Mini-SGLang：軽量かつ高効率なLLM推論エンジンの全解析

OpenAI o1モデルのベンチマークテストが記録更新：ARC-AGIで87.5%、AI推論能力が飛躍

基准测试に関するニュース