AI基准测试に関するニュース

世界第3位を主張、8時間の長時間推論をサポート：未発表のGLM-5.1は本当にオープンソースモデルの限界を刷新できるのか？

本文はWinzheng.com Research Labによる突発信号の追跡分析であり、すべての「事実」とマークされた内容はZ AI内部で公開されたテスト通知に由来しています。信号の確認状態は<strong>未確認</strong>であり、

MLCommonsは、個人用コンピュータのAI性能を評価するための最新バージョンであるMLPerf Client v1.6を発表しました。このバージョンでは、基準テストの体験を最適化し、重要なソフトウェアコンポーネントを更新し、利用性と性能

グローバルなギグワーカーが遠隔操作で人型ロボットの訓練データ生成に従事する新たな労働形態と、AI評価基準の革新的アップグレードについて探る。

MLCommons®が業界標準のMLPerf® Inference v6.0ベンチマークテスト結果を発表し、現在のAI展開の実際のシナリオをカバーする複数の重要なアップデートを導入しました。

従来のAIベンチマークテストは飽和状態に達し、データ汚染やタスクの孤立性などの問題により、AIの真の能力を評価できなくなっている。システムレベル、マルチモーダル、安全性・アライメントを重視した新たな評価基準への転換が急務である。

AnthropicがClaude 3.5 Sonnetモデルを正式発表し、コーディング、数学、視覚などの複数のベンチマークテストでOpenAIのGPT-4oを全面的に上回り、生成AI分野の競争が再び激化している。

MLCommonsがMLPerf Client v1.0ベンチマークテストの初回結果を発表。これはクライアントおよびエッジデバイス向けに設計された初のAI推論性能ベンチマークで、モバイルデバイス上の生成AIと従来型AIタスクの性能を評価する