赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 06/29 07:11
4大モデル翻訳対決:第27週品質評価、claude-sonnet-4.6 が9点でトップ
今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。
ニュース 06/29 06:51 X
Apple Vision Pro幹部がOpenAIに転職、AI人材争奪戦がさらに激化
AppleのVision Proプロジェクトを担当していた幹部がOpenAIに移籍したことが明らかになり、AI分野における人材争奪戦の激化を改めて浮き彫りにした。この動きは、テクノロジー業界全体における人材流動の加速と、ハードウェア志向から
ニュース 06/29 06:51 X
国産物理AIベースモデルの台頭:GLM-5.2の性能が国際最先端に迫る
中国AI分野において、智谱AIが発表したGLM-5.2が複数の評価で国際最先端に近い性能を示し、国産物理AIベースモデルの開発が注目を集めている。深度機智などの企業も継続的に研究開発へ投資しており、中国語コミュニティでの議論が急速に高まって
ニュース 06/29 06:50 X
GPT-5.6シリーズモデルの発表が難航:OpenAIが複数国の規制審査に直面、Claude Fable 5の復帰が世界的議論を呼ぶ
OpenAIが新たに発表したGPT-5.6シリーズモデルは、複数国政府による安全審査を理由とした承認保留に直面し、グローバル展開が想定通りに進んでいない。同時期にAnthropicのClaude Fable 5が一時提供停止後に再公開され、
ニュース 06/29 06:50 X
AnthropicがアリババによるAIモデルへの蒸留攻撃を告発:知的財産をめぐる争議が世界的注目を集める
Anthropicが中国テクノロジー大手アリババによる約2,800万回の不正APIクエリを通じたClaudeモデルへの蒸留攻撃を正式に告発し、AI業界における知的財産保護と公正競争をめぐる議論が世界的に巻き起こっている。
ニュース 06/29 06:50 X
GoogleがMetaのGeminiモデル使用を制限、AI ライセンス競争が白熱化
Googleが競合他社であるMetaに対してGemini AIモデルの使用を制限したことが明らかになり、大手テック企業間のAIモデルライセンス競争の激化を浮き彫りにした。この動きはAI業界における「閉鎖型」対「開放型」エコシステムをめぐる議
ニュース 06/29 06:50 X
NvidiaとFirmus Technologiesの戦略的提携:AI算力コスト最適化への新たな道筋
オーストラリアのAIインフラ企業Firmus TechnologiesがNvidiaと戦略的パートナーシップを締結し、新興AI企業に対してよりコスト効率の高い算力アクセス手段を提供することで、高騰する算力コストがもたらす成長の壁を緩和するこ
レビュー 06/29 06:38
AI評価が露わにする困境:従来のパッチモデルはなぜ機能しないのか
AIシステムの特性により、30年間にわたりセキュリティコミュニティが依拠してきた協調的脆弱性開示(CVD)モデルが通用しなくなっている。MLCommonsはこの課題に対処すべく、ISO標準化の推進と新たな開示ポリシーの策定に取り組んでいる。
レビュー 06/29 06:37
Chakraの成熟へ:AI システムベンチマークテスト標準化エコシステム
MLCommonsのChakraワーキンググループがMLSys 2026産業フォーラムで画期的な論文を発表し、AI システムのベンチマークテストを標準化するオープンな実行トレースエコシステムの構築に向けた取り組みを示した。40社以上のメンバ
レビュー 06/29 06:36
MLCommons、MLPerf Mobile v6.0をリリース——デバイス上でのLLMベンチマークを新たに追加
MLCommonsは本日、MLPerf Mobile v6.0を発表した。Androidデバイス上で大規模言語モデル(LLM)を実行するための生成AIベンチマークテストが新たに追加されている。
レビュー 06/29 06:36
MLPerf Training v6.0ベンチマーク結果発表:MoEスパース計算に焦点
MLCommonsがMLPerf Training v6.0ベンチマークの最新結果を発表した。今回はMixture-of-Expertsアーキテクチャを採用した2つの新ベンチマークが追加され、AIエコシステムの急速な変革を示している。
レビュー 06/29 06:36
INT4 QAT RL 実践:単一H200で1TBモデルをデプロイ
SGLang RLチームがKimi K2に着想を得て、INT4 Quantization-Aware Training(QAT)のエンドツーエンドソリューションを実現。トレーニング段階のfake quantizationと推論段階のW4A1