Winzheng — AIモデル評価 · 変化情報

GLM4-MoE 本番環境最適化：SGLang による TTFT 65% 高速化

Novita AI は SGLang をベースに GLM4-MoE モデル向けの本番環境検証済み高インパクト最適化ソリューションを開発し、Shared Experts Fusion と Suffix Decoding の統合によりエージェントコーディングワークロードにおける主要指標を大幅に改善した。

2026/06/29 06:36

Apple Vision Pro幹部がOpenAIに転職、AI人材争奪戦がさらに激化

AppleのVision Proプロジェクトを担当していた幹部がOpenAIに移籍したことが明らかになり、AI分野における人材争奪戦の激化を改めて浮き彫りにした

国産物理AIベースモデルの台頭：GLM-5.2の性能が国際最先端に迫る

中国AI分野において、智谱AIが発表したGLM-5.2が複数の評価で国際最先端に近い性能を示し、国産物理AIベースモデルの開発が注目を集めている。深度機智などの

総合トップ5

#1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 · #1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/29 07:11

4大モデル翻訳対決：第27週品質評価、claude-sonnet-4.6 が9点でトップ

今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。

ニュース 06/29 06:51 X

Apple Vision Pro幹部がOpenAIに転職、AI人材争奪戦がさらに激化

AppleのVision Proプロジェクトを担当していた幹部がOpenAIに移籍したことが明らかになり、AI分野における人材争奪戦の激化を改めて浮き彫りにした。この動きは、テクノロジー業界全体における人材流動の加速と、ハードウェア志向から

ニュース 06/29 06:51 X

国産物理AIベースモデルの台頭：GLM-5.2の性能が国際最先端に迫る

中国AI分野において、智谱AIが発表したGLM-5.2が複数の評価で国際最先端に近い性能を示し、国産物理AIベースモデルの開発が注目を集めている。深度機智などの企業も継続的に研究開発へ投資しており、中国語コミュニティでの議論が急速に高まって

ニュース 06/29 06:50 X

GPT-5.6シリーズモデルの発表が難航：OpenAIが複数国の規制審査に直面、Claude Fable 5の復帰が世界的議論を呼ぶ

OpenAIが新たに発表したGPT-5.6シリーズモデルは、複数国政府による安全審査を理由とした承認保留に直面し、グローバル展開が想定通りに進んでいない。同時期にAnthropicのClaude Fable 5が一時提供停止後に再公開され、

ニュース 06/29 06:50 X

AnthropicがアリババによるAIモデルへの蒸留攻撃を告発：知的財産をめぐる争議が世界的注目を集める

Anthropicが中国テクノロジー大手アリババによる約2,800万回の不正APIクエリを通じたClaudeモデルへの蒸留攻撃を正式に告発し、AI業界における知的財産保護と公正競争をめぐる議論が世界的に巻き起こっている。

ニュース 06/29 06:50 X

GoogleがMetaのGeminiモデル使用を制限、AI ライセンス競争が白熱化

Googleが競合他社であるMetaに対してGemini AIモデルの使用を制限したことが明らかになり、大手テック企業間のAIモデルライセンス競争の激化を浮き彫りにした。この動きはAI業界における「閉鎖型」対「開放型」エコシステムをめぐる議

ニュース 06/29 06:50 X

NvidiaとFirmus Technologiesの戦略的提携：AI算力コスト最適化への新たな道筋

オーストラリアのAIインフラ企業Firmus TechnologiesがNvidiaと戦略的パートナーシップを締結し、新興AI企業に対してよりコスト効率の高い算力アクセス手段を提供することで、高騰する算力コストがもたらす成長の壁を緩和するこ

レビュー 06/29 06:38

AI評価が露わにする困境：従来のパッチモデルはなぜ機能しないのか

AIシステムの特性により、30年間にわたりセキュリティコミュニティが依拠してきた協調的脆弱性開示（CVD）モデルが通用しなくなっている。MLCommonsはこの課題に対処すべく、ISO標準化の推進と新たな開示ポリシーの策定に取り組んでいる。

レビュー 06/29 06:37

Chakraの成熟へ：AI システムベンチマークテスト標準化エコシステム

MLCommonsのChakraワーキンググループがMLSys 2026産業フォーラムで画期的な論文を発表し、AI システムのベンチマークテストを標準化するオープンな実行トレースエコシステムの構築に向けた取り組みを示した。40社以上のメンバ

レビュー 06/29 06:36

MLCommons、MLPerf Mobile v6.0をリリース——デバイス上でのLLMベンチマークを新たに追加

MLCommonsは本日、MLPerf Mobile v6.0を発表した。Androidデバイス上で大規模言語モデル（LLM）を実行するための生成AIベンチマークテストが新たに追加されている。

レビュー 06/29 06:36

MLPerf Training v6.0ベンチマーク結果発表：MoEスパース計算に焦点

MLCommonsがMLPerf Training v6.0ベンチマークの最新結果を発表した。今回はMixture-of-Expertsアーキテクチャを採用した2つの新ベンチマークが追加され、AIエコシステムの急速な変革を示している。

レビュー 06/29 06:36

INT4 QAT RL 実践：単一H200で1TBモデルをデプロイ

SGLang RLチームがKimi K2に着想を得て、INT4 Quantization-Aware Training（QAT）のエンドツーエンドソリューションを実現。トレーニング段階のfake quantizationと推論段階のW4A1

レビュー

すべて見る →

レビュー 06/29

AI評価が露わにする困境：従来のパッチモデルはなぜ機能しないのか

レビュー 06/29

Chakraの成熟へ：AI システムベンチマークテスト標準化エコシステム

レビュー 06/29

MLCommons、MLPerf Mobile v6.0をリリース——デバイス上でのLLMベンチマークを新たに追加

WDCD コンプライアンス

#1 Gemini 3.1 Pro 93.6 #2 Grok 4 92.9 #3 Claude Opus 4.7 89.3 #4 DeepSeek V4 Pro 89.3 #5 Qwen3 Max 88.6 #6 Gemini 2.5 Pro 87.9 #7 豆包 Pro 81.4

守約ランキング全体を見る →

Research Lab

4大モデル翻訳対決：第27週品質評価、claude-sonnet-4.6 が9点でトップ

今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。

WDCD Run #202：11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに

WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab