赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
最新ニュース
すべてのニュースを見る →Scam.aiがクアルコムと提携、Computex 2026でHaloディープフェイク検出モデルを発表
反詐欺AI企業Scam.aiがComputex 2026において、クアルコムとの戦略的提携を発表するとともに、リアルタイムでAI生成の偽造映像・音声を検出するエッジサイドディープフェイク検出モデル「Halo」を正式にリリースした。
ヒューマノイドロボット:驚くほど優秀なオフィスのインターン
元NVIDIAエンジニアが創業したスタートアップ企業Flexion Roboticsが、オフィス環境で様々な日常業務をこなすヒューマノイドロボットを披露した。「データ効率的模倣学習」という独自技術により、わずか5回のデモンストレーションでタ
xFusionがエンタープライズAIフルスタックソリューションを発表:エッジワークステーションから液冷データセンターまで
ISC 2026においてxFusionは、エッジワークステーションから液冷データセンターまでをカバーするフルスタック型エンタープライズAIコンピューティングソリューションを発表した。統一されたソフトウェアスタックと四層構造のハードウェアアー
4大モデル翻訳対決:第27週品質評価、claude-sonnet-4.6 が9点でトップ
今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。
Apple Vision Pro幹部がOpenAIに転職、AI人材争奪戦がさらに激化
AppleのVision Proプロジェクトを担当していた幹部がOpenAIに移籍したことが明らかになり、AI分野における人材争奪戦の激化を改めて浮き彫りにした。この動きは、テクノロジー業界全体における人材流動の加速と、ハードウェア志向から
国産物理AIベースモデルの台頭:GLM-5.2の性能が国際最先端に迫る
中国AI分野において、智谱AIが発表したGLM-5.2が複数の評価で国際最先端に近い性能を示し、国産物理AIベースモデルの開発が注目を集めている。深度機智などの企業も継続的に研究開発へ投資しており、中国語コミュニティでの議論が急速に高まって
GPT-5.6シリーズモデルの発表が難航:OpenAIが複数国の規制審査に直面、Claude Fable 5の復帰が世界的議論を呼ぶ
OpenAIが新たに発表したGPT-5.6シリーズモデルは、複数国政府による安全審査を理由とした承認保留に直面し、グローバル展開が想定通りに進んでいない。同時期にAnthropicのClaude Fable 5が一時提供停止後に再公開され、
AnthropicがアリババによるAIモデルへの蒸留攻撃を告発:知的財産をめぐる争議が世界的注目を集める
Anthropicが中国テクノロジー大手アリババによる約2,800万回の不正APIクエリを通じたClaudeモデルへの蒸留攻撃を正式に告発し、AI業界における知的財産保護と公正競争をめぐる議論が世界的に巻き起こっている。
GoogleがMetaのGeminiモデル使用を制限、AI ライセンス競争が白熱化
Googleが競合他社であるMetaに対してGemini AIモデルの使用を制限したことが明らかになり、大手テック企業間のAIモデルライセンス競争の激化を浮き彫りにした。この動きはAI業界における「閉鎖型」対「開放型」エコシステムをめぐる議
NvidiaとFirmus Technologiesの戦略的提携:AI算力コスト最適化への新たな道筋
オーストラリアのAIインフラ企業Firmus TechnologiesがNvidiaと戦略的パートナーシップを締結し、新興AI企業に対してよりコスト効率の高い算力アクセス手段を提供することで、高騰する算力コストがもたらす成長の壁を緩和するこ
AI評価が露わにする困境:従来のパッチモデルはなぜ機能しないのか
AIシステムの特性により、30年間にわたりセキュリティコミュニティが依拠してきた協調的脆弱性開示(CVD)モデルが通用しなくなっている。MLCommonsはこの課題に対処すべく、ISO標準化の推進と新たな開示ポリシーの策定に取り組んでいる。
Chakraの成熟へ:AI システムベンチマークテスト標準化エコシステム
MLCommonsのChakraワーキンググループがMLSys 2026産業フォーラムで画期的な論文を発表し、AI システムのベンチマークテストを標準化するオープンな実行トレースエコシステムの構築に向けた取り組みを示した。40社以上のメンバ
レビュー
すべて見る →AI評価が露わにする困境:従来のパッチモデルはなぜ機能しないのか
AIシステムの特性により、30年間にわたりセキュリティコミュニティが依拠してきた協調的脆弱性開示(CVD)モデルが通用しなくなっている。MLCommonsはこの課題に対処すべく、ISO標準化の推進と新たな開示ポリシーの策定に取り組んでいる。
Chakraの成熟へ:AI システムベンチマークテスト標準化エコシステム
MLCommonsのChakraワーキンググループがMLSys 2026産業フォーラムで画期的な論文を発表し、AI システムのベンチマークテストを標準化するオープンな実行トレースエコシステムの構築に向けた取り組みを示した。40社以上のメンバ
MLCommons、MLPerf Mobile v6.0をリリース——デバイス上でのLLMベンチマークを新たに追加
MLCommonsは本日、MLPerf Mobile v6.0を発表した。Androidデバイス上で大規模言語モデル(LLM)を実行するための生成AIベンチマークテストが新たに追加されている。
WDCD コンプライアンス
#1
Gemini 3.1 Pro
93.6
#2
Grok 4
92.9
#3
Claude Opus 4.7
89.3
#4
DeepSeek V4 Pro
89.3
#5
Qwen3 Max
88.6
#6
Gemini 2.5 Pro
87.9
#7
豆包 Pro
81.4
守約ランキング全体を見る →
Research Lab
4大モデル翻訳対決:第27週品質評価、claude-sonnet-4.6 が9点でトップ
今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。
WDCD Run #202:11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに
WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最
WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合