赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
最新ニュース
すべてのニュースを見る →WDCD横断評価:ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ
WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオが全シナリオ中で最も低い得点を記録し、grok-4が全シナリオで安定してトップを維持した。企業のモデル選定にあたっては、総合ランキングではなくシナリオ別のマッチングが重要であるこ
R3誠実率わずか30.2%:11モデル・3ラウンドアンカー問題で44回の完全崩壊
YZ IndexのWDCD評価において、8問のv2アンカー問題に対する275回のサンプリングでR1平均確認率は0.99に達したが、R3誠実率はわずか30.2%にとどまり、44回の完全崩壊(0点)が発生した。本記事はラウンドが進むにつれてモデ
Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差
WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。
WDCD Run #211:Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、GPT-o3はトップ3入りしながらも最大の
AIインフラ株が大幅調整、市場はAIブームの持続可能性を再評価
AI関連インフラ株が歴史的高値から大幅下落し、「AIトレード弱気相場」という議論が広がる中、市場ではAI分野のハイプに対する再評価が進んでいる。
NVIDIA Nemotronデュアルタワー拡散モデル発表、推論速度2.42倍向上しながら高忠実度を維持
NVIDIAはNemotron-Labs-TwoTower拡散言語モデルを正式発表し、30Bパラメータのモデルをデュアルタワーアーキテクチャに分割することで推論速度を2.42倍に向上させつつ、品質保持率98.7%を実現した。
マイクロソフト、25億ドルのAI導入専門会社を設立——企業のモデルから実装への転換を推進
マイクロソフトがAI導入に特化した新会社の設立を正式発表し、25億ドルを投じて世界中の企業のAI技術の展開と統合を支援する。この動きは、AI競争が「アプリケーション主導」の新フェーズに入ったことを示すものとして注目されている。
米国の輸出規制解除後、AnthropicがFableモデルを復活させClaude Sonnet 5を発表
米国政府が一部AI技術への輸出規制を解除したことを受け、AnthropicはFableおよびMythosモデルの公開アクセスを再開し、新世代モデルClaude Sonnet 5を正式にリリースした。この動きは世界のAIコミュニティで広く注目
OpenAIが米政府への株式5%寄贈を検討:AIの巨人と政治権力の新たな駆け引き
OpenAIはトランプ政権と協議を進め、米国ソブリン・ウェルス・ファンドへ約5%の株式(評価額420〜430億ドル)を寄贈する計画を検討している。この動きはAI企業と政府の関係における新たな枠組みとして注目を集めている。
UFC会長Dana Whiteがプロモーション映像へのAI批判に反射:「黙って試合を見ろ、AIは未来だ」
2026年3月29日のUFCシアトル大会の中継で、AIが生成した映像を使ったプロモーション映像が話題となり、UFC会長Dana WhiteはSNSでの批判に対し「AIは未来だ、もう来ている」と真っ向から反論した。
Claude Sonnet 5リリース:1Mコンテキストウィンドウ搭載も、トークン消費量が最大1.35倍に増加
Anthropicが2026年7月1日にClaude Sonnet 5を正式リリース。100万トークンのコンテキストウィンドウを備えOpus 4.8に近い性能を持つ一方、新しいトークナイザーによりトークン数が最大1.35倍に膨張し、実際のコ
AnthropicがClaude Fable 5を再起動、サイバーセキュリティ制限を新たに追加——2026年7月2日に世界展開
Anthropicは2026年7月1日、Claude Fable 5が翌日に世界で再公開されると発表した。米国の輸出規制による停止を経て、同モデルにはサイバーセキュリティ関連タスクをブロックする分類器が追加され、Amazon・Microso
レビュー
すべて見る →WDCD横断評価:ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ
WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオが全シナリオ中で最も低い得点を記録し、grok-4が全シナリオで安定してトップを維持した。企業のモデル選定にあたっては、総合ランキングではなくシナリオ別のマッチングが重要であるこ
R3誠実率わずか30.2%:11モデル・3ラウンドアンカー問題で44回の完全崩壊
YZ IndexのWDCD評価において、8問のv2アンカー問題に対する275回のサンプリングでR1平均確認率は0.99に達したが、R3誠実率はわずか30.2%にとどまり、44回の完全崩壊(0点)が発生した。本記事はラウンドが進むにつれてモデ
Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差
WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。
WDCD コンプライアンス
#1
Grok 4
91.2
#2
Gemini 3.1 Pro
79.1
#3
GPT-o3
76.6
#4
Claude Opus 4.7
72.2
#5
GLM-4.6
71.8
#6
Claude Sonnet 4.6
70
#7
DeepSeek V4 Pro
67.8
守約ランキング全体を見る →
Research Lab
WDCD Run #211:Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、G
WDCD Run #207:11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-6
4大モデル翻訳対決:第27週品質評価、claude-sonnet-4.6 が9点でトップ
今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。