Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 · #1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

レビュー 07/03 11:12

WDCD横断評価：ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ

WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオが全シナリオ中で最も低い得点を記録し、grok-4が全シナリオで安定してトップを維持した。企業のモデル選定にあたっては、総合ランキングではなくシナリオ別のマッチングが重要であるこ

レビュー 07/03 11:12

R3誠実率わずか30.2%：11モデル・3ラウンドアンカー問題で44回の完全崩壊

YZ IndexのWDCD評価において、8問のv2アンカー問題に対する275回のサンプリングでR1平均確認率は0.99に達したが、R3誠実率はわずか30.2%にとどまり、44回の完全崩壊（0点）が発生した。本記事はラウンドが進むにつれてモデ

レビュー 07/03 11:11

Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。

ニュース 07/03 11:06 Winzheng Lab

WDCD Run #211：Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、GPT-o3はトップ3入りしながらも最大の

ニュース 07/03 06:20 X

AIインフラ株が大幅調整、市場はAIブームの持続可能性を再評価

AI関連インフラ株が歴史的高値から大幅下落し、「AIトレード弱気相場」という議論が広がる中、市場ではAI分野のハイプに対する再評価が進んでいる。

ニュース 07/03 06:20 X

NVIDIA Nemotronデュアルタワー拡散モデル発表、推論速度2.42倍向上しながら高忠実度を維持

NVIDIAはNemotron-Labs-TwoTower拡散言語モデルを正式発表し、30Bパラメータのモデルをデュアルタワーアーキテクチャに分割することで推論速度を2.42倍に向上させつつ、品質保持率98.7%を実現した。

ニュース 07/03 06:19 X

マイクロソフト、25億ドルのAI導入専門会社を設立——企業のモデルから実装への転換を推進

マイクロソフトがAI導入に特化した新会社の設立を正式発表し、25億ドルを投じて世界中の企業のAI技術の展開と統合を支援する。この動きは、AI競争が「アプリケーション主導」の新フェーズに入ったことを示すものとして注目されている。

ニュース 07/03 06:19 X

米国の輸出規制解除後、AnthropicがFableモデルを復活させClaude Sonnet 5を発表

米国政府が一部AI技術への輸出規制を解除したことを受け、AnthropicはFableおよびMythosモデルの公開アクセスを再開し、新世代モデルClaude Sonnet 5を正式にリリースした。この動きは世界のAIコミュニティで広く注目

ニュース 07/03 06:19 X

OpenAIが米政府への株式5%寄贈を検討：AIの巨人と政治権力の新たな駆け引き

OpenAIはトランプ政権と協議を進め、米国ソブリン・ウェルス・ファンドへ約5%の株式（評価額420〜430億ドル）を寄贈する計画を検討している。この動きはAI企業と政府の関係における新たな枠組みとして注目を集めている。

ニュース 07/03 06:14 NF

UFC会長Dana Whiteがプロモーション映像へのAI批判に反射：「黙って試合を見ろ、AIは未来だ」

2026年3月29日のUFCシアトル大会の中継で、AIが生成した映像を使ったプロモーション映像が話題となり、UFC会長Dana WhiteはSNSでの批判に対し「AIは未来だ、もう来ている」と真っ向から反論した。

ニュース 07/03 06:11 NF

Claude Sonnet 5リリース：1Mコンテキストウィンドウ搭載も、トークン消費量が最大1.35倍に増加

Anthropicが2026年7月1日にClaude Sonnet 5を正式リリース。100万トークンのコンテキストウィンドウを備えOpus 4.8に近い性能を持つ一方、新しいトークナイザーによりトークン数が最大1.35倍に膨張し、実際のコ

ニュース 07/03 06:09 NF

AnthropicがClaude Fable 5を再起動、サイバーセキュリティ制限を新たに追加——2026年7月2日に世界展開

Anthropicは2026年7月1日、Claude Fable 5が翌日に世界で再公開されると発表した。米国の輸出規制による停止を経て、同モデルにはサイバーセキュリティ関連タスクをブロックする分類器が追加され、Amazon・Microso

レビュー

すべて見る →

レビュー 07/03

WDCD横断評価：ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ

レビュー 07/03

R3誠実率わずか30.2%：11モデル・3ラウンドアンカー問題で44回の完全崩壊

レビュー 07/03

Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。

WDCD コンプライアンス

#1 Grok 4 91.2 #2 Gemini 3.1 Pro 79.1 #3 GPT-o3 76.6 #4 Claude Opus 4.7 72.2 #5 GLM-4.6 71.8 #6 Claude Sonnet 4.6 70 #7 DeepSeek V4 Pro 67.8

守約ランキング全体を見る →

Research Lab

WDCD Run #211：Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、G

WDCD Run #207：11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-6

4大モデル翻訳対決：第27週品質評価、claude-sonnet-4.6 が9点でトップ

今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab