赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
最新ニュース
すべてのニュースを見る →FlexがJetCool液冷サーバーソリューションを発表——高密度AIワークロードに対応
Flex社は2026年6月27日の24時間前に、高密度AIワークロード向けに設計されたJetCoolオールインワン液冷サーバーソリューションを発表した。モジュール式設計により既存サーバーの改造に対応し、単一ラックの冷却能力を100kW以上に
SpaceX、軌道上AIデータセンター「Starmind」を正式発表——2027年にプロトタイプ機を打ち上げへ
SpaceXは2026年6月24日、軌道上AIデータセンタープロジェクトを「Starmind」と命名することを確認した。衛星上でAI推論を実行し、結果をミリ秒単位で地上に送信するシステムで、2027年初頭にプロトタイプ機の打ち上げを予定して
WDCD Run #202:11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに
WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最も安定した多ターン対話での指示遵守能力を
Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ
今回のWDCDサイクル(Run #196との比較)では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。
WDCD横断評価:安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点
WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルで平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまった。企業のモデル選定においては、このシナリオへの個別加重評価が推奨される。
Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに
WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊(17.1%)を記録した。3ラウンドにわたる圧力テストが各
Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、文心一言4.5は75.71点で最下位
Winzhengが実施したWDCD守約テストにおいて、Gemini 3.1 Proが93.57点で首位を獲得し、文心一言4.5が75.71点で11モデル中最下位となった。R2干渉抵抗とR3加圧耐性が各モデルの最終順位を左右する主要因であるこ
Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下
YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアが96.45点から70.52点へと25.9点急落した。主な原因はコード実行ディメンションが100.00点から50.00点へと半減したこ
Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落
YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。
YZ Index Smokeウィークリーレポート:文心一言4.5が37.2ポイント下落、複数モデルで28ポイント超の変動
Winzheng(赢政天下)のYZ Indexによる2026年6月23日〜28日のSmoke実測では、文心一言4.5が98.74点から61.52点へと最大幅の下落を記録し、豆包Proのみが上昇傾向を示した。
豆包Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落
2026年6月28日のSmokeライト評価において、豆包Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落した。
AppleのVision Pro責任者がOpenAIに転職、ハードウェアへの野心がさらに拡大
TechCrunchの報道によると、AppleのVision Pro担当副社長Paul MeadeがOpenAIのハードウェアチームに加わる予定であり、OpenAIのハードウェア分野における戦略的野心が改めて注目を集めている。
レビュー
すべて見る →Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ
今回のWDCDサイクル(Run #196との比較)では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。
WDCD横断評価:安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点
WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルで平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまった。企業のモデル選定においては、このシナリオへの個別加重評価が推奨される。
Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに
WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊(17.1%)を記録した。3ラウンドにわたる圧力テストが各
WDCD コンプライアンス
#1
Gemini 3.1 Pro
93.6
#2
Grok 4
92.9
#3
Claude Opus 4.7
89.3
#4
DeepSeek V4 Pro
89.3
#5
Qwen3 Max
88.6
#6
Gemini 2.5 Pro
87.9
#7
豆包 Pro
81.4
守約ランキング全体を見る →
Research Lab
WDCD Run #202:11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに
WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最
WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合
4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。