Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 · #1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/28 06:11 NF

FlexがJetCool液冷サーバーソリューションを発表——高密度AIワークロードに対応

Flex社は2026年6月27日の24時間前に、高密度AIワークロード向けに設計されたJetCoolオールインワン液冷サーバーソリューションを発表した。モジュール式設計により既存サーバーの改造に対応し、単一ラックの冷却能力を100kW以上に

ニュース 06/28 06:09 NF

SpaceX、軌道上AIデータセンター「Starmind」を正式発表——2027年にプロトタイプ機を打ち上げへ

SpaceXは2026年6月24日、軌道上AIデータセンタープロジェクトを「Starmind」と命名することを確認した。衛星上でAI推論を実行し、結果をミリ秒単位で地上に送信するシステムで、2027年初頭にプロトタイプ機の打ち上げを予定して

ニュース 06/28 05:59 Winzheng Lab

WDCD Run #202：11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに

WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最も安定した多ターン対話での指示遵守能力を

レビュー 06/28 05:59

Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ

今回のWDCDサイクル（Run #196との比較）では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。

レビュー 06/28 05:59

WDCD横断評価：安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点

WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルで平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまった。企業のモデル選定においては、このシナリオへの個別加重評価が推奨される。

レビュー 06/28 05:59

Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに

WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊（17.1%）を記録した。3ラウンドにわたる圧力テストが各

レビュー 06/28 05:58

Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、文心一言4.5は75.71点で最下位

Winzhengが実施したWDCD守約テストにおいて、Gemini 3.1 Proが93.57点で首位を獲得し、文心一言4.5が75.71点で11モデル中最下位となった。R2干渉抵抗とR3加圧耐性が各モデルの最終順位を左右する主要因であるこ

レビュー 06/28 03:35

Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアが96.45点から70.52点へと25.9点急落した。主な原因はコード実行ディメンションが100.00点から50.00点へと半減したこ

レビュー 06/28 03:35

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。

レビュー 06/28 03:35

YZ Index Smokeウィークリーレポート：文心一言4.5が37.2ポイント下落、複数モデルで28ポイント超の変動

Winzheng（赢政天下）のYZ Indexによる2026年6月23日〜28日のSmoke実測では、文心一言4.5が98.74点から61.52点へと最大幅の下落を記録し、豆包Proのみが上昇傾向を示した。

レビュー 06/28 03:35

豆包Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

2026年6月28日のSmokeライト評価において、豆包Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落した。

ニュース 06/28 02:15 TC

AppleのVision Pro責任者がOpenAIに転職、ハードウェアへの野心がさらに拡大

TechCrunchの報道によると、AppleのVision Pro担当副社長Paul MeadeがOpenAIのハードウェアチームに加わる予定であり、OpenAIのハードウェア分野における戦略的野心が改めて注目を集めている。

レビュー

すべて見る →

レビュー 06/28

Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ

レビュー 06/28

WDCD横断評価：安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点

レビュー 06/28

Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに

WDCD コンプライアンス

#1 Gemini 3.1 Pro 93.6 #2 Grok 4 92.9 #3 Claude Opus 4.7 89.3 #4 DeepSeek V4 Pro 89.3 #5 Qwen3 Max 88.6 #6 Gemini 2.5 Pro 87.9 #7 豆包 Pro 81.4

守約ランキング全体を見る →

Research Lab

WDCD Run #202：11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに

WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合

4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6（平均スコア9/10）。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab