Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Claude Opus 4.7 83 · #2 Grok 4 82.2 · #3 GPT-5.5 80.5 ▲1.7 · #4 豆包 Pro 80 ▲1.8 · #5 GPT-o3 77.3 · #6 Claude Sonnet 4.6 75.9 ▲1.4 · #7 DeepSeek V4 Pro 74.5 ▼6.1 · #8 Gemini 2.5 Pro 74.1 ▲1.3 · #9 Qwen3 Max 74.1 ▲5.1 · #10 Gemini 3.1 Pro 65.9 ▼8.2 · #11 GLM-4.6 53.2 ▼6.6 · ▲ Gemini 2.5 Pro +15 · ▼ GLM-4.6 -30.8 · #1 Claude Opus 4.7 83 · #2 Grok 4 82.2 · #3 GPT-5.5 80.5 ▲1.7 · #4 豆包 Pro 80 ▲1.8 · #5 GPT-o3 77.3 · #6 Claude Sonnet 4.6 75.9 ▲1.4 · #7 DeepSeek V4 Pro 74.5 ▼6.1 · #8 Gemini 2.5 Pro 74.1 ▲1.3 · #9 Qwen3 Max 74.1 ▲5.1 · #10 Gemini 3.1 Pro 65.9 ▼8.2 · #11 GLM-4.6 53.2 ▼6.6 · ▲ Gemini 2.5 Pro +15 · ▼ GLM-4.6 -30.8 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 07/26 20:17 NF

WWEがAI活用拡大を計画——SummerSlam海報への批判も推進継続

WWEは試合グラフィック、クリエイティブ評価、ストーリーライン生成などへのAI活用拡大を計画しており、2026年SummerSlamの公式ポスターにAIの痕跡があるとしてファンから批判を受けながらも、方針を撤回する気配はない。

ニュース 07/26 06:10 NF

AnthropicがSK Hynixにチップ原材料の供給を要請、自社開発計画が実行段階へ

AnthropicがSK Hynixに対し自社設計半導体向けの原材料供給を要請したことが明らかになった。AI企業がフルスタックのハードウェア制御へと移行する業界トレンドがさらに鮮明になっている。

ニュース 07/26 06:08 NF

AnthropicがClaude Opus 5を発表——価格据え置きで安全性への姿勢に疑問の声

Anthropicは2026年7月24日にClaude Opus 5を発表し、入力100万トークンあたり5ドル・出力25ドルという価格をOpus 4.8から据え置きつつ、複数のベンチマークで性能向上を実現した。一方、以前の安全上の懸念による

ニュース 07/26 05:42 Winzheng Lab

WDCD Run #247：Grok 4がネガティブ減衰でトップ、平均指示減衰率は-1.8%に縮小

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #247では、11モデルを対象に多ターン対話における指示遵守の減衰を測定し、平均指示減衰率は-1.8%を記録。上位モデルは減衰どころか指示遵

レビュー 07/26 05:41

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD v3.1パイロット評価のRun #247において、Grok 4が94.20点で首位を維持する一方、Claude Opus 4.7とGemini 3.1 Proはいずれも5点以上下落し83点台に後退した。

レビュー 07/26 05:41

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

WDCD v3.1の契約遵守テストにおいて、ビジネスルールシナリオの平均スコアが最低となり、Claude-sonnet-4.6はわずか1.8/4点に留まった一方、Grok-4は満点4/4を獲得し、両者の差は2.2点に達した。

レビュー 07/26 05:41

R3誠実率わずか50.6%：Grok 4はゼロ崩壊、GPT-o3は20%崩壊

WDCD v3.1パイロットテストにおける8問のv2三段階アンカー問題の結果、11モデルのR3平均誠実率はわずか50.6%にとどまった。Grok 4がR3で1.63/2を達成しゼロ崩壊を記録した一方、GPT-o3とQwen3 Maxの崩壊率

レビュー 07/26 03:35

DeepSeek V4 Pro が83.23点で首位：2026年7月26日 YZ Index Smoke クイックテスト速報

2026年7月26日のYZ Index Smokeクイックテストでは10モデルを対象に評価が行われ、DeepSeek V4 Proが83.23点で当日首位を獲得した。コード実行とマテリアル制約の2次元で構成される本テストは、短期シグナルの観

ニュース 07/26 00:24 TC

倒れた電線が露わにしたAIデータセンターの電力供給危機

2026年7月、バージニア州北部で電線が倒れた事故により、AIデータセンターが集中するエリアで大規模停電の危機が生じた。この「ヒヤリ」な事例は、AI需要の急増が老朽化した電力網を限界へと追い込んでいる現状を浮き彫りにした。

ニュース 07/26 00:23 TC

AIから逃げる：米国図書館の「AI回避」ワークショップが大反響

米国各地の図書館でAIを避けることを目的とした「Avoiding AI（AI回避）」ワークショップが開催され、予想をはるかに超える人気を集めている。この現象は、AI技術の急速な普及に対する社会的な反動と「デジタル・ミニマリズム」運動の広がり

ニュース 07/25 20:21 NF

OpenAI、251個の無料プロンプト集を公開――職場・学習・クリエイティブシーンを網羅

2026年7月25日、OpenAIはスレッド形式で251個の無料プロンプトテンプレート集を公開した。職場業務、学習、クリエイティブプロジェクトの各シーンをカバーしており、ユーザーが追加費用なしで即座に利用できる。

ニュース 07/25 20:18 NF

日本：生成AIで架空女性の裸体ポスターを販売した4人が逮捕、うち1人は約1000万円の利益

日本警察が、無料の生成AIソフトを使って実在しない女性の裸体画像を作成しポスターとしてネットオークションで販売していた4人を逮捕した。AIが生成したわいせつ物による逮捕は日本初の事例となる。

レビュー

すべて見る →

レビュー 07/26

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD v3.1パイロット評価のRun #247において、Grok 4が94.20点で首位を維持する一方、Claude Opus 4.7とGemini 3.1 Proはいずれも5点以上下落し83点台に後退した。

レビュー 07/26

WDCD五大シナリオ横断評価：ビジネスルールが最難関、Grok-4は満点・Claude-sonnetは1.8点

レビュー 07/26

R3誠実率わずか50.6%：Grok 4はゼロ崩壊、GPT-o3は20%崩壊

WDCD コンプライアンス

#1 Grok 4 94.2 #2 DeepSeek V4 Pro 87 #3 GLM-4.6 83.9 #4 Claude Opus 4.7 83.5 #5 Gemini 3.1 Pro 83.3 #6 GPT-o3 81.2 #7 Claude Sonnet 4.6 74.9

守約ランキング全体を見る →

Research Lab

WDCD Run #247：Grok 4がネガティブ減衰でトップ、平均指示減衰率は-1.8%に縮小

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #247では、11モデルを対象に多ターン対話における指示遵守の減衰を測定し、平均指示減衰率は-1.8

WDCD Run #242：Grok 4とGLM-4.6が指示劣化ゼロを維持、Gemini 3.1 Proは-100%で完全崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #242において、Grok 4とGLM-4.6が指示劣化率0%でトップを維持する一方、Gemini

4大モデル翻訳対決：第30週品質評価、claude-sonnet-4.6が8.5点でトップ

今週368件の翻訳タスクを4つのモデルが処理し、3件をサンプリングして多モデルブラインド評価を実施した結果、claude-sonnet-4.6が平均8.5点で総合最優秀となった。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab