Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 05/31 06:12 NF

ハーバード卒業式スピーチが「AIを殺せ」と呼びかけ、支持者から反知性主義との批判と文化的転換の議論を引き起こす

米国時間2026年5月27日、コメディアンのRonny Chiengがハーバード大学卒業式で「あなた達世代の使命はAIを殺すことだ」と発言し、AI支持者と反対者の間で激しい議論を呼んでいる。本稿はAI製品開発と企業対応への示唆を分析する。

ニュース 05/31 06:00 TC

ソフトバンク、750億ユーロを投入しフランスに巨大データセンターを建設へ

日本のテクノロジー投資大手ソフトバンクグループは、フランスで最大5ギガワット規模のデータセンター容量を開発・運営するため、750億ユーロ（約810億ドル）を投資する計画を発表しました。本プロジェクトはフランスの低炭素原子力エネルギー資源と政

レビュー 05/31 05:55

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。

レビュー 05/31 05:55

リソース制限シーンで全モデル崩壊！WDCDテストで11モデルの平均はわずか1.95点

WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。

レビュー 05/31 05:54

R3崩壊率は60%に達する！11モデルがWDCD三回テストで集団失墜

11の主流モデルがWDCD三回テストで明確な減衰軌跡を示し、R1段階ではほぼ全員が制約を確認したものの、R3段階での直接的な圧力下では平均誠実率がわずか30.5%にまで低下し、200回のテストで直接ゼロになった事例もあった。

レビュー 05/31 05:54

Qwen3 Max が70.83点で WDCD 遵守ランキング首位、Grok4 は51.67点で最下位

WDCD 遵守テスト第1ラウンドの公開ランキングで、Qwen3 Max が70.83点で首位、Grok4 が51.67点で最下位となり、R3段階での平均違反率は60.6%に達し、多くのモデルが実際の企業制約下で依然として容易に違反することが

ニュース 05/31 05:54 X

Groqが新たな資金調達ラウンドを推進、NvidiaとAI推論クラウドサービスの拡大で提携

AIチップ分野の新興企業Groqが新たな資金調達ラウンドを推進し、Nvidiaと推論クラウドサービスの共同拡張で提携することを発表した。この動きはAIハードウェアとクラウドインフラの競争構図に新たな注目を集めている。

ニュース 05/31 05:53 X

Figure 03ヒューマノイドロボットが200時間連続稼働を突破、具現化知能が大規模応用へ

Figure社の第三世代ヒューマノイドロボット「Figure 03」が200時間の連続稼働テストを完了し、具現化知能アーキテクチャによる自律学習能力で人形ロボットの商用化を加速させている。

ニュース 05/31 05:53 X

中国の三体計算星座が完成世界初の宇宙AIコンピューティングプラットフォームが稼働開始

中国の三体計算星座が成功裏に建設され、軌道上コンピューティング能力5P OPSを実現、1400億パラメータの大規模モデルの運用をサポート可能となった。これは世界初の宇宙AIインフラの新たな段階を示している。

ニュース 05/31 05:53 X

2026年グローバルAIコンピューティングパワーレポート発表：チップの多元化進化とグリーンクラスターが新たな構図を牽引

天津で開催された国際科学技術博覧会において、《2026年グローバルAIコンピューティングパワーレポート及び10大トレンド》が正式に発表された。レポートはAIチップアーキテクチャの多元化進化、グリーン超大規模クラスターへの移行、およびトークン

ニュース 05/31 05:53 X

中国AI産業2026年の転換点：6000社超の企業と1.2兆元規模が新たな知能時代を牽引

2026年世界知能産業博覧会において、中国は『新世代人工知能科技産業発展報告2026』を正式発表した。2025年末時点で中国のAI企業数は6000社を超え、コア産業規模は1.2兆元を突破し、2026年は産業の転換点として位置付けられている。

ニュース 05/31 05:52 X

AnthropicがClaude Opus 4.8を発表、650億ドルの資金調達を完了し評価額9650億ドル突破

Anthropicは5月29日にClaude Opus 4.8を正式リリースし、同時に650億ドルの新たな資金調達完了を発表、評価額は9650億ドルに達した。これによりAnthropicはOpenAIを超え、現在最も評価額の高いAI企業とな

レビュー

すべてのレビューを見る →

レビュー 05/31

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。

レビュー 05/31

リソース制限シーンで全モデル崩壊！WDCDテストで11モデルの平均はわずか1.95点

レビュー 05/31

R3崩壊率は60%に達する！11モデルがWDCD三回テストで集団失墜

WDCD コンプライアンス

#1 Qwen3 Max 70.8 #2 Claude Sonnet 4.6 66.7 #3 Gemini 3.1 Pro 66.7 #4 GPT-o3 65 #5 Claude Opus 4.7 64.2 #6 DeepSeek V4 Pro 64.2 #7 Gemini 2.5 Pro 64.2

守約ランキング全体を見る →

Research Lab

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の

3大モデル翻訳対決：第22週品質評価、gpt-o3 が8.3点でリード

今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab