Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/03 04:59 Winzheng Lab

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイとなった一方、豆包 Proが減衰率-0%で

レビュー 06/03 04:59

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。

レビュー 06/03 04:58

WDCD横断比較で判明：リソース制限が11モデル最大の弱点、平均わずか1.7点

WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。

レビュー 06/03 04:58

11モデルWDCD三段階テスト：R1で95%が約束、R3で65回の直接崩壊

WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。

レビュー 06/03 04:58

WDCD遵守ランキングで70点の三強が並びトップ、文心一言は50点で崩壊し最下位

WDCD遵守テストで11モデルのうち、Claude Opus 4.7、GPT-5.5、GPT-o3の3モデルが70点で並びトップとなり、文心一言4.5は50点で明らかな断層を見せ最下位となった。

ニュース 06/03 04:08 WD

Microsoft Scout：常時オンラインのAI同僚

Microsoftが Teams 向けに開発中の新 AI エージェント「Scout」は、OpenClaw スタイルのアーキテクチャを採用し、チームの一員として自律的に業務を支援する「永続オンライン同僚」として位置付けられている。

ニュース 06/03 04:07 TC

GoogleがFake Call Detectionを発表、AIディープフェイクによるなりすまし詐欺を阻止

Googleは機械学習で偽造番号やAI音声クローンによるなりすまし詐欺を識別・遮断する「Fake Call Detection」機能を発表した。デバイス端末でのローカル解析によりプライバシーを保護しつつ、200ミリ秒以下の低遅延で検出を実現

ニュース 06/03 04:06 ARS

Androidの新機能：詐欺電話となりすまし詐欺をリアルタイム識別

Googleが2026年6月のAndroid機能アップデートで、デバイス側AIモデルを活用した通話詐欺リアルタイム検出機能を発表。プライバシーを保護しながら、なりすましや音声クローンなどの詐欺パターンを識別し、ユーザーに警告する。

ニュース 06/03 04:05 TC

MicrosoftがScoutを発表：OpenClawにインスパイアされたインテリジェントパーソナルアシスタント

Microsoftは2026年のBuild開発者会議で、OpenClawにインスパイアされた新AIアシスタント「Scout」を発表した。Microsoft 365に深く統合され、従来のCopilotとは異なり、能動的かつ自律的なタスク実行を

ニュース 06/03 04:04 AIN

AnthropicがIPO申請書類を提出、AIがエンタープライズ向け実用ツールへと成熟

AnthropicがSECにIPO申請を正式提出し、生成AIが研究主導の初期段階からエンタープライズ向け実用ツールへと移行する重要なマイルストーンとなった。標準化された価格設定、長期サポート版モデル、ガバナンス・コンプライアンス体制により、

ニュース 06/03 04:03 TC

スコセッシ、ハリウッドAIの最新支持者に：絵コンテのみに使用

83歳の名匠マーティン・スコセッシ監督が、AIツールを映画の絵コンテ作成に活用していることを業界セミナーで明かした。脚本執筆や演技、最終編集には一切使用せず、前期ビジュアル化の段階に限定するという姿勢が、ハリウッドのAI論争に新たな視点を投

ニュース 06/03 04:02 ARS

数学者が警告：AIが数学という職業を侵食、国際連盟が声明

国際数学連盟（IMU）が、AI技術と科技産業による数学界への侵食を警告する声明を支持。AIが数学者の仕事を代替し、巨額な報酬で学界の頂点的人材を引き抜くことで、学術数学研究が人材枯渇と方向性の偏向という二重の危機に陥っていると指摘した。

レビュー

すべて見る →

レビュー 06/03

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

レビュー 06/03

WDCD横断比較で判明：リソース制限が11モデル最大の弱点、平均わずか1.7点

レビュー 06/03

11モデルWDCD三段階テスト：R1で95%が約束、R3で65回の直接崩壊

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab