Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/04 02:00 MIT

仮想発電所はどのようにデータセンターに電力を供給するのか？Googleの新協定が道を開く

Googleは仮想発電所（VPP）プロバイダーのVoltusと協定を結び、PJM送電網内のVPPプロジェクトに資金を提供することで、分散型エネルギー管理をデータセンター電力供給システムに導入する。これは、データセンターが受動的な電力消費者か

ニュース 06/04 00:02 TC

英国新規制：出版社がAI検索を「拒否」可能に

英国競争・市場庁（CMA）は、Googleに対し、ウェブサイト運営者が生成AI検索機能から能動的にオプトアウトできるツールの提供を義務付ける画期的な規制要件を発表した。これは世界のAIコンテンツ利用規範のテンプレートとなる可能性がある。

ニュース 06/04 00:01 TC

元Goldman SachsとMetaの幹部が音声AIを創業、アフリカ・中東を狙う

元Goldman SachsとMetaの幹部2名が、アフリカと中東市場専用の音声AI企業を共同設立。15以上の現地言語に対応し、日々1.7万通以上の通話を処理している。

ニュース 06/04 00:00 WD

トランプ大統領、ついにAI大統領令に署名：1ヶ月の保留を経た深夜の決断

トランプ大統領は先週月曜の夜、白紙撤回も囁かれていたAI大統領令にようやく署名した。ホワイトハウス内部の関係者によれば、その策定過程は「官僚同士の綱引き」とも言える複雑なものだった。

ニュース 06/04 00:00 TC

AmazonがAI生成の商品画像を検索結果に表示

Amazonが検索結果にAIが生成した商品画像を表示する新機能を発表した。視覚的検索と生成AIで購入意図に合致したシーンを提示する狙いだが、画像の真実性をめぐる議論も呼んでいる。

ニュース 06/03 22:04 MIT

トランプの新AI大統領令を読み解く、軍用スマートグラスの登場

トランプ大統領が前政権のAI大統領令を撤回してから2週間も経たないうちに新たなAI大統領令に署名し、規制緩和とAIの国家安全保障への活用を推進。同時に米軍は戦場用スマートグラスの開発を加速させている。

ニュース 06/03 22:03 AIN

E.ONがSAP S/4HANAとAIを活用し、電力網の近代化を再構築

欧州エネルギー大手E.ONは、SAP S/4HANAを導入することで三大事業部門の底層データを統一・標準化し、AIアプリケーションの広範な展開を実現した。これにより変圧器寿命予測や動的負荷調整などのAIモデルの実装サイクルが18ヶ月から6ヶ

ニュース 06/03 22:02 TC

Coralogixが2億ドル調達、AI Agent監視に賭ける

可観測性プラットフォームのCoralogixが2億ドルのF輪資金調達を完了し、評価額は16億ドルに達した。同社は急速に普及するAI Agentの実時間監視に注力している。

ニュース 06/03 22:01 ARS

MetaのAI追撃の道：ライバルとの差を縮められるか？

MetaはオープンソースLLaMAシリーズと巨額な算力投資でAI競争に挑むも、人材流出と商業化の課題に直面している。OpenAIやGoogleとの差を埋められるかが今後の鍵となる。

ニュース 06/03 22:00 TC

Meta AIエージェントが世界展開、WhatsApp Businessはトークン課金制

Metaは6月3日、AIエージェント機能をWhatsApp Businessプラットフォーム上で世界規模で正式リリースし、トークン消費量に応じた従量課金モデルを採用した。これにより企業は顧客対応の自動化を低コストで実現できるようになる。

ニュース 06/03 20:00 WD

NVIDIA RTX Spark ノートパソコン：AI PCを革新する野望

NVIDIAがComputex 2026で発表したRTX Sparkは、薄型ノートPC向けに設計されたAI特化チップであり、32Wの消費電力で100TOPS超のAI演算能力を実現する。同社はこれによりAI PCを真の生産性ツールへと変革する

ニュース 06/03 18:02 AIN

マイクロソフトMajorana 2量子チップ：AIエージェント駆動型研究開発のマイルストーン

マイクロソフトは第二世代量子チップ「Majorana 2」を発表し、量子ビットの信頼性を1000倍向上させ、平均寿命20秒を達成した。この成果の背後には、研究開発に深く関与したAIエージェント（agentic AI）の存在がある。

レビュー

すべて見る →

レビュー 06/03

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。

レビュー 06/03

WDCD横断比較で判明：リソース制限が11モデル最大の弱点、平均わずか1.7点

WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。

レビュー 06/03

11モデルWDCD三段階テスト：R1で95%が約束、R3で65回の直接崩壊

WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab