Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/04 06:00 ARS

Google AI検索にリンク表示命令、英国出版社はオプトアウト可能に

英国競争・市場庁（CMA）はGoogleに対し、AI Overviews機能においてより明確な出典リンクの表示と、英国出版社にAIクローリングからのオプトアウト権を付与するよう命じる裁決を下した。これはAI検索における著作権と流量再分配をめ

ニュース 06/04 04:05 WD

未来のヒューマノイドロボット：6フィートの屈強な体躯、中国製ボディに米国製の頭脳

Nvidiaが2026年国際ロボット大会で公開した最新ヒューマノイドロボット「Beefcake」は、中国製の軽量合金ボディと米国製のAIチップを組み合わせた革新的な製品で、製造業から医療まで幅広い応用が期待されている。

ニュース 06/04 04:04 ARS

トランプ政権のAIモデルテスト計画が頓挫：安全チームがDOGEにより大幅削減

トランプ政権が発表したAIモデル安全性テスト計画が、政府効率化部門（DOGE）による安全チームの大幅削減により実行困難に直面している。専門家からは「実行能力の空洞化を無視したパフォーマンス政策」との批判が相次いでいる。

ニュース 06/04 04:01 TC

Google Dreambeans：AIで生活をカートゥーン物語に変える

Googleが新たに発表したAIツール「Dreambeans」は、ユーザーのGoogleアカウントから個人データを抽出し、イラスト風の「物語」を生成して日常生活をカートゥーンに変える実験的なプロダクトである。

ニュース 06/04 04:01 ARS

Google Gemma 4 12B：16GBメモリのノートPCで実行可能

Googleは軽量言語モデルGemmaシリーズの最新版「Gemma 4 12B」を発表し、新しい符号化方式とトークン予測技術により、16GBメモリの一般的なノートPCでの実行を実現した。

ニュース 06/04 04:00 TC

Alphabet、過去最大の850億ドル資金調達——AI事業への強いシグナル

Alphabet（Google親会社）が史上最大規模となる850億ドルの株式発行を完了し、全額をGoogleのAI事業に投入することを発表。この巨額調達は、AI競争が深化する中での同社の戦略的決意を市場に強く示した。

レビュー 06/04 03:10

Smokeクイックテスト：文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。

ニュース 06/04 02:00 MIT

仮想発電所はどのようにデータセンターに電力を供給するのか？Googleの新協定が道を開く

Googleは仮想発電所（VPP）プロバイダーのVoltusと協定を結び、PJM送電網内のVPPプロジェクトに資金を提供することで、分散型エネルギー管理をデータセンター電力供給システムに導入する。これは、データセンターが受動的な電力消費者か

ニュース 06/04 00:02 TC

英国新規制：出版社がAI検索を「拒否」可能に

英国競争・市場庁（CMA）は、Googleに対し、ウェブサイト運営者が生成AI検索機能から能動的にオプトアウトできるツールの提供を義務付ける画期的な規制要件を発表した。これは世界のAIコンテンツ利用規範のテンプレートとなる可能性がある。

ニュース 06/04 00:01 TC

元Goldman SachsとMetaの幹部が音声AIを創業、アフリカ・中東を狙う

元Goldman SachsとMetaの幹部2名が、アフリカと中東市場専用の音声AI企業を共同設立。15以上の現地言語に対応し、日々1.7万通以上の通話を処理している。

ニュース 06/04 00:00 WD

トランプ大統領、ついにAI大統領令に署名：1ヶ月の保留を経た深夜の決断

トランプ大統領は先週月曜の夜、白紙撤回も囁かれていたAI大統領令にようやく署名した。ホワイトハウス内部の関係者によれば、その策定過程は「官僚同士の綱引き」とも言える複雑なものだった。

ニュース 06/04 00:00 TC

AmazonがAI生成の商品画像を検索結果に表示

Amazonが検索結果にAIが生成した商品画像を表示する新機能を発表した。視覚的検索と生成AIで購入意図に合致したシーンを提示する狙いだが、画像の真実性をめぐる議論も呼んでいる。

レビュー

すべて見る →

レビュー 06/04

Smokeクイックテスト：文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

レビュー 06/03

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。

レビュー 06/03

WDCD横断比較で判明：リソース制限が11モデル最大の弱点、平均わずか1.7点

WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab