Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/02 00:00 TC

DuckDuckGoが「AIなし」拡張機能を発表、トラフィック急増で更にリーチ拡大へ

プライバシー検索エンジンのDuckDuckGoは、ChromeとFirefox向けに「No AI」ブラウザ拡張機能を正式リリースし、検索結果からAI生成コンテンツを自動的にフィルタリングする機能を提供。同社のトラフィックは前年同期比72%の

ニュース 06/01 22:01 MIT

中国の脳-機械インターフェースに新たなブレークスルー：世界初の侵襲型チップが認可

2026年6月1日、中国国家薬品監督管理局は世界初の侵襲型脳-機械インターフェース（BCI）チップの臨床試験申請を正式に認可した。この決定は中国がBCI競争で先行することを意味するとともに、神経疾患患者に新たな希望をもたらす一方、倫理や格差

ニュース 06/01 22:00 ARS

Intelの新型AIチップ：低価格・優れた放熱性能でNVIDIA・AMDを超える

Intelが最新AIアクセラレーター「Crescent Island」を発表し、風冷とLPDDR5を採用することで低コスト・低温運用を実現し、NVIDIAやAMDの主力製品に対抗する。2026年第4四半期に量産開始予定。

ニュース 06/01 20:02 MIT

中国が世界初の侵襲型ブレイン・マシン・インターフェースチップを承認、次は何か？

中国国家薬品監督管理局が世界初の侵襲型脳機接続インターフェース（BCI）チップ「NEO」の臨床応用を正式に承認し、麻痺患者に新たな希望をもたらすとともに、グローバルBCI競争における中国の位置取り戦略を示した。

ニュース 06/01 20:01 ARS

OpenAIモデルが80年未解決の数学難題を攻略

OpenAIの最新AIモデルが、1937年から未解決だったCollatz予想（3x+1問題）の完全な証明に成功したと発表。記号推論と強化学習を組み合わせた新しいアーキテクチャにより、公理から厳密な数学的証明を導き出した。

ニュース 06/01 20:00 WD

ノルス・アトランティック航空の超低価格チケットに潜む罠：技術重視のカスタマーサポートに苦情殺到

ノルウェーの格安航空会社ノルス・アトランティック航空が、完全デジタル化されたカスタマーサポート体制により、返金が受けられない乗客から米連邦取引委員会（FTC）への苦情が相次いでいる。低価格戦略の裏に潜む「見えないコスト」が浮き彫りになった。

ニュース 06/01 18:01 AIN

AIがゲーム開発を再構築：コンセプトからリリースまでの全面的変革

Google Cloudの最新調査によると、ゲーム開発者の90%が日常業務にAIを導入しており、Steamプラットフォームでは2025年だけで7818本のゲームがAI技術の使用を開示し、前年比681%の急増となった。AIはゲーム開発における

ニュース 06/01 18:00 AIN

FX ロボット評価：自動化取引の未来

自動化取引は外国為替市場の中核的な原動力となりつつあり、本記事ではFXロボット（自動化取引システム）の特徴、評価基準、業界動向と将来展望について解説する。

ニュース 06/01 15:09 X

ソフトバンク、フランスに750億ユーロ規模のAIデータセンター建設計画、欧州インフラ拡張が新段階へ

ソフトバンクグループは欧州最大規模のAIデータセンターをフランスに建設するため、750億ユーロを投資する計画を発表した。世界的なAIインフラ競争における重要な一歩と位置付けられている。

ニュース 06/01 15:09 X

アリババ Qwen 3.7-Max を発表：価格は Claude のわずか6分の1、AIコストパフォーマンスの優位性が顕著に

アリババグループは最新の大規模モデル Qwen 3.7-Max を正式発表し、Claude 同等製品の6分の1という競争力ある価格と、長時間安定動作・多タスク処理能力で世界の注目を集めている。

ニュース 06/01 15:09 X

OpenAIモデルが80年前のErdős幾何予想を解明：125ページのAI証明が数学界に認められる

OpenAIの先進AIモデルが、数学者Paul Erdősが80年以上前に提唱した幾何予想を自律的に証明することに成功した。生成された125ページに及ぶ証明文書は厳密な内容で、複数の数学専門家から認められている。

ニュース 06/01 15:09 X

NVIDIA RTX Spark チップが衝撃の発表：AIエージェントのローカル推論がPCの新時代を切り開く

NVIDIAは、AIエージェント専用に設計された初のRTX Sparkチップを発表し、ローカルPC上での大規模AIモデルの直接実行を可能にした。Microsoft、Adobeなどのパートナーが同チップを基にソフトウェア製品の再構築を表明して

レビュー

すべてのレビューを見る →

レビュー 06/01

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。

レビュー 05/31

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。

レビュー 05/31

リソース制限シーンで全モデル崩壊！WDCDテストで11モデルの平均はわずか1.95点

WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。

WDCD コンプライアンス

#1 Qwen3 Max 70.8 #2 Claude Sonnet 4.6 66.7 #3 Gemini 3.1 Pro 66.7 #4 GPT-o3 65 #5 Claude Opus 4.7 64.2 #6 DeepSeek V4 Pro 64.2 #7 Gemini 2.5 Pro 64.2

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab