赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →DuckDuckGoが「AIなし」拡張機能を発表、トラフィック急増で更にリーチ拡大へ
プライバシー検索エンジンのDuckDuckGoは、ChromeとFirefox向けに「No AI」ブラウザ拡張機能を正式リリースし、検索結果からAI生成コンテンツを自動的にフィルタリングする機能を提供。同社のトラフィックは前年同期比72%の
中国の脳-機械インターフェースに新たなブレークスルー:世界初の侵襲型チップが認可
2026年6月1日、中国国家薬品監督管理局は世界初の侵襲型脳-機械インターフェース(BCI)チップの臨床試験申請を正式に認可した。この決定は中国がBCI競争で先行することを意味するとともに、神経疾患患者に新たな希望をもたらす一方、倫理や格差
Intelの新型AIチップ:低価格・優れた放熱性能でNVIDIA・AMDを超える
Intelが最新AIアクセラレーター「Crescent Island」を発表し、風冷とLPDDR5を採用することで低コスト・低温運用を実現し、NVIDIAやAMDの主力製品に対抗する。2026年第4四半期に量産開始予定。
中国が世界初の侵襲型ブレイン・マシン・インターフェースチップを承認、次は何か?
中国国家薬品監督管理局が世界初の侵襲型脳機接続インターフェース(BCI)チップ「NEO」の臨床応用を正式に承認し、麻痺患者に新たな希望をもたらすとともに、グローバルBCI競争における中国の位置取り戦略を示した。
OpenAIモデルが80年未解決の数学難題を攻略
OpenAIの最新AIモデルが、1937年から未解決だったCollatz予想(3x+1問題)の完全な証明に成功したと発表。記号推論と強化学習を組み合わせた新しいアーキテクチャにより、公理から厳密な数学的証明を導き出した。
ノルス・アトランティック航空の超低価格チケットに潜む罠:技術重視のカスタマーサポートに苦情殺到
ノルウェーの格安航空会社ノルス・アトランティック航空が、完全デジタル化されたカスタマーサポート体制により、返金が受けられない乗客から米連邦取引委員会(FTC)への苦情が相次いでいる。低価格戦略の裏に潜む「見えないコスト」が浮き彫りになった。
AIがゲーム開発を再構築:コンセプトからリリースまでの全面的変革
Google Cloudの最新調査によると、ゲーム開発者の90%が日常業務にAIを導入しており、Steamプラットフォームでは2025年だけで7818本のゲームがAI技術の使用を開示し、前年比681%の急増となった。AIはゲーム開発における
FX ロボット評価:自動化取引の未来
自動化取引は外国為替市場の中核的な原動力となりつつあり、本記事ではFXロボット(自動化取引システム)の特徴、評価基準、業界動向と将来展望について解説する。
ソフトバンク、フランスに750億ユーロ規模のAIデータセンター建設計画、欧州インフラ拡張が新段階へ
ソフトバンクグループは欧州最大規模のAIデータセンターをフランスに建設するため、750億ユーロを投資する計画を発表した。世界的なAIインフラ競争における重要な一歩と位置付けられている。
アリババ Qwen 3.7-Max を発表:価格は Claude のわずか6分の1、AIコストパフォーマンスの優位性が顕著に
アリババグループは最新の大規模モデル Qwen 3.7-Max を正式発表し、Claude 同等製品の6分の1という競争力ある価格と、長時間安定動作・多タスク処理能力で世界の注目を集めている。
OpenAIモデルが80年前のErdős幾何予想を解明:125ページのAI証明が数学界に認められる
OpenAIの先進AIモデルが、数学者Paul Erdősが80年以上前に提唱した幾何予想を自律的に証明することに成功した。生成された125ページに及ぶ証明文書は厳密な内容で、複数の数学専門家から認められている。
NVIDIA RTX Spark チップが衝撃の発表:AIエージェントのローカル推論がPCの新時代を切り開く
NVIDIAは、AIエージェント専用に設計された初のRTX Sparkチップを発表し、ローカルPC上での大規模AIモデルの直接実行を可能にした。Microsoft、Adobeなどのパートナーが同チップを基にソフトウェア製品の再構築を表明して
レビュー
すべてのレビューを見る →Smoke評価:Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞
Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。
Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落
最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。
リソース制限シーンで全モデル崩壊!WDCDテストで11モデルの平均はわずか1.95点
WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。
WDCD コンプライアンス
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。
WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話
WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の