赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →水資源不足がSpaceX IPOの新たなリスクに
SpaceXがIPO申請書類において、データセンターの冷却に必要な水資源の確保を重要なリスク要因として明記。AIとクラウドコンピューティングの急成長時代において、水資源が新たな戦略的制約として浮上している。
ChatGPTが殺人事件に巻き込まれ、フロリダ州がOpenAIとAltmanを提訴
フロリダ州司法長官事務所は2026年6月2日、OpenAIおよびCEOのSam Altmanを連邦裁判所に提訴し、同社のAI製品ChatGPTが複数の殺人事件と直接関連していると主張した。本訴訟はAIの製品設計責任を問う画期的な事例となり、
AI気象スタートアップ、予報能力で政府機関を圧倒
AIスタートアップのWindborne Systemsが、高高度気球とTransformerベースのAIモデルを組み合わせた気象予報システムで、米国国家気象局や欧州中期天気予報センターなどの政府機関の予測精度を数日先まで上回ったとTechC
AI安全企業Anthropicが秘密裏にIPO申請、AI業界に上場ラッシュ到来
AI安全企業AnthropicがSECに秘密裏にIPO申請を提出。2025年以降のAI業界における上場ラッシュが本格化する中、同社の「安全優先」戦略と収益化への課題が注目を集めている。
テスト用ロボットが民泊を破損、スタートアップ企業が損害賠償請求に直面
米国のロボットスタートアップMobilXが、Airbnbで借りた住宅内でロボットのテストを行い住宅を著しく損傷させたとして、家主から1万2000ドルの損害賠償請求を受けている。本件は機械実地テストの法的・倫理的責任を巡る議論を引き起こしてい
Anthropic、IPOを秘密申請、史上最大規模の上場となる可能性
AI大手Anthropicが米SECに極秘でIPO書類を提出し、評価額は3000億ドルから4000億ドルに達する可能性があり、史上最大規模のIPOになる見込みです。
AI/MLが15時間を1分に圧縮:GMの開発スピードアップの秘密
ゼネラルモーターズ(GM)は、AIと機械学習技術を活用して、従来15時間かかっていたシミュレーション計算をわずか1分に短縮することに成功した。本記事では、代理モデル、デジタルツイン、そしてAI支援設計が自動車開発プロセスをどのように変革して
DuckDuckGoが「AIなし」拡張機能を発表、トラフィック急増で更にリーチ拡大へ
プライバシー検索エンジンのDuckDuckGoは、ChromeとFirefox向けに「No AI」ブラウザ拡張機能を正式リリースし、検索結果からAI生成コンテンツを自動的にフィルタリングする機能を提供。同社のトラフィックは前年同期比72%の
中国の脳-機械インターフェースに新たなブレークスルー:世界初の侵襲型チップが認可
2026年6月1日、中国国家薬品監督管理局は世界初の侵襲型脳-機械インターフェース(BCI)チップの臨床試験申請を正式に認可した。この決定は中国がBCI競争で先行することを意味するとともに、神経疾患患者に新たな希望をもたらす一方、倫理や格差
Intelの新型AIチップ:低価格・優れた放熱性能でNVIDIA・AMDを超える
Intelが最新AIアクセラレーター「Crescent Island」を発表し、風冷とLPDDR5を採用することで低コスト・低温運用を実現し、NVIDIAやAMDの主力製品に対抗する。2026年第4四半期に量産開始予定。
中国が世界初の侵襲型ブレイン・マシン・インターフェースチップを承認、次は何か?
中国国家薬品監督管理局が世界初の侵襲型脳機接続インターフェース(BCI)チップ「NEO」の臨床応用を正式に承認し、麻痺患者に新たな希望をもたらすとともに、グローバルBCI競争における中国の位置取り戦略を示した。
OpenAIモデルが80年未解決の数学難題を攻略
OpenAIの最新AIモデルが、1937年から未解決だったCollatz予想(3x+1問題)の完全な証明に成功したと発表。記号推論と強化学習を組み合わせた新しいアーキテクチャにより、公理から厳密な数学的証明を導き出した。
レビュー
すべてのレビューを見る →Smoke評価:Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞
Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。
Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落
最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。
リソース制限シーンで全モデル崩壊!WDCDテストで11モデルの平均はわずか1.95点
WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。
WDCD コンプライアンス
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。
WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話
WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の