赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
最新ニュース
すべてのニュースを見る →Snapがコスト圧力によりAI動画チームを分離、新会社Dotmoとして独立運営へ
SnapchatのSnapが、コスト最適化を理由に社内AI動画研究開発チームを分離独立させ、新会社「Dotmo」を設立した。DotmoはSnapのコア事業とは切り離され、AI動画技術の独自開発と商業化に専念する。
AI推論スタートアップBaseten、15億ドルの追加調達へ——評価額は130億ドルに急騰
AI推論インフラを手掛けるスタートアップのBasetenが15億ドルの資金調達を進めており、評価額は130億ドルに達する見込みだ。前回の大型調達からわずか数ヶ月での評価額急騰は、AI推論分野への資本市場の熱狂を反映している。
中国に対抗し、台湾がドローン防衛生産を加速、米軍にも供給へ
台湾は2026年国防予算でドローン関連支出を前年比40%超増の約9.3億ドルに拡大し、本土企業が米軍への供給契約を初めて獲得するなど、ドローン産業が国防・国際協力の両面で急速に発展している。
OpenAIがDean Ballを戦略的未来チームのトップに任命——トランプ政権顧問の経歴が政策論争を呼ぶ
OpenAIは7月6日付でDean BallがStrategic Futuresチームの責任者として正式入社すると発表した。同チームは最先端AI政策フレームワークの策定を担い、米国議会の立法プロセスに直接関与する。
Lori TrahanとObernolteがAI連邦フレームワーク草案を発表、州規制凍結をめぐる論争が激化
2026年6月4日、米国下院議員Lori TrahanとJay Obernolteらが超党派でGreat American AI Act討議草案を発表した。連邦レベルのAIガバナンス規則の確立を目指す同草案をめぐり、州レベルのAI規制を事実
AmazonのAIチップはNVIDIAを狙う?AWSが自社開発チップの外部販売を計画
AWSが自社開発AIチップ「Trainium」「Inferentia」を第三者データセンターへ直接販売する交渉を進めていることが明らかになった。この戦略転換はAmazonがAIチップ分野でNVIDIAに対してより直接的な挑戦を仕掛けることを
米国の独身者の約半数がAIを使ったデートに否定的な見方
Match グループの調査によると、米国の独身者の47%がAIをデートシーンで使用することに否定的な見方を示しており、技術が現代の恋愛関係に与える影響について幅広い議論を呼んでいる。
Meta AI部門員工の「反乱」:士気が底をつく
Meta新設のAI部門で管理混乱・目標不明確・リソース配分不均衡などの問題が噴出し、従業員の士気が著しく低下している。業界全体のAI人材争奪戦が抱える構造的問題を浮き彫りにしている。
OpenAI IPO前夜に人材集結:Transformerの発明者とトランプ政権AI顧問が相次いで入社
OpenAIはIPOを前に、Transformerアーキテクチャの共同発明者Noam Shazeerと、元トランプ政権AI政策顧問Dean Ballを同じ週に相次いで招聘した。技術力と政策対応力の両面を強化する「二重の保険」戦略とみられてい
SpaceX、200億ドル規模の債券融資を準備——AIデータセンターと軌道計算の新領域に布石
SpaceXが少なくとも200億ドル規模の債券発行を計画していることが明らかになった。調達資金はAI拡張および近地球軌道データセンタープロジェクトの構築に充てられる予定で、同社がAIインフラ領域への進出を加速させていることを示している。
NVIDIAのCEOジェンセン・フアン、AIの拡大が世界の電力網に重大な圧力をかけると警告――データセンターのエネルギー消費が核心的争点に
NVIDIAのCEOジェンセン・フアンは、AIの拡大が世界の電力網に著しい圧力をもたらすと公言し、電力インフラ関連株への注目を促した。この発言はSNSで急速に拡散し、データセンターのエネルギー消費問題が改めて注目を集めている。
GLM-5.2がDesignArenaトップに——オープンソースモデルがデザインベンチマークで新たな突破口を開く
中国自主開発のGLM-5.2がDesignArenaベンチマークテストでAnthropicのClaude Fable 5を上回り首位を獲得した。これはオープンソースAIモデルがデザイン関連タスクにおいて顕著な進歩を遂げたことを示している。
レビュー
すべて見る →豆包 Pro の材料制約スコアが15.9点急落——Smoke単日テスト異常の原因分析
YZ Index 2026年6月の実測において、豆包 Pro のSmokeテスト材料制約スコアが前日の100.00点から84.10点に急落した。本記事ではその原因がモデルの退化ではなくサンプル数の少なさによる統計的変動である可能性を解説する
GPT-o3の材料制約スコアが1日で15.2点急落、Smoke主榜が100点から93.16点に低下
YZ Index 2026年6月の実測において、GPT-o3のSmokeベンチマーク「材料制約」スコアが前日の100.00点から84.80点に急落し、主榜全体も100.00点から93.16点に低下した。現時点では抽選による変動の可能性が高く
Smoke評価:Qwen3 Max の制約スコアが+23点で逆転、GPT-o3の材料制約は15.2点急落
2026年6月19日のYZ Index Smoke軽量評価において、Gemini 3.1 Proが総合99.28点で首位を獲得。Qwen3 Maxは材料制約スコアが23点向上して4位に浮上した一方、GPT-o3と豆包Proは制約スコアが15
WDCD コンプライアンス
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
守約ランキング全体を見る →
Research Lab
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ
5大モデル翻訳対決:第25週品質評価、passthroughが9点でトップ
今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough(平均点9/10)となった。
WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-3