赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →無実の人を誤認逮捕:米国最古の警察用顔認識ツールが機能不全に
米国市民自由連合(ACLU)は、フロリダ州の警察が古い顔認識ツールの誤った照合結果に基づき、児童誘拐事件で無実の男性を誤認逮捕したとして提訴した。この事件は、未成熟なAI技術を法執行の主要根拠とすることの危険性を浮き彫りにしている。
ワーナーミュージック、AI帰属分析スタートアップSureel AIを買収
ワーナーミュージック・グループは2026年6月10日、AI帰属分析スタートアップのSureel AIを買収すると発表した。生成AI時代における音楽著作権の追跡課題に対応し、アーティストへの公正な報酬支払いを実現することを目指す。
SpaceX IPOの背後にある三大ハードコア技術:宇宙データセンターが切り札
SpaceXが2026年に予定するIPOにおいて、その評価の中核は打ち上げサービスや衛星ブロードバンドではなく、「宇宙データセンター」計画にある。Starship、Starlink、軌道上データ処理という三つの「ムーンショット計画」がその成
元Datadogベテランが設立したNiteshift、AI大手のロックイン打破に賭ける
Datadogの元シニア社員らが共同設立したAIコーディングエージェント企業Niteshiftが、700万ドルのシードラウンド資金調達を獲得。同社は、企業顧客が大手モデル提供者によるロックインではなくAIモデルへのコントロール権を求めるとい
AnthropicのFable、ガードレールが厳しすぎる?セキュリティ研究者から不満続出
Anthropicが発表した新世代大規模言語モデルFableのセキュリティガードレールが厳しすぎるとして、ネットワークセキュリティ研究者から批判が相次いでいる。合法的なセキュリティ研究を妨げているとの指摘もあり、AI安全性と研究の自由度のバ
ステロイド・オリンピック:文化のサーカスと安全という幻想
ラスベガスで開催された「ステロイド・オリンピック」と、新興企業Mythosが推進する「より安全な増強剤」を題材に、テクノロジーによる人体強化がもたらす倫理的課題と文化的影響を考察する。
Decart Oasis 3 ワールドモデル:数時間にわたるリアルタイムなフォトリアル運転シミュレーション
AIスタートアップDecartが、フォトリアルな運転環境をリアルタイムに生成する「ワールドモデル」Oasis 3を発表しました。ニューラルネットワークによって完全に駆動され、数時間に及ぶ高忠実度運転シーンを連続的にシミュレートでき、API経
Jedifyが2400万ドルの資金調達、AIエージェントに企業業務コンテキストを注入
米国に本社を置く企業向けAIエージェントプラットフォームJedifyが2400万ドルの資金調達を完了し、Norwestがリード投資家を務め、Snowflake Venturesも戦略的投資家として参加した。同社の「業務コンテキストエンジン」
世界初の風力発電・海底データセンターが中国で稼働開始
中国は2026年6月10日、海南省陵水近海で世界初の風力発電完全駆動による海底データセンター(UDC)を正式稼働させた。初期容量は24メガワットで、海水による自然冷却と100%グリーン電力供給を実現している。
GoogleのGeminiがワールドカップに潜入:アルゼンチン代表チームがAI実験場に
Googleは2026年ワールドカップでアルゼンチン代表チームと提携し、Gemini AIシステムを試合準備と戦術判断にフル活用する。マルチモーダルAI技術が初めてトップレベルのスポーツ競技に全面導入される画期的な事例となる。
MetaがReliance Industriesとインド初のAIデータセンター契約を締結
Metaがインドの信実集団(Reliance Industries)と同国初のAIデータセンター契約を結び、168メガワット規模の施設を建設する。これはMetaがアジアのAIインフラ展開を加速させる重要な一歩となる。
ファンドなしで5億ドル近くを投資、Sabertooth創業者はいかにAnthropicとSpaceXに賭けたか
Justin Ernest氏が率いるSabertooth VCは、独立したファンドエンティティを持たず、固定のLPコミットメント資本もないにもかかわらず、Anthropic、Anduril、SpaceXなどのトップスタートアップに短期間で5
レビュー
すべて見る →WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
11モデルWDCD横断評価:リソース制限で全員1点に崩壊、業務ルールで4点の最大差
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く
WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で
WDCD コンプライアンス
#1
Claude Sonnet 4.6
67.5
#2
Gemini 2.5 Pro
67.5
#3
Qwen3 Max
67.5
#4
GPT-o3
65
#5
Claude Opus 4.7
62.5
#6
Gemini 3.1 Pro
60
#7
GPT-5.5
57.5
守約ランキング全体を見る →
Research Lab
WDCD Run #157:11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点
Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 P
3大モデル翻訳対決:第24週品質評価、passthroughが9点でリード
今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough(平均9/10)。
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと