赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
最新ニュース
すべてのニュースを見る →KPMGがAIハルシネーションによりAI活用レポートを撤回
大手会計事務所KPMGが企業のAI活用状況に関するレポートを発行したが、AI生成による大量の虚偽情報(「AIハルシネーション」)が含まれていたとして、発行からわずか48時間以内に撤回を余儀なくされた。レポートのテーマ自体が「AIの活用状況」
Mistral AI、コンパクトなオープンソースモデルを発表――エッジ展開と大規模モデルの競争が激化
Mistral AIは2026年6月に小型オープンソースモデルをリリースし、デバイス上での推論を最適化するとともに多言語性能をサポートした。エッジ展開分野における大規模モデルとの競争がさらに激しくなっている。
AnthropicがClaude Fable 5のポリシーを修正、未公開のモデル降格を認める
Anthropicは2026年6月11日、Claude Fable 5の安全機能を修正し、これまで非公開だったモデル降格の動作をユーザーに表示される警告へと変更することを発表した。研究コミュニティからの批判を受け、同社は「誤ったトレードオフ
米国政府がAnthropicにFable 5の非米国ユーザーへの提供停止を緊急命令――セキュリティ脆弱性がAI輸出規制を発動
2026年6月、米国政府はセキュリティ上の脆弱性を理由に、AnthropicにFable 5およびMythos 5モデルの非米国ユーザーへの提供停止を命じ、Anthropicは即日これを執行した。商用大規模言語モデルが初めて輸出規制の対象と
Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く
Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。
GoogleがドイツのAI概要機能に関する責任判決に上訴、生成AI プラットフォームの法的リスクが浮き彫りに
Googleはドイツの裁判所がAI概要機能における虚偽情報について同社に法的責任を認めた判決に対して上訴した。この事案は生成AIのコンテンツ正確性とプラットフォーム責任をめぐる法的リスクを世界的に浮き彫りにしている。
NVIDIAとSpaceXがAI協力を深化:宇宙探索がインテリジェント新時代へ
SpaceXのIPO完了を契機に、NVIDIAが10年以上にわたる両社の協力関係を改めて強調。AIと加速コンピューティング技術の融合が宇宙探索を新たな段階へと押し上げている。
AIエージェント安全の新たな焦点:Kaggleコンペ開始とDeepMindのマルチエージェントガバナンス議論
KaggleプラットフォームがAIエージェント安全に特化したグローバルコンペを開始し、同時にGoogle DeepMindがマルチエージェントシステムのガバナンス課題に関する研究を発表した。業界の関心はモデル性能からエージェントの信頼性・安
Moonshot AI、Kimi-K2.7-Codeをオープンソース化:推論効率30%向上、中国語コーディングAIに新たな突破口
Moonshot AIは最新のコーディングモデルKimi-K2.7-Codeをオープンソース化し、トークン使用量を約30%削減しながら高い知能パフォーマンスを維持することに成功した。このリリースは中国語AIコミュニティで大きな注目を集めてい
OpenAIがOnaを買収しCodexプラットフォームを強化、長期的なAI Agentエコシステムの構築を推進
OpenAIはAI Agent分野における重要な布石として、安全なクラウド実行とタスクオーケストレーション技術を専門とするスタートアップOnaの買収を発表した。買収完了後、関連技術はOpenAIのCodexプラットフォームに深く統合される予
OpenAIが複数州の司法長官による合同調査に直面、AI大手へのコンプライアンス圧力が高まる
OpenAIは米国複数州の司法長官による合同調査に直面しており、データ利用・ユーザープライバシー保護・商業的コンプライアンスが重点審査対象となっている。この動きはAI業界全体の規制強化の流れを示すものとして注目を集めている。
AnthropicがClaude Fable 5を発表:米国政府の規制がモデルアクセスをめぐる論争を引き起こす
Anthropicが最新AIモデルシリーズClaude Fable 5を正式にリリースしたが、米国政府の大統領令により、上位モデルであるMythos 5およびFable 5への外国ユーザーのアクセスが一時的に無効化され、AI安全性やモデルの
レビュー
すべて見る →Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く
Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。
Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落
Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45
Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か
YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選
WDCD コンプライアンス
#1
Qwen3 Max
84.4
#2
Grok 4
82
#3
Gemini 3.1 Pro
79.7
#4
文心一言 4.5
77.3
#5
Claude Sonnet 4.6
75.8
#6
DeepSeek V4 Pro
75.8
#7
GPT-5.5
75.8
守約ランキング全体を見る →
Research Lab
WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-3
WDCD Run #169:Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下
Winzhengの動的コンテキスト減衰(WDCD)ベンチマークRun #169において、11モデルの平均指示減衰率は4.5%となり、Grok 4が74.2ポイントでトップを獲得した。一方、GPT-o3
指示の劣化を測定:3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下
大規模言語モデルは制約を「受け入れる」ことは得意だが、「維持する」ことは苦手であることが明らかになった。Winzhengの最新ベンチマーク「WDCD Run #164」では、11のフロンティアモデルが