赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -23.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -23.5
·
最新ニュース
すべてのニュースを見る →GoogleがドイツのAI概要機能に関する責任判決に上訴、生成AI プラットフォームの法的リスクが浮き彫りに
Googleはドイツの裁判所がAI概要機能における虚偽情報について同社に法的責任を認めた判決に対して上訴した。この事案は生成AIのコンテンツ正確性とプラットフォーム責任をめぐる法的リスクを世界的に浮き彫りにしている。
NVIDIAとSpaceXがAI協力を深化:宇宙探索がインテリジェント新時代へ
SpaceXのIPO完了を契機に、NVIDIAが10年以上にわたる両社の協力関係を改めて強調。AIと加速コンピューティング技術の融合が宇宙探索を新たな段階へと押し上げている。
AIエージェント安全の新たな焦点:Kaggleコンペ開始とDeepMindのマルチエージェントガバナンス議論
KaggleプラットフォームがAIエージェント安全に特化したグローバルコンペを開始し、同時にGoogle DeepMindがマルチエージェントシステムのガバナンス課題に関する研究を発表した。業界の関心はモデル性能からエージェントの信頼性・安
Moonshot AI、Kimi-K2.7-Codeをオープンソース化:推論効率30%向上、中国語コーディングAIに新たな突破口
Moonshot AIは最新のコーディングモデルKimi-K2.7-Codeをオープンソース化し、トークン使用量を約30%削減しながら高い知能パフォーマンスを維持することに成功した。このリリースは中国語AIコミュニティで大きな注目を集めてい
OpenAIがOnaを買収しCodexプラットフォームを強化、長期的なAI Agentエコシステムの構築を推進
OpenAIはAI Agent分野における重要な布石として、安全なクラウド実行とタスクオーケストレーション技術を専門とするスタートアップOnaの買収を発表した。買収完了後、関連技術はOpenAIのCodexプラットフォームに深く統合される予
OpenAIが複数州の司法長官による合同調査に直面、AI大手へのコンプライアンス圧力が高まる
OpenAIは米国複数州の司法長官による合同調査に直面しており、データ利用・ユーザープライバシー保護・商業的コンプライアンスが重点審査対象となっている。この動きはAI業界全体の規制強化の流れを示すものとして注目を集めている。
AnthropicがClaude Fable 5を発表:米国政府の規制がモデルアクセスをめぐる論争を引き起こす
Anthropicが最新AIモデルシリーズClaude Fable 5を正式にリリースしたが、米国政府の大統領令により、上位モデルであるMythos 5およびFable 5への外国ユーザーのアクセスが一時的に無効化され、AI安全性やモデルの
アマゾンCEOがAnthropicモデルのリスクを事前警告か、全世界へのアクセス遮断に発展
アマゾンCEOのアンディ・ジャシー氏がAnthropicの未発表モデル2件に関する安全上の懸念を数週間前に非公式に伝えていたと報じられ、これが引き金となってAnthropicが6月12日に該当モデルへの全世界からのAPIアクセスを緊急遮断し
Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落
Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45
Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か
YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選
Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド
2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド
11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード
YZ Index 2026年6月14日のSmoke軽量評価において、GPT-5.5が主榜95.24点で首位を獲得。一方、11モデル中8モデルでコード実行スコアの大幅下落が見られた。
レビュー
すべて見る →Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落
Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45
Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か
YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選
Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド
2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド
WDCD コンプライアンス
#1
Grok 4
74.2
#2
Qwen3 Max
67.2
#3
Gemini 2.5 Pro
66.4
#4
文心一言 4.5
64.8
#5
Gemini 3.1 Pro
64.8
#6
GPT-5.5
64.8
#7
豆包 Pro
62.5
守約ランキング全体を見る →
Research Lab
WDCD Run #169:Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下
Winzhengの動的コンテキスト減衰(WDCD)ベンチマークRun #169において、11モデルの平均指示減衰率は4.5%となり、Grok 4が74.2ポイントでトップを獲得した。一方、GPT-o3
指示の劣化を測定:3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下
大規模言語モデルは制約を「受け入れる」ことは得意だが、「維持する」ことは苦手であることが明らかになった。Winzhengの最新ベンチマーク「WDCD Run #164」では、11のフロンティアモデルが
WDCD Run #164:11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3