赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
最新ニュース
すべてのニュースを見る →5大モデル翻訳対決:第25週品質評価、passthroughが9点でトップ
今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough(平均点9/10)となった。
GoogleがオープンソースのDiffusionGemmaを公開——260億パラメータモデルでローカル生成速度が4倍向上
Google DeepMindは拡散モデルの手法をテキスト生成に応用したDiffusionGemmaを発表し、従来の自己回帰モデルと比較して最大4倍の生成速度を実現した。混合エキスパートアーキテクチャにより18GB VRAMクラスのGPUで
OpenRouter Fusion API発表——多モデル融合でコスト半減、業界に賛否
OpenRouterが2026年6月13日にFusion APIを発表し、複数モデルを並列融合して実行することで、一部タスクにおいてFableレベルの性能を達成しつつコストを半減できると主張している。
米国政府がAnthropicにFable 5およびMythos 5モデルの外国向け提供停止を命令――地政学的分断リスクが深刻化
2026年6月13日、米国政府は国家安全保障上のリスクを理由に、AnthropicへFable 5およびMythos 5モデルの外国ユーザーへの提供停止を命じた。これにより欧州・アジア各国の主権AI計画が加速し、AI生態系の地政学的分断が現
豆包Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰
本日のSmokeテストにおいて、豆包Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプルによる問題
Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に
YZ IndexのSmoke評価において、Grok 4の材料制約スコアが83.00から61.30へと21.7点急落した一方、コード実行スコアは80.90から100.00へと満点を記録した。
材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落
2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。
Anthropicが新モデルへのアクセスを一時停止——インドのAIの将来はどこへ向かうのか?
米AI企業Anthropicが最新モデルのAPIアクセスを突然停止し、インドのAI業界に衝撃が走った。この出来事を機に、インド国内では自主的なAI基盤モデルの構築を急ぐべきか否かをめぐり激しい議論が巻き起こっている。
MetaがManusとの20億ドル買収交渉を強制停止
Metaは、AI Agent技術を持つ北京拠点のスタートアップManusとの20億ドル規模の買収契約の解除を開始したと認めた。北京当局からの強硬な指令により、わずか数ヶ月で取引が頓挫した。
KPMGがAIハルシネーションによりAI活用レポートを撤回
大手会計事務所KPMGが企業のAI活用状況に関するレポートを発行したが、AI生成による大量の虚偽情報(「AIハルシネーション」)が含まれていたとして、発行からわずか48時間以内に撤回を余儀なくされた。レポートのテーマ自体が「AIの活用状況」
Mistral AI、コンパクトなオープンソースモデルを発表――エッジ展開と大規模モデルの競争が激化
Mistral AIは2026年6月に小型オープンソースモデルをリリースし、デバイス上での推論を最適化するとともに多言語性能をサポートした。エッジ展開分野における大規模モデルとの競争がさらに激しくなっている。
AnthropicがClaude Fable 5のポリシーを修正、未公開のモデル降格を認める
Anthropicは2026年6月11日、Claude Fable 5の安全機能を修正し、これまで非公開だったモデル降格の動作をユーザーに表示される警告へと変更することを発表した。研究コミュニティからの批判を受け、同社は「誤ったトレードオフ
レビュー
すべて見る →豆包Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰
本日のSmokeテストにおいて、豆包Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプルによる問題
Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に
YZ IndexのSmoke評価において、Grok 4の材料制約スコアが83.00から61.30へと21.7点急落した一方、コード実行スコアは80.90から100.00へと満点を記録した。
材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落
2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。
WDCD コンプライアンス
#1
Qwen3 Max
84.4
#2
Grok 4
82
#3
Gemini 3.1 Pro
79.7
#4
文心一言 4.5
77.3
#5
Claude Sonnet 4.6
75.8
#6
DeepSeek V4 Pro
75.8
#7
GPT-5.5
75.8
守約ランキング全体を見る →
Research Lab
5大モデル翻訳対決:第25週品質評価、passthroughが9点でトップ
今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough(平均点9/10)となった。
WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-3
WDCD Run #169:Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下
Winzhengの動的コンテキスト減衰(WDCD)ベンチマークRun #169において、11モデルの平均指示減衰率は4.5%となり、Grok 4が74.2ポイントでトップを獲得した。一方、GPT-o3