赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
最新ニュース
すべてのニュースを見る →米国、AnthropicのAIモデルへの輸出規制を解除
2026年7月1日、ホワイトハウスはAnthropicの最先進AIモデル「Mythos」および「Fable」に対する輸出規制の緩和を突如発表した。規制開始からわずか3週間余りでの政策転換となった。
元DeepMindの三人組:ポーカーAIを量子ヘッジファンドに転用して収益化、評価額5億ドル超
DeepMindのポーカーAI「Pluribus」開発に携わった3人の研究者が設立したEquiLibre Technologiesが、ゲーム理論と強化学習を金融市場に応用し、評価額5億ドル超の量子ヘッジファンド企業として注目を集めている。
AnthropicがフラッグシップAI新製品「Claude Science」を発表:AI科学研究アシスタントの船出
Anthropicは2026年7月1日、科学研究向けの自律型AIエージェント「Claude Science」を発表した。Claude Codeがソフトウェアエンジニアリングを支援するように、科学研究全般をAIで総合的にサポートすることを目指
オープンソース自律エージェントOpenClaw、ついにAndroidとiOSに登場
オープンソースの自律エージェントプログラムOpenClawが、Google PlayとApp Storeに同時公開され、スマートフォンでの利用が可能になった。完全なオープンソースかつフル機能を備えたエージェントフレームワークがモバイル端末に
アマゾン、OpenAIとの50億ドル協議締結後に映画『Artificial』を放棄——Neonが引き継ぎへ
アマゾンがOpenAIとの500億ドル規模の商業提携発表からわずか数日後、映画『Artificial』の世界配給権を返上した。現在、独立系配給会社のNeonが最終買収交渉に入っている。
アリババ、2.5万件の偽アカウントでClaudeを蒸留したと告発——既知最大規模のモデル窃取事件に
Anthropicは2026年6月10日、アリババが2.5万件の偽アカウントと2,880万回のインタラクションを通じてClaudeモデルを大規模蒸留したと米上院委員会に書簡で告発した。事実であれば、中国企業による米国AI企業への既知最大規模
米政府がAnthropicにFable 5とMythos 5モデルへのアクセス停止を強制、論争を呼ぶ
2026年7月1日、米国政府は国家安全保障と輸出管理を理由に、AnthropicにFable 5およびMythos 5へのアクセス提供を停止するよう正式に要求した。この措置により、開発者や企業に広範な影響が及んでいる。
WDCD Run #207:11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-66.3%に達した。Grok 4が満点10
WDCD三ラウンドテスト:Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊
WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。
Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位
WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。
スマホキーボードがAIエージェントプラットフォームに:Actiが入力体験を革新
スタートアップのActiがiOS・Android向けキーボードアプリを正式リリース。AIエージェントをキーボードに直接組み込み、アプリをまたいだタスク実行を可能にする新たなインターフェースを提案している。
Google Nano Banana 2 Lite:秒単位の生成、コストは過去最低水準に
Googleが最新の画像生成モデル「Nano Banana 2 Lite」をひっそりと公開した。同モデルは同社最速・最低コストの画像モデルとして、512×512ピクセルの画像をわずか2〜3秒で生成できる。
レビュー
すべて見る →WDCD三ラウンドテスト:Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊
WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。
Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位
WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。
豆包Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落
YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデル全体の能
WDCD コンプライアンス
#1
Grok 4
100
#2
豆包 Pro
92.5
#3
Claude Opus 4.7
90
#4
Gemini 3.1 Pro
90
#5
Claude Sonnet 4.6
87.5
#6
Qwen3 Max
87.5
#7
Gemini 2.5 Pro
85
守約ランキング全体を見る →
Research Lab
WDCD Run #207:11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-6
4大モデル翻訳対決:第27週品質評価、claude-sonnet-4.6 が9点でトップ
今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。
WDCD Run #202:11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに
WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最