赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
最新ニュース
すべてのニュースを見る →AnthropicがClaude Scienceを発表、カリフォルニア州の炭素肥料新算法が注目を集める
Anthropicが科学研究支援に特化した大規模言語モデル「Claude Science」を正式発表する一方、カリフォルニア州空気資源局が農業肥料のカーボン排出算定モデルを刷新し、AIと気候科学の融合という新たな潮流が浮き彫りになっている。
SpaceXを模倣、Metaが余剰AI算力の収益化を計画
MetaがクラウドインフラビジネスへのAI算力提供を計画しており、AWS、Google Cloud、Microsoft Azureとの直接競合が見込まれる。余剰GPU資源を収益源へと転換するこの戦略は、2026年末から2027年初頭にかけて
Builders Stage議題発表:2026 TechCrunch Disruptスタートアップ実戦戦略
TechCrunch Disrupt 2026のコアセクションであるBuilders Stageが正式に議題を公開した。2026年10月にサンフランシスコで開催されるこの3日間のイベントでは、スタートアップの実践的な戦略に焦点を当てた40以
日本、労働力不足への対応策:1000万台AIロボット国家戦略を展開
日本政府は2040年までに18業種へ1000万台のAI駆動ロボットを導入し、5年間で最大1兆円の公的資金を投じる国家戦略を正式に確認した。深刻な少子高齢化と労働力危機への対応が背景にある。
AnthropicがClaude Sonnet 5を展開、フロンティアモデルFableとMythosのアクセスも復旧
2026年7月1日、AnthropicはClaude Sonnet 5の正式展開と、米国政府の輸出規制指令による18日間の停止を経て、最上位フロンティアモデルFableおよびMythosのアクセス復旧を発表した。今回の事例は、商用AIモデル
英国中央銀行、金融エージェントAIの監督規則を審査へ
イングランド銀行は2026年7月1日、決済・取引・サイバーセキュリティなどの分野における自律型AIシステム(エージェントAI)への対応として、既存のAI監督規則の審査を正式に開始した。現行の規制枠組みが自律的に行動するAIエージェントを想定
トランプ政権、AnthropicのMythosとFableモデルへの制限を解除
トランプ政権は2026年6月30日、AnthropicのMythosおよびFableモデルに対する輸出規制を正式に撤廃した。これを受けAnthropicは翌7月1日よりFableモデルへのアクセスを世界向けに再開すると発表した。
「インターネットの父」ヴィントン・サーフが正式退職
インターネットの基盤となるTCP/IPプロトコルを共同設計したことで「インターネットの父」と称されるヴィントン・サーフが、Googleの主席インターネット・エバンジェリストを退任し正式に退職する。サーフの離職は、インターネット創世期の終焉を
Wayveが8500万ドルの従業員買い戻し計画を発表、評価額は85億ドルに
英国のAI自動運転企業Wayveが8500万ドルの従業員株式公開買い付け(employee tender offer)を正式発表した。同社の企業評価額は85億ドルを維持しており、今年実施した10億5000万ドルのシリーズC資金調達に続く人材
米国、AnthropicのAIモデルへの輸出規制を解除
2026年7月1日、ホワイトハウスはAnthropicの最先進AIモデル「Mythos」および「Fable」に対する輸出規制の緩和を突如発表した。規制開始からわずか3週間余りでの政策転換となった。
元DeepMindの三人組:ポーカーAIを量子ヘッジファンドに転用して収益化、評価額5億ドル超
DeepMindのポーカーAI「Pluribus」開発に携わった3人の研究者が設立したEquiLibre Technologiesが、ゲーム理論と強化学習を金融市場に応用し、評価額5億ドル超の量子ヘッジファンド企業として注目を集めている。
AnthropicがフラッグシップAI新製品「Claude Science」を発表:AI科学研究アシスタントの船出
Anthropicは2026年7月1日、科学研究向けの自律型AIエージェント「Claude Science」を発表した。Claude Codeがソフトウェアエンジニアリングを支援するように、科学研究全般をAIで総合的にサポートすることを目指
レビュー
すべて見る →WDCD三ラウンドテスト:Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊
WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。
Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位
WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。
豆包Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落
YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデル全体の能
WDCD コンプライアンス
#1
Grok 4
100
#2
豆包 Pro
92.5
#3
Claude Opus 4.7
90
#4
Gemini 3.1 Pro
90
#5
Claude Sonnet 4.6
87.5
#6
Qwen3 Max
87.5
#7
Gemini 2.5 Pro
85
守約ランキング全体を見る →
Research Lab
WDCD Run #207:11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-6
4大モデル翻訳対決:第27週品質評価、claude-sonnet-4.6 が9点でトップ
今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。
WDCD Run #202:11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに
WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最