Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 · #1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 07/01 08:15 WD

米国、AnthropicのAIモデルへの輸出規制を解除

2026年7月1日、ホワイトハウスはAnthropicの最先進AIモデル「Mythos」および「Fable」に対する輸出規制の緩和を突如発表した。規制開始からわずか3週間余りでの政策転換となった。

ニュース 07/01 06:17 TC

元DeepMindの三人組：ポーカーAIを量子ヘッジファンドに転用して収益化、評価額5億ドル超

DeepMindのポーカーAI「Pluribus」開発に携わった3人の研究者が設立したEquiLibre Technologiesが、ゲーム理論と強化学習を金融市場に応用し、評価額5億ドル超の量子ヘッジファンド企業として注目を集めている。

ニュース 07/01 06:16 MIT

AnthropicがフラッグシップAI新製品「Claude Science」を発表：AI科学研究アシスタントの船出

Anthropicは2026年7月1日、科学研究向けの自律型AIエージェント「Claude Science」を発表した。Claude Codeがソフトウェアエンジニアリングを支援するように、科学研究全般をAIで総合的にサポートすることを目指

ニュース 07/01 06:15 TC

オープンソース自律エージェントOpenClaw、ついにAndroidとiOSに登場

オープンソースの自律エージェントプログラムOpenClawが、Google PlayとApp Storeに同時公開され、スマートフォンでの利用が可能になった。完全なオープンソースかつフル機能を備えたエージェントフレームワークがモバイル端末に

ニュース 07/01 06:14 NF

アマゾン、OpenAIとの50億ドル協議締結後に映画『Artificial』を放棄——Neonが引き継ぎへ

アマゾンがOpenAIとの500億ドル規模の商業提携発表からわずか数日後、映画『Artificial』の世界配給権を返上した。現在、独立系配給会社のNeonが最終買収交渉に入っている。

ニュース 07/01 06:12 NF

アリババ、2.5万件の偽アカウントでClaudeを蒸留したと告発——既知最大規模のモデル窃取事件に

Anthropicは2026年6月10日、アリババが2.5万件の偽アカウントと2,880万回のインタラクションを通じてClaudeモデルを大規模蒸留したと米上院委員会に書簡で告発した。事実であれば、中国企業による米国AI企業への既知最大規模

ニュース 07/01 06:09 NF

米政府がAnthropicにFable 5とMythos 5モデルへのアクセス停止を強制、論争を呼ぶ

2026年7月1日、米国政府は国家安全保障と輸出管理を理由に、AnthropicにFable 5およびMythos 5へのアクセス提供を停止するよう正式に要求した。この措置により、開発者や企業に広範な影響が及んでいる。

ニュース 07/01 04:59 Winzheng Lab

WDCD Run #207：11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-66.3%に達した。Grok 4が満点10

レビュー 07/01 04:59

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。

レビュー 07/01 04:59

Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位

WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。

ニュース 07/01 04:17 TC

スマホキーボードがAIエージェントプラットフォームに：Actiが入力体験を革新

スタートアップのActiがiOS・Android向けキーボードアプリを正式リリース。AIエージェントをキーボードに直接組み込み、アプリをまたいだタスク実行を可能にする新たなインターフェースを提案している。

ニュース 07/01 04:16 ARS

Google Nano Banana 2 Lite：秒単位の生成、コストは過去最低水準に

Googleが最新の画像生成モデル「Nano Banana 2 Lite」をひっそりと公開した。同モデルは同社最速・最低コストの画像モデルとして、512×512ピクセルの画像をわずか2〜3秒で生成できる。

レビュー

すべて見る →

レビュー 07/01

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

レビュー 07/01

Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位

WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。

レビュー 07/01

豆包Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデル全体の能

WDCD コンプライアンス

#1 Grok 4 100 #2 豆包 Pro 92.5 #3 Claude Opus 4.7 90 #4 Gemini 3.1 Pro 90 #5 Claude Sonnet 4.6 87.5 #6 Qwen3 Max 87.5 #7 Gemini 2.5 Pro 85

守約ランキング全体を見る →

Research Lab

WDCD Run #207：11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-6

4大モデル翻訳対決：第27週品質評価、claude-sonnet-4.6 が9点でトップ

今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。

WDCD Run #202：11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに

WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab