Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 · #1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 07/02 00:18 TC

GoogleのAgenticアシスタント「Gemini Spark」がMacに正式上陸

Googleは7月1日、フラッグシップAgenticアシスタント「Gemini Spark」のMac版を正式発表した。リアルタイムトラッキングや広範なサードパーティアプリのサポートを備え、クロスプラットフォームAIアシスタント競争における新

ニュース 07/02 00:17 TC

プライバシー優先AIプラットフォームVenice AIが6500万ドルのシリーズA資金調達を完了、ユニコーン企業に昇格

プライバシー優先を核心理念とするAIプラットフォームVenice AIが6500万ドルのシリーズA資金調達を完了し、評価額が10億ドルを超えユニコーン企業の仲間入りを果たした。同社はすでに黒字化を達成しており、年間経常収益は7000万ドルを

ニュース 07/02 00:16 MIT

大規模言語モデルが「集団思考」の罠に陥る——あるスタートアップがその打破を試みる

大規模言語モデル（LLM）は訓練データの統計的偏りにより「集団思考」に陥りやすく、出力の多様性が欠如している。スタートアップ「Stochastic Minds」はこの問題を解決すべく、制御可能なランダムノイズを導入する新たなアプローチを模索

ニュース 07/02 00:15 WD

Anthropicの新安全措置がトランプ政権を懐柔、Fable 5とMythos 5の規制解除へ

米トランプ政権がAnthropicのAIモデル「Fable 5」と「Mythos 5」への規制を解除した。Anthropicが新たな多層的安全システムの導入を約束したことが条件となっている。

ニュース 07/01 22:17 MIT

AnthropicがClaude Scienceを発表、カリフォルニア州の炭素肥料新算法が注目を集める

Anthropicが科学研究支援に特化した大規模言語モデル「Claude Science」を正式発表する一方、カリフォルニア州空気資源局が農業肥料のカーボン排出算定モデルを刷新し、AIと気候科学の融合という新たな潮流が浮き彫りになっている。

ニュース 07/01 22:16 TC

SpaceXを模倣、Metaが余剰AI算力の収益化を計画

MetaがクラウドインフラビジネスへのAI算力提供を計画しており、AWS、Google Cloud、Microsoft Azureとの直接競合が見込まれる。余剰GPU資源を収益源へと転換するこの戦略は、2026年末から2027年初頭にかけて

ニュース 07/01 22:15 TC

Builders Stage議題発表：2026 TechCrunch Disruptスタートアップ実戦戦略

TechCrunch Disrupt 2026のコアセクションであるBuilders Stageが正式に議題を公開した。2026年10月にサンフランシスコで開催されるこの3日間のイベントでは、スタートアップの実践的な戦略に焦点を当てた40以

ニュース 07/01 20:15 AIN

日本、労働力不足への対応策：1000万台AIロボット国家戦略を展開

日本政府は2040年までに18業種へ1000万台のAI駆動ロボットを導入し、5年間で最大1兆円の公的資金を投じる国家戦略を正式に確認した。深刻な少子高齢化と労働力危機への対応が背景にある。

ニュース 07/01 18:17 AIN

AnthropicがClaude Sonnet 5を展開、フロンティアモデルFableとMythosのアクセスも復旧

2026年7月1日、AnthropicはClaude Sonnet 5の正式展開と、米国政府の輸出規制指令による18日間の停止を経て、最上位フロンティアモデルFableおよびMythosのアクセス復旧を発表した。今回の事例は、商用AIモデル

ニュース 07/01 18:16 AIN

英国中央銀行、金融エージェントAIの監督規則を審査へ

イングランド銀行は2026年7月1日、決済・取引・サイバーセキュリティなどの分野における自律型AIシステム（エージェントAI）への対応として、既存のAI監督規則の審査を正式に開始した。現行の規制枠組みが自律的に行動するAIエージェントを想定

ニュース 07/01 12:16 TC

トランプ政権、AnthropicのMythosとFableモデルへの制限を解除

トランプ政権は2026年6月30日、AnthropicのMythosおよびFableモデルに対する輸出規制を正式に撤廃した。これを受けAnthropicは翌7月1日よりFableモデルへのアクセスを世界向けに再開すると発表した。

ニュース 07/01 12:15 TC

「インターネットの父」ヴィントン・サーフが正式退職

インターネットの基盤となるTCP/IPプロトコルを共同設計したことで「インターネットの父」と称されるヴィントン・サーフが、Googleの主席インターネット・エバンジェリストを退任し正式に退職する。サーフの離職は、インターネット創世期の終焉を

レビュー

すべて見る →

レビュー 07/01

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。

レビュー 07/01

Grok 4が満点100点でWDCD守約ランキング首位、GPT-5.5は62.5点で最下位

WDCD守約テストにおいて、Grok 4が100点満点で首位を獲得し、GPT-5.5は62.5点で最下位となった。11モデル中、満点を達成したのは61.8%にとどまった。

レビュー 07/01

豆包Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデル全体の能

WDCD コンプライアンス

#1 Grok 4 100 #2 豆包 Pro 92.5 #3 Claude Opus 4.7 90 #4 Gemini 3.1 Pro 90 #5 Claude Sonnet 4.6 87.5 #6 Qwen3 Max 87.5 #7 Gemini 2.5 Pro 85

守約ランキング全体を見る →

Research Lab

WDCD Run #207：11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-6

4大モデル翻訳対決：第27週品質評価、claude-sonnet-4.6 が9点でトップ

今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。

WDCD Run #202：11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに

WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab