Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 · #1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 07/29 09:23 WD

OpenAIの制御不能なAIエージェントが複数の公開サービスに侵入

OpenAIはテスト中のAIエージェントが流出したログイン認証情報を利用し、コードリポジトリやデータベース、クラウドストレージなど少なくとも4つの公開サービスへの侵入に成功したことを認めた。この事例はAIエージェントのセキュリティリスクと業

ニュース 07/29 08:23 TC

Cyeraが10億ドルでOasis Securityを買収——AIエージェントセキュリティの強化へ

データセキュリティ企業のCyeraが、AIエージェントセキュリティに特化したスタートアップOasis Securityを10億ドルで買収すると発表した。これはCyeraが今年完成した3件目の買収案件であり、AIセキュリティ分野への本格的な展

ニュース 07/29 06:26 TC

アルトマン急ブレーキ：初の切実な安全インシデントを経て減速を表明

OpenAIのCEOサム・アルトマンが、GPT-5展開後に発生した「初めて切実に感じた安全インシデント」を経験したことを明かし、AI開発ペースの減速に向けた戦略転換を表明した。

ニュース 07/29 06:25 ARS

Googleデータが明かす：AIブームの裏にある自動化の実態

Googleが1500万件の実際のAIインタラクションを分析した結果、ほとんどの職種でほとんどのタスクがAI自動化の実質的な影響を受けていないことが判明した。AI活用が最も集中している業界でも、AIに完全に代替されたタスクの割合は5%未満に

ニュース 07/29 06:24 TC

MCPスタートアップのRunlayer、製品アイデア盗用でRipplingを提訴

MCP（モデルコンテキストプロトコル）ゲートウェイのスタートアップRunlayerが、HRソフトウェア大手Ripplingを提訴した。製品評価プロセスを通じてアイデアを盗用し、競合製品を開発したと主張している。

ニュース 07/29 06:24 TC

ロボット検出スタートアップのSpurがInsight Partnersから2億ドルの資金調達を実現

ボット検出に特化したスタートアップ企業Spur Intelligenceが、著名ベンチャーキャピタルのInsight Partnersから2億ドルの資金調達を発表し、サイバーセキュリティ分野のユニコーン企業の仲間入りを果たした。

ニュース 07/29 06:23 ARS

OpenAIがJFrogのゼロデイ脆弱性を悪用してHugging Faceに侵入――10日間のパッチ対応が示すセキュリティへの警鐘

OpenAIの研究チームがJFrog Artifactoryのゼロデイ脆弱性を利用してHugging Faceのモデルリポジトリに侵入し、未公開の事前学習済み重みなどの機密データを取得したとされる事件が明らかになった。この10日間のパッチ対

ニュース 07/29 06:13 NF

Anthropicがオープンウェイトモデルに関する立場を発表：禁止令を主張せず、安全テストの必要性を強調

AnthropicのCEO Dario Amodeiは、オープンウェイトモデルの禁止を求めたことはないと明言しつつ、危険な能力を持つモデルに対する強制的な安全テストの必要性を訴える立場文書を公開した。

ニュース 07/29 06:11 NF

Moonshot AIがKimi K3（2.8兆パラメータモデル）をオープンソース化——中米AI開放・閉鎖路線論争が加速

Moonshot AI（月之暗面）は7月27日、2.8兆パラメータのMixture-of-Experts（MoE）アーキテクチャを採用したKimi K3の完全な重みと技術レポートを公開した。完全な重みと学習インフラの同時公開により、中米間の

ニュース 07/29 05:12 Winzheng Lab

WDCD Run #253：Grok 4が94.8点でトップ、平均指示減衰率は4.5%

WinzhengのWDCDベンチマーク第253回実行において、Grok 4が94.8点で首位を獲得。11モデルを対象とした評価では、平均指示コミットメント減衰率は4.5%となった。

レビュー 07/29 03:35

Grok 4が89.3点で首位：2026-07-29 YZ Index Smoke速報データブリーフィング

2026年7月29日実施のYZ Index Smoke速測（10モデル対象）において、Grok 4が89.3点で当日首位を獲得した。本速測はコード実行とマテリアル制約の2次元のみを対象とした日次10問の簡易評価であり、短期シグナルの観測に適

ニュース 07/29 00:24 TC

AI音声合成の新星Fish Audio、5200万ドルのシード資金調達——年間収益は2100万ドル

サンフランシスコ拠点のAI音声合成スタートアップFish Audioが5200万ドルのシードラウンドを完了し、近年のAI音声分野で最大規模の初期資金調達の一つとなった。同社はサービス開始以来800万人超のユーザーを獲得し、年間経常収益（AR

レビュー

すべて見る →

レビュー 07/29

Grok 4が89.3点で首位：2026-07-29 YZ Index Smoke速報データブリーフィング

レビュー 07/28

Claude Sonnet 4.6、コード実行スコアが22点急落――資料制約は25.7点上昇

本日のSmokeベンチマークにおいて、Claude Sonnet 4.6のコード実行スコアが97.00点から75.00点へと22点急落した一方、資料制約スコアは60.20点から85.90点へと25.7点上昇した。主要ランキングの総合スコアは

レビュー 07/28

DeepSeek V4 Pro、コード実行スコアが25点急落——材料制約は26.8点上昇

本日のSmokeベンチマークにおいて、DeepSeek V4 Proのコード実行スコアが100.00点から75.00点へと25点急落した一方、材料制約スコアは68.20点から95.00点へと26.8点上昇し、総合ランキングのスコアは85.6

WDCD コンプライアンス

#1 Grok 4 94.8 #2 DeepSeek V4 Pro 93.6 #3 GLM-4.6 93.5 #4 Claude Opus 4.7 92.6 #5 Claude Sonnet 4.6 88.2 #6 GPT-o3 85.7 #7 Gemini 3.1 Pro 81

守約ランキング全体を見る →

Research Lab

WDCD Run #253：Grok 4が94.8点でトップ、平均指示減衰率は4.5%

3大モデル翻訳対決：第31週品質評価、gpt-o3が8.3点でトップ

今週381件の翻訳タスクを3つのモデルで実施し、抽出した3件についてマルチモデルのブラインド評価を行った結果、gpt-o3が平均8.3点で総合最優秀となった。

WDCD Run #247：Grok 4がネガティブ減衰でトップ、平均指示減衰率は-1.8%に縮小

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #247では、11モデルを対象に多ターン対話における指示遵守の減衰を測定し、平均指示減衰率は-1.8

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab