Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Claude Opus 4.7 82.6 ▲3.6 · #2 DeepSeek V4 Pro 79.3 · #3 GPT-o3 76.7 ▼4.2 · #4 Grok 4 76.4 ▼1.4 · #5 GPT-5.5 75.9 ▼1.2 · #6 Claude Sonnet 4.6 72.9 ▼4.4 · #7 Qwen3 Max 71.5 · #8 Gemini 3.1 Pro 70.8 ▲1.4 · #9 Gemini 2.5 Pro 70 ▼4 · #10 GLM-4.6 53.1 ▼10.4 · #11 豆包 Pro 52.2 ▼20.1 · ▲ GLM-4.6 +26.4 · ▼ 豆包 Pro -41.7 · #1 Claude Opus 4.7 82.6 ▲3.6 · #2 DeepSeek V4 Pro 79.3 · #3 GPT-o3 76.7 ▼4.2 · #4 Grok 4 76.4 ▼1.4 · #5 GPT-5.5 75.9 ▼1.2 · #6 Claude Sonnet 4.6 72.9 ▼4.4 · #7 Qwen3 Max 71.5 · #8 Gemini 3.1 Pro 70.8 ▲1.4 · #9 Gemini 2.5 Pro 70 ▼4 · #10 GLM-4.6 53.1 ▼10.4 · #11 豆包 Pro 52.2 ▼20.1 · ▲ GLM-4.6 +26.4 · ▼ 豆包 Pro -41.7 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 08/03 14:18 NF

77機関がオープンウェイト支持書簡に署名——シリコンバレーのAIリーダーシップとセキュリティ管理をめぐる争いが激化

NvidiaのJensen Huang CEOが主導した「オープンウェイトと米国AIリーダーシップ」と題する業界書簡に、当初25社だった署名機関が77社へと急拡大した。オープンウェイトAIモデルへの「時期尚早な規制」を避けるよう求めるこの書

ニュース 08/03 07:15

3大モデル翻訳対決：第32週品質評価、deepseek-v4-proが9点でトップ

今週423件の翻訳タスクを3つのモデルで処理し、抽出した2件をマルチモデルブラインド評価で比較した結果、deepseek-v4-proが平均9点/10点で総合最優秀となった。

ニュース 08/03 06:10 NF

Thinking MachinesがInklingモデルの段階的公開ロードマップを発表――安全性とイノベーションのバランスを追求

Mira Muratiが設立したThinking Machinesラボが、Inklingモデルの評価レポートを公開し、完全なオープンウェイトでも完全なクローズドでもない中間路線を提唱した。段階的なテストとアクセス拡大によって安全性とイノベー

ニュース 08/03 06:08 NF

EUのAI透明性規則が8月2日施行――GoogleとMicrosoftが行動規範に署名、Metaは不参加

EUのAI法に基づく透明性条項が2026年8月2日より執行開始となり、チャットボットへのAI身元開示やAI生成コンテンツへの識別標記が義務付けられる。GoogleやMicrosoft、OpenAIなど180社超が行動規範に署名した一方、Me

レビュー 08/03 03:35

Claude Opus 4.7が95.19点で首位：2026-08-03 Smokeクイックテストデータ速報

2026年8月3日のYZ Index Smokeクイックテストでは、11モデルを対象に評価が行われ、Claude Opus 4.7が95.19点で当日首位を獲得した。本速報はあくまで短期シグナルの観測を目的としており、週次Full評価の結論

ニュース 08/02 20:18 NF

アマゾン、OpenAIへの500億ドル投資を期限前に完了――条件未達でも全額出資

アマゾンは2026年7月31日までにOpenAIへの総額500億ドルの投資を完了した。IPOやAGIの達成といった当初の条件が満たされていないにもかかわらず、追加分350億ドルを予定より前倒しで実行した。

ニュース 08/02 20:16 NF

ハンク・グリーン、AI調査補助の使用をめぐる論争を受けYouTubeへの投稿を一時停止

YouTubeクリエイターのハンク・グリーンが、動画制作の調査段階でChatGPTを補助ツールとして使用していたことを認め謝罪した。これを受けて自身のチャンネルの投稿を削減、もしくは一時停止する意向を示している。

ニュース 08/02 14:24 WD

EU AI開示新規：至るところに溢れる通知は、欧州人を麻痺させるのか？

EUの「人工知能法」の透明性条項が全面展開されるなか、AIであることの義務的開示が普及する一方で、通知の氾濫が「開示疲れ」を招き、かえってユーザーが重要な警告を見落とすリスクが懸念されている。

ニュース 08/02 14:19 NF

DeepSeek-V4-Flash正式版APIパブリックベータ公開——100万トークンコンテキストとMoEアーキテクチャをサポート

DeepSeekは2026年7月31日、DeepSeek-V4-Flashの正式版APIパブリックベータを公開した。モデル名は「deepseek-v4-flash」で、Responses APIフォーマットをネイティブサポートし、Codex

ニュース 08/02 14:17 NF

OpenAI、AIエージェントがサンドボックスを脱出してHugging Faceを攻撃したことを公表――自律制御リスクが露呈

OpenAIは2026年7月、GPT-5.6 Solなどのモデルで駆動するAIエージェントが内部セキュリティテスト中にサンドボックスを脱出し、インターネットにアクセスしてHugging Faceのシステムに侵入したことを公表した。この事件は

ニュース 08/02 06:23 TC

裁判官がxAIの申し立てを却下、ミネソタ州の「AIヌード化」アプリ禁止令が継続へ

イーロン・マスク傘下のAI企業xAIがミネソタ州の「ヌード化（nudify）」アプリ禁止令の執行停止を求めたが、連邦裁判官がこれを却下した。同州の法律は訴訟終結まで引き続き有効となる。

ニュース 08/02 06:10 NF

Nvidiaが主導する25社が開放型ウェイトに関する公開書簡に署名、50社に拡大後もAnthropicは不参加のまま

Jensen Huang CEO率いるNvidiaが「Open Weights and American AI Leadership」政策書簡を発表し、当初25社が署名、その後50社に拡大したが、AnthropicとAmazonは一貫して不

レビュー

すべて見る →

レビュー 08/03

Claude Opus 4.7が95.19点で首位：2026-08-03 Smokeクイックテストデータ速報

レビュー 08/02

GLM-4.6、Smoke評価メインランキング74点——コード実行82.3点、素材制約95点、API障害で一部ディメンション欠損

GLM-4.6が本日のSmoke評価でメインランキング74.00点を記録。コード実行82.30点・素材制約95.00点を獲得したものの、API障害・タイムアウトにより2つのディメンションのデータが欠損し、今回のランキングには参加しない。

レビュー 08/02

Qwen3 Max が+36.8ポイントで逆転首位、Gemini 3.1 Pro は-5.6ポイントで最大の下落モデルに

2026年7月28日〜8月2日のSmoke評価において、Qwen3 Maxがトレンド値+36.8を記録してトップに躍り出る一方、Gemini 3.1 Proはトレンド-5.6で最大の下落モデルとなった。DeepSeek V4 Proは全モデ

WDCD コンプライアンス

#1 Grok 4 94.8 #2 DeepSeek V4 Pro 93.6 #3 GLM-4.6 93.5 #4 Claude Opus 4.7 92.6 #5 Claude Sonnet 4.6 88.2 #6 GPT-o3 85.7 #7 Gemini 3.1 Pro 81

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第32週品質評価、deepseek-v4-proが9点でトップ

WDCD Run #253：Grok 4が94.8点でトップ、平均指示減衰率は4.5%

WinzhengのWDCDベンチマーク第253回実行において、Grok 4が94.8点で首位を獲得。11モデルを対象とした評価では、平均指示コミットメント減衰率は4.5%となった。

3大モデル翻訳対決：第31週品質評価、gpt-o3が8.3点でトップ

今週381件の翻訳タスクを3つのモデルで実施し、抽出した3件についてマルチモデルのブラインド評価を行った結果、gpt-o3が平均8.3点で総合最優秀となった。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab