Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 · #1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/27 02:19 TC

OpenAIのJalapeñoチップ：大手テック企業によるNvidiaへの最も辛烈な反撃

OpenAIがBroadcomと共同開発したカスタム推論チップ「Jalapeño」を正式発表し、AI業界における「脱Nvidia」の潮流が加速している。2027年の大規模展開を目指すこのチップは、AI芯片市場の勢力図を塗り替える可能性を秘め

ニュース 06/27 02:17 TC

AI政治的帰結の時代：AnthropicとOpenAIの争いはすでに過去のもの

TechCrunchのシニアエディター、Russell Brandomは、AI業界の主要な議題が企業間の技術競争から、AIが選挙・世論・経済構造に与える政治的帰結への集団的対応へと根本的に転換しつつあると指摘した。もはや「どの企業が優れてい

ニュース 06/27 02:16 WD

OpenAIの新モデル公開が停止命令を受ける——なぜホワイトハウスは緊急ブレーキをかけたのか？

ホワイトハウスがOpenAIに対して最新の大規模言語モデルGPT-5.6のグローバルリリース延期を正式に要求した。これはAnthropicが最新モデルを非公開にしてからわずか2週間後の出来事であり、AI規制が「事後対応」から「事前予防」へと

ニュース 06/27 02:15 TC

NvidiaのAI覇権が揺らぐ？OpenAI・SpaceXが相次いで自社チップを開発

OpenAIがBroadcomと共同で推論チップ「Jalapeño」を開発すると発表し、Google・Apple・SpaceXなどに続く「脱Nvidia」の自社チップ開発ブームが加速している。コスト・性能カスタマイズ・サプライチェーンの安全

ニュース 06/27 00:15 WD

ヨーロッパはもう限界、独自のAI構築を決意

地政学的変動とトランプ効果を背景に、ヨーロッパがAI自立に向けて本格的に動き出した。算力・資本・人材という三重の課題を抱えながらも、欧州独自のAI戦略が着実に前進している。

ニュース 06/26 22:17 MIT

熱波が脳を襲う、OpenAIの前例のない新規制

ロンドンを襲った熱波が脳の認知機能に与える影響を科学者が研究する一方、OpenAIは前例のない利用制限措置を突然発表し、業界に波紋を広げている。

ニュース 06/26 22:16 AIN

SAPがコマースデータを統合し、AIパーソナライゼーションの実装を推進

SAPはコマースデータの構造を統一化する計画を発表し、ERP・CRM・ECプラットフォームなど各システムに分散するデータの断片化という課題に対処することで、企業レベルでのAIパーソナライゼーションの大規模実行を可能にしようとしている。

ニュース 06/26 22:15 TC

TechCrunchファウンダーサミットの早期割引チケット、本日深夜締め切り

TechCrunchファウンダーサミット2026の早期割引チケットが、太平洋時間2026年6月26日深夜11時59分に締め切りとなる。購入を逃すと最大190ドルの追加費用が発生する。

ニュース 06/26 18:15 WD

カタール：FIFAのサッカーテクノロジー実験場

2022年カタールW杯では、半自動オフサイド技術やスマートスタジアムなど前例のないテクノロジーが導入され、カタールはFIFA史上最も技術密度の高いW杯開催地となった。本記事では、これらの革新技術の成果と課題を詳しく検証する。

ニュース 06/26 10:15 WD

Anthropic：成功こそがAI安全の鍵？

AI安全を標榜するAnthropicが、市場における影響力と技術的支配力の急速な拡大をめぐり批判にさらされている。同社は「商業的成功なくして安全研究なし」と反論するが、権力集中の是非をめぐる論争は業界全体に波紋を広げている。

ニュース 06/26 08:16 WD

アマゾンがOpenAI映画の制作を断念、AIと映画業界の攻防が激化

アマゾン傘下のMGMスタジオがOpenAIを題材にした映画の開発を断念した。この一件は、AI業界と映画産業における利益をめぐる複雑な駆け引きを浮き彫りにしている。

ニュース 06/26 08:15 TC

ホワイトハウスがOpenAIに圧力：GPT 5.6の一般公開を延期へ

TechCrunchの独占報道によると、OpenAIが2026年夏に予定していたGPT 5.6の一般公開について、トランプ政権がモデルの安全性への懸念を理由に「スローロール（段階的公開）」を要求したことが明らかになった。これはAIガバナンス

レビュー

すべて見る →

レビュー 06/24

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

レビュー 06/24

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

レビュー 06/24

4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5

WDCD コンプライアンス

#1 Qwen3 Max 92.5 #2 Gemini 3.1 Pro 87.5 #3 Grok 4 82.5 #4 DeepSeek V4 Pro 80 #5 文心一言 4.5 75 #6 Gemini 2.5 Pro 75 #7 豆包 Pro 72.5

守約ランキング全体を見る →

Research Lab

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合

4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6（平均スコア9/10）。

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab