Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 · #1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · ▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

レビュー 07/05 09:22

GLM-4.6、資料制約25点・コード実行88.7点・誠実性プローブがゼロ

GLM-4.6は2026-07-05 Run#214のSmokeクイックテストにおいて、コード実行で88.70点を記録した一方、資料制約は25.00点にとどまり、誠実性評価はfailと判定された。同日テストされた11モデルの中で、誠実性プロ

レビュー 07/05 06:54

豆包 Pro と Gemini 3.1 Pro が88.54点で並列首位：2026-07-05 Smokeクイックテストデータ速報

2026-07-05のYZ Index Smokeクイックテストでは11モデルを対象に評価を実施し、豆包 Pro と Gemini 3.1 Pro が88.54点で当日首位に並んだ。

ニュース 07/05 06:05 NF

AnthropicがアリババによるClaudeモデル能力の抽出に向けた2万5千件の偽アカウント使用を告発

Anthropicは2026年6月10日付の米国上院議員宛書簡において、アリババ関連のQwenラボが約2万5千件の偽アカウントを通じてClaudeモデルに対し2880万回以上のインタラクションを行ったと暴露した。これは既知最大規模の蒸留攻撃

ニュース 07/05 02:16 TC

アリババ、社内でClaude Codeを禁止——高リスク管理が中国テック業界に波紋

アリババが社内でAnthropicのAIコーディングアシスタントClaude Codeを「高リスクソフトウェア」に指定し、従業員の使用を禁止したことが報じられた。この決定は中国企業によるAIツール管理強化の象徴的事例として業界に広く注目され

ニュース 07/05 02:15 TC

MidjourneyがハリウッドにAI使用の詳細開示を要求

AI画像生成企業のMidjourneyが、著作権侵害訴訟を起こした3つのハリウッド大手スタジオに対し、スタジオ自身のAI活用状況の開示を法廷に求める申し立てを行った。この動きは訴訟の焦点を単なる著作権侵害から「二重基準」という複雑な問題へと

ニュース 07/05 00:15 TC

Mistral AIの秘密を解明：OpenAIに対抗するオープンソースの新星

フランス発のAIスタートアップMistral AIは、「フロンティアAIを誰もの手に」をミッションに掲げ、2023年の創業以来6億ユーロ超の資金調達を達成。OpenAIの閉鎖的なモデル戦略に対抗し、オープンソースと効率性を武器に台頭している

ニュース 07/04 06:15 TC

今年はこの一冊だけでOK！AI用語ガイド

TechCrunchのベテラン記者5名が共同で作成した年間AI用語ガイド。基礎から最前線まで、必須のAI専門用語とその定義を網羅している。

ニュース 07/04 06:11 NF

MetaがケニアのIT請負業者を通じて未成年アカウントを偽装し、ChatGPTなどのAI安全性をテストしていた問題で倫理論争が勃発

Wiredの報道により、Metaが「Cannes」プロジェクトの一環としてケニアの請負業者を通じて偽の未成年アカウントを作成し、ChatGPTやGeminiに対して自殺・自傷・児童搾取に関するプロンプトを送信して安全性の脆弱性を検証していた

ニュース 07/04 04:15 TC

ブラウザ戦争の転換点：ChromeとSafariに代わる最良の選択肢

かつて検索エンジンをめぐる争いだったブラウザ戦争は、プライバシー保護・AI機能・パフォーマンスへの需要の高まりにより、その様相を大きく変えた。ChromeとSafariが依然として覇権を握る中、新興および実績ある代替ブラウザが新たな次元から

ニュース 07/04 03:50 X

OpenAIがトランプ政権に5%株式譲渡を提案か — 42億ドル規模の取引がAI政治論争を巻き起こす

OpenAIのCEO Sam Altmanがトランプ政権に対し、同社株式の約5%を米国政府に譲渡する異例の提案を行ったと報じられた。この動きはAI企業の公的所有モデルをめぐる激しい議論を呼んでいる。

ニュース 07/04 03:50 X

マイクロソフト、医療診断AI「MAI-DxO」を発表：複雑症例の正確率80〜85%、医師グループの4倍超

マイクロソフトが医療診断AIシステム「MAI-DxO」を正式発表し、『ニューイングランド・ジャーナル・オブ・メディシン』のベンチマークテストで診断正確率80〜85%を達成、複数の医師で構成されるグループの4倍以上の性能を示した。この技術的突

ニュース 07/04 03:49 X

MetaがAIクラウド事業を準備中――余剰算力の貸し出しでインフラコスト圧力を緩和へ

Metaが余剰の計算リソースを外部に貸し出す新たなAIクラウド事業の準備を進めていることが明らかになった。年間数百億ドル規模に上るAIインフラへの巨額支出を一部相殺する狙いがある。

レビュー

すべて見る →

レビュー 07/05

GLM-4.6、資料制約25点・コード実行88.7点・誠実性プローブがゼロ

レビュー 07/05

豆包 Pro と Gemini 3.1 Pro が88.54点で並列首位：2026-07-05 Smokeクイックテストデータ速報

2026-07-05のYZ Index Smokeクイックテストでは11モデルを対象に評価を実施し、豆包 Pro と Gemini 3.1 Pro が88.54点で当日首位に並んだ。

レビュー 07/04

SGLang におけるエージェント支援開発の初期探索

SGLang の開発においてエージェント支援開発の実践が進んでおり、CUDA クラッシュデバッグからカーネル最適化、性能ループまでをカバーする実行可能な SKILL.md やスクリプト群として工程知識を体系化する取り組みを紹介する。エージェ

WDCD コンプライアンス

#1 Grok 4 91.2 #2 Gemini 3.1 Pro 79.1 #3 GPT-o3 76.6 #4 Claude Opus 4.7 72.2 #5 GLM-4.6 71.8 #6 Claude Sonnet 4.6 70 #7 DeepSeek V4 Pro 67.8

守約ランキング全体を見る →

Research Lab

WDCD Run #211：Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、G

WDCD Run #207：11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-6

4大モデル翻訳対決：第27週品質評価、claude-sonnet-4.6 が9点でトップ

今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab