WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
2026年5月14日のSmoke簡易評価で、Claude Sonnet 4.6がメインボード84.68点で首位に躍り出たが、同モデルを含む8大主流AIモデルのコード実行スコアが軒並み25点暴落し、ランキングが大きく洗い替えされた。これは偶然
本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。
2026年初時点で中国語AI評価エコシステムに存在する4つの主流ベンチマーク(YZ Index、SuperCLUE、OpenCompass、C-Eval)の方法論的差異を分析し、それぞれの適用シーンと選定指針を解説する。
現在のAI評価ランキングに潜む5つの重大な問題点を指摘し、Winzheng(winzheng.com)が提供するYZ Indexがいかにこれらの問題を解決し、評価業界に革新をもたらすかを解説する。
Winzheng(winzheng.com)が発表したYZ Index WDCD遵守テストは、AIが約束を本当に守れるかという盲点を突き、3ラウンド30問の精密設計でAIの「信用危機」を解剖します。従来のベンチマークでは測れない真の信頼性を
Winzhengが推出したYZ Index v7の新しい実験的次元「DCD(Dynamic Context Decay、動的コンテキスト減衰)」は、複数ターン対話においてAIモデルが初期制約をどれだけ守れるかを測定する。判定にAIを一切使わ
2026年5月1日、YZ Indexは評価対象モデルを大規模に更新し、9つの旧モデルを退役させ、7つの新たなフラッグシップモデルを導入しました。WinzhengのAI駆動機能も最新モデルへ同期して切り替えられ、評価データはすべて保存されます
DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。
DoubaoProは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫
今週のYZ Index評価システムは、11の主流AIモデル中10モデルが「タスク表現」次元で同時向上するという珍しい現象を捉えました。同時に、Claude Opus 4.6は「材料制約」次元で唯一の突破を果たしました。
Grok 3の安定性スコアが54.2点から31.7点へと41.5%も暴落し、プログラミング能力が向上する一方で、実務判断力の欠如というAIモデルの致命的な弱点が露呈した。
「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。
Doubao Pro は今週の評価でプログラミングや知識作業などの面で大幅な向上を見せた一方、安定性スコアが54.5点から34.7点へと36.3%も急落するという異常な現象を示しました。この「進歩と退化の併存」現象の技術的要因を詳しく分析し
Qwen Maxは今週の評価で極端な二面性を示し、プログラミングや長文処理などの複雑なタスクでは大幅に向上した一方、安定性では崖っぷちのような急落を見せました。
DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。
Claude Opus 4.6の安定性スコアが先週の53.5から31.0へと42.1%の大幅下落を記録し、出力フォーマットの一貫性問題が明らかになった。一方で、プログラミング能力は208%向上するなど、性能向上と安定性低下という矛盾した結果
今週Qwen Maxの知識作業次元での得点が81.6から71.8へと9.8ポイント下落し、特に論理推論タスクでの大幅な性能低下が主因となった。
バッチ処理の障害診断問題において、8つのAIモデルが明確な能力の階層を示した。上位モデルは「単一処理成功・バッチ処理失敗」という典型的な同時実行問題パターンを的確に識別できた。
8つのAIモデルに対して、同一コードで異なる入力に対して異なる結果が生じる典型的な本番環境デバッグシナリオを提示し、その理解深度の差異を分析した。