AI模型评测に関するAIニュース | Winzheng AI ニュース

GPT-5.5が88.33点で首位、GPT-o3が61.67点で最下位——R3崩壊率22.1%

WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫

WDCD 守约测试 AI模型评测约束遵守

2026年6月11日 582

レビュー

R3崩壊率に7倍の差！11モデルのWDCD三段階遵守における真の劣化検証

WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。

WDCD 守约测试 AI模型评测安全合规

2026年6月11日 641

レビュー

Qwen3 Max が70.83点で WDCD 遵守ランキング首位、Grok4 は51.67点で最下位

WDCD 遵守テスト第1ラウンドの公開ランキングで、Qwen3 Max が70.83点で首位、Grok4 が51.67点で最下位となり、R3段階での平均違反率は60.6%に達し、多くのモデルが実際の企業制約下で依然として容易に違反することが

WDCD 守约测试 AI模型评测守约能力分析

2026年5月31日 561

レビュー

Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか

今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力（約束を守る能力）」で英語圏モデルとの差を急速に縮めている。

WDCD 守约测试 AI模型评测周期变化追踪

2026年5月27日 599

レビュー

Claude が 65 分で WDCD 遵守ランキング首位、DeepSeek は 12.5 ポイント急落で最下位

今回の WDCD 遵守テストでは Claude Opus 4.7 が 65.00 点で首位に立ち、DeepSeek V4 Pro は 47.50 点で最下位となった。R3 段階の全体崩壊率は 77.3% に達し、高圧的な追及下での持続的拒否

WDCD 守约测试 AI模型评测 Claude Opus

2026年5月20日 593

レビュー

WDCD大シャッフル：Gemini 2.5 Proが10点暴落、GPT-5.5が7.5点で逆襲、勝者は誰か？

最新のWDCD（Winzheng Dynamic Contextual Decay）サイクル追跡で、Gemini 2.5 ProとGrok 4が大幅下落する一方、Gemini 3.1 ProとGPT-5.5が強い反発を見せ、AIモデルの約束

WDCD 守约测试 AI模型评测分数变化

2026年5月13日 628

レビュー

WDCD五大シーン横断評価：リソース制限が最難関、11モデルの偏り格差は2点に達する、企業の真の選択肢は誰か？

YZ IndexのWDCD（Winzheng Dynamic Contextual Decay）遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア（平均1.86点）、安全コンプラ

WDCD 守约测试 AI模型评测企业选型

2026年5月13日 687

レビュー

Claude 3.5 Sonnetの安定性が23ポイント急落した背後にある技術的真相

Claude 3.5 Sonnet（バージョン4.6）の安定性スコアが54.2から31.2へと42%急落した一方で、プログラミング能力は184%向上するなど、他の評価指標では顕著な改善が見られ、この「トレードオフ」現象の技術的要因を分析する

Claude 稳定性测试 AI模型评测性能分析

2026年3月22日 858

AI模型评测 に関するニュース

GPT-5.5が88.33点で首位、GPT-o3が61.67点で最下位——R3崩壊率22.1%

R3崩壊率に7倍の差！11モデルのWDCD三段階遵守における真の劣化検証

Qwen3 Max が70.83点で WDCD 遵守ランキング首位、Grok4 は51.67点で最下位

Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか

Claude が 65 分で WDCD 遵守ランキング首位、DeepSeek は 12.5 ポイント急落で最下位

WDCD大シャッフル：Gemini 2.5 Proが10点暴落、GPT-5.5が7.5点で逆襲、勝者は誰か？

WDCD五大シーン横断評価：リソース制限が最難関、11モデルの偏り格差は2点に達する、企業の真の選択肢は誰か？

Claude 3.5 Sonnetの安定性が23ポイント急落した背後にある技術的真相

AI模型评测に関するニュース