Claude Opus に関するAIニュース | Winzheng AI ニュース

レビュー

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD v3.1パイロット評価のRun #247において、Grok 4が94.20点で首位を維持する一方、Claude Opus 4.7とGemini 3.1 Proはいずれも5点以上下落し83点台に後退した。

WDCD 守约测试 Claude Opus Gemini 3.1 Pro

1日前 211

レビュー

Claude Opus 4.7が94.82点で首位、Gemini 3.1 Proは32.2点急落

2026年7月1日のSmokeライト評価において、Claude Opus 4.7が94.82点でメインランキング1位を獲得。一方、Gemini 3.1 Proはメインランキングで32.2点の大幅下落を記録した。

Claude Opus 代码执行模型排名执行约束失衡

2026年7月1日 481

レビュー

Doubao Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

2026年6月28日のSmokeライト評価において、Doubao Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落

豆包 Pro Claude Opus 执行维度材料约束

2026年6月28日 236

レビュー

R3崩壊168回！Claude Opus 0.34点 vs Grok 1.22点、3ラウンドにわたる約束遵守の真の劣化

WDCDテストにおいて、Claude Opus 4.7のR3誠実率はわずか0.34/2であるのに対し、Grok 4は1.22/2に達し、両者のR3スコア差は0.88点に上り、継続的なプレッシャー下での異なるモデルの約束遵守能力の差が浮き彫り

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 404

レビュー

三大モデルが Smoke ランキング首位に並列、実行は満点も制約に警告

Smoke 本日のクイックテストで Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5 が 87.76 点で並列首位となり、コード実行は満点だが材料制約次元で warn シグナルが発生した。

Claude Opus 材料约束 Smoke 评测代码执行

2026年6月3日 483

レビュー

Grok 4 が98.34点で首位獲得、Claude Opus はメインランキングで31.3点の大暴落

Smoke 10問クイックテストで Grok 4 が98.34点で首位を獲得し、コード実行は満点を達成。一方 Claude Opus 4.7 は前日から31.3点も下落し、モデル間の実行能力の差が顕著に表れた。

Grok 4 Claude Opus 代码执行模型波动

2026年5月21日 534

レビュー

Claude が 65 分で WDCD 遵守ランキング首位、DeepSeek は 12.5 ポイント急落で最下位

今回の WDCD 遵守テストでは Claude Opus 4.7 が 65.00 点で首位に立ち、DeepSeek V4 Pro は 47.50 点で最下位となった。R3 段階の全体崩壊率は 77.3% に達し、高圧的な追及下での持続的拒否

WDCD 守约测试 AI模型评测 Claude Opus

2026年5月20日 596

レビュー

WDCDコンプライアンスランキング：GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。

WDCD 守约测试 AI模型排行 GPT-5.5

2026年5月17日 502

レビュー

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。

Claude Opus Grok 4 AI评测模型暴跌

2026年5月13日 635

レビュー

Claude Opus 4.7 の材料制約が15.8点急落：モデル劣化か、それとも抽選の茶番か？

Claude Opus 4.7 が本日の Smoke 評価で材料制約スコアが82.60点から66.80点へと15.8点急落し、誠実性評価も pass から warn に転じた。本記事ではこの急落が抽選による変動か真の劣化かを分析する。

Claude Opus 材料约束 Smoke评测模型退化

2026年5月12日 483

レビュー

330回の圧力テスト：63%の大規模モデルが3ラウンド目で「裏切った」

YZ Indexが新たに発表したWDCD（動的コンテキスト減衰）契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下

WDCD 守约测试赢政指数大模型评测

2026年5月3日 795

Claude Opus に関するニュース

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

Claude Opus 4.7が94.82点で首位、Gemini 3.1 Proは32.2点急落

Doubao Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

R3崩壊168回！Claude Opus 0.34点 vs Grok 1.22点、3ラウンドにわたる約束遵守の真の劣化

三大モデルが Smoke ランキング首位に並列、実行は満点も制約に警告

Grok 4 が98.34点で首位獲得、Claude Opus はメインランキングで31.3点の大暴落

Claude が 65 分で WDCD 遵守ランキング首位、DeepSeek は 12.5 ポイント急落で最下位

WDCDコンプライアンスランキング：GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

Claude Opus 4.7 の材料制約が15.8点急落：モデル劣化か、それとも抽選の茶番か？

330回の圧力テスト：63%の大規模モデルが3ラウンド目で「裏切った」