WDCD 5大シナリオ横断評価:業務ルールが最難関に、ClaudeとDoubaoの偏科差は2点に達する
WDCD遵守テストの試験運用データによると、業務ルールシナリオは全モデル共通の弱点となり最高得点はわずか2.5点、一方で安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。
WDCD遵守テストの試験運用データによると、業務ルールシナリオは全モデル共通の弱点となり最高得点はわずか2.5点、一方で安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。
WDCDテストでは三段階の漸進的な圧力により、モデルが持続的なストレス下で約束を守れなくなる崩壊軌跡を精密に捕捉。R1段階ではほぼ全モデルが完璧な確認を示すが、R3直接圧力段階では平均誠実率が17.7%まで急落することが判明した。
今回の WDCD 遵守テストでは Claude Opus 4.7 が 65.00 点で首位に立ち、DeepSeek V4 Pro は 47.50 点で最下位となった。R3 段階の全体崩壊率は 77.3% に達し、高圧的な追及下での持続的拒否
Gemini 2.5 Proが本日のSmoke評価でメインランキング22.6点を失い、コア実行スコアは100点から95点に下落。サブランキングのエンジニアリング判断は66.7点から30点へ崩落し、誠実性評価もfailとなった。
ERNIE Bot 4.5は本日のSmoke速報テストで、主榜の得点が小幅上昇したものの、誠実性評価がpassからfailに転落。コード実行は42.5点急騰した一方、工程判断と任務表現は崩壊的な下落を見せた。
本日のSmoke 10問快速テストでClaude Sonnet 4.6が97.5点で首位を獲得、Gemini 3.1 Proは前日比23.2点の大幅下落となった。ERNIE Bot 4.5はFail判定を受け、誠実性評価で異常信号が集中した
AIモデルのリアルタイム使用データに特化したランキングプラットフォームが正式に公開され、Claude Opus 4.7とSonnet 4.6が主導的に使用され、GPT-5.5がそれに続き、DeepSeekモデルが力強い成長を見せている。
Omni AI Companionは本日「Always Go Deeper」新機能を発表し、対話の流暢さと個性化の深さを大幅に向上させた。無料ユーザーには画像生成サポートが強化され、有料ユーザーには高品質動画とNSFWモードが開放された。
マルタ政府がAI企業と協定を締結し、全居民が指定の無料AIコース修了後にChatGPT Plus年間アクセス権を取得可能となる。Winzhengは、これが単なる普及策ではなく、商業データ戦略と地政学的試行の融合であると分析する。
Claude Opus 4.7は本日のSmoke評価でメイン指標が93.48点から70.93点へと一日で22.6点下落し、コード実行次元が満点100点から50点へと半減したことが主な要因となった。
DoubaoProが本日のSmoke評価でマテリアル制約スコアが95点から79.8点へ15.2点急落し、メインランキングも97.75点から90.91点に下落した。原因は出題抽選による偶発性か、それともモデル能力の短期的退化か注目される。
Smokeの10問クイックテストでAIモデルの実行能力の弱点が浮き彫りに。Grok 4が97.44点で首位に立つ一方、GPT-o3は昨日から28.1点暴落した。
同じSQL連続ログイン問題で、11個の主流モデルが2つの陣営にはっきり分かれた。8個は完全に正しい回答を出した一方、3個は完全に崩壊した。
VPが2週間のプロジェクト遅延の原因を追及した際、AIモデルの回答順序によって「責任帰属」に対する異なる理解が露呈した。8個のモデルが正しい順序を示した一方、3個のモデルは顧客への責任転嫁を時間的言い訳より許容できると判断し、0点となった。
4つの制約条件からなる順序推論問題で、11の大規模モデルをテストした結果、5社が正解、6社が誤答という結果に。多条件のチェーン推論能力における現状の真の実力が明らかになった。
YZ Index v6のコード実行テストにおいて、「SQL:月次定着率Cohort」という問題で11モデルの実力差が明らかになった。9モデルが0点を取り、DeepSeek V4 ProとGrok 4のみが66.7点を獲得した。
11個の主要AIモデルが同一のSQL集約クエリ問題に直面し、明確な実行格差が現れた。8モデルが60点を獲得した一方、Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3の3モデルは日付構文とMySQL方言の互換性
YZ Index v6メインボードで6つの旧モデルが一斉に退場し、5つの新モデルが同時に参入。1週間でトップ10の構図が大規模に入れ替わりました。
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。
Anthropicが2026年5月16日に公開した政策論文では、中国モデルの悪意あるリクエストへの服従率が94%に達するとし、米国のAI優位性確保と輸出規制強化を呼びかけた。支持と批判の両論を巻き起こしている。