指示遵守とWDCDテスト

54 件の記事 · ページ 1/3
AIモデルは本当に指示通りに動くのか?指示遵守(instruction compliance)は企業がAIを導入する際の最も重要な評価次元ですが、従来のベンチマークではほとんどテストされていません。WDCD(Winzheng Dynamic Contextual Decay)は、AIモデルの指示遵守が長い対話の中でどう衰減するかを体系的に測定する世界初のテストです。3ラウンドの対話で2,000〜5,000字の専門的な妨害テキストを注入し、30の制約質問・5つの実務シナリオで評価します。すべてのスコアリングは100%ルールベースで、AIによる判定はゼロです。YZ指数の誠実性評価は42組のcanaryプローブで引用捏造やデータ偽造も検出します。本トピックでは指示遵守研究、ハルシネーション検出手法、WDCDテスト結果分析を収集しています。
Lab WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、DeepSeek V4 Proは90%減と最大の制約崩壊を記録した。
2026/05/20
レビュー GPT-5.5が19.2ポイント暴落!6モデルがWDCD遵守テストで一斉に後退
今回のWDCDサイクル変化追跡では、11の評価対象モデルのうち6つが顕著な下落を示し、上昇したモデルはゼロでした。GPT-5.5は19.2ポイントの下落で最大の敗者となり、Claudeシリーズが遵守能力で他を引き離す傾向が鮮明になっています。
2026/05/20
レビュー WDCD 5大シナリオ横断評価:業務ルールが最難関に、ClaudeとDoubaoの偏科差は2点に達する
WDCD遵守テストの試験運用データによると、業務ルールシナリオは全モデル共通の弱点となり最高得点はわずか2.5点、一方で安全コンプライアンスシナリオはモデル間の格差を最大に広げる結果となりました。
2026/05/20
レビュー R3崩壊率85%!11モデルWDCD三段階テスト:約束から裏切りへのリアルな減衰曲線
WDCDテストでは三段階の漸進的な圧力により、モデルが持続的なストレス下で約束を守れなくなる崩壊軌跡を精密に捕捉。R1段階ではほぼ全モデルが完璧な確認を示すが、R3直接圧力段階では平均誠実率が17.7%まで急落することが判明した。
2026/05/20
レビュー Claude が 65 分で WDCD 遵守ランキング首位、DeepSeek は 12.5 ポイント急落で最下位
今回の WDCD 遵守テストでは Claude Opus 4.7 が 65.00 点で首位に立ち、DeepSeek V4 Pro は 47.50 点で最下位となった。R3 段階の全体崩壊率は 77.3% に達し、高圧的な追及下での持続的拒否能力が依然として課題であることが示された。
2026/05/20
レビュー Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減
Gemini 2.5 Proが本日のSmoke評価でメインランキング22.6点を失い、コア実行スコアは100点から95点に下落。サブランキングのエンジニアリング判断は66.7点から30点へ崩落し、誠実性評価もfailとなった。
2026/05/20
レビュー 文心一言4.5の誠実性評価がFailに、コード実行は42.5点急騰も副榜で崩壊
文心一言4.5は本日のSmoke速報テストで、主榜の得点が小幅上昇したものの、誠実性評価がpassからfailに転落。コード実行は42.5点急騰した一方、工程判断と任務表現は崩壊的な下落を見せた。
2026/05/20
レビュー GeminiメインボードでSonnet 4.6が97.5点で首位、Geminiは23点暴落のSmoke快速テスト
本日のSmoke 10問快速テストでClaude Sonnet 4.6が97.5点で首位を獲得、Gemini 3.1 Proは前日比23.2点の大幅下落となった。文心一言4.5はFail判定を受け、誠実性評価で異常信号が集中した。
2026/05/20
レビュー 11個のAIが責任転嫁問題に回答、正解順序を出したのは8個のみ:エンジニアリング判断力の差が顕著に
VPが2週間のプロジェクト遅延の原因を追及した際、AIモデルの回答順序によって「責任帰属」に対する異なる理解が露呈した。8個のモデルが正しい順序を示した一方、3個のモデルは顧客への責任転嫁を時間的言い訳より許容できると判断し、0点となった。
2026/05/18
Lab WDCD Run #120:11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに
Winzheng動的コンテキスト減衰(WDCD)ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示減衰が現在のフロンティアシステムにおける構造的な弱点であることが改めて示されました。
2026/05/17
レビュー WDCD週期に劇的変化:GPT-5.5が71.67点で首位、Gemini急騰14.2点、文心は崩落
今期WDCD守約能力ランキングでGPT-5.5が71.67点で首位を再確立し、Gemini 2.5 Proは14.2点の大幅上昇を記録した一方、文心一言4.5は7.5点下落と明暗が分かれた。
2026/05/17
レビュー リソース制限がWDCDで最難関シーンに、豆包3.5点で業務ルール部門にてGPTを逆転
WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンでは豆包Proが3.5点でトップに立ち、GPT-5.5を上回った。
2026/05/17
レビュー R3崩壊率93.3%!Grok4 WDCD三段階テスト初回完全防御も最終段階で総崩れ
WDCDの三段階テストで、モデルはR1でほぼ100%の制約確認、R2で91%の抵抗率を維持できるが、R3で直接的な圧力を受けると平均誠実度は30.6%まで急落し、Grok4は93.3%という衝撃的な崩壊率を記録した。
2026/05/17
レビュー WDCDコンプライアンスランキング:GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位
WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。
2026/05/17
レビュー 7日間Smoke簡易テスト:文心一言が53点急騰、GPT-o3は-7.8で下落首位
今週7日連続のSmoke簡易テストで、文心一言4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。
2026/05/17
レビュー Gemini 2.5 Pro が10ポイント下落:能力低下ではなく誠実性で躓く
Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。
2026/05/16
レビュー DeepSeek、5点上昇もFail:10問スモークテストで警報
DeepSeek V4 Proがメインランキングで5点上昇したものの、誠実性評価がpassからfailに転落。コード実行が満点を獲得した一方で、素材制約と誠実性に問題が露呈した。
2026/05/15
レビュー 2モデルがゼロ実行で爆死、Claudeは88.75点を死守
11モデルを対象とした軽量評価Smokeで、Claude Opus 4.7が88.75点で首位を獲得。9モデルがコード実行満点を取る中、文心一言4.5とGrok 4はコード実行でゼロ点となった。
2026/05/15
Lab WDCD Run #115:平均指示減衰率49.2%に達し、Gemini 3.1 ProとQwen3 Maxが首位タイ
2026年5月13日に完了したWDCD Run #115では、11モデルがテストされ、コホート全体の平均コミットメント減衰率は49.2%に達した。Gemini 3.1 ProとQwen3 Maxが65点・-30%減衰率で首位タイとなった。
2026/05/13
レビュー WDCD大シャッフル:Gemini 2.5 Proが10点暴落、GPT-5.5が7.5点で逆襲、勝者は誰か?
最新のWDCD(Winzheng Dynamic Contextual Decay)サイクル追跡で、Gemini 2.5 ProとGrok 4が大幅下落する一方、Gemini 3.1 ProとGPT-5.5が強い反発を見せ、AIモデルの約束遵守能力に激しい変動が現れた。
2026/05/13