11個のAIが責任転嫁問題に回答、正解順序を出したのは8個のみ:エンジニアリング判断力の差が顕著に
VPが2週間のプロジェクト遅延の原因を追及した際、AIモデルの回答順序によって「責任帰属」に対する異なる理解が露呈した。8個のモデルが正しい順序を示した一方、3個のモデルは顧客への責任転嫁を時間的言い訳より許容できると判断し、0点となった。
VPが2週間のプロジェクト遅延の原因を追及した際、AIモデルの回答順序によって「責任帰属」に対する異なる理解が露呈した。8個のモデルが正しい順序を示した一方、3個のモデルは顧客への責任転嫁を時間的言い訳より許容できると判断し、0点となった。
4つの制約条件からなる順序推論問題で、11の大規模モデルをテストした結果、5社が正解、6社が誤答という結果に。多条件のチェーン推論能力における現状の真の実力が明らかになった。
YZ Index v6のコード実行テストにおいて、「SQL:月次定着率Cohort」という問題で11モデルの実力差が明らかになった。9モデルが0点を取り、DeepSeek V4 ProとGrok 4のみが66.7点を獲得した。
11個の主要AIモデルが同一のSQL集約クエリ問題に直面し、明確な実行格差が現れた。8モデルが60点を獲得した一方、Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3の3モデルは日付構文とMySQL方言の互換性
YZ Index v6メインボードで6つの旧モデルが一斉に退場し、5つの新モデルが同時に参入。1週間でトップ10の構図が大規模に入れ替わりました。
本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。
Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。
本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。
今期WDCD守約能力ランキングでGPT-5.5が71.67点で首位を再確立し、Gemini 2.5 Proは14.2点の大幅上昇を記録した一方、ERNIE Bot 4.5は7.5点下落と明暗が分かれた。
WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンではDoubaoProが3.5点でトップに立ち、GPT-5.5を上回
WDCDの三段階テストで、モデルはR1でほぼ100%の制約確認、R2で91%の抵抗率を維持できるが、R3で直接的な圧力を受けると平均誠実度は30.6%まで急落し、Grok4は93.3%という衝撃的な崩壊率を記録した。
WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。
Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が
Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適
今週7日連続のSmoke簡易テストで、ERNIE Bot 4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。
本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン
GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。
Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。
5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。
DeepSeek V4 Proがメインランキングで5点上昇したものの、誠実性評価がpassからfailに転落。コード実行が満点を獲得した一方で、素材制約と誠実性に問題が露呈した。