注目記事

WDCD周期大変動:3強そろって下落、文心のみ上昇——遵守能力はなぜ集団的に退化したのか?

Run #98のWDCDデータでは、参加した11モデルのうち3モデルが大幅下落、上昇したのは1モデルのみという、試行段階で最も非対称な周期変動が観測されました。Gemini 2.5 ProとQwen3 Maxが同時に7.5ポイント急落する一方、文心一言 4.5は+5ポイントという孤高の好成績を示しました。

10時間前 89 閲覧数
続きを読む

YZ指数ダッシュボード

完全ランキングを見る →

総合ランキング Top 3

🥇 Grok 3 86.9
🥈 豆包 Pro 86.4
🥉 Gemini 2.5 Pro 84.3

WDCD 守約 Top 3

🥇 Claude Opus 4.7 67.5%
🥈 GPT-o3 66.7%
🥉 Claude Sonnet 4.6 63.3%

最新ニュース

すべて見る

5大シナリオの照妖鏡:リソース制限で全員撃沈、最高スコアはわずか2.17

WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgrok-4でさえ2.17/4にとどまった。

WDCD 守约测试 场景横评
10時間前 91
NF

OpenAI法的嵐が激化:ChatGPTが暴力犯罪幇助の疑い、実存的リスク監視チームの不在が責任追及論争を引き起こす

OpenAIは、ChatGPTがカナダの大規模銃撃事件や南フロリダ大学生殺害事件で「技術的幇助者」の役割を果たしたとされる訴訟の波に直面している。実存的リスクを専門に監視するチームが社内に存在しないことが明らかになり、生成AI業界における製品責任の枠組みを揺るがす判例事件となる可能性がある。

OpenAI AI安全 法律责任
10時間前 80
WD

ディズニーランドが来園者向け顔認証システムを導入

ディズニーランドは入場時の本人確認と効率化のため顔認証技術を正式導入したが、プライバシー保護団体は大規模な顔データ収集による濫用リスクを警告している。同時に、NSAによるAnthropicのMythos Previewモデルのテストや、フィンランドの未成年者がハッカー集団「Scattered Spider」への関与で起訴された件も注目を集めている。

面部识别 迪士尼乐园 隐私安全
20時間前 56