YZ IndexのWDCD（Winzheng Dynamic Contextual Decay）遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア（平均1.86点）、安全コンプライアンスシーンが最大の差別化（モデル間格差2点）を記録した。

WDCD 守约测试 AI模型评测

2時間前 21

AI遵守の大崩壊：R3で76回崩壊、Grok4が全滅した衰退のブラックホール

WDCD三段階衰退テストで、AIモデルは初期約束確認（R1）で平均0.96/1とほぼ完全に遵守を約束するが、直接圧力をかけるR3では誠実率が24.5%に急落し、110回中76回完全崩壊することが判明した。これはAIの「口約束だけで実行しない」症候群を露呈している。

WDCD 守约测试 AI模型衰减

2時間前 19

WDCD遵守ランキング：Gemini 3.1 ProとQwen3 Maxが並んで首位、Grok 4は最下位に沈む！トップとボトムの差は22.5点

WDCD遵守テストのパイロット段階で、Gemini 3.1 ProとQwen3 Maxが65.00点で並んで首位に立ち、Grok 4はわずか42.50点で最下位に転落、R3段階での全面崩壊により、トップとボトムの差は22.5点に達した。

WDCD 守约测试 AI模型排名

2時間前 19

マスク氏はOpenAIを子供たちに譲ろうとした？アルトマン氏が法廷で暴露

OpenAIのサム・アルトマンCEOが法廷で、イーロン・マスク氏がOpenAIの株式または支配権を自身の子供たちに譲渡することを真剣に検討していたと暴露し、AI業界に波紋を広げている。

埃隆·马斯克萨姆·奥特曼 OpenAI

3時間前 29

ARS

ChatGPTが致死的な薬物を推奨、少年が中毒死

フロリダ州の19歳の少年がChatGPTの助言に従って致死量の薬物を混合服用し死亡した事件で、母親がOpenAIを提訴。AIアシスタントの責任境界が改めて問われている。

AI伦理 ChatGPT 青少年安全

3時間前 24

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質的劣化かを分析する。

Gemini 2.5 Pro 赢政指数 Smoke评测

4時間前 28

Gemini 3.1 Pro が信頼性で逆転！メインボードが15点急騰、Google AIは強力に反発か？

Gemini 3.1 Pro は信頼性評価が fail から pass に転換し、メインボード得点が 74.00 から 88.98 へと 15 点急騰しました。本記事では、Smoke 評価データを詳細に分析し、この変動が抽選による偶然か、モデルの真の進歩かを考察します。

Gemini 3.1 Pro 诚信评级 Smoke评测

4時間前 30

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。

Claude Opus Grok 4 AI评测

4時間前 27

MIT

ワールドモデル：現在のAI分野で最も重要な10のトレンドの一つ

『MITテクノロジーレビュー』が発表した「現在のAIで最も重要な10のトレンド」に「ワールドモデル（World Models）」が選出された。これはAIがパターン認識から因果推論と物理世界の理解へと飛躍することを意味する。

世界模型 AI趋势 MIT科技评论

5時間前 31

AI法律サービスが過熱、AnthropicがGPT参入し新機能を投入

Anthropicが法律業界向けに特化したClaudeベースの機能スイートを発表し、文書処理や法律調査、契約分析を支援。安全性と説明可能性を重視し、Harvey、Casetextなどが先行するAI法律市場に本格参入する。

AI法律 Anthropic 法律服务

5時間前 30