注目記事

5大モデル翻訳対決:第19週品質評価、gpt-5.5が8.7点でリード

今週は5モデルが240本の翻訳タスクを完了し、3本をサンプリングしてマルチモデル盲評比較を実施した結果、gpt-5.5が平均8.7/10で総合最優秀となった。

3時間前 73 閲覧数
続きを読む

YZ指数ダッシュボード

完全ランキングを見る →

総合ランキング Top 3

🥇 Claude Sonnet 4.6 81.1
🥈 豆包 Pro 79.9
🥉 Gemini 2.5 Pro 78.7

WDCD 守約 Top 3

🥇 Claude Opus 4.7 67.5%
🥈 GPT-o3 66.7%
🥉 Claude Sonnet 4.6 63.3%

最新ニュース

すべて見る
NF

ペンタゴン、倫理リスクを理由にAnthropicの機密AIネットワーク接続を禁止:原則堅持 vs 国防需要の衝突

2026年5月2日、ペンタゴンはAnthropicが自律型兵器と大規模監視の禁止条項を契約から削除することを拒否したため、同社を「サプライチェーンリスク」として機密AIネットワークから排除した。Anthropicは訴訟を提起し、AI倫理と国防需要の対立がテクノロジー業界に大きな波紋を広げている。

AI伦理 国防AI Anthropic诉讼
4時間前 67
NF

DeepMindとNVIDIAが提携し3100万のタンパク質複合体予測を公開、しかし高信頼度の比率の限定性がキャリブレーションへの懸念を引き起こす

DeepMindとNVIDIAは2026年5月2日、AlphaFoldデータベースにApache 2.0オープンソースライセンスで3100万のタンパク質複合体予測を公開した。計算時間とコストを大幅に削減した一方、薬剤関連ターゲットの高信頼度フィルタリング基準を満たす予測がごく一部に限られ、AIモデルのキャリブレーションへの懸念が浮上している。

AI 生物科技 DeepMind
4時間前 55
NF

マスク氏が法廷で「自爆」!xAIがOpenAIモデルの蒸留によるGrok訓練を認める 「独自開発」神話が崩壊

2026年5月2日の法廷でマスク氏がxAIによるOpenAIモデルを使った蒸留技術でのGrok訓練を認め、AI業界に誠実性をめぐる論争を引き起こしました。本記事ではWinzhengがYZ Index v6方法論でGrokを評価し、競合製品との比較や実用的な提言を提供します。

xAI Grok AI controversy
4時間前 71
X

中国がAIによる労働者の代替禁止を率先して立法化?世界的議論の背景にある雇用倫理と規制の駆け引き

「中国がAIによる労働者の代替禁止を率先して立法化した」という話題が国際的なSNSやテクノロジーフォーラムで急速に拡散し、AI規制、雇用倫理、技術進歩の境界をめぐる広範な議論を引き起こしている。本稿では、この話題の背景にある政策ロジック、各国の規制路線の相違、そして社会への影響を分析する。

AI法规 工人取代 中国政策
7時間前 60
X

Claude AIがInstagramの受動的収入の新たな手法を解禁:12のPromptがソーシャルマーケティングブームを巻き起こす

Anthropic傘下のClaude AIを活用し、12個のpromptでInstagramコンテンツを大量生成して「自動収益化アカウント」を構築する手法がSNSで話題に。低い参入障壁で注目を集める一方、コンテンツの同質化やプラットフォームポリシーのリスクも指摘されている。

Claude AI Instagram 被动收入
7時間前 58

WDCD周期大変動:3強そろって下落、文心のみ上昇——遵守能力はなぜ集団的に退化したのか?

Run #98のWDCDデータでは、参加した11モデルのうち3モデルが大幅下落、上昇したのは1モデルのみという、試行段階で最も非対称な周期変動が観測されました。Gemini 2.5 ProとQwen3 Maxが同時に7.5ポイント急落する一方、文心一言 4.5は+5ポイントという孤高の好成績を示しました。

WDCD 守约测试 模型周期追踪
1日前 149

5大シナリオの照妖鏡:リソース制限で全員撃沈、最高スコアはわずか2.17

WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgrok-4でさえ2.17/4にとどまった。

WDCD 守约测试 场景横评
1日前 144