注目記事

NVIDIA、今年すでに400億ドルのAI株式取引を確約

NVIDIAは2026年5月までにAI関連株式取引に400億ドルの投資を確約し、2025年通年の投資額のほぼ2倍に達した。GPUの「ツルハシ販売者」から、AIエコシステムの「胴元」へと変貌を遂げつつある。

TC 3時間前 31 閲覧数
続きを読む

YZ指数ダッシュボード

完全ランキングを見る →

総合ランキング Top 3

🥇 Claude Sonnet 4.6 81.1
🥈 豆包 Pro 79.9
🥉 Gemini 2.5 Pro 78.7

WDCD 守約 Top 3

🥇 Qwen3 Max 65.0%
🥈 Claude Sonnet 4.6 62.5%
🥉 DeepSeek V4 Pro 62.5%

最新ニュース

すべて見る
WDCD

WDCDエンジニアリング場面:規約は潔癖症ではなく、本番システムのシートベルトである

WDCD Run #105のテストデータから、エンジニアリング規約(eng)類のシナリオが5大制約カテゴリの中で最も失敗率が高く、Q239では11モデル全てが規約違反するという唯一の事例が発生したことが明らかになった。AIコーディングの次なる競争は、コードを多く書くことではなく、地雷を埋めないことにある。

WDCD 工程约定 代码规范
20時間前 67
WDCD

WDCD採点からの示唆:警告付きの違反こそ、最も危険な違反である

WDCD Run #105の評価データから、大規模モデルが警告文を添えながら違反コードを生成する「警告付き違反」という最も欺瞞的な出力パターンが浮き彫りになった。本記事では、scope: actionable_contentや否定ウィンドウといった採点メカニズムを通じて、なぜ警告は安全境界たり得ないのかを解説する。

WDCD 判分逻辑 带警告违规
20時間前 66
WDCD

WDCD横断評価:なぜリソース制限はすべてのモデルの弱点となるのか

WDCD Run #105の実測データによると、リソース制限類のシナリオはすべてのモデルが最も不安定なパフォーマンスを示す領域の一つであり、安全規約類のシナリオよりも失敗率が高いことが明らかになった。明確な数値制約であっても、業務プレッシャーの下でモデルはしばしばそれを守れない。

WDCD 资源限制 预算约束
20時間前 65
WDCD

WDCDデータ境界:tenant_idを守ってこそ、企業インテリジェンスは語れる

WDCD Run #105評価で、11の主流大規模モデルがマルチテナント分離などのデータ境界制約においてR3(圧力誘導ラウンド)で大幅に失墜することが明らかになった。プロンプトのみに依存せず、エンジニアリングによるシステムレベルの防衛線がSaaS企業AIの必須条件である。

WDCD 数据边界 多租户隔离
20時間前 58
NF

GoogleがGemini 3.1 Flash-Liteを発表:最もコスト効率の高いモデル、エージェントタスク性能はサードパーティ検証待ち

Googleが高容量エージェントタスク、翻訳、シンプルなデータ処理向けに最適化されたGemini 3.1 Flash-Liteを発表。Geminiシリーズで最もコスト効率の高いモデルとして位置付けられ、超低遅延と高スループットを実現するが、競合製品との性能比較は第三者検証が必要。

Gemini模型 AI代理任务 Google AI
21時間前 81
NF

AnthropicがAkamaiと18億ドルのAIクラウド契約を締結 Claudeモデルのトレーニングを加速

Anthropicは2026年5月、クラウドサービスプロバイダーAkamaiと18億ドル規模のAIクラウド契約を締結し、Claudeシリーズモデルのトレーニングと推論性能の向上を図る。本記事では、winzheng.comの専門的視点から、この協業がAIインフラ業界に与える影響と、Claudeモデルの競争力をYZ Index v6評価方法論に基づき分析する。

AI云协议 Claude模型 算力竞争
21時間前 211
NF

トランプ政権のホワイトハウスがAI大統領令を準備中:規制をめぐる相違が政策とイノベーションの衝突を引き起こす

トランプ政権のホワイトハウスがAI関連の大統領令を検討しており、厳格な審査制度を求める勢力と最小限の規制を主張する勢力の対立が浮き彫りになっている。記事は、国家安全保障、選挙戦略、グローバル競争、産業構造への影響を分析している。

AI监管 特朗普政府 科技政策
21時間前 75