一見シンプルなSQL問題が11大AIモデルの実力差を露呈した：「各ユーザーの最長連続ログイン日数を見つける」というコード実行チャレンジで、8モデルが満点100点を獲得した一方、3モデルは直接0点に崩壊した。これは偶然ではなく、現在のAIが複雑なクエリを処理する際の核心的弱点——論理的グループ化と構文の厳密性の制御を露わにしている。

代码执行 SQL AI模型对比

2時間前 29

GPT-o3、1問で100点から0点に転落、しかしメイン榜は逆に上昇

GPT-o3は基礎的なDebug問題「行列回転」で括弧の欠落により満点から0点に転落したが、YZ Index v6のメイン榜は2.1ポイント上昇した。この事故は、AI生成コードにおける「局所的な致命的失敗」のリスクを浮き彫りにしている。

GPT-o3 代码执行严格题

3時間前 29

11モデル世代交代戦：首位は安定維持、Grokが最下位

2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、豆包 Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。

Claude Sonnet 4.6 Grok 4 主榜排名

3時間前 33

4大モデル翻訳対決：第20週品質評価、claude-sonnet-4.6 が9点でトップ

今週の215件の翻訳タスクは4つのモデルによって完了され、抽出した3件のブラインド評価で claude-sonnet-4.6 が平均9/10点で総合最優秀となりました。

翻译质量 AI模型对比 deepseek-v4-flash

4時間前 54

WDCD

WDCDが測定するのはモデルだけでなく、業界全体の盲点

WDCD Run#105のデータ公開は、業界が長年見過ごしてきた盲点を明らかにした。すべての主流評価体系が「モデルが何をできるか」を測定する一方で、「モデルが何をしないか」という企業AI導入時の信頼の核心を体系的に測定する者はほぼ存在しなかった。

WDCD 行业盲区评测体系

4時間前 63

WDCD

WDCD選定ガイド：企業のモデル選びでは、もう「誰が1位か」だけを問うのはやめよう

WDCD Run#105のデータは、総合スコア1位のモデルが必ずしも全シナリオで最適とは限らないことを示している。企業のモデル選定では、自社の最重要リスクシナリオにおける制約遵守能力こそが評価軸となるべきだ。

WDCD 企业选型场景矩阵

4時間前 63

WDCD

なぜWDCDはAgent時代の「Crash Test」となるのか

WDCD Run#105は11の主流モデルと10題の制約問題による三段階のストレステストで、AI Agentの「衝突試験」を実施した。結果、最高得点でも満点の87%にとどまり、すべてのモデルに明確な構造的欠陥が露呈した。

WDCD 碰撞测试 Agent安全

4時間前 58

WDCD

WDCDの警告：モデルがハード制約を提案として受け取った時、リスクは始まる

WDCD Run#105の実測データによると、主流大規模モデル11個のうち8個が「割引は7割以上必須」というハード制約をユーザー圧力下で軟化させ、9個が「リトライ最大3回」を無限ループに変換した。これは現在の大規模モデルが持つ構造的欠陥である。

WDCD 硬约束软化约束分类

4時間前 57

AI生成広告看板の偽スキャンダルが否定される開発者がアセットを削除業界統制をめぐる議論は継続

AI生成広告看板に関する偽スキャンダルが否定されたものの、開発者によるアセット削除を契機に、AI業界の統制をめぐる議論が活発化している。本記事ではこの事件の技術的背景、業界への影響、今後のAIガバナンスの動向を分析する。

AI伦理行业治理技术争议

5時間前 26

AIインフラ探査モデルが安全性への懸念を引き起こす：防御ツールか攻撃武器か？

AI基礎インフラ探査モデルは、ネットワークセキュリティ防御者にとって強力なツールとなる一方、悪意ある者によって攻撃武器として悪用される可能性があり、業界内で激しい議論を引き起こしている。本稿では、その革新性、同類製品との比較、YZ Index v6評価、および開発者・企業向けの実用的提言を専門的に分析する。

AI安全基础设施探测网络防御

5時間前 19