WDCD Run #100:11モデル平均の命令減衰率が39.1%に到達、Claude Opus 4.7が首位
Winzheng動的文脈減衰(WDCD)ベンチマークの第100回測定で、11モデルのR1からR3にかけての平均命令減衰率は39.1%に達した。Claude Opus 4.7が首位を維持し、Doubao Proが最も優れた減衰耐性を示した。
Winzheng動的文脈減衰(WDCD)ベンチマークの第100回測定で、11モデルのR1からR3にかけての平均命令減衰率は39.1%に達した。Claude Opus 4.7が首位を維持し、Doubao Proが最も優れた減衰耐性を示した。
自動運転スタートアップのWayveがAMD、Qualcomm、Armから出資を受け、Samsung支援のRebellionsはIPO前に4億ドルを調達した。AIチップ分野への投資熱が高まる中、winzheng.com Research La
FlexRuleが意思決定プラットフォームの最新版を発表し、AI Agentのエンドツーエンドガバナンスを実現しました。本記事ではWinzhengのYZ Index v6方法論に基づき、その革新性、課題、および競合製品との比較を包括的に評価
著名なAI批評家Gary Marcusが2026年5月3日にX上で生成AIへのbacklashの原因を詳述する投稿を公開し、教育破壊やdeepfakes、環境負荷などの問題を指摘した。投稿は数千いいねと数百の返信を集め、支持派と反対派の見解
Ines Boutemadja氏が創業したAI特化型保険スタートアップKlaimee AIが、Y CombinatorのLaunch YCプラットフォームに正式上陸。初のアルジェリア出身女性創業者によるYC参加事例として、AI創業エコシステ
今週は5モデルが240本の翻訳タスクを完了し、3本をサンプリングしてマルチモデル盲評比較を実施した結果、gpt-5.5が平均8.7/10で総合最優秀となった。
2026年5月2日、ペンタゴンはAnthropicが自律型兵器と大規模監視の禁止条項を契約から削除することを拒否したため、同社を「サプライチェーンリスク」として機密AIネットワークから排除した。Anthropicは訴訟を提起し、AI倫理と国
2026年5月2日の法廷でマスク氏がxAIによるOpenAIモデルを使った蒸留技術でのGrok訓練を認め、AI業界に誠実性をめぐる論争を引き起こしました。本記事ではWinzhengがYZ Index v6方法論でGrokを評価し、競合製品と
DeepMindとNVIDIAは2026年5月2日、AlphaFoldデータベースにApache 2.0オープンソースライセンスで3100万のタンパク質複合体予測を公開した。計算時間とコストを大幅に削減した一方、薬剤関連ターゲットの高信頼度
米国防総省は2026年5月2日、AI企業AnthropicをAI関連の軍事契約から除外し、他の7社のAI企業を承認した。この決定は倫理審査の必要性と政治的標的化を巡る激しい論争を引き起こしている。
イーロン・マスク氏がYouTubeを買収し、AI生成動画のみを「オリジナル」と認定すべきだとする提案がX上で話題となり、AI技術の創作分野での氾濫への懸念から、技術愛好者からコンテンツクリエイターまで広範な議論を巻き起こしている。
「中国がAIによる労働者の代替禁止を率先して立法化した」という話題が国際的なSNSやテクノロジーフォーラムで急速に拡散し、AI規制、雇用倫理、技術進歩の境界をめぐる広範な議論を引き起こしている。本稿では、この話題の背景にある政策ロジック、各
GoogleがリリースしたAI画像生成ツールFlowが、その卓越した画質とプロンプト精度の高さで業界の新基準として注目を集めている。Midjourneyなどの競合製品を凌ぐ性能で、クリエイティブ業界に大きな波紋を広げている。
Anthropic傘下のClaude AIを活用し、12個のpromptでInstagramコンテンツを大量生成して「自動収益化アカウント」を構築する手法がSNSで話題に。低い参入障壁で注目を集める一方、コンテンツの同質化やプラットフォーム
Run #98のWDCDデータでは、参加した11モデルのうち3モデルが大幅下落、上昇したのは1モデルのみという、試行段階で最も非対称な周期変動が観測されました。Gemini 2.5 ProとQwen3 Maxが同時に7.5ポイント急落する一
WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgro
WDCDの三段階減衰テストで、主要11モデルすべてがR3(第三ラウンド)で深刻な遵守率低下を示し、平均63.3%の崩壊率を記録した。長文対話における制約遵守は、現行のすべての大規模モデルに共通するシステム的欠陥であることが判明した。
Elon Musk氏が法廷でxAIがGrok訓練時にOpenAIモデルを使用したことを認め、AI業界でモデル蒸留の倫理的境界に関する議論が再燃。本記事は事実、技術、横比較、実務提言の各観点から本件を分析する。
OpenAIは、ChatGPTがカナダの大規模銃撃事件や南フロリダ大学生殺害事件で「技術的幇助者」の役割を果たしたとされる訴訟の波に直面している。実存的リスクを専門に監視するチームが社内に存在しないことが明らかになり、生成AI業界における製
YZ Indexが新たに発表したWDCD(動的コンテキスト減衰)契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下