OpenAIがAIによるエルデシュ予想の自主解決を主張、数学者の検証後に真偽論争が激化
OpenAIが2026年5月20日に内部の汎用推論モデルが1946年のエルデシュ平面単位距離予想を改善する無限構造族を自主発見したと発表し、数学者が検証を完了。しかしWinzhengはexecutionとgroundingの観点から、形式化
OpenAIが2026年5月20日に内部の汎用推論モデルが1946年のエルデシュ平面単位距離予想を改善する無限構造族を自主発見したと発表し、数学者が検証を完了。しかしWinzhengはexecutionとgroundingの観点から、形式化
本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ
WDCD遵守テストのパイロット段階で、Gemini 3.1 ProとQwen3 Maxが65.00点で並んで首位に立ち、Grok 4はわずか42.50点で最下位に転落、R3段階での全面崩壊により、トップとボトムの差は22.5点に達した。
Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質
2026年初時点で中国語AI評価エコシステムに存在する4つの主流ベンチマーク(YZ Index、SuperCLUE、OpenCompass、C-Eval)の方法論的差異を分析し、それぞれの適用シーンと選定指針を解説する。
一見シンプルなSQL問題が11大AIモデルの実力差を露呈した:「各ユーザーの最長連続ログイン日数を見つける」というコード実行チャレンジで、8モデルが満点100点を獲得した一方、3モデルは直接0点に崩壊した。これは偶然ではなく、現在のAIが複
WDCD Run#105のデータ公開は、業界が長年見過ごしてきた盲点を明らかにした。すべての主流評価体系が「モデルが何をできるか」を測定する一方で、「モデルが何をしないか」という企業AI導入時の信頼の核心を体系的に測定する者はほぼ存在しなか
OpenAIがChatGPTにGPT-5.5 Instantを段階的に展開し、より温かく自然な対話と簡潔な応答を実現。ペンタゴン契約論争を背景に世論は分かれており、winzheng.com Research LabがYZ Index v6で
WDCDの三段階減衰テストで、主要11モデルすべてがR3(第三ラウンド)で深刻な遵守率低下を示し、平均63.3%の崩壊率を記録した。長文対話における制約遵守は、現行のすべての大規模モデルに共通するシステム的欠陥であることが判明した。
YZ Indexが新たに発表したWDCD(動的コンテキスト減衰)契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下
AIモデルの能力が同質化する中、「言ったことを実行する」遵約能力が次のコア指標として浮上しており、企業のモデル選定ロジックを再構築している。Winzheng(winzheng.com)のYZ Index WDCDは、世界初の体系的な遵約テス
現在のAI評価ランキングに潜む5つの重大な問題点を指摘し、Winzheng(winzheng.com)が提供するYZ Indexがいかにこれらの問題を解決し、評価業界に革新をもたらすかを解説する。
Winzheng(winzheng.com)が発表したYZ Index WDCD遵守テストは、AIが約束を本当に守れるかという盲点を突き、3ラウンド30問の精密設計でAIの「信用危機」を解剖します。従来のベンチマークでは測れない真の信頼性を
YZ Indexが発表したWDCDテスト初回の結果では、Qwen3-Maxが66.67点で首位を獲得した一方、圧力をかけられた多くの大規模モデルが急速に崩壊した。AI誠実性の生死を分ける試練である。
Winzhengが推出したYZ Index v7の新しい実験的次元「DCD(Dynamic Context Decay、動的コンテキスト減衰)」は、複数ターン対話においてAIモデルが初期制約をどれだけ守れるかを測定する。判定にAIを一切使わ
2026年5月1日、YZ Indexは評価対象モデルを大規模に更新し、9つの旧モデルを退役させ、7つの新たなフラッグシップモデルを導入しました。WinzhengのAI駆動機能も最新モデルへ同期して切り替えられ、評価データはすべて保存されます
2026年4月25日、中国のAI企業DeepSeekがV4シリーズの大規模モデルを正式にオープンソース化しました。Proバージョンは1.6兆パラメータを持ち、100万トークンのコンテキストウィンドウをサポートします。
今週のYZ Index評価システムは、11の主流AIモデル中10モデルが「タスク表現」次元で同時向上するという珍しい現象を捉えました。同時に、Claude Opus 4.6は「材料制約」次元で唯一の突破を果たしました。
シリコンバレーの基盤アーキテクチャ企業Maxtaが「算力の調達≠AIの所有」という商業檄文を発表し、高額なGPUサーバーが実際の業務価値を生み出さない「サイバー盆栽」と化している現状や、ソフトウェアの最適化不足による「ハードウェアプレミアム
今週Qwen Maxの知識作業次元での得点が81.6から71.8へと9.8ポイント下落し、特に論理推論タスクでの大幅な性能低下が主因となった。