赢政指数 に関するニュース

レビュー

Claude Opus 4.7 Smoke評価でメインランキング9.6点暴落:退化のシグナルか、それとも抽選のドタバタ劇か?

本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ

Claude Opus 4.7 赢政指数 Smoke评测 模型波动
355
レビュー

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質

Gemini 2.5 Pro 赢政指数 Smoke评测 诚信评级
320
レビュー

11大AIモデルのSQL連続ログイン問題大試験:8つが満点、3つが崩壊、コード実行の格差は驚異的

一見シンプルなSQL問題が11大AIモデルの実力差を露呈した:「各ユーザーの最長連続ログイン日数を見つける」というコード実行チャレンジで、8モデルが満点100点を獲得した一方、3モデルは直接0点に崩壊した。これは偶然ではなく、現在のAIが複

代码执行 SQL AI模型对比 连续登录天数
331
オリジナル

大規模モデルとの対話が3ターン目に入った時、誰が一線を守れるのか?——YZ Index v7がDCDを発表:他社が測っていないものを測る

Winzhengが推出したYZ Index v7の新しい実験的次元「DCD(Dynamic Context Decay、動的コンテキスト減衰)」は、複数ターン対話においてAIモデルが初期制約をどれだけ守れるかを測定する。判定にAIを一切使わ

赢政指数 DCD AI评测 多轮对话
591
オリジナル

YZ Indexの評価体制を刷新:GPT-5.5、Claude Opus 4.7、DeepSeek V4など7つの新モデルが同時に登場、9つの旧モデルが退役

2026年5月1日、YZ Indexは評価対象モデルを大規模に更新し、9つの旧モデルを退役させ、7つの新たなフラッグシップモデルを導入しました。WinzhengのAI駆動機能も最新モデルへ同期して切り替えられ、評価データはすべて保存されます

赢政指数 AI评测 GPT-5 Claude
3,613
オリジナル

DeepSeek V4オープンソースモデル発表:1.6兆パラメータで100万トークンのコンテキスト、クローズドソースの覇権を覆せるか?

2026年4月25日、中国のAI企業DeepSeekがV4シリーズの大規模モデルを正式にオープンソース化しました。Proバージョンは1.6兆パラメータを持ち、100万トークンのコンテキストウィンドウをサポートします。

DeepSeek V4 开源大模型 AI产品评测 赢政指数
3,154
オリジナル

GPUを買えばAIを所有できる?17年のアーキテクチャベテランMaxtaが2026年コンピューティング業界最大の幻想を暴く

シリコンバレーの基盤アーキテクチャ企業Maxtaが「算力の調達≠AIの所有」という商業檄文を発表し、高額なGPUサーバーが実際の業務価値を生み出さない「サイバー盆栽」と化している現状や、ソフトウェアの最適化不足による「ハードウェアプレミアム

Maxta 算力基础设施 大模型落地 边缘AI
663