AI评测に関するAIニュース | Winzheng AI ニュース

レビュー

Claude Opus 4.7 と Grok 4 が96.99点で並列首位：2026-07-07 Smokeクイックテストデータ速報

2026年7月7日のYZ Index Smokeクイックテストでは、11モデルを対象に評価を実施し、Claude Opus 4.7 と Grok 4 がともに96.99点で当日首位に並んだ。

赢政指数 Smoke快测 AI评测模型排名

2026年7月7日 262

レビュー

Doubao Pro が83.91点で首位：2026-07-06 Smokeクイックテストデータ速報

2026-07-06のWinzheng YZ Index Smokeクイックテストでは11モデルを対象に評価が実施され、Doubao Pro が83.91点で当日首位を獲得した。

赢政指数 Smoke快测 AI评测模型排名

2026年7月6日 770

レビュー

Doubao Pro と Gemini 3.1 Pro が88.54点で並列首位：2026-07-05 Smokeクイックテストデータ速報

2026-07-05のYZ Index Smokeクイックテストでは11モデルを対象に評価を実施し、Doubao Pro と Gemini 3.1 Pro が88.54点で当日首位に並んだ。

赢政指数 Smoke快测 AI评测模型排名

2026年7月5日 608

レビュー

WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲

最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。

WDCD 守约测试模型更新指令遵循

2026年6月10日 715

レビュー

Claude Sonnet 4.6が大逆転で首位獲得！8大AIモデルのコード実行が25点暴落、業界激震の真相

2026年5月14日のSmoke簡易評価で、Claude Sonnet 4.6がメインボード84.68点で首位に躍り出たが、同モデルを含む8大主流AIモデルのコード実行スコアが軒並み25点暴落し、ランキングが大きく洗い替えされた。これは偶然

Claude Sonnet 代码执行 AI评测模型暴跌

2026年5月14日 717

レビュー

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。

Claude Opus Grok 4 AI评测模型暴跌

2026年5月13日 634

レビュー

2026年主流AI評価ベンチマーク横断比較：YZ Index vs SuperCLUE vs OpenCompass vs C-Eval

2026年初時点で中国語AI評価エコシステムに存在する4つの主流ベンチマーク（YZ Index、SuperCLUE、OpenCompass、C-Eval）の方法論的差異を分析し、それぞれの適用シーンと選定指針を解説する。

AI评测赢政指数 SuperCLUE OpenCompass

2026年5月11日 2,807

レビュー

AIランキングの5大詐欺を暴く：99%は信頼できない、YZ Indexはいかに評価を覆すか？

現在のAI評価ランキングに潜む5つの重大な問題点を指摘し、Winzheng（winzheng.com）が提供するYZ Indexがいかにこれらの問題を解決し、評価業界に革新をもたらすかを解説する。

AI评测排行榜骗局赢政指数行业痛点

2026年5月2日 893

レビュー

WDCD遵守テスト徹底解明：3ラウンド30問でAIの「不誠実」痛点を直撃、評価の構図を覆す！

Winzheng（winzheng.com）が発表したYZ Index WDCD遵守テストは、AIが約束を本当に守れるかという盲点を突き、3ラウンド30問の精密設計でAIの「信用危機」を解剖します。従来のベンチマークでは測れない真の信頼性を

AI评测赢政指数 WDCD测试 AI守约

2026年5月2日 729

レビュー

DeepSeek V3の安定性が21.4ポイント急落：出力の一貫性危機を深く分析

DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。

DeepSeek V3 模型稳定性 AI评测性能波动

2026年4月27日 697

レビュー

DoubaoProの安定性が19.8ポイント急落：同一問題に対する異なる回答が最大の弱点に

DoubaoProは今週のWinzheng AI評価で、総合得点は16.1ポイント上がったものの、安定性の評価は19.8ポイント下がり、54.5ポイントから34.7ポイントに低下しました。このデータは、同一または類似の問題に対する回答の一貫

豆包Pro 稳定性测试 AI评测模型一致性

2026年4月27日 1,096

レビュー

YZ Index 週報：タスク表現能力の集団的向上、Claudeシリーズが材料制約で独自の進展

今週のYZ Index評価システムは、11の主流AIモデル中10モデルが「タスク表現」次元で同時向上するという珍しい現象を捉えました。同時に、Claude Opus 4.6は「材料制約」次元で唯一の突破を果たしました。

赢政指数 AI评测

2026年4月27日 777

レビュー

Grok 3の安定性が22.5点暴落：AIが実際のエンジニアリング場面に遭遇すると化けの皮が剥がれる

Grok 3の安定性スコアが54.2点から31.7点へと41.5%も暴落し、プログラミング能力が向上する一方で、実務判断力の欠如というAIモデルの致命的な弱点が露呈した。

Grok 3 稳定性测试工程判断力 AI评测

2026年3月22日 1,189

レビュー

GPT-o3が崩壊：31分の暴落が露呈した致命的な欠陥

「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。

GPT-o3 可用性测试模型稳定性长上下文处理

2026年3月22日 937

レビュー

Doubao Pro の安定性大幅低下の背後にある技術的リスク

Doubao Pro は今週の評価でプログラミングや知識作業などの面で大幅な向上を見せた一方、安定性スコアが54.5点から34.7点へと36.3%も急落するという異常な現象を示しました。この「進歩と退化の併存」現象の技術的要因を詳しく分析し

豆包Pro 稳定性测试 AI评测模型性能

2026年3月22日 1,564

レビュー

Qwen Max 安定性が22.8ポイント急落：モデル更新により出力品質に変動

Qwen Maxは今週の評価で極端な二面性を示し、プログラミングや長文処理などの複雑なタスクでは大幅に向上した一方、安定性では崖っぷちのような急落を見せました。

Qwen Max 稳定性测试 AI评测模型更新

2026年3月22日 725

レビュー

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。

DeepSeek R1 稳定性测试模型评测性能波动

2026年3月22日 670

レビュー

Claude Opus 4.6の安定性が22.5ポイント急落：出力フォーマットの混乱が注目を集める

Claude Opus 4.6の安定性スコアが先週の53.5から31.0へと42.1%の大幅下落を記録し、出力フォーマットの一貫性問題が明らかになった。一方で、プログラミング能力は208%向上するなど、性能向上と安定性低下という矛盾した結果

Claude 稳定性测试 AI评测性能波动

2026年3月22日 787

レビュー

Qwen Maxの知識作業能力が9.8ポイント急落：論理推論の不正確さが最大の弱点に

今週Qwen Maxの知識作業次元での得点が81.6から71.8へと9.8ポイント下落し、特に論理推論タスクでの大幅な性能低下が主因となった。

Qwen Max AI评测赢政指数

2026年3月20日 951

レビュー

AIモデルのバッチ処理障害診断能力の階層的分析

バッチ処理の障害診断問題において、8つのAIモデルが明確な能力の階層を示した。上位モデルは「単一処理成功・バッチ処理失敗」という典型的な同時実行問題パターンを的確に識別できた。

赢政指数模型横评工程判断力：批量操作单条失败排查 AI评测

2026年3月20日 790

AI评测 に関するニュース

Claude Opus 4.7 と Grok 4 が96.99点で並列首位：2026-07-07 Smokeクイックテストデータ速報

Doubao Pro が83.91点で首位：2026-07-06 Smokeクイックテストデータ速報

Doubao Pro と Gemini 3.1 Pro が88.54点で並列首位：2026-07-05 Smokeクイックテストデータ速報

WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲

Claude Sonnet 4.6が大逆転で首位獲得！8大AIモデルのコード実行が25点暴落、業界激震の真相

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

2026年主流AI評価ベンチマーク横断比較：YZ Index vs SuperCLUE vs OpenCompass vs C-Eval

AIランキングの5大詐欺を暴く：99%は信頼できない、YZ Indexはいかに評価を覆すか？

WDCD遵守テスト徹底解明：3ラウンド30問でAIの「不誠実」痛点を直撃、評価の構図を覆す！

DeepSeek V3の安定性が21.4ポイント急落：出力の一貫性危機を深く分析

DoubaoProの安定性が19.8ポイント急落：同一問題に対する異なる回答が最大の弱点に

YZ Index 週報：タスク表現能力の集団的向上、Claudeシリーズが材料制約で独自の進展

Grok 3の安定性が22.5点暴落：AIが実際のエンジニアリング場面に遭遇すると化けの皮が剥がれる

GPT-o3が崩壊：31分の暴落が露呈した致命的な欠陥

Doubao Pro の安定性大幅低下の背後にある技術的リスク

Qwen Max 安定性が22.8ポイント急落：モデル更新により出力品質に変動

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

Claude Opus 4.6の安定性が22.5ポイント急落：出力フォーマットの混乱が注目を集める

Qwen Maxの知識作業能力が9.8ポイント急落：論理推論の不正確さが最大の弱点に

AIモデルのバッチ処理障害診断能力の階層的分析

AI评测に関するニュース