Qwen3 Max に関するAIニュース | Winzheng AI ニュース

Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

Qwen3 Max 代码执行烟雾测试主榜波动

2026年6月24日 265

レビュー

Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

YZ IndexによるSmoke評価において、Qwen3 Maxの主榜スコアが85.96点から74.00点へと12点下落した。同時に誠実性評価がpassからfailへと転落したことが注目される。

Qwen3 Max 主榜 Smoke评测材料约束

2026年6月23日 285

レビュー

Qwen3 Max、メインランキングで12点急落し74点に——誠実性failが全体スコアを引き下げ

2026年6月23日のSmoke軽量評価において、Qwen3 Maxはメインランキング74点を記録し、誠実性評価のfailにより11モデル中唯一80点を下回る結果となった。Claude Opus 4.7、Gemini 3.1 Pro、Gro

Qwen3 Max 材料约束 Smoke轻量评测分数结构

2026年6月23日 271

レビュー

Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇

YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月22日 229

レビュー

Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

YZ Index 2026年6月の実測において、Qwen3 Maxのメインランキングスコアが前日の100点から80.82点へと19.2点下落した。主因はコード実行次元の31.2点急落であり、モデルの能力退化と断定するには単日データのみでは不

Qwen3 Max 代码执行 Smoke评测模型波动

2026年6月21日 335

レビュー

Qwen3 Max が主要ランキングで19.2点急落——4モデルが実行・制約でダブル満点を達成

2026年6月21日のSmoke軽量評価において、DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4の4モデルが主要ランキング・コード実行・素材制約の全3項目で満点を獲得。一方、Qwen3 Maxはコー

Qwen3 Max 代码执行 Smoke轻量评测材料约束

2026年6月21日 215

レビュー

Smoke評価：Qwen3 Max の制約スコアが+23点で逆転、GPT-o3の材料制約は15.2点急落

2026年6月19日のYZ Index Smoke軽量評価において、Gemini 3.1 Proが総合99.28点で首位を獲得。Qwen3 Maxは材料制約スコアが23点向上して4位に浮上した一方、GPT-o3と豆包Proは制約スコアが15

Qwen3 Max 材料约束 Gemini 3.1 Pro Smoke轻量评测

2026年6月19日 216

レビュー

Qwen3 Max が92.50点でWDCD守約ランキング首位、豆包Pro は62.50点で最下位——30点差

Qwen3 MaxがWDCD守約ランキングで92.50点を獲得し首位に立った。一方、豆包Proは62.50点で11モデル中最下位となり、トップとの差は30点に達した。

WDCD 守约测试 Qwen3 Max AI模型守约能力

2026年6月17日 363

レビュー

Qwen3 Max の材料制約スコアが28.9点急落——メインランキングはわずか0.8点上昇

YZ Index の Smoke 評価において、Qwen3 Max の材料制約スコアが1日で28.9点下落したが、メインランキングスコアは微増しており、モデル能力の系統的な劣化よりも問題抽選によるばらつきである可能性が高いと分析されている。

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月17日 236

レビュー

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

YZ Index による2026年6月17日の11モデル実測において、Qwen3 Max の材料制約スコアが前日の100点から71.1点へ急落し、メインランキングでも73.25点にとどまった。実行スコアが各社で満点に達する中、材料制約の安定

Qwen3 Max 材料约束 Smoke轻量评测代码执行

2026年6月17日 233

レビュー

Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く

Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。

WDCD 守约测试 Qwen3 Max 模型对比

2026年6月14日 470

レビュー

Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか

今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力（約束を守る能力）」で英語圏モデルとの差を急速に縮めている。

WDCD 守约测试 AI模型评测周期变化追踪

2026年5月27日 449

レビュー

今週11モデルが大幅入れ替え：新星Qwen3 Maxが68.5点で参入ベテラン75点組が集団退場

YZ Index v6メインボードで6つの旧モデルが一斉に退場し、5つの新モデルが同時に参入。1週間でトップ10の構図が大規模に入れ替わりました。

Qwen3 Max 代码执行模型迭代主榜洗牌

2026年5月18日 293

レビュー

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 254

Qwen3 Max に関するニュース

Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

Qwen3 Max、メインランキングで12点急落し74点に——誠実性failが全体スコアを引き下げ

Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇

Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

Qwen3 Max が主要ランキングで19.2点急落——4モデルが実行・制約でダブル満点を達成

Smoke評価：Qwen3 Max の制約スコアが+23点で逆転、GPT-o3の材料制約は15.2点急落

Qwen3 Max が92.50点でWDCD守約ランキング首位、豆包Pro は62.50点で最下位——30点差

Qwen3 Max の材料制約スコアが28.9点急落——メインランキングはわずか0.8点上昇

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く

Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか

今週11モデルが大幅入れ替え：新星Qwen3 Maxが68.5点で参入 ベテラン75点組が集団退場

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

今週11モデルが大幅入れ替え：新星Qwen3 Maxが68.5点で参入ベテラン75点組が集団退場