材料约束に関するニュース

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

Qwen3 Max 代码执行烟雾测试主榜波动

2026年6月24日 356

4モデルの実行スコアが50に急落、ERNIE Botはメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、ERNIE Bot 4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコ

代码执行材料约束文心一言4.5 Claude Opus 4.7

2026年6月24日 453

Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

YZ IndexによるSmoke評価において、Qwen3 Maxの主榜スコアが85.96点から74.00点へと12点下落した。同時に誠実性評価がpassからfailへと転落したことが注目される。

Qwen3 Max 主榜 Smoke评测材料约束

2026年6月23日 390

Qwen3 Max、メインランキングで12点急落し74点に——誠実性failが全体スコアを引き下げ

2026年6月23日のSmoke軽量評価において、Qwen3 Maxはメインランキング74点を記録し、誠実性評価のfailにより11モデル中唯一80点を下回る結果となった。Claude Opus 4.7、Gemini 3.1 Pro、Gro

Qwen3 Max 材料约束 Smoke轻量评测分数结构

2026年6月23日 354

Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇

YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月22日 315

ERNIE Botがメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈

2026年6月22日のSmoke軽量評価テストにて、GPT-5.5とGPT-o3が満点で首位に並ぶ一方、ERNIE Bot 4.5はメインランキングで前日比40.3点急落し、実行・制約の両次元で大幅な低下を記録した。

文心一言材料约束 GPT-5.5 Smoke轻量评测

2026年6月22日 354

Qwen3 Max が主要ランキングで19.2点急落——4モデルが実行・制約でダブル満点を達成

2026年6月21日のSmoke軽量評価において、DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4の4モデルが主要ランキング・コード実行・素材制約の全3項目で満点を獲得。一方、Qwen3 Maxはコー

Qwen3 Max 代码执行 Smoke轻量评测材料约束

2026年6月21日 307

Doubao Pro の材料制約スコアが15.9点急落——Smoke単日テスト異常の原因分析

YZ Index 2026年6月の実測において、Doubao Pro のSmokeテスト材料制約スコアが前日の100.00点から84.10点に急落した。本記事ではその原因がモデルの退化ではなくサンプル数の少なさによる統計的変動である可能性を

豆包 Pro 材料约束 Smoke评测单日波动

2026年6月19日 364

GPT-o3の材料制約スコアが1日で15.2点急落、Smoke主榜が100点から93.16点に低下

YZ Index 2026年6月の実測において、GPT-o3のSmokeベンチマーク「材料制約」スコアが前日の100.00点から84.80点に急落し、主榜全体も100.00点から93.16点に低下した。現時点では抽選による変動の可能性が高く

GPT-o3 材料约束 Smoke评测单日波动

2026年6月19日 341

Smoke評価：Qwen3 Max の制約スコアが+23点で逆転、GPT-o3の材料制約は15.2点急落

2026年6月19日のYZ Index Smoke軽量評価において、Gemini 3.1 Proが総合99.28点で首位を獲得。Qwen3 Maxは材料制約スコアが23点向上して4位に浮上した一方、GPT-o3とDoubao Proは制約ス

Qwen3 Max 材料约束 Gemini 3.1 Pro Smoke轻量评测

2026年6月19日 299

Grok 4の材料制約スコアが25.6点急落、メインランキングは逆に87点へ上昇

YZ IndexのSmoke評価テストにおいて、Grok 4の材料制約スコアが96.70点から71.10点へ25.6点下落した一方、コード実行スコアは満点となり、メインランキングは80.20点から87点へ上昇した。

Grok 4 材料约束 Smoke评测单日波动

2026年6月18日 465

Grok 4の材料制約スコアが25.6点急落、4モデルが主要ランキングで満点並び

2026年6月18日のSmoke軽量評価において、Claude Opus 4.7、DeepSeek V4 Pro、Doubao Pro、GPT-o3の4モデルがコード実行と材料制約の両コア指標で100点を獲得し、主要ランキング総合スコア10

Grok 4 材料约束 Smoke评测执行与约束

2026年6月18日 413

Qwen3 Max の材料制約スコアが28.9点急落——メインランキングはわずか0.8点上昇

YZ Index の Smoke 評価において、Qwen3 Max の材料制約スコアが1日で28.9点下落したが、メインランキングスコアは微増しており、モデル能力の系統的な劣化よりも問題抽選によるばらつきである可能性が高いと分析されている。

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月17日 406

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

YZ Index による2026年6月17日の11モデル実測において、Qwen3 Max の材料制約スコアが前日の100点から71.1点へ急落し、メインランキングでも73.25点にとどまった。実行スコアが各社で満点に達する中、材料制約の安定

Qwen3 Max 材料约束 Smoke轻量评测代码执行

2026年6月17日 407

Doubao Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰

本日のSmokeテストにおいて、Doubao Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプル

豆包 Pro 材料约束 Smoke测试模型波动

2026年6月15日 475

Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に

YZ IndexのSmoke評価において、Grok 4の材料制約スコアが83.00から61.30へと21.7点急落した一方、コード実行スコアは80.90から100.00へと満点を記録した。

Grok 4 材料约束 Smoke评测单日波动

2026年6月15日 499

材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落

2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。

材料约束 Grok 4 Smoke轻量评测主榜波动

2026年6月15日 363

Gemini 2.5 Pro の素材制約スコアが15.2点急落、コード実行は45点急騰

YZ Index 2026年6月のSmokeテストにおいて、Gemini 2.5 Pro の素材制約スコアが前日比15.2点下落した一方、コード実行スコアは満点の100点に達し、メインボードの総合スコアは89.79点に上昇した。小サンプルに

Gemini 2.5 Pro 材料约束 Smoke评测模型波动

2026年6月13日 445

Claude Opus 4.7の材料制約スコアが16.5点急落――メインランキングは96.83から90.78へ

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7の材料制約スコアが96.00点から79.50点へ大幅に低下し、メインランキングも96.83点から90.78点へ下落した。単日データのみのため断定は早計

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年6月13日 464

素材制約スコアが一斉に20点急落、Claude Opus 4.7が90.78点で首位を守る

Winzhengが公開したYZ Index 2026年6月13日のSmoke軽量評価で、Claude Opus 4.7がコード実行100点・素材制約79.5点を記録し、総合スコア90.78点で首位を獲得した。一方、複数モデルで素材制約スコア

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测

2026年6月13日 374