AIレビュー

Doubao Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰

本日のSmokeテストにおいて、Doubao Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプル

豆包 Pro 材料约束 Smoke测试模型波动

2026年6月15日 478

Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に

YZ IndexのSmoke評価において、Grok 4の材料制約スコアが83.00から61.30へと21.7点急落した一方、コード実行スコアは80.90から100.00へと満点を記録した。

Grok 4 材料约束 Smoke评测单日波动

2026年6月15日 509

材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落

2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。

材料约束 Grok 4 Smoke轻量评测主榜波动

2026年6月15日 374

Qwen3 Max が84.38点でWDCD守約ランキング首位に——GPT-o3は67.19点で最下位、17点差が開く

Qwen3 MaxがWDCD守約ランキングで84.38点を獲得し首位に立ち、GPT-o3は67.19点で最下位となった。両者の差は17.19点に達した。

WDCD 守约测试 Qwen3 Max 模型对比

2026年6月14日 681

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月14日 404

Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か

YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 446

Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド

2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 488

11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード

YZ Index 2026年6月14日のSmoke軽量評価において、GPT-5.5が主榜95.24点で首位を獲得。一方、11モデル中8モデルでコード実行スコアの大幅下落が見られた。

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测

2026年6月14日 543

R3崩壊168回！Claude Opus 0.34点 vs Grok 1.22点、3ラウンドにわたる約束遵守の真の劣化

WDCDテストにおいて、Claude Opus 4.7のR3誠実率はわずか0.34/2であるのに対し、Grok 4は1.22/2に達し、両者のR3スコア差は0.88点に上り、継続的なプレッシャー下での異なるモデルの約束遵守能力の差が浮き彫り

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 416

Grok 4が74.22点でトップ、GPT-o3が51.56点で最下位――WDCDスコア差22.66点

WDCD守約テストにおいて、Grok 4が74.22点で首位を獲得し、GPT-o3が51.56点で最下位となった。両者のスコア差は22.66点に達し、モデル間の明確な二極化が浮き彫りになった。

WDCD 守约测试 AI 模型排行榜 R3 崩溃率

2026年6月14日 431

Gemini 2.5 Pro の素材制約スコアが15.2点急落、コード実行は45点急騰

YZ Index 2026年6月のSmokeテストにおいて、Gemini 2.5 Pro の素材制約スコアが前日比15.2点下落した一方、コード実行スコアは満点の100点に達し、メインボードの総合スコアは89.79点に上昇した。小サンプルに

Gemini 2.5 Pro 材料约束 Smoke评测模型波动

2026年6月13日 454

Claude Opus 4.7の材料制約スコアが16.5点急落――メインランキングは96.83から90.78へ

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7の材料制約スコアが96.00点から79.50点へ大幅に低下し、メインランキングも96.83点から90.78点へ下落した。単日データのみのため断定は早計

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年6月13日 476

素材制約スコアが一斉に20点急落、Claude Opus 4.7が90.78点で首位を守る

Winzhengが公開したYZ Index 2026年6月13日のSmoke軽量評価で、Claude Opus 4.7がコード実行100点・素材制約79.5点を記録し、総合スコア90.78点で首位を獲得した。一方、複数モデルで素材制約スコア

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测

2026年6月13日 387

Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点

本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距

2026年6月12日 434

R3崩壊率56.7%！GPT-o3の三ラウンド約束遵守テストで「口だけ」が最も深刻

WDCDの三ラウンドテストにおいて、モデルはR1でほぼ全員高得点を記録するものの、R3で直接圧力をかけられると集団崩壊することが判明した。平均誠実率はわずか68.3%で、「約束」と「実行」の乖離が鮮明になった。

WDCD 守约测试 AI模型评估上下文衰减

2026年6月11日 510

GPT-5.5が88.33点で首位、GPT-o3が61.67点で最下位——R3崩壊率22.1%

WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫

WDCD 守约测试 AI模型评测约束遵守

2026年6月11日 594

R3崩壊率に7倍の差！11モデルのWDCD三段階遵守における真の劣化検証

WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。

WDCD 守约测试 AI模型评测安全合规

2026年6月11日 653

GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む

WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。

WDCD 守约测试 AI模型排行约束遵循

2026年6月11日 594

Smoke 評価：10モデルがコード実行で満点、マテリアル制約が順位を決定づける

本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約（grounding）によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 529

WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲

最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。

WDCD 守约测试模型更新指令遵循

2026年6月10日 727