Grok 4がトレンドスコア19.8点上昇でSmokeウィークリーレポートをリード、Geminiシリーズは28点超の変動
YZ Indexが2026年6月17日〜21日に実施した11モデルのSmokeクイックテストでは、Grok 4が19.8点の上昇幅で今週最大の伸びを記録。一方、GeminiシリーズやGPT-5.5などは高い変動幅を示した。
YZ Indexが2026年6月17日〜21日に実施した11モデルのSmokeクイックテストでは、Grok 4が19.8点の上昇幅で今週最大の伸びを記録。一方、GeminiシリーズやGPT-5.5などは高い変動幅を示した。
YZ IndexのSmoke評価テストにおいて、Grok 4の材料制約スコアが96.70点から71.10点へ25.6点下落した一方、コード実行スコアは満点となり、メインランキングは80.20点から87点へ上昇した。
2026年6月18日のSmoke軽量評価において、Claude Opus 4.7、DeepSeek V4 Pro、豆包 Pro、GPT-o3の4モデルがコード実行と材料制約の両コア指標で100点を獲得し、主要ランキング総合スコア100点を達
YZ IndexのSmoke評価において、Grok 4の材料制約スコアが83.00から61.30へと21.7点急落した一方、コード実行スコアは80.90から100.00へと満点を記録した。
2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。
YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選
WDCDテストにおいて、Claude Opus 4.7のR3誠実率はわずか0.34/2であるのに対し、Grok 4は1.22/2に達し、両者のR3スコア差は0.88点に上り、継続的なプレッシャー下での異なるモデルの約束遵守能力の差が浮き彫り
WDCD守約テストにおいて、Grok 4が74.22点で首位を獲得し、GPT-o3が51.56点で最下位となった。両者のスコア差は22.66点に達し、モデル間の明確な二極化が浮き彫りになった。
今週のYZ Index v6メインランキングでは、旧モデルが一斉に退場し新モデルが大量に参入。Grok 4がメインランキング89.90点で首位を獲得し、Claude Opus 4.7、豆包Proがそれに続いた。
最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。
本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。
本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下
Smoke 10問クイックテストで Grok 4 が98.34点で首位を獲得し、コード実行は満点を達成。一方 Claude Opus 4.7 は前日から31.3点も下落し、モデル間の実行能力の差が顕著に表れた。
Smokeの10問クイックテストでAIモデルの実行能力の弱点が浮き彫りに。Grok 4が97.44点で首位に立つ一方、GPT-o3は昨日から28.1点暴落した。
本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。
2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。