Grok 4 に関するAIニュース | Winzheng AI ニュース

レビュー

Grok 4がトレンドスコア19.8点上昇でSmokeウィークリーレポートをリード、Geminiシリーズは28点超の変動

YZ Indexが2026年6月17日〜21日に実施した11モデルのSmokeクイックテストでは、Grok 4が19.8点の上昇幅で今週最大の伸びを記録。一方、GeminiシリーズやGPT-5.5などは高い変動幅を示した。

Grok 4 Gemini 2.5 Pro Smoke 周趋势模型波动分析

4日前 222

レビュー

Grok 4の材料制約スコアが25.6点急落、メインランキングは逆に87点へ上昇

YZ IndexのSmoke評価テストにおいて、Grok 4の材料制約スコアが96.70点から71.10点へ25.6点下落した一方、コード実行スコアは満点となり、メインランキングは80.20点から87点へ上昇した。

Grok 4 材料约束 Smoke评测单日波动

2026年6月18日 191

レビュー

Grok 4の材料制約スコアが25.6点急落、4モデルが主要ランキングで満点並び

2026年6月18日のSmoke軽量評価において、Claude Opus 4.7、DeepSeek V4 Pro、豆包 Pro、GPT-o3の4モデルがコード実行と材料制約の両コア指標で100点を獲得し、主要ランキング総合スコア100点を達

Grok 4 材料约束 Smoke评测执行与约束

2026年6月18日 194

レビュー

Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に

YZ IndexのSmoke評価において、Grok 4の材料制約スコアが83.00から61.30へと21.7点急落した一方、コード実行スコアは80.90から100.00へと満点を記録した。

Grok 4 材料约束 Smoke评测单日波动

2026年6月15日 301

レビュー

材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落

2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。

材料约束 Grok 4 Smoke轻量评测主榜波动

2026年6月15日 209

レビュー

Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か

YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 254

レビュー

R3崩壊168回！Claude Opus 0.34点 vs Grok 1.22点、3ラウンドにわたる約束遵守の真の劣化

WDCDテストにおいて、Claude Opus 4.7のR3誠実率はわずか0.34/2であるのに対し、Grok 4は1.22/2に達し、両者のR3スコア差は0.88点に上り、継続的なプレッシャー下での異なるモデルの約束遵守能力の差が浮き彫り

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 215

レビュー

Grok 4が74.22点でトップ、GPT-o3が51.56点で最下位――WDCDスコア差22.66点

WDCD守約テストにおいて、Grok 4が74.22点で首位を獲得し、GPT-o3が51.56点で最下位となった。両者のスコア差は22.66点に達し、モデル間の明確な二極化が浮き彫りになった。

WDCD 守约测试 AI 模型排行榜 R3 崩溃率

2026年6月14日 161

レビュー

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

今週のYZ Index v6メインランキングでは、旧モデルが一斉に退場し新モデルが大量に参入。Grok 4がメインランキング89.90点で首位を獲得し、Claude Opus 4.7、豆包Proがそれに続いた。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 266

レビュー

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。

WDCD 守约测试 AI模型评估周期变化

2026年6月3日 488

レビュー

Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇

本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。

Grok 4 材料约束 Smoke评测模型波动

2026年5月23日 358

レビュー

素材制約が一斉に20点暴落、Grok 4が81.55点でClaudeを僅差で抑え首位に

本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下

材料约束 Grok 4 Smoke轻量评测模型波动

2026年5月23日 336

レビュー

Grok 4 が98.34点で首位獲得、Claude Opus はメインランキングで31.3点の大暴落

Smoke 10問クイックテストで Grok 4 が98.34点で首位を獲得し、コード実行は満点を達成。一方 Claude Opus 4.7 は前日から31.3点も下落し、モデル間の実行能力の差が顕著に表れた。

Grok 4 Claude Opus 代码执行模型波动

2026年5月21日 288

レビュー

Grok 4が97.44点で首位、GPT-o3はメインランキングで28点暴落

Smokeの10問クイックテストでAIモデルの実行能力の弱点が浮き彫りに。Grok 4が97.44点で首位に立つ一方、GPT-o3は昨日から28.1点暴落した。

Grok 4 代码执行 GPT-o3 Claude 系列

2026年5月19日 261

レビュー

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

本日のSmoke軽量評価で、Claude Opusが89.43点で首位を獲得した一方、Grok 4とGPT-o3が実行次元で軒並み崩壊し、25.2点と23.1点の大幅下落を記録した。AIモデル反復における安定性リスクが浮き彫りとなった。

Claude Opus Grok 4 AI评测模型暴跌

2026年5月13日 370

レビュー

11モデル世代交代戦：首位は安定維持、Grokが最下位

2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 436

Grok 4 に関するニュース

Grok 4がトレンドスコア19.8点上昇でSmokeウィークリーレポートをリード、Geminiシリーズは28点超の変動

Grok 4の材料制約スコアが25.6点急落、メインランキングは逆に87点へ上昇

Grok 4の材料制約スコアが25.6点急落、4モデルが主要ランキングで満点並び

Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に

材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落

Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か

R3崩壊168回！Claude Opus 0.34点 vs Grok 1.22点、3ラウンドにわたる約束遵守の真の劣化

Grok 4が74.22点でトップ、GPT-o3が51.56点で最下位――WDCDスコア差22.66点

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇

素材制約が一斉に20点暴落、Grok 4が81.55点でClaudeを僅差で抑え首位に

Grok 4 が98.34点で首位獲得、Claude Opus はメインランキングで31.3点の大暴落

Grok 4が97.44点で首位、GPT-o3はメインランキングで28点暴落

Grok 4が暴落、25分で実行崩壊！Claude Opusが89.43点でAI日次評価を制覇

11モデル世代交代戦：首位は安定維持、Grokが最下位