Grok 3が大躍進で86.88点で首位獲得!今週のAIモデル、誰が台頭し誰が後退したのか?
Winzheng(winzheng.com)のYZ Indexメインランキングで、今週Grok 3が86.88点で首位に躍り出て、Doubao Proがわずか0.44点差で2位に。一方、Claudeシリーズは双方とも順位を下げ、AIモデル競
Winzheng(winzheng.com)のYZ Indexメインランキングで、今週Grok 3が86.88点で首位に躍り出て、Doubao Proがわずか0.44点差で2位に。一方、Claudeシリーズは双方とも順位を下げ、AIモデル競
Grok 3の安定性スコアが54.2点から31.7点へと41.5%も暴落し、プログラミング能力が向上する一方で、実務判断力の欠如というAIモデルの致命的な弱点が露呈した。
Grok 3の最新評価で、論理推論テストにおいて「ABCDE」という無意味な回答を出力し100点満点がゼロ点となる衝撃的な結果が判明。他の性能指標が向上する中、この致命的な失敗は現在の大規模言語モデルの根本的な限界を露呈した。