Smoke評価:Qwen3 Max の制約スコアが+23点で逆転、GPT-o3の材料制約は15.2点急落
2026年6月19日のYZ Index Smoke軽量評価において、Gemini 3.1 Proが総合99.28点で首位を獲得。Qwen3 Maxは材料制約スコアが23点向上して4位に浮上した一方、GPT-o3と豆包Proは制約スコアが15
2026年6月19日のYZ Index Smoke軽量評価において、Gemini 3.1 Proが総合99.28点で首位を獲得。Qwen3 Maxは材料制約スコアが23点向上して4位に浮上した一方、GPT-o3と豆包Proは制約スコアが15
YZ Index 2026年6月14日のSmoke軽量評価において、GPT-5.5が主榜95.24点で首位を獲得。一方、11モデル中8モデルでコード実行スコアの大幅下落が見られた。
本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。
Gemini 3.1 Proが本日のSmoke評価でメインランキング33.5点を失い、コード実行スコアが100.00から20.00へと急落した。最近の安全アライメント強化が原因の可能性が高い。
本日未明3時に発表されたSmoke評価で、11の主要モデルがメインランキングで集団崩壊し、平均下落幅は42点に達した。コード実行次元の崩壊が主因で、全モデルの実行スコアが20または0に腰砕けとなった。
Gemini 3.1 Pro は本日の Smoke 評価でメインスコアが8.5点下落し、コード実行次元は66.70から57.20へと急落しました。サンプル数の少なさによる変動か、それとも実質的な能力低下なのかを分析します。
本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。
Gemini 3.1 Pro は信頼性評価が fail から pass に転換し、メインボード得点が 74.00 から 88.98 へと 15 点急騰しました。本記事では、Smoke 評価データを詳細に分析し、この変動が抽選による偶然か、モ