豆包Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減
YZ Indexが2026年6月に実施したSmokeテストで、豆包Proのメインランキングスコアが82.36点から72.50点へと9.9点下落した。主な原因はコード実行スコアが100.00点から50.00点へ半減したことにある。
YZ Indexが2026年6月に実施したSmokeテストで、豆包Proのメインランキングスコアが82.36点から72.50点へと9.9点下落した。主な原因はコード実行スコアが100.00点から50.00点へ半減したことにある。
本日のSmokeテストにおいて、豆包Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプルによる問題
本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約(grounding)によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。
同じSQL問題に対し、11個のモデルの得点が二極化し、4個が100点、7個が0点となった。中核的な差異は自己結合の重複排除ロジック、時間差計算関数の選択、およびstatus条件の配置位置に集中している。
Doubao Pro が本日の Smoke 評価でメインランキングが81.33点から40.12点へ41.2点下落。コード実行次元が満点100点から20点へ崩落し、単日で80点を失った。
GPT-o3が本日のSmoke評価で実行スコアがほぼ半減し、主要ランキングが76点から58.08点へ急落。一方、DoubaoProは制約スコアが大幅に改善し、トップ4入りを果たした。
本日のSmoke簡易評価でDoubaoProが91.23点で首位を独占し、コード実行で100点満点を獲得。一方、他の主要モデルは実行スコアが軒並み崩壊し、Gemini 2.5 Proなど9モデルが主要ランキングで30点以上の大幅下落となった
DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。
DoubaoProが本日のSmoke評価でマテリアル制約スコアが95点から79.8点へ15.2点急落し、メインランキングも97.75点から90.91点に下落した。原因は出題抽選による偶発性か、それともモデル能力の短期的退化か注目される。
本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。
Winzheng(winzheng.com)のYZ Indexメインランキングで、今週Grok 3が86.88点で首位に躍り出て、Doubao Proがわずか0.44点差で2位に。一方、Claudeシリーズは双方とも順位を下げ、AIモデル競