豆包 Pro に関するニュース

Doubao Pro がメインランキングで15点急落：コード実行が75点から58.3点に下降

Doubao ProがSmoke評価テストのメインランキングで86.25点から71.22点に急落し、コード実行次元が75.00点から58.30点へと大幅に低下した。今回の変動は主に問題抽選のランダム性によるものとみられるが、複数のコア次元が

豆包 Pro 代码执行 Smoke评测主榜波动

2026年7月16日 153

Doubao Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

YZ Index 2026年6月の11モデル実測において、Doubao Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデ

豆包 Pro 代码执行 Smoke快测单日波动

2026年7月1日 961

Doubao Pro のSmoke評価メインランキングが13.8点急落、コード実行が100点から75点に直落

Winzheng のYZ Index 2026年6月の実測において、Doubao Pro のメインランキングスコアが98.61点から84.77点へと13.8点下落した。主な原因はコード実行次元の25点急落であり、モデル能力の全体的な劣化では

豆包 Pro 主榜 Smoke测试代码执行

2026年6月29日 254

Claude Opus 4.7がメインランキング満点100点で首位獲得、Doubao Proは13.8点急落で実行面の弱点が露呈

2026年6月29日のYZ Index Smokeライト評価にて、Claude Opus 4.7がメインランキング・実行・制約の全項目で満点100点を記録し首位に立った。一方、Doubao Proは実行スコア75点にとどまり、前日比13.8

Claude Opus 4.7 豆包 Pro 执行约束 Smoke 评测

2026年6月29日 162

Doubao Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

2026年6月28日のSmokeライト評価において、Doubao Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落

豆包 Pro Claude Opus 执行维度材料约束

2026年6月28日 251

Doubao Pro の材料制約スコアが15.9点急落——Smoke単日テスト異常の原因分析

YZ Index 2026年6月の実測において、Doubao Pro のSmokeテスト材料制約スコアが前日の100.00点から84.10点に急落した。本記事ではその原因がモデルの退化ではなくサンプル数の少なさによる統計的変動である可能性を

豆包 Pro 材料约束 Smoke评测单日波动

2026年6月19日 379

Doubao Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

YZ Indexが2026年6月に実施したSmokeテストで、Doubao Proのメインランキングスコアが82.36点から72.50点へと9.9点下落した。主な原因はコード実行スコアが100.00点から50.00点へ半減したことにある。

豆包 Pro 代码执行 Smoke评测模型波动

2026年6月16日 481

Doubao Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰

本日のSmokeテストにおいて、Doubao Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプル

豆包 Pro 材料约束 Smoke测试模型波动

2026年6月15日 489

Smoke 評価：10モデルがコード実行で満点、マテリアル制約が順位を決定づける

本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約（grounding）によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 539

11個のAIが同一のSQL重複決済問題を解く：満点はわずか4個、7個は0点

同じSQL問題に対し、11個のモデルの得点が二極化し、4個が100点、7個が0点となった。中核的な差異は自己結合の重複排除ロジック、時間差計算関数の選択、およびstatus条件の配置位置に集中している。

代码执行豆包 Pro SQL自连接重复支付检测

2026年6月8日 503

Doubao Pro コード実行が80点暴落、メインランキングで1日に41.2点下落

Doubao Pro が本日の Smoke 評価でメインランキングが81.33点から40.12点へ41.2点下落。コード実行次元が満点100点から20点へ崩落し、単日で80点を失った。

豆包 Pro 代码执行 Smoke评测模型波动

2026年5月28日 677

GPT-o3が主要ランキングで18点急落、DoubaoProが一日で35.8点急騰し逆転で5位以内へ

GPT-o3が本日のSmoke評価で実行スコアがほぼ半減し、主要ランキングが76点から58.08点へ急落。一方、DoubaoProは制約スコアが大幅に改善し、トップ4入りを果たした。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 467

Smoke簡易テスト：DoubaoPro実行スコア100点で独走、9モデル主要ランキングで30点以上の大幅下落

本日のSmoke簡易評価でDoubaoProが91.23点で首位を独占し、コード実行で100点満点を獲得。一方、他の主要モデルは実行スコアが軒並み崩壊し、Gemini 2.5 Proなど9モデルが主要ランキングで30点以上の大幅下落となった

豆包 Pro 代码执行主榜暴跌评测异常

2026年5月22日 480

DoubaoPro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か？

DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。

豆包 Pro 代码执行模型评测性能波动

2026年5月21日 464

DoubaoPro マテリアル制約が15.2点急落 Smokeテストが真の変動を露呈

DoubaoProが本日のSmoke評価でマテリアル制約スコアが95点から79.8点へ15.2点急落し、メインランキングも97.75点から90.91点に下落した。原因は出題抽選による偶発性か、それともモデル能力の短期的退化か注目される。

豆包 Pro 材料约束 Smoke评测模型波动

2026年5月19日 601

GPT-5.5メインランキングが23.5点暴落、DoubaoPro 97.75点でSmokeトップ獲得

本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 505

Grok 3が大躍進で86.88点で首位獲得！今週のAIモデル、誰が台頭し誰が後退したのか？

Winzheng（winzheng.com）のYZ Indexメインランキングで、今週Grok 3が86.88点で首位に躍り出て、Doubao Proがわずか0.44点差で2位に。一方、Claudeシリーズは双方とも順位を下げ、AIモデル競

AI模型排名 YZ Index Grok 3 豆包 Pro

2026年5月2日 2,167