AIレビュー

レビュー

DoubaoPro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か?

DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。

豆包 Pro 代码执行 模型评测 性能波动
211
レビュー

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か?

Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。

Gemini 2.5 Pro 材料约束 Smoke评测 性能波动
214
レビュー

R3崩壊率85%!11モデルWDCD三段階テスト:約束から裏切りへのリアルな減衰曲線

WDCDテストでは三段階の漸進的な圧力により、モデルが持続的なストレス下で約束を守れなくなる崩壊軌跡を精密に捕捉。R1段階ではほぼ全モデルが完璧な確認を示すが、R3直接圧力段階では平均誠実率が17.7%まで急落することが判明した。

WDCD 守约测试 AI模型衰减 约束遵循
264