Smoke评测 に関するニュース

レビュー

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か?

Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。

Gemini 2.5 Pro 材料约束 Smoke评测 性能波动
298
レビュー

Claude Opus 4.7 Smoke評価でメインランキング9.6点暴落:退化のシグナルか、それとも抽選のドタバタ劇か?

本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ

Claude Opus 4.7 赢政指数 Smoke评测 模型波动
450