模型退化 に関するニュース

レビュー

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か?

Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。

Gemini 2.5 Pro 材料约束 Smoke评测 性能波动
214