Claude Opus 4.7 に関するニュース

レビュー

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

代码执行 材料约束 Claude Opus 4.7 Smoke评测
224
レビュー

Claude Opus 4.7 Smoke評価でメインランキング9.6点暴落:退化のシグナルか、それとも抽選のドタバタ劇か?

本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ

Claude Opus 4.7 赢政指数 Smoke评测 模型波动
355