AIレビュー

レビュー

Claude Opus 4.7 Smoke評価でメインランキング9.6点暴落:退化のシグナルか、それとも抽選のドタバタ劇か?

本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ

Claude Opus 4.7 赢政指数 Smoke评测 模型波动
354
レビュー

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質

Gemini 2.5 Pro 赢政指数 Smoke评测 诚信评级
318
レビュー

11大AIモデルのSQL連続ログイン問題大試験:8つが満点、3つが崩壊、コード実行の格差は驚異的

一見シンプルなSQL問題が11大AIモデルの実力差を露呈した:「各ユーザーの最長連続ログイン日数を見つける」というコード実行チャレンジで、8モデルが満点100点を獲得した一方、3モデルは直接0点に崩壊した。これは偶然ではなく、現在のAIが複

代码执行 SQL AI模型对比 连续登录天数
330