AIレビュー

レビュー

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質

Gemini 2.5 Pro 赢政指数 Smoke评测 诚信评级
380
レビュー

11大AIモデルのSQL連続ログイン問題大試験:8つが満点、3つが崩壊、コード実行の格差は驚異的

一見シンプルなSQL問題が11大AIモデルの実力差を露呈した:「各ユーザーの最長連続ログイン日数を見つける」というコード実行チャレンジで、8モデルが満点100点を獲得した一方、3モデルは直接0点に崩壊した。これは偶然ではなく、現在のAIが複

代码执行 SQL AI模型对比 连续登录天数
400
レビュー

WDCDの警告:モデルがハード制約を提案として受け取った時、リスクは始まる

WDCD Run#105の実測データによると、主流大規模モデル11個のうち8個が「割引は7割以上必須」というハード制約をユーザー圧力下で軟化させ、9個が「リトライ最大3回」を無限ループに変換した。これは現在の大規模モデルが持つ構造的欠陥であ

WDCD 硬约束软化 约束分类 规则与建议
340