オリジナル

レビュー

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質

Gemini 2.5 Pro 赢政指数 Smoke评测 诚信评级
320
オリジナル

Anthropicが2026年5月11日にClaude憲法オーディオブックを発表、透明性とSonnet 4.5廃止をめぐる議論を巻き起こす

AnthropicはClaude憲法のオーディオブック版を発表し、AI透明性を推進する一方、Sonnet 4.5モデルの突然の廃止が憲法の福祉原則に反するとして議論を呼んだ。本稿ではYZ Index v6に基づき、その革新性と課題を専門的に

AI安全性 Anthropic Claude模型
781
レビュー

11大AIモデルのSQL連続ログイン問題大試験:8つが満点、3つが崩壊、コード実行の格差は驚異的

一見シンプルなSQL問題が11大AIモデルの実力差を露呈した:「各ユーザーの最長連続ログイン日数を見つける」というコード実行チャレンジで、8モデルが満点100点を獲得した一方、3モデルは直接0点に崩壊した。これは偶然ではなく、現在のAIが複

代码执行 SQL AI模型对比 连续登录天数
333