模型评测 に関するニュース

レビュー

DoubaoPro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か?

DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。

豆包 Pro 代码执行 模型评测 性能波动
211
レビュー

Gemini 2.5 Proの判断力がゼロに:P0級セキュリティインシデントで「報告すればよし」という選択

Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す

Gemini 2.5 Pro 工程判断力 数据安全事故 AI决策失误
492