Gemini 2.5 Pro に関するニュース

レビュー

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か?

Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。

Gemini 2.5 Pro 材料约束 Smoke评测 性能波动
216
レビュー

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質

Gemini 2.5 Pro 赢政指数 Smoke评测 诚信评级
320
レビュー

Gemini 2.5 Proの判断力がゼロに:P0級セキュリティインシデントで「報告すればよし」という選択

Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す

Gemini 2.5 Pro 工程判断力 数据安全事故 AI决策失误
493
レビュー

Gemini 2.5 Proのタイムゾーン推論100点から0点へ:大規模言語モデルの常識の盲点はどれほど恐ろしいか

小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。

Gemini 2.5 Pro 严格题测试 时区推理 模型可靠性
452