Gemini 2.5 Pro に関するAIニュース

Gemini 2.5 Pro、コード実行スコアが1日で24.6点下落――メインランキングも6.5点低下

本日のSmoke評価において、Gemini 2.5 Proのコード実行スコアが74.60点から50.00点へと24.6点急落し、メインランキング全体も76.49点から69.98点に低下した。ただし、サンプル数の少なさによる抽選変動が主因と分

Gemini 2.5 Pro 代码执行 Smoke评测材料约束

2026年7月20日 164

レビュー

Smokeベンチマーク7日間データ：Gemini 2.5 Proがトレンド34.3点で最大上昇、Zhipu GLM-4.6が40.5点の最大変動幅を記録

2026年7月8日から12日にかけてのSmokeベンチマーク評価データによると、Gemini 2.5 Proが7日間でトレンド34.3点上昇し最大の伸びを示した一方、Zhipu GLM-4.6は40.5点という最大の変動幅を記録した。

Gemini 2.5 Pro GLM-4.6 趋势分析诚信评级

2026年7月12日 324

レビュー

Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

YZ Index 2026年7月4日のSmoke軽量評価（11モデル対象）で、Gemini 2.5 Pro が主榜96.99点で首位を獲得。一方、Qwen3 Max は12.9点急落し72.02点に後退した。

Gemini 2.5 Pro Qwen3 Max Smoke评测代码执行

2026年7月4日 295

レビュー

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月22日 353

レビュー

Grok 4がトレンドスコア19.8点上昇でSmokeウィークリーレポートをリード、Geminiシリーズは28点超の変動

YZ Indexが2026年6月17日〜21日に実施した11モデルのSmokeクイックテストでは、Grok 4が19.8点の上昇幅で今週最大の伸びを記録。一方、GeminiシリーズやGPT-5.5などは高い変動幅を示した。

Grok 4 Gemini 2.5 Pro Smoke 周趋势模型波动分析

2026年6月21日 509

レビュー

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月14日 398

レビュー

Gemini 2.5 Pro の素材制約スコアが15.2点急落、コード実行は45点急騰

YZ Index 2026年6月のSmokeテストにおいて、Gemini 2.5 Pro の素材制約スコアが前日比15.2点下落した一方、コード実行スコアは満点の100点に達し、メインボードの総合スコアは89.79点に上昇した。小サンプルに

Gemini 2.5 Pro 材料约束 Smoke评测模型波动

2026年6月13日 452

レビュー

Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに

Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。

DeepSeek V4 Pro 材料约束 Gemini 2.5 Pro Smoke 轻量评测

2026年5月26日 656

レビュー

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か？

Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。

Gemini 2.5 Pro 材料约束 Smoke评测性能波动

2026年5月21日 417

レビュー

Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減

Gemini 2.5 Proが本日のSmoke評価でメインランキング22.6点を失い、コア実行スコアは100点から95点に下落。サブランキングのエンジニアリング判断は66.7点から30点へ崩落し、誠実性評価もfailとなった。

Gemini 2.5 Pro 工程判断 Smoke评测模型波动

2026年5月20日 500

レビュー

Gemini 2.5 Pro が10ポイント下落：能力低下ではなく誠実性で躓く

Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。

Gemini 2.5 Pro 材料约束 Smoke评测诚信评级

2026年5月16日 597

レビュー

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質

Gemini 2.5 Pro 赢政指数 Smoke评测诚信评级

2026年5月13日 541

レビュー

Gemini 2.5 Pro崩壊：安定性が23点暴落、その背後にあるエンジニアリング判断力の不足

Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。

Gemini 2.5 Pro 模型稳定性 Google AI 工程判断力

2026年3月22日 1,175

レビュー

Gemini 2.5 Proの判断力がゼロに：P0級セキュリティインシデントで「報告すればよし」という選択

Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す

Gemini 2.5 Pro 工程判断力数据安全事故 AI决策失误

2026年3月21日 725

レビュー

Gemini 2.5 Proのタイムゾーン推論100点から0点へ：大規模言語モデルの常識の盲点はどれほど恐ろしいか

小学生でも答えられるタイムゾーンの問題で、GoogleのフラッグシップモデルGemini 2.5 Proが完全に失敗した。これは偶然のミスではなく、モデルが現実世界の基本的な常識を処理する際の体系的な欠陥を露呈している。

Gemini 2.5 Pro 严格题测试时区推理模型可靠性

2026年3月21日 675

Gemini 2.5 Pro に関するニュース

Gemini 2.5 Pro、コード実行スコアが1日で24.6点下落――メインランキングも6.5点低下

Smokeベンチマーク7日間データ：Gemini 2.5 Proがトレンド34.3点で最大上昇、Zhipu GLM-4.6が40.5点の最大変動幅を記録

Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Grok 4がトレンドスコア19.8点上昇でSmokeウィークリーレポートをリード、Geminiシリーズは28点超の変動

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

Gemini 2.5 Pro の素材制約スコアが15.2点急落、コード実行は45点急騰

Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か？

Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減

Gemini 2.5 Pro が10ポイント下落：能力低下ではなく誠実性で躓く

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 Pro崩壊：安定性が23点暴落、その背後にあるエンジニアリング判断力の不足

Gemini 2.5 Proの判断力がゼロに：P0級セキュリティインシデントで「報告すればよし」という選択

Gemini 2.5 Proのタイムゾーン推論100点から0点へ：大規模言語モデルの常識の盲点はどれほど恐ろしいか