Smoke快测に関するAIニュース | Winzheng AI ニュース

豆包Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデル全体の能

豆包 Pro 代码执行 Smoke快测单日波动

2日前 145

レビュー

Grok 4のSmoke評価でメインスコアが1日で15.3点急落、コード実行は31.4点下落

YZ IndexのSmoke評価において、Grok 4のメインスコアが97.98点から82.73点へと15.3点急落し、特にコード実行ディメンションが100.00点から68.60点へと31.4点の大幅下落を記録した。ただし、少数サンプルによ

Grok 4 代码执行单日波动 Smoke快测

2日前 120

レビュー

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

Claude Opus 4.7 代码执行 Smoke快测单日波动

2026年6月24日 268

レビュー

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

GPT-5.5が本日のSmokeテストで主榜スコアが93.03点から72.50点へと20.5点下落した。コード実行ディメンションが100点から50点へと急落したことが主な要因だが、ランダムな出題による変動である可能性が高い。

GPT-5.5 代码执行 Smoke快测单日波动

2026年6月20日 242

レビュー

Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド

2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 321

レビュー

Smoke 7日間データ：DeepSeek V4 Pro 平均79.8 GPT-5.5逆襲+11.5

Smoke クイックテストの直近7日間データによると、DeepSeek V4 Pro は97.08から66.88まで急落し、平均79.8、トレンド-30.2を記録。一方GPT-5.5とClaude Sonnet 4.6は安定的に反発し、誠実

DeepSeek V4 Pro GPT-5.5 诚信评级波动周趋势分析

2026年5月31日 308

レビュー

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 380

レビュー

Gemini 3.1 Pro メインボードで8.5点の急落、コード実行が9.5点の暴落抽選か退化か

Gemini 3.1 Pro は本日の Smoke 評価でメインスコアが8.5点下落し、コード実行次元は66.70から57.20へと急落しました。サンプル数の少なさによる変動か、それとも実質的な能力低下なのかを分析します。

Gemini 3.1 Pro 代码执行 Smoke快测模型波动

2026年5月22日 372

レビュー

GeminiメインボードでSonnet 4.6が97.5点で首位、Geminiは23点暴落のSmoke快速テスト

本日のSmoke 10問快速テストでClaude Sonnet 4.6が97.5点で首位を獲得、Gemini 3.1 Proは前日比23.2点の大幅下落となった。ERNIE Bot 4.5はFail判定を受け、誠実性評価で異常信号が集中した

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级

2026年5月20日 327

レビュー

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 259

レビュー

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適

Claude Opus 4.7 材料约束 Smoke快测性能波动

2026年5月17日 381

Smoke快测 に関するニュース

豆包Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

Grok 4のSmoke評価でメインスコアが1日で15.3点急落、コード実行は31.4点下落

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド

Smoke 7日間データ：DeepSeek V4 Pro 平均79.8 GPT-5.5逆襲+11.5

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Gemini 3.1 Pro メインボードで8.5点の急落、コード実行が9.5点の暴落 抽選か退化か

GeminiメインボードでSonnet 4.6が97.5点で首位、Geminiは23点暴落のSmoke快速テスト

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

Smoke快测に関するニュース

Gemini 3.1 Pro メインボードで8.5点の急落、コード実行が9.5点の暴落抽選か退化か