GPT-5.5 に関するAIニュース | Winzheng AI ニュース

レビュー

GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈

2026年7月3日のSmoke軽量評価において、GPT-5.5がコード実行100点・素材制約71点の組み合わせで主ランキング86.95点を獲得し首位に立った。一方で、素材制約が現行モデル全般の共通課題であることも明らかになった。

GPT-5.5 代码执行 Smoke 轻量评测模型结构分析

2026年7月3日 240

レビュー

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

WDCD三ラウンドテストにおいて、Grok 4は全10問のR3フェーズで満点2点を維持した一方、GPT-5.5は5回のゼロ点崩壊を起こし、R3平均誠実率はわずか1.00/2にとどまった。

WDCD 守约测试模型衰减 GPT-5.5

2026年7月1日 752

レビュー

ERNIE Botがメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈

2026年6月22日のSmoke軽量評価テストにて、GPT-5.5とGPT-o3が満点で首位に並ぶ一方、ERNIE Bot 4.5はメインランキングで前日比40.3点急落し、実行・制約の両次元で大幅な低下を記録した。

文心一言材料约束 GPT-5.5 Smoke轻量评测

2026年6月22日 353

レビュー

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

GPT-5.5が本日のSmokeテストで主榜スコアが93.03点から72.50点へと20.5点下落した。コード実行ディメンションが100点から50点へと急落したことが主な要因だが、ランダムな出題による変動である可能性が高い。

GPT-5.5 代码执行 Smoke快测单日波动

2026年6月20日 322

レビュー

GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減

2026年6月20日のSmoke軽量評価において、GPT-5.5の総合スコアが93点から72.5点に急落し、実行スコアが100点から50点へと半減した。Gemini 3.1 ProやGemini 2.5 Pro、ERNIE Bot 4.5も

GPT-5.5 代码执行 Smoke评测执行约束失衡

2026年6月20日 338

レビュー

Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド

2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 475

レビュー

11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード

YZ Index 2026年6月14日のSmoke軽量評価において、GPT-5.5が主榜95.24点で首位を獲得。一方、11モデル中8モデルでコード実行スコアの大幅下落が見られた。

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测

2026年6月14日 528

レビュー

素材制約スコアが一斉に20点急落、Claude Opus 4.7が90.78点で首位を守る

Winzhengが公開したYZ Index 2026年6月13日のSmoke軽量評価で、Claude Opus 4.7がコード実行100点・素材制約79.5点を記録し、総合スコア90.78点で首位を獲得した。一方、複数モデルで素材制約スコア

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测

2026年6月13日 373

レビュー

Smoke日報：GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定

今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5とERNIE Bot 4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。

GPT-5.5 材料约束代码执行满分 Smoke评测

2026年6月9日 504

レビュー

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に

本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测

2026年6月8日 588

レビュー

GPT-5.5 が素材制約71点でSmokeランキング首位に、コード満点後の後半戦で差が拡大

本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。

GPT-5.5 材料约束 Smoke评测代码执行

2026年6月2日 536

レビュー

Smoke 7日間データ：DeepSeek V4 Pro 平均79.8 GPT-5.5逆襲+11.5

Smoke クイックテストの直近7日間データによると、DeepSeek V4 Pro は97.08から66.88まで急落し、平均79.8、トレンド-30.2を記録。一方GPT-5.5とClaude Sonnet 4.6は安定的に反発し、誠実

DeepSeek V4 Pro GPT-5.5 诚信评级波动周趋势分析

2026年5月31日 404

レビュー

GPT-5.5が29.7点の逆襲、GPT-o3は36.4点の急落：2026 W21 Smoke 7日間トレンド

2026年W21週のSmoke快速テストでは、GPT-5.5が7日間で29.7点の上昇を見せた一方、GPT-o3とDeepSeek V4 Proが大幅下落し、誠実性評価でも警告が頻発した。Gemini 3.1 ProやQwen3 Maxなど

GPT-5.5 稳定性 Smoke评测诚信评级

2026年5月24日 650

レビュー

GPT-5.5メインランキングが23.5点暴落、DoubaoPro 97.75点でSmokeトップ獲得

本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 480

レビュー

WDCDコンプライアンスランキング：GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。

WDCD 守约测试 AI模型排行 GPT-5.5

2026年5月17日 502

レビュー

GPT-5.5メインランキング28点急落：本当に退化したのか

GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 552

レビュー

3モデルが28分急落、Claudeは依然ほぼ満点

5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 698

レビュー

AIモデルに激震！ERNIE Botが24.7点急騰も誠実性崩壊、Gemini三連敗で16点ダウン

本日のSmoke軽量評価で、ERNIE Bot 4.5がメインランキング24.7点急騰の一方、誠実性評価がpassからfailへ転落。同時にGemini系列が三連敗、DeepSeek V4 Proも-16.1点と崩壊し、モデルイテレーション

GPT-5.5 文心一言代码执行材料约束

2026年5月12日 560

GPT-5.5 に関するニュース

GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈

WDCD三ラウンドテスト：Grok 4はゼロ崩壊、GPT-5.5はR3で5回崩壊

ERNIE Botがメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈

GPT-5.5のSmokeテスト主榜スコアが20.5点急落、コード実行が100点から50点に暴落

GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減

Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド

11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード

素材制約スコアが一斉に20点急落、Claude Opus 4.7が90.78点で首位を守る

Smoke日報：GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ 素材制約が最大の分水嶺に

GPT-5.5 が素材制約71点でSmokeランキング首位に、コード満点後の後半戦で差が拡大

Smoke 7日間データ：DeepSeek V4 Pro 平均79.8 GPT-5.5逆襲+11.5

GPT-5.5が29.7点の逆襲、GPT-o3は36.4点の急落：2026 W21 Smoke 7日間トレンド

GPT-5.5メインランキングが23.5点暴落、DoubaoPro 97.75点でSmokeトップ獲得

WDCDコンプライアンスランキング：GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

GPT-5.5メインランキング28点急落：本当に退化したのか

3モデルが28分急落、Claudeは依然ほぼ満点

AIモデルに激震！ERNIE Botが24.7点急騰も誠実性崩壊、Gemini三連敗で16点ダウン

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に