代码执行に関するAIニュース | Winzheng AI ニュース

GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減

2026年6月20日のSmoke軽量評価において、GPT-5.5の総合スコアが93点から72.5点に急落し、実行スコアが100点から50点へと半減した。Gemini 3.1 ProやGemini 2.5 Pro、ERNIE Bot 4.5も

GPT-5.5 代码执行 Smoke评测执行约束失衡

2026年6月20日 340

レビュー

ERNIE Bot 4.5のメインランキングが10.4点急落、タスク表現次元が90点から46.3点へ半減

YZ Indexの2026年6月における11モデルの実測において、ERNIE Bot 4.5のSmokeテストメインランキングスコアが81.69点から71.33点へと1日で10.4点下落した。ただし、抽選によるランダム変動の可能性が高く、モ

文心一言4.5 主榜 Smoke评测维度波动

2026年6月17日 352

レビュー

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

YZ Index による2026年6月17日の11モデル実測において、Qwen3 Max の材料制約スコアが前日の100点から71.1点へ急落し、メインランキングでも73.25点にとどまった。実行スコアが各社で満点に達する中、材料制約の安定

Qwen3 Max 材料约束 Smoke轻量评测代码执行

2026年6月17日 407

レビュー

Doubao Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

YZ Indexが2026年6月に実施したSmokeテストで、Doubao Proのメインランキングスコアが82.36点から72.50点へと9.9点下落した。主な原因はコード実行スコアが100.00点から50.00点へ半減したことにある。

豆包 Pro 代码执行 Smoke评测模型波动

2026年6月16日 467

レビュー

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

YZ Index 2026年6月の実測において、Claude Sonnet 4.6のSmokeテストにおけるコード実行スコアが前日の100.00から50.00へ急落し、メインランキング全体も79.44から72.50に低下した。この変動が題目

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月16日 504

レビュー

Claude Opus 4.7が100点で首位独走、9モデルのコード実行スコアが50点暴落

2026年6月16日のSmoke軽量評価結果において、Claude Opus 4.7が全項目満点の100点を獲得し唯一の満点モデルとなった一方、9モデルでコード実行スコアが50点以上急落する大きな格差が生じた。

Claude Opus 4.7 代码执行 Smoke评测主榜排名

2026年6月16日 415

レビュー

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月14日 396

レビュー

Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か

YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 441

レビュー

11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード

YZ Index 2026年6月14日のSmoke軽量評価において、GPT-5.5が主榜95.24点で首位を獲得。一方、11モデル中8モデルでコード実行スコアの大幅下落が見られた。

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测

2026年6月14日 532

レビュー

Smoke 評価：10モデルがコード実行で満点、マテリアル制約が順位を決定づける

本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約（grounding）によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 518

レビュー

二分木シリアライズ実測：11モデルで満点7つ、ゼロ点直行4つ

「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。

代码执行材料约束二叉树序列化工程实现

2026年6月8日 529

レビュー

11モデルによる括弧マッチング同一問題テスト：7つが満点、4つが0点

主流の11モデルに同じ括弧マッチングデバッグ問題を解かせた結果、7モデルが100点、4モデルが0点と明確に二極化した。核心的な問題は、関数末尾の裸の「return」がNoneを返してしまう点にあった。

代码执行材料约束括号匹配调试对比

2026年6月8日 544

レビュー

11個のAIが同一のSQL重複決済問題を解く：満点はわずか4個、7個は0点

同じSQL問題に対し、11個のモデルの得点が二極化し、4個が100点、7個が0点となった。中核的な差異は自己結合の重複排除ロジック、時間差計算関数の選択、およびstatus条件の配置位置に集中している。

代码执行豆包 Pro SQL自连接重复支付检测

2026年6月8日 492

レビュー

11個のモデルが同じクロージャ問題で全て[2,2,2]と回答、しかしYZ Indexでは全員0点

わずか6行のPythonクロージャ問題で、11個のモデルが揃って正解の[2,2,2]を出したにもかかわらず、YZ Indexでは全モデルが0点となった。これは評価軸が「知識」から「指示への完全な従順性」へと移行していることを示している。

代码执行材料约束 Python 闭包模型一致性

2026年6月8日 490

レビュー

GPT-o3 蓄水池サンプリング問題で100点から0点に急落、コード実行の真相は細部に隠れている

GPT-o3は今回のv6評価で総合スコアが向上したものの、厳格問題「蓄水池サンプリング」で100点から0点に急落し、コード実行の信頼性に課題が露呈した。エンジニアリング判断は急上昇したが、正確なアルゴリズム実装能力には依然として系統的なリス

GPT-o3 代码执行蓄水池采样得分波动

2026年6月8日 410

レビュー

Claude Sonnet 4.6 SQL厳格問題で100点から0点に転落、メインボードでは逆に9.3ポイント上昇

Claude Sonnet 4.6はv6評価において、メインボードのスコアが77.98から87.24へ上昇した一方、SQL厳格問題「重複支払い疑い識別」では100点から0点へ急落した。この矛盾は、現行の最適化方向が「カバレッジ」に偏り、「厳

Claude Sonnet 4.6 代码执行 SQL故障重复支付识别

2026年6月8日 442

レビュー

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

今週のYZ Index v6メインランキングでは、旧モデルが一斉に退場し新モデルが大量に参入。Grok 4がメインランキング89.90点で首位を獲得し、Claude Opus 4.7、Doubao Proがそれに続いた。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 499

レビュー

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

代码执行材料约束 Claude Opus 4.7 Smoke评测

2026年6月5日 546

レビュー

Smokeクイックテスト：ERNIE Bot 4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。ERNIE Bot 4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さ

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 562

レビュー

三大モデルが Smoke ランキング首位に並列、実行は満点も制約に警告

Smoke 本日のクイックテストで Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5 が 87.76 点で並列首位となり、コード実行は満点だが材料制約次元で warn シグナルが発生した。

Claude Opus 材料约束 Smoke 评测代码执行

2026年6月3日 490

代码执行 に関するニュース

GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減

ERNIE Bot 4.5のメインランキングが10.4点急落、タスク表現次元が90点から46.3点へ半減

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

Doubao Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

Claude Opus 4.7が100点で首位独走、9モデルのコード実行スコアが50点暴落

Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落

Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か

11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード

Smoke 評価：10モデルがコード実行で満点、マテリアル制約が順位を決定づける

二分木シリアライズ実測：11モデルで満点7つ、ゼロ点直行4つ

11モデルによる括弧マッチング同一問題テスト：7つが満点、4つが0点

11個のAIが同一のSQL重複決済問題を解く：満点はわずか4個、7個は0点

11個のモデルが同じクロージャ問題で全て[2,2,2]と回答、しかしYZ Indexでは全員0点

GPT-o3 蓄水池サンプリング問題で100点から0点に急落、コード実行の真相は細部に隠れている

Claude Sonnet 4.6 SQL厳格問題で100点から0点に転落、メインボードでは逆に9.3ポイント上昇

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

Smokeクイックテスト：ERNIE Bot 4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

三大モデルが Smoke ランキング首位に並列、実行は満点も制約に警告

代码执行に関するニュース