工程判断に関するAIニュース | Winzheng AI ニュース

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

Claude Opus 4.7 代码执行 Smoke快测单日波动

3日前 205

レビュー

GPT-o3の材料制約スコアが1日で15.2点急落、Smoke主榜が100点から93.16点に低下

YZ Index 2026年6月の実測において、GPT-o3のSmokeベンチマーク「材料制約」スコアが前日の100.00点から84.80点に急落し、主榜全体も100.00点から93.16点に低下した。現時点では抽選による変動の可能性が高く

GPT-o3 材料约束 Smoke评测单日波动

2026年6月19日 221

レビュー

Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か

YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 264

レビュー

11モデルが同じ責任転嫁問題に回答：8モデルがA>B>D>C、3モデルが直接0点

11の主流モデルが同一の工学判断問題で明確に分化し、8モデルがA>B>D>Cを出力して60点を獲得、3モデルがA>B>C>Dを出力して0点と判定された。差はDとCの相対的な順序のみにある。

execution grounding 工程判断模型排序

2026年6月8日 312

レビュー

GPT-o3 蓄水池サンプリング問題で100点から0点に急落、コード実行の真相は細部に隠れている

GPT-o3は今回のv6評価で総合スコアが向上したものの、厳格問題「蓄水池サンプリング」で100点から0点に急落し、コード実行の信頼性に課題が露呈した。エンジニアリング判断は急上昇したが、正確なアルゴリズム実装能力には依然として系統的なリス

GPT-o3 代码执行蓄水池采样得分波动

2026年6月8日 204

レビュー

Claude Sonnet 4.6 SQL厳格問題で100点から0点に転落、メインボードでは逆に9.3ポイント上昇

Claude Sonnet 4.6はv6評価において、メインボードのスコアが77.98から87.24へ上昇した一方、SQL厳格問題「重複支払い疑い識別」では100点から0点へ急落した。この矛盾は、現行の最適化方向が「カバレッジ」に偏り、「厳

Claude Sonnet 4.6 代码执行 SQL故障重复支付识别

2026年6月8日 250

レビュー

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

今週のYZ Index v6メインランキングでは、旧モデルが一斉に退場し新モデルが大量に参入。Grok 4がメインランキング89.90点で首位を獲得し、Claude Opus 4.7、豆包Proがそれに続いた。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 281

レビュー

DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落

DeepSeek V4 Proが本日のSmoke評価で極端に分化した結果を示し、メインボードは87.99点まで急騰した一方、工程判断は10.00点に半減した。コード実行は満点を獲得したが、安定性とシステム的思考に明らかな短所が露呈している。

DeepSeek V4 Pro 代码执行 Smoke评测模型一致性

2026年5月29日 310

レビュー

ERNIE Bot 4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇

ERNIE Bot 4.5は本日のSmoke簡易テストでエンジニアリング判断が50点から10点へ急落したが、素材制約は55.8点から80.5点へ跳ね上がり、メインランキング総合は74点から88.48点へ上昇した。単日の側面ランキング崩壊はモ

文心一言4.5 工程判断 Smoke评测百度AI

2026年5月24日 308

レビュー

Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減

Gemini 2.5 Proが本日のSmoke評価でメインランキング22.6点を失い、コア実行スコアは100点から95点に下落。サブランキングのエンジニアリング判断は66.7点から30点へ崩落し、誠実性評価もfailとなった。

Gemini 2.5 Pro 工程判断 Smoke评测模型波动

2026年5月20日 299

レビュー

11個のAIが責任転嫁問題に回答、正解順序を出したのは8個のみ：エンジニアリング判断力の差が顕著に

VPが2週間のプロジェクト遅延の原因を追及した際、AIモデルの回答順序によって「責任帰属」に対する異なる理解が露呈した。8個のモデルが正しい順序を示した一方、3個のモデルは顧客への責任転嫁を時間的言い訳より許容できると判断し、0点となった。

工程判断诚信评级甩锅测试项目延期

2026年5月18日 322

レビュー

11個のAIが同じ論理問題を解く、5社が正解・6社が集団で誤答

4つの制約条件からなる順序推論問題で、11の大規模モデルをテストした結果、5社が正解、6社が誤答という結果に。多条件のチェーン推論能力における現状の真の実力が明らかになった。

工程判断逻辑推理模型对比排名测试

2026年5月18日 326

レビュー

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

Gemini 2.5 ProがSmoke評価のメインランキングで74.00から87.54へ急上昇し、誠実性評価もfailからpassへ逆転した一方、エンジニアリング判断は28.4点暴落。本記事ではこの異常変動が単なる抽選変動か、モデルの実質

Gemini 2.5 Pro 赢政指数 Smoke评测诚信评级

2026年5月13日 415

工程判断 に関するニュース

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

GPT-o3の材料制約スコアが1日で15.2点急落、Smoke主榜が100点から93.16点に低下

Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か

11モデルが同じ責任転嫁問題に回答：8モデルがA>B>D>C、3モデルが直接0点

GPT-o3 蓄水池サンプリング問題で100点から0点に急落、コード実行の真相は細部に隠れている

Claude Sonnet 4.6 SQL厳格問題で100点から0点に転落、メインボードでは逆に9.3ポイント上昇

11モデルの新旧交代：Grok 4が首位獲得、DeepSeekシリーズが集団退場

DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落

ERNIE Bot 4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇

Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減

11個のAIが責任転嫁問題に回答、正解順序を出したのは8個のみ：エンジニアリング判断力の差が顕著に

11個のAIが同じ論理問題を解く、5社が正解・6社が集団で誤答

Gemini 2.5 Pro Smoke評価のメインランキングが13.5点急上昇、誠実性は逆転合格も、エンジニアリング判断は28点暴落

工程判断に関するニュース