Claude Opus 4.7 に関するニュース

Claude Opus 4.7、Smoke評価でメインスコアが26.1ポイント急落——コード実行と資料制約の両次元で失守

本日のSmoke評価において、Claude Opus 4.7のメインスコアが100.00点から73.92点へと26.1ポイント下落した。コード実行・資料制約の両次元で25ポイント以上の降下が確認されたが、小サンプルによる変動の可能性が高いと

Claude Opus 4.7 代码执行 Smoke评测材料约束

Claude Opus 4.7が平均86.9点でトップ、GPT-o3は7日間で30.5点下落

2026年7月13日〜19日の7日間Smoke評価において、Claude Opus 4.7が平均86.9点で首位を獲得。GPT-o3は初日97.36点から最終日66.86点へと30.5点下落した。

Claude Opus 4.7 GPT-o3 Smoke 周趋势诚信评级波动

2026年7月19日 115

Claude Opus 4.7がメインランキングで19.9点急落——コード実行は1日で25点低下

Claude Opus 4.7は本日のSmokeベンチマークにおいて、メインランキングスコアが100.00点から80.09点へと急落した。コード実行と資料制約の両次元が同日に大幅な失点を記録している。

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年7月16日 104

Claude Opus 4.7、主要ランキングで14点下落――コード実行スコアが100から69へ

Claude Opus 4.7はSmoke評価の主要ランキングにおいて96.99点から82.95点へと下落し、コード実行ディメンションが100.00点から69.00点へ31点落ち込んだ。ただし、モデル全体の能力低下ではなく、当日の出題サンプ

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年7月13日 211

Claude Opus 4.7、Smoke評価でメインランキングが1日で19.3点急落――コード実行は22点下落

Claude Opus 4.7が本日のSmoke評価においてメインランキングスコアを90.51点から71.26点へと19.3点落とした。コード実行と素材制約の2次元が同時に大幅下落した一方、エンジニアリング判断は上昇しており、モデルの真の性

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年7月10日 187

Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7のメインスコアが前日の100.00点から84.01点へ急落し、コード実行次元では100.00点から72.80点へ大幅に低下した。

Claude Opus 4.7 代码执行 Smoke评测单日波动

2026年6月30日 285

Claude Opus 4.7がメインランキング満点100点で首位獲得、Doubao Proは13.8点急落で実行面の弱点が露呈

2026年6月29日のYZ Index Smokeライト評価にて、Claude Opus 4.7がメインランキング・実行・制約の全項目で満点100点を記録し首位に立った。一方、Doubao Proは実行スコア75点にとどまり、前日比13.8

Claude Opus 4.7 豆包 Pro 执行约束 Smoke 评测

2026年6月29日 151

Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ

今回のWDCDサイクル（Run #196との比較）では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。

WDCD 守约测试模型性能变化 Gemini 3.1 Pro

2026年6月28日 354

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年6月28日 233

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。

Claude Opus 4.7 代码执行 Smoke轻量评测材料约束

2026年6月27日 251

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

Claude Opus 4.7 代码执行 Smoke快测单日波动

2026年6月24日 386

4モデルの実行スコアが50に急落、ERNIE Botはメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、ERNIE Bot 4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコ

代码执行材料约束文心一言4.5 Claude Opus 4.7

2026年6月24日 451

Claude Opus 4.7が100点で首位独走、9モデルのコード実行スコアが50点暴落

2026年6月16日のSmoke軽量評価結果において、Claude Opus 4.7が全項目満点の100点を獲得し唯一の満点モデルとなった一方、9モデルでコード実行スコアが50点以上急落する大きな格差が生じた。

Claude Opus 4.7 代码执行 Smoke评测主榜排名

2026年6月16日 413

Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド

2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 475

Claude Opus 4.7の材料制約スコアが16.5点急落――メインランキングは96.83から90.78へ

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7の材料制約スコアが96.00点から79.50点へ大幅に低下し、メインランキングも96.83点から90.78点へ下落した。単日データのみのため断定は早計

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年6月13日 459

素材制約スコアが一斉に20点急落、Claude Opus 4.7が90.78点で首位を守る

Winzhengが公開したYZ Index 2026年6月13日のSmoke軽量評価で、Claude Opus 4.7がコード実行100点・素材制約79.5点を記録し、総合スコア90.78点で首位を獲得した。一方、複数モデルで素材制約スコア

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测

2026年6月13日 373

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に

本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测

2026年6月8日 588

GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転：Smoke 7 日間データが明かす真の動向

Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。

Claude Opus 4.7 稳定性 Smoke 评测诚信评级波动

2026年6月7日 516

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

代码执行材料约束 Claude Opus 4.7 Smoke评测

2026年6月5日 543

Claude Opus 4.7、素材制約が単日15ポイント下落 ― Smokeテストの揺らぎか、真の劣化か

Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年5月27日 495