Smoke轻量评测に関するAIニュース

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。

2026年6月27日 163

Qwen3 Max、メインランキングで12点急落し74点に——誠実性failが全体スコアを引き下げ

2026年6月23日のSmoke軽量評価において、Qwen3 Maxはメインランキング74点を記録し、誠実性評価のfailにより11モデル中唯一80点を下回る結果となった。Claude Opus 4.7、Gemini 3.1 Pro、Gro

Qwen3 Max 材料约束 Smoke轻量评测分数结构

2026年6月23日 272

レビュー

文心一言がメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈

2026年6月22日のSmoke軽量評価テストにて、GPT-5.5とGPT-o3が満点で首位に並ぶ一方、文心一言4.5はメインランキングで前日比40.3点急落し、実行・制約の両次元で大幅な低下を記録した。

文心一言材料约束 GPT-5.5 Smoke轻量评测

2026年6月22日 252

レビュー

Qwen3 Max が主要ランキングで19.2点急落——4モデルが実行・制約でダブル満点を達成

2026年6月21日のSmoke軽量評価において、DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4の4モデルが主要ランキング・コード実行・素材制約の全3項目で満点を獲得。一方、Qwen3 Maxはコー

Qwen3 Max 代码执行 Smoke轻量评测材料约束

2026年6月21日 218

レビュー

Smoke評価：Qwen3 Max の制約スコアが+23点で逆転、GPT-o3の材料制約は15.2点急落

2026年6月19日のYZ Index Smoke軽量評価において、Gemini 3.1 Proが総合99.28点で首位を獲得。Qwen3 Maxは材料制約スコアが23点向上して4位に浮上した一方、GPT-o3と豆包Proは制約スコアが15

Qwen3 Max 材料约束 Gemini 3.1 Pro Smoke轻量评测

2026年6月19日 218

レビュー

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

YZ Index による2026年6月17日の11モデル実測において、Qwen3 Max の材料制約スコアが前日の100点から71.1点へ急落し、メインランキングでも73.25点にとどまった。実行スコアが各社で満点に達する中、材料制約の安定

Qwen3 Max 材料约束 Smoke轻量评测代码执行

2026年6月17日 238

レビュー

材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落

2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。

材料约束 Grok 4 Smoke轻量评测主榜波动

2026年6月15日 252

レビュー

Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差

Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。

Claude Sonnet 4.6 材料约束 Smoke轻量评测主榜排名

2026年6月10日 294

レビュー

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に

本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测

2026年6月8日 373

レビュー

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 315

レビュー

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行

2026年5月25日 269

レビュー

素材制約が一斉に20点暴落、Grok 4が81.55点でClaudeを僅差で抑え首位に

本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下

材料约束 Grok 4 Smoke轻量评测模型波动

2026年5月23日 374

レビュー

3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン

Claude Opus 4.7 材料约束 Smoke轻量评测模型迭代

2026年5月17日 398

Smoke轻量评测 に関するニュース

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

Qwen3 Max、メインランキングで12点急落し74点に——誠実性failが全体スコアを引き下げ

文心一言がメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈

Qwen3 Max が主要ランキングで19.2点急落——4モデルが実行・制約でダブル満点を達成

Smoke評価：Qwen3 Max の制約スコアが+23点で逆転、GPT-o3の材料制約は15.2点急落

Qwen3 Max の材料制約スコアが28.9点急落、本日のSmoke 11モデルメインランキングが大洗牌

材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落

Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ 素材制約が最大の分水嶺に

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

素材制約が一斉に20点暴落、Grok 4が81.55点でClaudeを僅差で抑え首位に

3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

Smoke轻量评测に関するニュース

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に