Claude Sonnet 4.6 に関するAIニュース

Qwen3 Max が92.50点でWDCD守約ランキング首位、豆包Pro は62.50点で最下位——30点差

Qwen3 MaxがWDCD守約ランキングで92.50点を獲得し首位に立った。一方、豆包Proは62.50点で11モデル中最下位となり、トップとの差は30点に達した。

2026年6月17日 229

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

YZ Index 2026年6月の実測において、Claude Sonnet 4.6のSmokeテストにおけるコード実行スコアが前日の100.00から50.00へ急落し、メインランキング全体も79.44から72.50に低下した。この変動が題目

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月16日 263

レビュー

Smoke 評価：10モデルがコード実行で満点、マテリアル制約が順位を決定づける

本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約（grounding）によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 233

レビュー

Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差

Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。

Claude Sonnet 4.6 材料约束 Smoke轻量评测主榜排名

2026年6月10日 226

レビュー

Claude Sonnet 4.6 SQL厳格問題で100点から0点に転落、メインボードでは逆に9.3ポイント上昇

Claude Sonnet 4.6はv6評価において、メインボードのスコアが77.98から87.24へ上昇した一方、SQL厳格問題「重複支払い疑い識別」では100点から0点へ急落した。この矛盾は、現行の最適化方向が「カバレッジ」に偏り、「厳

Claude Sonnet 4.6 代码执行 SQL故障重复支付识别

2026年6月8日 244

レビュー

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 356

レビュー

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 266

レビュー

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 319

レビュー

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 348

レビュー

Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増

Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった

Claude Sonnet 4.6 材料约束 Smoke评测模型波动

2026年5月23日 318

レビュー

GeminiメインボードでSonnet 4.6が97.5点で首位、Geminiは23点暴落のSmoke快速テスト

本日のSmoke 10問快速テストでClaude Sonnet 4.6が97.5点で首位を獲得、Gemini 3.1 Proは前日比23.2点の大幅下落となった。ERNIE Bot 4.5はFail判定を受け、誠実性評価で異常信号が集中した

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级

2026年5月20日 303

レビュー

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が

Claude Sonnet 4.6 材料约束 Smoke评测模型性能波动

2026年5月17日 355

レビュー

3モデルが28分急落、Claudeは依然ほぼ満点

5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 447

レビュー

Claude Sonnet 4.6 材料制約が27.5点急落、メインランキングは逆行で1.4点上昇？

本日のSmoke評価で、AnthropicのClaude Sonnet 4.6は材料制約次元で27.5点急落する一方、コード実行次元では満点を獲得し、メインランキング総合では1.4点上昇という分極化した結果を示した。本記事ではこの変動が真の

Claude Sonnet 4.6 材料约束 Smoke评测模型退化

2026年5月15日 410

レビュー

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 425

レビュー

11モデル世代交代戦：首位は安定維持、Grokが最下位

2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 438

Claude Sonnet 4.6 に関するニュース

Qwen3 Max が92.50点でWDCD守約ランキング首位、豆包Pro は62.50点で最下位——30点差

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

Smoke 評価：10モデルがコード実行で満点、マテリアル制約が順位を決定づける

Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差

Claude Sonnet 4.6 SQL厳格問題で100点から0点に転落、メインボードでは逆に9.3ポイント上昇

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増

GeminiメインボードでSonnet 4.6が97.5点で首位、Geminiは23点暴落のSmoke快速テスト

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

3モデルが28分急落、Claudeは依然ほぼ満点

Claude Sonnet 4.6 材料制約が27.5点急落、メインランキングは逆行で1.4点上昇？

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

11モデル世代交代戦：首位は安定維持、Grokが最下位