AIニュース — 業界レポートとグローバルカバレッジ

レビュー

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 224

レビュー

Doubao Pro コード実行が80点暴落、メインランキングで1日に41.2点下落

Doubao Pro が本日の Smoke 評価でメインランキングが81.33点から40.12点へ41.2点下落。コード実行次元が満点100点から20点へ崩落し、単日で80点を失った。

豆包 Pro 代码执行 Smoke评测模型波动

2026年5月28日 306

レビュー

Gemini 3.1 Proのコード実行が80点急落、メインランキングで一日に33.5点ダウン

Gemini 3.1 Proが本日のSmoke評価でメインランキング33.5点を失い、コード実行スコアが100.00から20.00へと急落した。最近の安全アライメント強化が原因の可能性が高い。

Gemini 3.1 Pro 代码执行 Smoke评测单日波动

2026年5月28日 249

レビュー

Smoke評価で全モデル腰砕け：11モデルのメインランキングが平均42点暴落、コード実行次元で集団崩壊

本日未明3時に発表されたSmoke評価で、11の主要モデルがメインランキングで集団崩壊し、平均下落幅は42点に達した。コード実行次元の崩壊が主因で、全モデルの実行スコアが20または0に腰砕けとなった。

代码执行材料约束 Gemini 3.1 Pro 评测波动

2026年5月28日 300

レビュー

Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか

今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力（約束を守る能力）」で英語圏モデルとの差を急速に縮めている。

WDCD 守约测试 AI模型评测周期变化追踪

2026年5月27日 371

レビュー

WDCD横断評価で判明：業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大

WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。

WDCD 守约测试模型选型场景偏科

2026年5月27日 378

レビュー

R1で93%が即承諾、R3では26.4%しか守れず：11モデルWDCD三段階崩壊実測

WDCD三段階テストにより、モデルの「口先だけの紳士」の仮面が剥がされた。R1段階での平均確認率0.93は華やかに見えるが、R3で直接圧力をかけると誠実率は26.4%まで急落し、67回のテストでモデルが完全に制約を放棄した。

WDCD 守约测试模型衰减 R3崩溃

2026年5月27日 292

レビュー

Qwen3 Max が72.5点でWDCD制覇、ERNIE Botは45点で最下位、R3崩壊率は60.9%

WDCD遵守テストの3ラウンド対話で、Qwen3 Maxが72.50点で首位を獲得し、2位のClaude Sonnet 4.6を7.5点引き離した。ERNIE Bot 4.5は45点で唯一50点を下回り、R3段階での崩壊率60.9%は業界の

WDCD 守约测试 AI模型排行榜大模型合规性

2026年5月27日 259

レビュー

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 267

レビュー

Claude Opus 4.7、素材制約が単日15ポイント下落 ― Smokeテストの揺らぎか、真の劣化か

Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年5月27日 242

レビュー

11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに

Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。

材料约束 Claude Opus 4.7 模型评测能力退化

2026年5月27日 233

レビュー

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 290

レビュー

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。

Claude Opus 4.7 材料约束 Smoke评测主榜波动

2026年5月26日 270

レビュー

Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに

Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。

DeepSeek V4 Pro 材料约束 Gemini 2.5 Pro Smoke 轻量评测

2026年5月26日 320

レビュー

MLCommonsが2026 Rising Starsを発表：39名の機械学習システム新星が選出

MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を

MLC MLCommons 机器学习系统 AI人才

2026年5月25日 293

レビュー

ERNIE Bot 4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

ERNIE Bot 4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。

文心一言4.5 代码执行 Smoke评测百度大模型

2026年5月25日 228

レビュー

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ

DeepSeek V4 Pro 诚信评级 Smoke测试单日波动

2026年5月25日 220

レビュー

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行

2026年5月25日 194

レビュー

GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊

GPT-o3が本日のSmoke評価において、コード実行次元で90.00から47.50へ急落し、メインランキング全体も18点下落して58.08となった。コード実行の堅牢性が著しく損なわれた可能性を示唆する信号である。

GPT-o3 代码执行 Smoke评测模型波动

2026年5月24日 366

レビュー

ERNIE Bot 4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇

ERNIE Bot 4.5は本日のSmoke簡易テストでエンジニアリング判断が50点から10点へ急落したが、素材制約は55.8点から80.5点へ跳ね上がり、メインランキング総合は74点から88.48点へ上昇した。単日の側面ランキング崩壊はモ

文心一言4.5 工程判断 Smoke评测百度AI

2026年5月24日 268

AIレビュー

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Doubao Pro コード実行が80点暴落、メインランキングで1日に41.2点下落

Gemini 3.1 Proのコード実行が80点急落、メインランキングで一日に33.5点ダウン

Smoke評価で全モデル腰砕け：11モデルのメインランキングが平均42点暴落、コード実行次元で集団崩壊

Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか

WDCD横断評価で判明：業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大

R1で93%が即承諾、R3では26.4%しか守れず：11モデルWDCD三段階崩壊実測

Qwen3 Max が72.5点でWDCD制覇、ERNIE Botは45点で最下位、R3崩壊率は60.9%

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Opus 4.7、素材制約が単日15ポイント下落 ― Smokeテストの揺らぎか、真の劣化か

11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに

MLCommonsが2026 Rising Starsを発表：39名の機械学習システム新星が選出

ERNIE Bot 4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊

ERNIE Bot 4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇