AIニュース — 業界レポートとグローバルカバレッジ

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 594

レビュー

Claude Opus 4.7、素材制約が単日15ポイント下落 ― Smokeテストの揺らぎか、真の劣化か

Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年5月27日 506

レビュー

11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに

Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。

材料约束 Claude Opus 4.7 模型评测能力退化

2026年5月27日 588

レビュー

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 531

レビュー

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。

Claude Opus 4.7 材料约束 Smoke评测主榜波动

2026年5月26日 581

レビュー

Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに

Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。

DeepSeek V4 Pro 材料约束 Gemini 2.5 Pro Smoke 轻量评测

2026年5月26日 660

レビュー

MLCommonsが2026 Rising Starsを発表：39名の機械学習システム新星が選出

MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を

MLC MLCommons 机器学习系统 AI人才

2026年5月25日 649

レビュー

ERNIE Bot 4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

ERNIE Bot 4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。

文心一言4.5 代码执行 Smoke评测百度大模型

2026年5月25日 503

レビュー

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ

DeepSeek V4 Pro 诚信评级 Smoke测试单日波动

2026年5月25日 475

レビュー

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行

2026年5月25日 488

レビュー

GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊

GPT-o3が本日のSmoke評価において、コード実行次元で90.00から47.50へ急落し、メインランキング全体も18点下落して58.08となった。コード実行の堅牢性が著しく損なわれた可能性を示唆する信号である。

GPT-o3 代码执行 Smoke评测模型波动

2026年5月24日 600

レビュー

ERNIE Bot 4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇

ERNIE Bot 4.5は本日のSmoke簡易テストでエンジニアリング判断が50点から10点へ急落したが、素材制約は55.8点から80.5点へ跳ね上がり、メインランキング総合は74点から88.48点へ上昇した。単日の側面ランキング崩壊はモ

文心一言4.5 工程判断 Smoke评测百度AI

2026年5月24日 528

レビュー

GPT-5.5が29.7点の逆襲、GPT-o3は36.4点の急落：2026 W21 Smoke 7日間トレンド

2026年W21週のSmoke快速テストでは、GPT-5.5が7日間で29.7点の上昇を見せた一方、GPT-o3とDeepSeek V4 Proが大幅下落し、誠実性評価でも警告が頻発した。Gemini 3.1 ProやQwen3 Maxなど

GPT-5.5 稳定性 Smoke评测诚信评级

2026年5月24日 663

レビュー

GPT-o3が主要ランキングで18点急落、DoubaoProが一日で35.8点急騰し逆転で5位以内へ

GPT-o3が本日のSmoke評価で実行スコアがほぼ半減し、主要ランキングが76点から58.08点へ急落。一方、DoubaoProは制約スコアが大幅に改善し、トップ4入りを果たした。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 462

レビュー

Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増

Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった

Claude Sonnet 4.6 材料约束 Smoke评测模型波动

2026年5月23日 497

レビュー

Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇

本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。

Grok 4 材料约束 Smoke评测模型波动

2026年5月23日 547

レビュー

素材制約が一斉に20点暴落、Grok 4が81.55点でClaudeを僅差で抑え首位に

本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下

材料约束 Grok 4 Smoke轻量评测模型波动

2026年5月23日 521

レビュー

Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇

Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。

Claude Opus 4.7 材料约束 Smoke评测 Anthropic更新

2026年5月22日 409

レビュー

Gemini 3.1 Pro メインボードで8.5点の急落、コード実行が9.5点の暴落抽選か退化か

Gemini 3.1 Pro は本日の Smoke 評価でメインスコアが8.5点下落し、コード実行次元は66.70から57.20へと急落しました。サンプル数の少なさによる変動か、それとも実質的な能力低下なのかを分析します。

Gemini 3.1 Pro 代码执行 Smoke快测模型波动

2026年5月22日 513

レビュー

Smoke簡易テスト：DoubaoPro実行スコア100点で独走、9モデル主要ランキングで30点以上の大幅下落

本日のSmoke簡易評価でDoubaoProが91.23点で首位を独占し、コード実行で100点満点を獲得。一方、他の主要モデルは実行スコアが軒並み崩壊し、Gemini 2.5 Proなど9モデルが主要ランキングで30点以上の大幅下落となった

豆包 Pro 代码执行主榜暴跌评测异常

2026年5月22日 477

AIレビュー

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Opus 4.7、素材制約が単日15ポイント下落 ― Smokeテストの揺らぎか、真の劣化か

11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに

MLCommonsが2026 Rising Starsを発表：39名の機械学習システム新星が選出

ERNIE Bot 4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊

ERNIE Bot 4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇

GPT-5.5が29.7点の逆襲、GPT-o3は36.4点の急落：2026 W21 Smoke 7日間トレンド

GPT-o3が主要ランキングで18点急落、DoubaoProが一日で35.8点急騰し逆転で5位以内へ

Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増

Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇

素材制約が一斉に20点暴落、Grok 4が81.55点でClaudeを僅差で抑え首位に

Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇

Gemini 3.1 Pro メインボードで8.5点の急落、コード実行が9.5点の暴落 抽選か退化か

Smoke簡易テスト：DoubaoPro実行スコア100点で独走、9モデル主要ランキングで30点以上の大幅下落

Gemini 3.1 Pro メインボードで8.5点の急落、コード実行が9.5点の暴落抽選か退化か