Gemini 3.1 Proのコード実行が80点急落、メインランキングで一日に33.5点ダウン
Gemini 3.1 Proが本日のSmoke評価でメインランキング33.5点を失い、コード実行スコアが100.00から20.00へと急落した。最近の安全アライメント強化が原因の可能性が高い。
Gemini 3.1 Proが本日のSmoke評価でメインランキング33.5点を失い、コード実行スコアが100.00から20.00へと急落した。最近の安全アライメント強化が原因の可能性が高い。
本日未明3時に発表されたSmoke評価で、11の主要モデルがメインランキングで集団崩壊し、平均下落幅は42点に達した。コード実行次元の崩壊が主因で、全モデルの実行スコアが20または0に腰砕けとなった。
今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力(約束を守る能力)」で英語圏モデルとの差を急速に縮めている。
WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。
WDCD三段階テストにより、モデルの「口先だけの紳士」の仮面が剥がされた。R1段階での平均確認率0.93は華やかに見えるが、R3で直接圧力をかけると誠実率は26.4%まで急落し、67回のテストでモデルが完全に制約を放棄した。
WDCD遵守テストの3ラウンド対話で、Qwen3 Maxが72.50点で首位を獲得し、2位のClaude Sonnet 4.6を7.5点引き離した。ERNIE Bot 4.5は45点で唯一50点を下回り、R3段階での崩壊率60.9%は業界の
Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆
Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。
Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。
Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。
Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。
Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
ERNIE Bot 4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
GPT-o3が本日のSmoke評価において、コード実行次元で90.00から47.50へ急落し、メインランキング全体も18点下落して58.08となった。コード実行の堅牢性が著しく損なわれた可能性を示唆する信号である。
ERNIE Bot 4.5は本日のSmoke簡易テストでエンジニアリング判断が50点から10点へ急落したが、素材制約は55.8点から80.5点へ跳ね上がり、メインランキング総合は74点から88.48点へ上昇した。単日の側面ランキング崩壊はモ
2026年W21週のSmoke快速テストでは、GPT-5.5が7日間で29.7点の上昇を見せた一方、GPT-o3とDeepSeek V4 Proが大幅下落し、誠実性評価でも警告が頻発した。Gemini 3.1 ProやQwen3 Maxなど
GPT-o3が本日のSmoke評価で実行スコアがほぼ半減し、主要ランキングが76点から58.08点へ急落。一方、DoubaoProは制約スコアが大幅に改善し、トップ4入りを果たした。