Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに
Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。
Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。
Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった
本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。
本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下
Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。
Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。
本日のSmoke 10問快速テストでClaude Sonnet 4.6が97.5点で首位を獲得、Gemini 3.1 Proは前日比23.2点の大幅下落となった。ERNIE Bot 4.5はFail判定を受け、誠実性評価で異常信号が集中した
DoubaoProが本日のSmoke評価でマテリアル制約スコアが95点から79.8点へ15.2点急落し、メインランキングも97.75点から90.91点に下落した。原因は出題抽選による偶発性か、それともモデル能力の短期的退化か注目される。
同じSQL連続ログイン問題で、11個の主流モデルが2つの陣営にはっきり分かれた。8個は完全に正しい回答を出した一方、3個は完全に崩壊した。
YZ Index v6のコード実行テストにおいて、「SQL:月次定着率Cohort」という問題で11モデルの実力差が明らかになった。9モデルが0点を取り、DeepSeek V4 ProとGrok 4のみが66.7点を獲得した。
11個の主要AIモデルが同一のSQL集約クエリ問題に直面し、明確な実行格差が現れた。8モデルが60点を獲得した一方、Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3の3モデルは日付構文とMySQL方言の互換性
本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。
Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が
Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適
本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ラン
Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。
5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。
DeepSeek V4 Proがメインランキングで5点上昇したものの、誠実性評価がpassからfailに転落。コード実行が満点を獲得した一方で、素材制約と誠実性に問題が露呈した。
本日のSmoke評価で、AnthropicのClaude Sonnet 4.6は材料制約次元で27.5点急落する一方、コード実行次元では満点を獲得し、メインランキング総合では1.4点上昇という分極化した結果を示した。本記事ではこの変動が真の
11モデルを対象とした軽量評価Smokeで、Claude Opus 4.7が88.75点で首位を獲得。9モデルがコード実行満点を取る中、ERNIE Bot 4.5とGrok 4はコード実行でゼロ点となった。