Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点
本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。
本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。
本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約(grounding)によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。
Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。
今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。
「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。
主流の11モデルに同じ括弧マッチングデバッグ問題を解かせた結果、7モデルが100点、4モデルが0点と明確に二極化した。核心的な問題は、関数末尾の裸の「return」がNoneを返してしまう点にあった。
わずか6行のPythonクロージャ問題で、11個のモデルが揃って正解の[2,2,2]を出したにもかかわらず、YZ Indexでは全モデルが0点となった。これは評価軸が「知識」から「指示への完全な従順性」へと移行していることを示している。
本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。
2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい
Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。
Smoke 本日のクイックテストで Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5 が 87.76 点で並列首位となり、コード実行は満点だが材料制約次元で warn シグナルが発生した。
本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。
Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。
Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。
本日未明3時に発表されたSmoke評価で、11の主要モデルがメインランキングで集団崩壊し、平均下落幅は42点に達した。コード実行次元の崩壊が主因で、全モデルの実行スコアが20または0に腰砕けとなった。
Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆
Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。
Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。
Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。
Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。