材料约束に関するAIニュース | Winzheng AI ニュース

レビュー

Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点

本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距

2026年6月12日 433

レビュー

Smoke 評価：10モデルがコード実行で満点、マテリアル制約が順位を決定づける

本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約（grounding）によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 526

レビュー

Claude Sonnet 4.6が97.53点でトップ、材料制約でERNIE Botと40点差

Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。

Claude Sonnet 4.6 材料约束 Smoke轻量评测主榜排名

2026年6月10日 469

レビュー

Smoke日報：GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定

今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5とERNIE Bot 4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。

GPT-5.5 材料约束代码执行满分 Smoke评测

2026年6月9日 513

レビュー

二分木シリアライズ実測：11モデルで満点7つ、ゼロ点直行4つ

「コードのみ返却、空ノードを明示的にエンコード、結果は安定して一致」を要求する二分木シリアライズ問題で、11のモデルが満点と0点に二極化した。フォーマット準拠がアルゴリズムの実装能力以上に重要であることが明らかになった。

代码执行材料约束二叉树序列化工程实现

2026年6月8日 536

レビュー

11モデルによる括弧マッチング同一問題テスト：7つが満点、4つが0点

主流の11モデルに同じ括弧マッチングデバッグ問題を解かせた結果、7モデルが100点、4モデルが0点と明確に二極化した。核心的な問題は、関数末尾の裸の「return」がNoneを返してしまう点にあった。

代码执行材料约束括号匹配调试对比

2026年6月8日 552

レビュー

11個のモデルが同じクロージャ問題で全て[2,2,2]と回答、しかしYZ Indexでは全員0点

わずか6行のPythonクロージャ問題で、11個のモデルが揃って正解の[2,2,2]を出したにもかかわらず、YZ Indexでは全モデルが0点となった。これは評価軸が「知識」から「指示への完全な従順性」へと移行していることを示している。

代码执行材料约束 Python 闭包模型一致性

2026年6月8日 493

レビュー

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に

本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测

2026年6月8日 597

レビュー

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

代码执行材料约束 Claude Opus 4.7 Smoke评测

2026年6月5日 554

レビュー

Smokeクイックテスト：ERNIE Bot 4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。ERNIE Bot 4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さ

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 567

レビュー

三大モデルが Smoke ランキング首位に並列、実行は満点も制約に警告

Smoke 本日のクイックテストで Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5 が 87.76 点で並列首位となり、コード実行は満点だが材料制約次元で warn シグナルが発生した。

Claude Opus 材料约束 Smoke 评测代码执行

2026年6月3日 497

レビュー

GPT-5.5 が素材制約71点でSmokeランキング首位に、コード満点後の後半戦で差が拡大

本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。

GPT-5.5 材料约束 Smoke评测代码执行

2026年6月2日 547

レビュー

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 546

レビュー

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 489

レビュー

Smoke評価で全モデル腰砕け：11モデルのメインランキングが平均42点暴落、コード実行次元で集団崩壊

本日未明3時に発表されたSmoke評価で、11の主要モデルがメインランキングで集団崩壊し、平均下落幅は42点に達した。コード実行次元の崩壊が主因で、全モデルの実行スコアが20または0に腰砕けとなった。

代码执行材料约束 Gemini 3.1 Pro 评测波动

2026年5月28日 618

レビュー

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 588

レビュー

Claude Opus 4.7、素材制約が単日15ポイント下落 ― Smokeテストの揺らぎか、真の劣化か

Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年5月27日 504

レビュー

11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに

Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。

材料约束 Claude Opus 4.7 模型评测能力退化

2026年5月27日 584

レビュー

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 529

レビュー

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。

Claude Opus 4.7 材料约束 Smoke评测主榜波动

2026年5月26日 578

材料约束 に関するニュース

Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点

Smoke 評価：10モデルがコード実行で満点、マテリアル制約が順位を決定づける

Claude Sonnet 4.6が97.53点でトップ、材料制約でERNIE Botと40点差

Smoke日報：GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定

二分木シリアライズ実測：11モデルで満点7つ、ゼロ点直行4つ

11モデルによる括弧マッチング同一問題テスト：7つが満点、4つが0点

11個のモデルが同じクロージャ問題で全て[2,2,2]と回答、しかしYZ Indexでは全員0点

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ 素材制約が最大の分水嶺に

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

Smokeクイックテスト：ERNIE Bot 4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

三大モデルが Smoke ランキング首位に並列、実行は満点も制約に警告

GPT-5.5 が素材制約71点でSmokeランキング首位に、コード満点後の後半戦で差が拡大

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Smoke評価で全モデル腰砕け：11モデルのメインランキングが平均42点暴落、コード実行次元で集団崩壊

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Opus 4.7、素材制約が単日15ポイント下落 ― Smokeテストの揺らぎか、真の劣化か

11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

材料约束に関するニュース

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に