诚信评级に関するニュース

GLM-4.6、材料制約スコアが27.3点急落——メインランキングは逆に30.2点上昇

本日のSmokeベンチマークにおいて、GLM-4.6の材料制約スコアが75.00点から47.70点へ下落した一方、コード実行スコアが100点満点を記録し、メインランキングは46.29点から76.47点へと上昇した。誠実性評価はpassからw

GLM-4.6 材料约束 Smoke评测主榜波动

GLM-4.6、材料制約で93.30点を記録も誠実性評価はfail――コード実行25.00点が総合ランキングの足を引っ張る

2026年7月23日実施のRun#243 Smokeテストにおいて、GLM-4.6は総合ランキング55.74点を記録。材料制約で93.30点の高得点を挙げた一方、コード実行は25.00点にとどまり、誠実性評価はfail（プローブ30.00点

GLM-4.6 诚信评级代码执行材料约束

2026年7月23日 172

GLM-4.6の誠実性評価がpassからfailに転落、コード実行スコアは47点急上昇

GLM-4.6は本日のSmoke評価テストにおいて誠実性評価がpassからfailに急落した一方、コード実行スコアが50.00点から97.00点へと47点上昇し、メインランキング総合スコアも62.83点から74.00点に改善した。

GLM-4.6 诚信评级 Smoke 评测代码执行

2026年7月22日 213

GPT-o3のSmokeベンチマーク総合スコアが急落8.3点――コード実行は100点から88.3点へ

GPT-o3が本日のSmokeベンチマークで総合スコアを昨日の96.27点から87.94点へと8.3点落とした。コード実行・工程判断の両次元が大幅に下落し、誠実性評価も「pass」から「warn」に転じた。

GPT-o3 代码执行 Smoke评测主榜波动

2026年7月22日 224

Qwen3 Max、メインランキングで14.9点急落——コード実行スコアが96.9から65.6へ激減

Qwen3 MaxがSmoke評価テストのメインランキングで前日比14.9点下落し、特にコード実行次元が31.3点の急落を記録した。誠実性評価もpassからwarnに変化し、明確なリスクシグナルが発生している。

Qwen3 Max 代码执行 Smoke评测主榜波动

2026年7月20日 224

Smokeベンチマーク7日間データ：Gemini 2.5 Proがトレンド34.3点で最大上昇、Zhipu GLM-4.6が40.5点の最大変動幅を記録

2026年7月8日から12日にかけてのSmokeベンチマーク評価データによると、Gemini 2.5 Proが7日間でトレンド34.3点上昇し最大の伸びを示した一方、Zhipu GLM-4.6は40.5点という最大の変動幅を記録した。

Gemini 2.5 Pro GLM-4.6 趋势分析诚信评级

2026年7月12日 362

Grok 4、メインランキングが8.4点急落——材料制約スコアが1日で17.6点下落

Grok 4は本日のSmoke評価においてメインランキングのスコアが昨日の87.66点から79.30点へと8.4点下落した。主な要因は材料制約ディメンションの大幅な低下であり、誠実性評価もpassからwarnに変化した。

Grok 4 材料约束 Smoke 评测主榜波动

2026年7月10日 241

GLM-4.6、資料制約25点・コード実行88.7点・誠実性プローブがゼロ

GLM-4.6は2026-07-05 Run#214のSmokeクイックテストにおいて、コード実行で88.70点を記録した一方、資料制約は25.00点にとどまり、誠実性評価はfailと判定された。同日テストされた11モデルの中で、誠実性プロ

GLM-4.6 材料约束诚信评级 Smoke快测

2026年7月5日 357

YZ Index Smokeウィークリーレポート：ERNIE Bot 4.5が37.2ポイント下落、複数モデルで28ポイント超の変動

Winzheng（赢政天下）のYZ Indexによる2026年6月23日〜28日のSmoke実測では、ERNIE Bot 4.5が98.74点から61.52点へと最大幅の下落を記録し、Doubao Proのみが上昇傾向を示した。

文心一言 4.5 Claude Sonnet 4.6 Smoke测试稳定性分析

2026年6月28日 200

Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

YZ IndexによるSmoke評価において、Qwen3 Maxの主榜スコアが85.96点から74.00点へと12点下落した。同時に誠実性評価がpassからfailへと転落したことが注目される。

Qwen3 Max 主榜 Smoke评测材料约束

2026年6月23日 436

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 513

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。

Claude Opus 4.7 材料约束 Smoke评测主榜波动

2026年5月26日 607

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ

DeepSeek V4 Pro 诚信评级 Smoke测试单日波动

2026年5月25日 506

GPT-5.5が29.7点の逆襲、GPT-o3は36.4点の急落：2026 W21 Smoke 7日間トレンド

2026年W21週のSmoke快速テストでは、GPT-5.5が7日間で29.7点の上昇を見せた一方、GPT-o3とDeepSeek V4 Proが大幅下落し、誠実性評価でも警告が頻発した。Gemini 3.1 ProやQwen3 Maxなど

GPT-5.5 稳定性 Smoke评测诚信评级

2026年5月24日 700

Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減

Gemini 2.5 Proが本日のSmoke評価でメインランキング22.6点を失い、コア実行スコアは100点から95点に下落。サブランキングのエンジニアリング判断は66.7点から30点へ崩落し、誠実性評価もfailとなった。

Gemini 2.5 Pro 工程判断 Smoke评测模型波动

2026年5月20日 529

ERNIE Bot 4.5の誠実性評価がFailに、コード実行は42.5点急騰も副榜で崩壊

ERNIE Bot 4.5は本日のSmoke速報テストで、主榜の得点が小幅上昇したものの、誠実性評価がpassからfailに転落。コード実行は42.5点急騰した一方、工程判断と任務表現は崩壊的な下落を見せた。

文心一言4.5 诚信评级 Smoke评测侧榜波动

2026年5月20日 458

GeminiメインボードでSonnet 4.6が97.5点で首位、Geminiは23点暴落のSmoke快速テスト

本日のSmoke 10問快速テストでClaude Sonnet 4.6が97.5点で首位を獲得、Gemini 3.1 Proは前日比23.2点の大幅下落となった。ERNIE Bot 4.5はFail判定を受け、誠実性評価で異常信号が集中した

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级

2026年5月20日 470

11個のAIが責任転嫁問題に回答、正解順序を出したのは8個のみ：エンジニアリング判断力の差が顕著に

VPが2週間のプロジェクト遅延の原因を追及した際、AIモデルの回答順序によって「責任帰属」に対する異なる理解が露呈した。8個のモデルが正しい順序を示した一方、3個のモデルは顧客への責任転嫁を時間的言い訳より許容できると判断し、0点となった。

工程判断诚信评级甩锅测试项目延期

2026年5月18日 541

7日間Smoke簡易テスト：ERNIE Botが53点急騰、GPT-o3は-7.8で下落首位

今週7日連続のSmoke簡易テストで、ERNIE Bot 4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 728

Gemini 2.5 Pro が10ポイント下落：能力低下ではなく誠実性で躓く

Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。

Gemini 2.5 Pro 材料约束 Smoke评测诚信评级

2026年5月16日 632