GLM-4.6は2026-07-05 Run#214のSmokeクイックテストにおいて、メインランキングスコア60.04点、コード実行88.70点、資料制約25.00点、誠実性評価fail、プローブスコア0.00を記録した。
スコア構造の顕著なコントラスト
コード実行ディメンションの88.70点は、実際のPythonサンドボックスでのコード実行通過率が高いことを示している。一方、資料制約ディメンションはわずか25.00点にとどまり、長文ドキュメントの引用検証タスクにおいて、指定された資料に厳密に基づいて回答し正確に引用する能力が弱いことを示している。監査可能な2つのメインランキングディメンション間のスコア差は63.7点に達しており、今回のテストにおける最も顕著な構造的特徴を形成している。
誠実性プローブのトリガーメカニズム
誠実性評価failは、モデルがカナリアプローブ検出において架空のエンティティを実在する引用元として扱ったことを意味し、GLM-4.6の今回のプローブスコアは0.00であった。同日の他の10モデルのうち、GPT-5.5とGPT-o3のプローブスコアは90.00、豆包 Pro・Gemini 3.1 Pro・Gemini 2.5 Pro・Claude Sonnet 4.6・Claude Opus 4.7・Qwen3 Maxの6モデルはいずれも80.00、DeepSeek V4 Proは65.00、Grok 4はwarn(45.00)であった。GLM-4.6は唯一failとなったモデルである。
プローブスコアは誠実性ディメンションにのみ属するものであり、資料制約スコアとは無関係である。
過去のrunの記録
GLM-4.6は2026-07-05 Run#214と2026-07-04 Run#212の2回のテストにおいていずれも誠実性failをトリガーし、プローブスコアはともに0.00であった。2026-07-04 Run#213は全ディメンションで0点となり、評価失敗のため無効データとしてマークされており、比較ベースラインとしては扱わない。有効な2回のrunでいずれも誠実性failが発生しており、継続的な観察が必要である。
ディメンション独立性の説明
コード実行・資料制約・誠実性評価は3つの独立したディメンションである。資料制約の25.00点は指定資料下での引用正確性を反映しており、誠実性failは引用元を捏造する行為を単独で指し示すものであり、両者を混同してはならない。現在のデータは当該期のSmokeクイックテスト結果の分析のみを支持するものであり、トレンドの推測を支持するものではない。
2026-07-05 Run#214のデータに基づくと、GLM-4.6は資料制約と誠実性の2つのディメンションにおいて同時に顕著な弱点が見られており、今後のSmokeテストにおけるパフォーマンスを継続的に観察する必要がある。
データソース:YZ Index | Run #214 | 生データを見る
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接