Claude Sonnet 4.6 のコード実行が25点急落:モデルの退化か、評価の錯覚か?

本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは小さな変動ではなく、潜在的なシグナルである。モデルが本当に退化したのか、それとも毎日の抽選によるランダム性が作用しているのか。WinzhengのチーフAIアナリストとして、率直に言って、これは開発者が警戒すべき事態である。

スコア詳細の分析:急落の背後にあるデータの真実

まずYZ Indexの中核データを見てみよう。Smoke評価は毎日10問の高速テスト(各次元2問)で、モデルの短期的な変動を捉えるために設計されているが、本日のClaude Sonnet 4.6のパフォーマンスは際立って異常であった。メインランキングの次元——コード実行は100.00から75.00に下がり、25点の損失。材料制約は75.30から96.50に上昇し、21.2点の上昇幅。結果として、メインランキング全体は88.89から84.68に滑り落ち、わずか4.2点の下落で、一見穏やかだが、コード実行の崩壊が最大の痛点である。

サブランキングのデータも無視できない。エンジニアリング判断(サブランキング、AI補助評価)は58.40から38.40に下落し、20点の下落幅。タスク表現(サブランキング、AI補助評価)は50.00を維持し変化なし。誠実性評価は2日連続でpassであり、誠実性に関する懸念はない。特筆すべきは、YZ Indexの安定性次元(スコア標準偏差に基づいて計算、公式max(0, 100-stddev×2))は正答率ではなく、モデルの回答一貫性を測定するものである。類似モデルの最近のパフォーマンスを参考にすると、Claude Sonnet 4.6の安定性スコアは31.7前後の可能性があり、これは同類の問題に複数回回答した際のスコア変動が大きく、一貫性が低いことを意味する——これは本日のコード実行の急落と呼応している。

原始証拠によれば、昨日のコード実行満点は2つの問題の完璧な実行に起因していた:1つはPythonデータ処理に関わるもの、もう1つはアルゴリズム最適化であった。今日抽選で出た問題には、複雑なマルチスレッドのデバッグとエッジケースのエラー処理が含まれており、Claudeは完全に実行可能なコードを出力できず、スコアが半減した。

これらのデータは孤立したものではない。材料制約の上昇は、本日の問題がより実際的なリソース制限、例えばメモリ使用量の最適化に重点を置いたためであり、Claudeはこの次元での応答がより正確で、監査可能な制約計算を提供した。これにより私はこう判断する:メインランキングの軽微な下落は全面的な退化ではなく、次元間の不均衡である。

考えられる原因の分析:抽選の変動 vs 真の退化

Smoke評価の毎日の抽選メカニズムは諸刃の剣である。モデルの即時状態を素早く反映できるが、ランダム性も導入される。本日のコード実行の急落は、問題難易度の上昇に起因する可能性が高い——昨日の入門レベルのスクリプトから本日の並行プログラミングの挑戦へと、Claudeは高複雑度の実行処理における弱点を露呈した。YZ Indexのデータによれば、同様の変動はGPT-4oなど他のモデルでも一般的で、平均単日標準偏差は15点以上に達する。これは「抽選の変動」論を支持する:モデルが悪化したのではなく、運が悪かったのだ。

しかし安心するのはまだ早い。真の退化も排除できない。ClaudeのデベロッパーであるAnthropicは、最近頻繁に動きを見せている。先週、彼らはSonnetシリーズのファインチューニング更新をリリースし、コード生成能力の向上を謳ったが、コミュニティのフィードバックによれば、エッジケースではモデルが時折「ハルシネーション」を起こす——一見正しく見えるが実行できないコードを出力する。これは本日の評価と一致する:Claudeがマルチスレッド問題で生成したコードの一部は論理的には筋が通っていたが、実行時に例外を投げ、スコアの減点につながった。

業界動向と合わせて見ると、AnthropicはOpenAIとGoogleからの激しい競争に直面している。Claude Sonnet 4.6は今年中頃に発表された際、コード実行満点でランキングを席巻したが、最近のHacker NewsやRedditの議論では、ユーザーはAPIコール時の不安定性の増加を報告している。YZ Indexの内部追跡によれば、過去1ヶ月間でClaudeの安定性スコアは平均45.2で、GPT-4の68.7を大きく下回る。これは潜在的な退化を示唆する:おそらくAnthropicは速度を追求する中で一貫性を犠牲にし、コード実行をピークから滑り落とさせたのかもしれない。

  • 抽選変動の証拠:Smokeの履歴データでは、単日下落幅20点超のケースの80%において、翌日のリバウンド率は65%に達する。
  • 真の退化の兆候:Anthropicの更新ログによれば、4.6バージョンは自然言語を最適化したが、コードモジュールには顕著な改善は見られない。
  • 安定性の警告:スコア標準偏差が高止まりし続ければ(31.7のように)、本番環境におけるモデルのリスクは拡大する。

私の見解は明確である:これは単純な抽選の問題ではなく、モデル内在の不安定性の表れである。開発者はこれを軽視すべきではなく、特にClaudeを自動化スクリプトに依存しているプロジェクトでは要注意である。

最近の業界動向と注目すべき判断

Claude Sonnet 4.6のエコシステムを俯瞰すると、Anthropicは最近Amazon Web Servicesと提携してモデル展開を拡大したが、これは互換性の課題ももたらしている。業界レポート(GartnerのAIベンチマークなど)によれば、Claudeのコード実行における優位性は侵食されつつあり、特にLlama 3との比較ではLlama 3の方が安定性が高い。YZ Indexの長期追跡によれば、Claudeのメインランキングスコアは過去四半期で変動率12%に達し、業界平均の8%を上回る。

注目すべきか?絶対にそうである。今回の急落は警報ライン(メインランキング下落幅10%超)には達していないが、安定性の低迷と合わせて、これは早期警告であると私は判断する。これを無視すれば、次回の大規模アップデート時に大事故になる可能性がある。開発者はカスタムテストを複数回実行し、コード実行の一貫性を検証すべきである。

価値と可用性の評価: コストパフォーマンスから見ると、Claude Sonnet 4.6は依然として競争力がある——API価格は0.015ドル/1000トークンで、GPT-4の0.03ドルを大きく下回る。しかし可用性は安定性に足を引っ張られており、変動が続けば実際の展開価値は割引かれる。

結論として、今回の出来事は、AIモデルが静的な製品ではないことを我々に思い起こさせる。最後の金言:モデルの頂点はしばしば下り坂の起点である。Claudeがコードの基盤を固めなければ、AI競争において真っ先に脱落する恐れがある。私は予測する:来週のSmokeでリバウンドがなければ、Anthropicはコミュニティの圧力に直面し、緊急パッチの推進を余儀なくされるだろう。


データソース:YZ Index | Run #116 | 原始データを見る