GPT-o3 蓄水池サンプリング問題で100点から0点に急落、コード実行の真相は細部に隠れている

GPT-o3は今回のv6評価において、メインランキングが75.86から82.82に上昇し、素材制約は66.40から一気に14ポイント上昇して80.40に達した。表面的にはモデル全体の能力が進歩しているように見えるが、厳格問題「蓄水池サンプリング」のスコアが100点から0点に崩れ落ち、この一問の失敗がコード実行の信頼性を直接低下させた。

元の回答が露呈した致命的な欠陥

失点した問題で提供されたコード断片は以下の通り:

def reservoir_sample(stream, k, seed=None):
rng = random.Random(seed)
reservoir = []
if k <= 0:
return reservoir
for i, item in enumerate(stream):
if i < k:
reservoir.append(item)
else:
j = rng.randrange(i + 1)
if j < k:

このコードは11行目で突然切断されており、ランダム置換ロジックも完成しておらず、return文の処理もない。蓄水池サンプリングアルゴリズムの核心は、i >= kのときにk/iの確率でreservoir内の要素を置換するか否かを決定する点にあるが、上記の回答ではこの重要な分岐すら書き終えておらず、厳格採点で直接0点となった。

エンジニアリング判断の急上昇とコード実行の乖離

同一バッチのデータで、エンジニアリング判断(サイドランキング、AI補助評価)は41.20から91.50へ急上昇し、タスク表現も40.00から87.50に上がった。モデルはシステム障害シナリオの説明やアーキテクチャ提案では余裕を見せるが、古典的アルゴリズムの正確な実装が求められる厳格問題になると、たちまち綻びを露呈する。

このギャップは、現在の最適化が「正しく書く」ことよりも「分かりやすく説明する」ことに偏っている可能性を示している。コード実行次元はわずか1.2ポイント増の84.80に留まり、エンジニアリング判断の50ポイントの上昇とは対照的だ。

安定性向上の真の意味

安定性は33.8から58.0に上昇した。max(0,100-stddev×2)の式で計算すると、これはモデルが同種の問題に複数回回答した際のスコアの標準偏差が縮小し、一貫性が改善したことを意味する。しかし単問で0点という事実は、一貫性の向上が正答率の向上と同義ではないことを我々に思い出させる。特に厳密な数学的証明が必要なアルゴリズム問題では、モデルは一度に完全に失敗する可能性が依然としてある。

  • legacy次元では知識統合が53.9から91.2に上昇し、モデルの概念再述能力が大幅に強化されたことを示している。
  • しかしv5のコード実行は逆に84.5から82.2にわずかに低下しており、新バージョンが厳格なコード実装において全面的に優位性を継承していないことを示している。

誠実性評価は73.90から90.60に、コストパフォーマンスは8.5から10.5に上昇し、可用性は満点を維持している。これらはいずれも前向きなシグナルだが、アルゴリズム実装能力の弱点を覆い隠すことはできない。

核心的判断

GPT-o3は現時点では解決策を言語で説明することに長けているが、ゼロエラーが求められるコード実装には依然として系統的なリスクが存在する。蓄水池サンプリング問題の0点は偶然のミスではなく、モデルが精密な確率アルゴリズムにおいて持続的に抱える実装の断層である。

将来のバージョンでコード実行の上限を本当に引き上げたいのであれば、厳格な採点環境下でこの種の古典的アルゴリズムを繰り返し磨き上げる必要があり、エンジニアリング記述のスコアだけでサイドランキングを引き上げるべきではない。


データソース:YZ Index (赢政指数) | Run #154 | 元データを表示