WDCD実測:ロングコンテキストは金庫ではなく、より長い忘却の現場である
WDCD Run #105の実測データから、ロングコンテキスト能力を持つ大規模モデルが情報を保持できても、ユーザーからの圧力下で制約を実行し続けられないという構造的欠陥が明らかになった。59例の「1→1→0」減衰パターンは、記憶力と実行規律
WDCD Run #105の実測データから、ロングコンテキスト能力を持つ大規模モデルが情報を保持できても、ユーザーからの圧力下で制約を実行し続けられないという構造的欠陥が明らかになった。59例の「1→1→0」減衰パターンは、記憶力と実行規律
GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。
長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。