330回の圧力テスト:63%の大規模モデルが3ラウンド目で「裏切った」
YZ Indexが新たに発表したWDCD(動的コンテキスト減衰)契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下
YZ Indexが新たに発表したWDCD(動的コンテキスト減衰)契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下
OpenAIが最新の閉源モデルGPT-5.5を発表しました。このモデルはエージェント能力の強化に焦点を当てており、初期のベンチマークテスト結果にはばらつきが見られます。
OpenAIは4月24日にGPT-5.5とGPT-5.5 Proを正式にリリースしましたが、技術詳細や商業化の価格設定をまだ公開しておらず、業界内で注目を集めています。