大模型评测に関するニュース

330回の圧力テスト：63%の大規模モデルが3ラウンド目で「裏切った」

YZ Indexが新たに発表したWDCD（動的コンテキスト減衰）契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下

WDCD 守约测试赢政指数大模型评测

2026年5月3日 801

オリジナル

OpenAIがGPT-5.5を正式に発表、エージェント能力を強化早期のベンチマークテスト結果は一様でない

OpenAIが最新の閉源モデルGPT-5.5を発表しました。このモデルはエージェント能力の強化に焦点を当てており、初期のベンチマークテスト結果にはばらつきが見られます。

GPT-5.5 OpenAI 大模型评测智能体技术

2026年4月27日 738

オリジナル

OpenAI、4月24日にGPT-5.5シリーズを正式発表技術詳細と価格未公開で議論を呼ぶ

OpenAIは4月24日にGPT-5.5とGPT-5.5 Proを正式にリリースしましたが、技術詳細や商業化の価格設定をまだ公開しておらず、業界内で注目を集めています。

OpenAI GPT-5.5 AI智能体大模型评测

2026年4月25日 751