SWE-bench に関するニュース

オリジナル

Claude 3.5 Sonnetがプログラミングベンチマークでゲームチェンジ:49%の正確率でGPT-4oを凌駕し、開発者コミュニティを熱狂させる

AnthropicのClaude 3.5 Sonnetがソフトウェアエンジニアリングベンチマークテスト「SWE-bench」で49%の正確率を達成し、GPT-4o(33.2%)を大きく上回った。この技術的ブレークスルーはX上で数万回シェアさ

Claude 3.5 Sonnet Anthropic SWE-bench 编程AI
480