SWE-bench に関するAIニュース | Winzheng AI ニュース

オリジナル

Cursor Composer 2が開発者の熱狂を巻き起こす：驚異的な性能の陰でKimi K2.5透明性危機に直面

Cursorが発表したComposer 2は優れたコーディング性能で開発者の注目を集めたが、実際にはMoonshot AIのKimi K2.5モデルの改良版であることが判明し、モデルの透明性と著作権に関する議論を引き起こしている。

Cursor Composer 2 Cursor AI Kimi K2.5 Moonshot争议

2026年3月21日 1,292

オリジナル

Claude 3.5 Sonnet、SWE-benchのコーディング基準で首位に：72.7%のスコアでAIプログラミング分野をリード

AnthropicのClaude 3.5 Sonnetがソフトウェア工学ベンチマークSWE-benchで72.7%という驚異的なスコアを記録し、初めてAIのコーディング能力を70%以上に押し上げ、プログラミング分野で最強のAIとなった。

Claude 3.5 Sonnet SWE-bench AI编码 Anthropic

2026年2月13日 1,054

オリジナル

Claude 3.5 Sonnetがプログラミングベンチマークでゲームチェンジ：49%の正確率でGPT-4oを凌駕し、開発者コミュニティを熱狂させる

AnthropicのClaude 3.5 Sonnetがソフトウェアエンジニアリングベンチマークテスト「SWE-bench」で49%の正確率を達成し、GPT-4o（33.2%）を大きく上回った。この技術的ブレークスルーはX上で数万回シェアさ

Claude 3.5 Sonnet Anthropic SWE-bench 编程AI

2026年2月12日 669

オリジナル

Claude 3.5 Sonnetがコーディングテストで90%突破：AIプログラミング能力が人間レベルに接近

AnthropicのClaude 3.5 Sonnetモデルがソフトウェアエンジニアリング基準テストSWE-benchで92.0%のスコアを達成し、AIコーディング能力の新たな段階を示した。この突破は開発者コミュニティで熱い議論を呼び、AI

Claude 3.5 Anthropic SWE-bench AI编码

2026年2月4日 556

オリジナル

Claude 3.5 Sonnet、コーディングテストSWE-benchで90%超を達成、AI プログラミング能力が人間レベルへ

AnthropicのClaude 3.5 Sonnetがソフトウェア工学ベンチマークSWE-benchで90%以上のスコアを達成し、AIコーディング能力の新時代到来を示した。この成果は複数の記録を更新し、開発者コミュニティで広範な議論とプロ

Claude 3.5 Anthropic SWE-bench 编码AI

2026年2月4日 552

オリジナル

Claude 3.5 Sonnetのエンコーディング能力がSWE-benchで首位に：49%のスコアがGPT-4oを33%上回る

Anthropic社のClaude 3.5 Sonnetモデルが、SWE-benchというソフトウェア工学の基準テストで49%のタスク解決率を達成し、OpenAIのGPT-4oを大きく上回った。この結果は、コード生成AIの性能記録を更新し、

Claude 3.5 Sonnet SWE-bench 编码AI Anthropic

2026年2月3日 669

オリジナル

Claude 3.5 SonnetがSWE-benchでトップに：49%の正確率でGPT-4oを凌駕、開発者の生産性に新革命

AnthropicのClaude 3.5 SonnetがSWE-benchで49%の正確率を記録し、GPT-4oを超える成果を上げました。これにより、開発者の生産性向上が期待され、AIが新たな革命を引き起こしています。

Claude 3.5 Sonnet SWE-bench Anthropic 编码AI

2026年2月2日 754

オリジナル

Anthropic Claude 3.5 Sonnet登場：プログラミング基準でGPT-4oを20%リード、開発者コミュニティで話題沸騰

AnthropicはClaude 3.5 Sonnetモデルを発表し、このモデルはSWE-bench Verified基準テストで49%のスコアを達成し、OpenAIのGPT-4oを約20%リードしました。このニュースは開発者コミュニティで

Claude 3.5 Anthropic GPT-4o 编程基准

2026年2月2日 601

オリジナル

Claude 3.5 Sonnet、SWE-bench基準でリードし、コード生成能力がGPT-4oを超える

Claude 3.5 SonnetがSWE-bench基準テストでGPT-4oを超える成果を上げ、AIコード生成分野で注目を集めています。強化学習を活用したこのモデルは、開発者にとってより信頼性の高いプログラミングアシスタントとしての地位を

Claude 3.5 Sonnet 代码生成 Anthropic SWE-bench

2026年2月2日 612

SWE-bench に関するニュース

Cursor Composer 2が開発者の熱狂を巻き起こす：驚異的な性能の陰でKimi K2.5透明性危機に直面

Claude 3.5 Sonnet、SWE-benchのコーディング基準で首位に：72.7%のスコアでAIプログラミング分野をリード

Claude 3.5 Sonnetがプログラミングベンチマークでゲームチェンジ：49%の正確率でGPT-4oを凌駕し、開発者コミュニティを熱狂させる

Claude 3.5 Sonnetがコーディングテストで90%突破：AIプログラミング能力が人間レベルに接近

Claude 3.5 Sonnet、コーディングテストSWE-benchで90%超を達成、AI プログラミング能力が人間レベルへ

Claude 3.5 Sonnetのエンコーディング能力がSWE-benchで首位に：49%のスコアがGPT-4oを33%上回る

Claude 3.5 SonnetがSWE-benchでトップに：49%の正確率でGPT-4oを凌駕、開発者の生産性に新革命

Anthropic Claude 3.5 Sonnet登場：プログラミング基準でGPT-4oを20%リード、開発者コミュニティで話題沸騰

Claude 3.5 Sonnet、SWE-bench基準でリードし、コード生成能力がGPT-4oを超える