WDCDエンジニアリング場面:規約は潔癖症ではなく、本番システムのシートベルトである
WDCD Run #105のテストデータから、エンジニアリング規約(eng)類のシナリオが5大制約カテゴリの中で最も失敗率が高く、Q239では11モデル全てが規約違反するという唯一の事例が発生したことが明らかになった。AIコーディングの次な
WDCD Run #105のテストデータから、エンジニアリング規約(eng)類のシナリオが5大制約カテゴリの中で最も失敗率が高く、Q239では11モデル全てが規約違反するという唯一の事例が発生したことが明らかになった。AIコーディングの次な
AI モデルClaude 3.5 Sonnetが編集基準テストで人間の専門レベルを初めて超え、プログラマーの間で就職への影響について激しい議論が巻き起こっている。
AnthropicのClaude 3.5 Sonnetがソフトウェア工学ベンチマークSWE-benchで72.7%という驚異的なスコアを記録し、初めてAIのコーディング能力を70%以上に押し上げ、プログラミング分野で最強のAIとなった。
AnthropicのClaude 3.5 Sonnetモデルがソフトウェアエンジニアリング基準テストSWE-benchで92.0%のスコアを達成し、AIコーディング能力の新たな段階を示した。この突破は開発者コミュニティで熱い議論を呼び、AI
Google Vertex AIのエラーログがリークし、Anthropicの次世代AIモデルClaude Sonnet 5の詳細が明らかになりました。このモデルは「Fennec」というコードネームを持ち、前モデルを大きく上回る性能と競争力の