AIコーディング能力評価

44 件の記事 · ページ 1/3
どのAIモデルが最もコードを書けるのか?HumanEvalとMBPPは一般的なベンチマークですが、関数レベルの補完テストのみで、実際の開発シナリオとは乖離があります。YZ指数のコード実行次元(Execution)は、隔離されたサンドボックスでモデル生成の完全なプログラムを実行し、コンパイル通過率、ランタイムの正確性、エッジケース処理能力を検証します。モデル相互評価ではなく実際のコード実行検証を採用する数少ない独立ベンチマークの一つです。本トピックでは各モデルのコーディング能力ランキング、プログラミングツールの動向、AI支援開発の業界実践を追跡しています。
プログラミングの未来は到来した:AnthropicがClaudeでAIコーディングの新パラダイムを提示
AnthropicがロンドンでClaudeを活用した開発者イベント「Code with Claude」を開催し、AIがコーディングパートナーとして担う役割と、プログラミングの未来像を示した。AIは単なるコード補完ツールから「同僚」へと進化し、開発者の役割そのものを変えつつある。
2026/05/22
レビュー Gemini 3.1 Pro メインボードで8.5点の急落、コード実行が9.5点の暴落 抽選か退化か
Gemini 3.1 Pro は本日の Smoke 評価でメインスコアが8.5点下落し、コード実行次元は66.70から57.20へと急落しました。サンプル数の少なさによる変動か、それとも実質的な能力低下なのかを分析します。
2026/05/22
レビュー Smoke簡易テスト:豆包Pro実行スコア100点で独走、9モデル主要ランキングで30点以上の大幅下落
本日のSmoke簡易評価で豆包Proが91.23点で首位を独占し、コード実行で100点満点を獲得。一方、他の主要モデルは実行スコアが軒並み崩壊し、Gemini 2.5 Proなど9モデルが主要ランキングで30点以上の大幅下落となった。
2026/05/22
AnthropicのCode with Claude:プログラミングの未来は到来、あなたは準備できているか?
Anthropicがロンドンで開催した開発者イベント「Code with Claude」では、Claudeモデルが実際のコーディングシーンでどのように進化しているかが披露され、AIプログラミングの未来像が示された。同時にAI編集ツール市場の激化と、プログラマーの役割変革も議論された。
2026/05/22
レビュー 豆包Pro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か?
豆包Pro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。
2026/05/21
レビュー Grok 4 が98.34点で首位獲得、Claude Opus はメインランキングで31.3点の大暴落
Smoke 10問クイックテストで Grok 4 が98.34点で首位を獲得し、コード実行は満点を達成。一方 Claude Opus 4.7 は前日から31.3点も下落し、モデル間の実行能力の差が顕著に表れた。
2026/05/21
Google Gemini 3.5 Flash:チャットボットではなく、AIエージェントに賭ける
Googleは2026年のI/O開発者会議でGemini 3.5 Flashを発表し、自律的にソフトウェアを構築できるAIエージェント能力を強調した。これはAIが「補助ツール」から「代替開発者」へと進化する重要な転換点を示している。
2026/05/20
レビュー Claude Opus 4.7メイン指標が22.6点急落、コード実行は100点から半減
Claude Opus 4.7は本日のSmoke評価でメイン指標が93.48点から70.93点へと一日で22.6点下落し、コード実行次元が満点100点から50点へと半減したことが主な要因となった。
2026/05/19
レビュー Grok 4が97.44点で首位、GPT-o3はメインランキングで28点暴落
Smokeの10問クイックテストでAIモデルの実行能力の弱点が浮き彫りに。Grok 4が97.44点で首位に立つ一方、GPT-o3は昨日から28.1点暴落した。
2026/05/19
一般人でもVibe Codeを使いこなせる?私はClaudeとデータベースを作ってみた
自然言語とAIの協働によるプログラミング手法「Vibe Code」を、自称「普通のユーザー」である筆者がClaudeと共に試し、日常のささやかな不満を記録するデータベースを構築した体験記。技術的ハードルは下がったが、要件を明確に伝えることの難しさが新たな課題となった。
2026/05/18
レビュー 11個のAIが同じSQL連続ログイン問題に挑戦:8個が満点、3個が完全崩壊
同じSQL連続ログイン問題で、11個の主流モデルが2つの陣営にはっきり分かれた。8個は完全に正しい回答を出した一方、3個は完全に崩壊した。
2026/05/18
レビュー 11モデルが同じSQL定着率問題に挑戦:9社が0点、DeepSeekとGrokのみ66.7点
YZ Index v6のコード実行テストにおいて、「SQL:月次定着率Cohort」という問題で11モデルの実力差が明らかになった。9モデルが0点を取り、DeepSeek V4 ProとGrok 4のみが66.7点を獲得した。
2026/05/18
レビュー 11個のAIが同じSQL問題に回答:3つが直接0点、ClaudeとGPTはなぜ崩壊したのか
11個の主要AIモデルが同一のSQL集約クエリ問題に直面し、明確な実行格差が現れた。8モデルが60点を獲得した一方、Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3の3モデルは日付構文とMySQL方言の互換性問題で0点となった。
2026/05/18
レビュー 今週11モデルが大幅入れ替え:新星Qwen3 Maxが68.5点で参入 ベテラン75点組が集団退場
YZ Index v6メインボードで6つの旧モデルが一斉に退場し、5つの新モデルが同時に参入。1週間でトップ10の構図が大規模に入れ替わりました。
2026/05/18
レビュー Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減
本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。
2026/05/18
レビュー Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減
Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。
2026/05/18
レビュー GPT-5.5メインランキング28点急落:本当に退化したのか
GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。
2026/05/16
レビュー 3モデルが28分急落、Claudeは依然ほぼ満点
5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。
2026/05/16
OpenAIがCodexのスマートフォン対応を発表、プログラミングアシスタントが常時オンラインに
OpenAIは2026年5月15日のアップデートで、AIプログラミングモデルCodexがスマートフォン版に対応することを発表した。これによりプログラミング支援はハードウェアの制約から解放され、開発者は移動中や隙間時間でも柔軟にワークフローを管理できるようになる。
2026/05/15
Clawdmeter:Claude Codeの使用データをリアルタイム表示するデスクトップ小型ダッシュボード
Anthropic社のClaude Code向けに、Token消費量や費用などの使用データをデスクトップ上の小型ダッシュボードでリアルタイム可視化するオープンソースツール「Clawdmeter」が登場し、開発者の「データ不安」を解消するツールとして注目を集めている。
2026/05/15