AIコーディング能力評価

108 件の記事 · ページ 1/6

どのAIモデルが最もコードを書けるのか？HumanEvalとMBPPは一般的なベンチマークですが、関数レベルの補完テストのみで、実際の開発シナリオとは乖離があります。YZ指数のコード実行次元（Execution）は、隔離されたサンドボックスでモデル生成の完全なプログラムを実行し、コンパイル通過率、ランタイムの正確性、エッジケース処理能力を検証します。モデル相互評価ではなく実際のコード実行検証を採用する数少ない独立ベンチマークの一つです。本トピックでは各モデルのコーディング能力ランキング、プログラミングツールの動向、AI支援開発の業界実践を追跡しています。

レビュー Qwen3 Max、メインランキングで12.9ポイント急落――コード実行は1日で26.8ポイント下落

YZ Index 2026年6月のSmokeテストにおいて、Qwen3 Maxのメインランキングスコアが84.92点から72.02点へ12.9ポイント下落し、特にコード実行ディメンションが96.30点から69.50点へ急落した。単日データのみでは模型の劣化を確認できないが、翌日の再テストが推奨されて

レビュー Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

YZ Index 2026年7月4日のSmoke軽量評価（11モデル対象）で、Gemini 2.5 Pro が主榜96.99点で首位を獲得。一方、Qwen3 Max は12.9点急落し72.02点に後退した。

レビュー GPT-5.5がコード実行満点86.95点でSmokeベンチマーク首位、制約面の弱点も露呈

2026年7月3日のSmoke軽量評価において、GPT-5.5がコード実行100点・素材制約71点の組み合わせで主ランキング86.95点を獲得し首位に立った。一方で、素材制約が現行モデル全般の共通課題であることも明らかになった。

レビュー Gemini 3.1 Pro が82.97点で首位、実行スコア75点で2位との差を広げる

YZ Index 2026年7月2日のSmoke軽量評価において、Gemini 3.1 Proが82.97点で1位を獲得。実行スコアが順位を左右する主要因となった。

レビュー豆包Pro SmokeテストのYZ Indexメインランキングが1日で18.6点急落――コード実行は38.8点下落

YZ Index 2026年6月の11モデル実測において、豆包Pro Smokeテストのメインランキングスコアがコード実行次元の急落により、前日比18.6点下落の67.32点を記録した。ただし他の次元は安定または上昇しており、モデル全体の能力に系統的な劣化は見られない。

レビュー Grok 4のSmoke評価でメインスコアが1日で15.3点急落、コード実行は31.4点下落

YZ IndexのSmoke評価において、Grok 4のメインスコアが97.98点から82.73点へと15.3点急落し、特にコード実行ディメンションが100.00点から68.60点へと31.4点の大幅下落を記録した。ただし、少数サンプルによる抽選の統計的特性が影響している可能性が高い。

レビュー Claude Opus 4.7が94.82点で首位、Gemini 3.1 Proは32.2点急落

2026年7月1日のSmokeライト評価において、Claude Opus 4.7が94.82点でメインランキング1位を獲得。一方、Gemini 3.1 Proはメインランキングで32.2点の大幅下落を記録した。

レビュー Claude Sonnet 4.6、YZ Index Smokeランキングで15.3点急落――コード実行が1日で25点下落

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインランキングスコアが97.84点から82.52点へと1日で15.3点下落した。ただし、サンプル数の少なさによる抽選変動の可能性が高く、真のモデル性能低下とは判断しにくい状況だ。

レビュー Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7のメインスコアが前日の100.00点から84.01点へ急落し、コード実行次元では100.00点から72.80点へ大幅に低下した。

レビュー Gemini 3.1 Pro が98.47点で首位に、Claude の実行スコアが27.2点急落し72.8点のみに

YZ Index 2026年6月30日 Smoke 軽量評価において、Gemini 3.1 Pro が主榜98.47点で首位を獲得。一方、複数モデルで実行スコアの大幅下落が確認され、Claude Opus 4.7は27.2点減の72.8点に落ち込んだ。

Cursorのモバイルアプリが公開、AIコーディングエージェントをリモート操作

AIコードエディターCursorがモバイルアプリを正式リリースし、開発者が実行中のコーディングエージェントをスマートフォンやタブレットからリモートで監視・制御できるようになった。この動きはAIプログラミングツールのインタラクション場面をデスクトップからモバイルデバイスへと拡大するものだ。

レビュー豆包 Pro のSmoke評価メインランキングが13.8点急落、コード実行が100点から75点に直落

Winzheng のYZ Index 2026年6月の実測において、豆包 Pro のメインランキングスコアが98.61点から84.77点へと13.8点下落した。主な原因はコード実行次元の25点急落であり、モデル能力の全体的な劣化ではなく、抽選問題の難易度・タイプの変動による可能性が高い。

レビュー Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアが96.45点から70.52点へと25.9点急落した。主な原因はコード実行ディメンションが100.00点から50.00点へと半減したことにある。

レビュー Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。

レビュー Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。

レビュー Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点にとどまった。

レビュー Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した。単日の抽選による変動が主な原因とみられ、現時点ではモデルの

レビュー 4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に50点規模の崖落ちが発生した。

レビュー Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急落したことが唯一の主因となっている。

レビュー Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

YZ Index 2026年6月の実測において、Qwen3 Maxのメインランキングスコアが前日の100点から80.82点へと19.2点下落した。主因はコード実行次元の31.2点急落であり、モデルの能力退化と断定するには単日データのみでは不十分としている。