AIベンチマーク比較

146 件の記事 · ページ 1/8

AIモデルベンチマークはモデル選定の基盤です。主要なベンチマークにはMMLU、HumanEval、Chatbot Arena（LMSYS）、SuperCLUE、OpenCompassなどがありますが、多くは選択式問題やモデル相互評価に依存しており、実際の実行能力やハルシネーションリスクを検出できません。YZ指数は独立した第三者ベンチマークで、リアルコードサンドボックス実行、42組の誘導プローブによる誠実性評価、WDCD（Winzheng Dynamic Contextual Decay）指示遵守衰減テストの3つの次元を独自に備え、毎週18の主要モデルを全量評価しています。本トピックではベンチマーク方法論の比較、ランキング変動、詳細分析を収集しています。

レビュー Claude Opus 4.7 と Grok 4 が96.99点で並列首位：2026-07-07 Smokeクイックテストデータ速報

2026年7月7日のYZ Index Smokeクイックテストでは、11モデルを対象に評価を実施し、Claude Opus 4.7 と Grok 4 がともに96.99点で当日首位に並んだ。

Lab 4大モデル翻訳対決：第28週品質評価、gpt-o3が9点でトップ

今週318件の翻訳タスクを4つのモデルが担当。3件をサンプリングしてマルチモデルのブラインド評価を実施した結果、総合最優秀はgpt-o3（平均スコア9/10）となった。

レビュー豆包 Pro が83.91点で首位：2026-07-06 Smokeクイックテストデータ速報

2026-07-06のWinzheng YZ Index Smokeクイックテストでは11モデルを対象に評価が実施され、豆包 Pro が83.91点で当日首位を獲得した。

レビュー豆包 Pro と Gemini 3.1 Pro が88.54点で並列首位：2026-07-05 Smokeクイックテストデータ速報

2026-07-05のYZ Index Smokeクイックテストでは11モデルを対象に評価を実施し、豆包 Pro と Gemini 3.1 Pro が88.54点で当日首位に並んだ。

レビュー Qwen3 Max、メインランキングで12.9ポイント急落――コード実行は1日で26.8ポイント下落

YZ Index 2026年6月のSmokeテストにおいて、Qwen3 Maxのメインランキングスコアが84.92点から72.02点へ12.9ポイント下落し、特にコード実行ディメンションが96.30点から69.50点へ急落した。単日データのみでは模型の劣化を確認できないが、翌日の再テストが推奨されて

レビュー Qwen3 Max が主榜で12.9点急落、Gemini 2.5 Pro が96.99点でSmoke軽量榜をリード

YZ Index 2026年7月4日のSmoke軽量評価（11モデル対象）で、Gemini 2.5 Pro が主榜96.99点で首位を獲得。一方、Qwen3 Max は12.9点急落し72.02点に後退した。

レビュー Claude Sonnet 4.6、YZ Index Smokeランキングで15.3点急落――コード実行が1日で25点下落

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインランキングスコアが97.84点から82.52点へと1日で15.3点下落した。ただし、サンプル数の少なさによる抽選変動の可能性が高く、真のモデル性能低下とは判断しにくい状況だ。

レビュー Claude Opus 4.7、YZ Index Smokeテストでメインスコアが16点急落——コード実行が1日で27.2点低下

YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7のメインスコアが前日の100.00点から84.01点へ急落し、コード実行次元では100.00点から72.80点へ大幅に低下した。

Lab 4大モデル翻訳対決：第27週品質評価、claude-sonnet-4.6 が9点でトップ

今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。

レビュー Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアが96.45点から70.52点へと25.9点急落した。主な原因はコード実行ディメンションが100.00点から50.00点へと半減したことにある。

レビュー Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。

レビュー豆包Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

2026年6月28日のSmokeライト評価において、豆包Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落した。

レビュー 4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に50点規模の崖落ちが発生した。

レビュー Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

YZ IndexによるSmoke評価において、Qwen3 Maxの主榜スコアが85.96点から74.00点へと12点下落した。同時に誠実性評価がpassからfailへと転落したことが注目される。

Lab 4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6（平均スコア9/10）。

レビュー Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急落したことが唯一の主因となっている。

レビュー Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇

YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増の85.96点となり、モデル全体としての性能低下は確認されて

レビュー Qwen3 Max、メインランキングで19.2点急落――コード実行スコアが1日で31.2点下落

YZ Index 2026年6月の実測において、Qwen3 Maxのメインランキングスコアが前日の100点から80.82点へと19.2点下落した。主因はコード実行次元の31.2点急落であり、モデルの能力退化と断定するには単日データのみでは不十分としている。

レビュー GPT-5.5の実行スコアが50に急落、Gemini 3.1 Proは総合ランキングで28.3点減

2026年6月20日のSmoke軽量評価において、GPT-5.5の総合スコアが93点から72.5点に急落し、実行スコアが100点から50点へと半減した。Gemini 3.1 ProやGemini 2.5 Pro、文心一言4.5も同様に実行スコアが大幅に下落し、上位から下位へと順位を落とした。

レビュー豆包 Pro の材料制約スコアが15.9点急落——Smoke単日テスト異常の原因分析

YZ Index 2026年6月の実測において、豆包 Pro のSmokeテスト材料制約スコアが前日の100.00点から84.10点に急落した。本記事ではその原因がモデルの退化ではなくサンプル数の少なさによる統計的変動である可能性を解説する。