AIベンチマーク比較
85 件の記事
· ページ 1/5
AIモデルベンチマークはモデル選定の基盤です。主要なベンチマークにはMMLU、HumanEval、Chatbot Arena(LMSYS)、SuperCLUE、OpenCompassなどがありますが、多くは選択式問題やモデル相互評価に依存しており、実際の実行能力やハルシネーションリスクを検出できません。YZ指数は独立した第三者ベンチマークで、リアルコードサンドボックス実行、42組の誘導プローブによる誠実性評価、WDCD(Winzheng Dynamic Contextual Decay)指示遵守衰減テストの3つの次元を独自に備え、毎週18の主要モデルを全量評価しています。本トピックではベンチマーク方法論の比較、ランキング変動、詳細分析を収集しています。
レビュー Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増
Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった。
レビュー Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇
本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。
レビュー Claude Opus 4.7、素材制約が17.6点暴落、コード実行は逆に11.9点上昇
Claude Opus 4.7は本日のSmoke評価で素材制約が98.3点から80.7点に急落した一方、コード実行は38.1点から50.0点に上昇。Anthropicによる安全性微調整の副作用である可能性が高い。
OpenAIがAIによるエルデシュ予想の自主解決を主張、数学者の検証後に真偽論争が激化
OpenAIが2026年5月20日に内部の汎用推論モデルが1946年のエルデシュ平面単位距離予想を改善する無限構造族を自主発見したと発表し、数学者が検証を完了。しかしWinzhengはexecutionとgroundingの観点から、形式化された証明と再現可能な検証環境の公開が必要だと指摘している。
レビュー 豆包Pro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か?
豆包Pro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。
レビュー Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か?
Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。
レビュー Gemini 2.5 Proがメインランキングで22.6点暴落、エンジニアリング判断は半減
Gemini 2.5 Proが本日のSmoke評価でメインランキング22.6点を失い、コア実行スコアは100点から95点に下落。サブランキングのエンジニアリング判断は66.7点から30点へ崩落し、誠実性評価もfailとなった。
レビュー 文心一言4.5の誠実性評価がFailに、コード実行は42.5点急騰も副榜で崩壊
文心一言4.5は本日のSmoke速報テストで、主榜の得点が小幅上昇したものの、誠実性評価がpassからfailに転落。コード実行は42.5点急騰した一方、工程判断と任務表現は崩壊的な下落を見せた。
レビュー Claude Opus 4.7メイン指標が22.6点急落、コード実行は100点から半減
Claude Opus 4.7は本日のSmoke評価でメイン指標が93.48点から70.93点へと一日で22.6点下落し、コード実行次元が満点100点から50点へと半減したことが主な要因となった。
レビュー 豆包Pro マテリアル制約が15.2点急落 Smokeテストが真の変動を露呈
豆包Proが本日のSmoke評価でマテリアル制約スコアが95点から79.8点へ15.2点急落し、メインランキングも97.75点から90.91点に下落した。原因は出題抽選による偶発性か、それともモデル能力の短期的退化か注目される。
レビュー 11個のAIが同じ論理問題を解く、5社が正解・6社が集団で誤答
4つの制約条件からなる順序推論問題で、11の大規模モデルをテストした結果、5社が正解、6社が誤答という結果に。多条件のチェーン推論能力における現状の真の実力が明らかになった。
レビュー 11モデルが同じSQL定着率問題に挑戦:9社が0点、DeepSeekとGrokのみ66.7点
YZ Index v6のコード実行テストにおいて、「SQL:月次定着率Cohort」という問題で11モデルの実力差が明らかになった。9モデルが0点を取り、DeepSeek V4 ProとGrok 4のみが66.7点を獲得した。
Lab 3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。
レビュー Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減
本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。
レビュー Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減
Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。
レビュー GPT-5.5メインランキングが23.5点暴落、豆包Pro 97.75点でSmokeトップ獲得
本日のSmoke軽量評価で豆包Proが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。
レビュー Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落
Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が注目される。
レビュー 7日間Smoke簡易テスト:文心一言が53点急騰、GPT-o3は-7.8で下落首位
今週7日連続のSmoke簡易テストで、文心一言4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。
レビュー GPT-5.5メインランキング28点急落:本当に退化したのか
GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。
レビュー Gemini 2.5 Pro が10ポイント下落:能力低下ではなく誠実性で躓く
Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。