YZ Indexの評価体制を刷新:GPT-5.5、Claude Opus 4.7、DeepSeek V4など7つの新モデルが同時に登場、9つの旧モデルが退役

2026年5月1日、YZ Indexは昨年の公開以来最大規模となる評価ラインアップの更新を完了した——一度に9つのモデルを入れ替え、7つの新たなフラッグシップを導入し、評価体系を基盤から世代交代させた。

これは通常のバージョン番号のアップグレードではない。過去1か月の間に、OpenAI、Anthropic、DeepSeek、Google、xAI、Alibaba、Baiduの7社のサービスプロバイダーが、ほぼ同時に世代的な飛躍を完了した。旧モデルは更新が停止されているか、APIがすでに新バージョンへリダイレクトされている。AIモデルの実際の性能を毎週追跡する評価システムであるYZ Indexは、昨年の選手を今年のコースで走らせ続けるわけにはいかない。

誰が去り、誰が来たのか

まず最大の変化から述べる:GPT-4oがYZ Indexの評価から退出する。

GPT-4oは昨年から現在まで、YZ Indexのベンチマークモデルの一つであり続けてきた。しかしOpenAIは過去1年でGPT-5、5.1、5.2、5.3、5.4を連続してリリースし、最新のGPT-5.5(2026年4月23日リリース)に至っている。GPT-4oを評価し続けることには、もはや参考価値がない——それはiPhone 12を持ち出して、iPhone 16世代の同業機と写真性能を比べるようなものだ。

同様の状況は、各サービスプロバイダーでも起きている:

  • Anthropic:Claude Opus 4.6 → Claude Opus 4.7。Sonnet 4.6はコストパフォーマンスラインの最新版として残留。
  • DeepSeek:V3とR1の2モデルをV4アーキテクチャへ統合。旧来のdeepseek-chatdeepseek-reasoner APIは、すでにdeepseek-v4-flashへリダイレクトされている。評価には新しいDeepSeek V4 Proを使用。
  • Google:Gemini 2.5 Proは維持しつつ、Gemini 3.1 Pro(プレビュー版)を新たに追加。これはYZ Indexが同一サービスプロバイダーの2世代のモデルを同時に評価する初のケースだ——私たちは、3.1がプレビュー段階でどの程度の実力を持つのかを見たい。
  • xAI:Grok 3 → Grok 4
  • Alibaba:Qwen Max → Qwen3 Max。通義千問はすでに第3世代へと反復されている。
  • Baidu:文心一言 4.0 → 文心一言 4.5
  • ByteDance:豆包 Proは変更なし。

なぜ一度にこれほど多く入れ替えるのか

AI業界の更新ペースは、もはや年単位ではなく、月単位で数えるものになっているからだ。

OpenAIは過去12か月で6つの大きなバージョン番号(GPT-5から5.5)をリリースした。ClaudeはOpus 4から4.7へと反復した。DeepSeekに至っては旧アーキテクチャを直接廃止した。もしYZ Indexが、各社の最強水準をすでに代表していないこれらの旧モデルを評価し続ければ、ランキングは歴史博物館になってしまう——半年前に誰が強かったかは教えてくれるが、今日の選定判断にはまったく役に立たない。

私たちの原則は非常にシンプルだ:ランキング上のすべてのモデルは、今日利用でき、使う価値のあるモデルであるべきだ。

新ラインアップはランキングにどう影響するのか

率直に言うと:初回データはやや未成熟なものになる。

YZ Indexは、単発の変動を平滑化するために5回のローリング平均を採用している。新モデルには過去データがなく、初回評価のランキングは完全に1回の性能に基づくため、高めに出る可能性も低めに出る可能性もある。ランキングが実際の安定した水準を反映するには、5週間連続で実行しきる必要がある。

これが、今回あえて本件を説明している理由でもある——もしある新モデルの順位が異常に高い、あるいは異常に低いのを見ても、急いで結論を出さないでほしい。5週間の時間を与えてほしい。

日常サービスも同期してアップグレード

今回の更新は評価ランキングだけに影響するものではない。WinzhengのすべてのAI駆動機能——ニュースシグナル発見、ファクトチェック、記事生成、翻訳、ソーシャルメディア分析——も、最新モデルへ同期して切り替えられた:

  • シグナル発見:Grok 4(リアルタイムXプラットフォーム検索)
  • ファクトチェック:Gemini 2.5 Pro(Google Grounding検証)
  • 記事執筆:Claude Sonnet 4.6(執筆品質が最優)
  • 低コストのバッチタスク:DeepSeek V4 Flash(コストは100万tokenあたり/bin/bash.5未満)

すべてのタスク設定は、統一されたAI管理センター(3層アーキテクチャ:サービスプロバイダー→モデル→タスク)を通じて集中管理される。今後のモデルアップグレードでは、バックエンドで1つのフィールドを変更するだけで、サイト全体のすべての機能が自動的に追随し、ファイルごとにコードを修正する必要はなくなる。

履歴データはどうなるのか

すべて保存される。退役モデルの過去の評価データ、週次変化の記録、インシデントレポートは、すべて完全にデータベース内に存在し、履歴記録からいつでも確認できる。YZ Indexはいかなる評価データも削除しない——これはデータの完全性に対する私たちのコミットメントである。

新ラインアップは次回の週次評価で初登場する。そのとき、トップページのランキングにまったく新しい名前が並ぶのを見ることになるだろう。

2026年のこれらの新たな選手たちのうち、いったい誰が真のオールラウンド王なのか、見届けよう。