注目記事

3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード

今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。

1時間前 42 閲覧
続きを読む

YZ指数ダッシュボード

完全ランキングを見る →
総合ランキング Top 5
  1. 1 Claude Sonnet 4.6 83.0
  2. 2 豆包 Pro 81.3
  3. 3 Grok 4 81.0
  4. 4 Claude Opus 4.7 80.0
  5. 5 Gemini 2.5 Pro 79.0
WDCD 守約 Top 5
  1. 1 GPT-5.5 71.7%
  2. 2 Qwen3 Max 67.5%
  3. 3 Claude Opus 4.7 66.7%
  4. 4 GPT-o3 65.8%
  5. 5 Gemini 2.5 Pro 64.2%
今週の変動
  • Grok 4 +10.0pt
  • GPT-5.5 +9.2pt
  • Gemini 2.5 Pro +14.2pt
  • 文心一言 4.5 -7.5pt
  • GPT-o3 严格题"SQL:连续登录天数"从满分跌至
  • GPT-o3 严格题"Debug:矩阵旋转"从满分跌至

最新ニュース

すべて見る