注目記事

3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード

今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。

2時間前 50 閲覧
続きを読む

YZ指数ダッシュボード

完全ランキングを見る →
総合ランキング Top 5
  1. 1 Claude Sonnet 4.6 83.0
  2. 2 豆包 Pro 81.3
  3. 3 Grok 4 81.0
  4. 4 Claude Opus 4.7 80.0
  5. 5 Gemini 2.5 Pro 79.0
WDCD 守約 Top 5
  1. 1 GPT-5.5 71.7%
  2. 2 Qwen3 Max 67.5%
  3. 3 Claude Opus 4.7 66.7%
  4. 4 GPT-o3 65.8%
  5. 5 Gemini 2.5 Pro 64.2%
今週の変動
  • Gemini 2.5 Pro -5.0pt
  • 豆包 Pro -5.7pt
  • Claude Sonnet 4.6 +8.2pt
  • GPT-o3 +18.1pt
  • GPT-o3 严格题"SQL:连续登录天数"从满分跌至
  • GPT-o3 严格题"Debug:矩阵旋转"从满分跌至

最新ニュース

すべて見る