3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ

3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ

今週は 270 件の翻訳タスクが 3 つのモデルによって完了されました。2 件をサンプリングして複数モデルのブラインド比較評価を実施。総合最優秀:gpt-o3(平均9/10)。

今週の翻訳統計

モデル言語翻訳量平均所要時間平均品質スコア
deepseek-v4-flashen7611.8秒未評価
claude-sonnet-4.6ja18835.4秒未評価
claude-sonnet-4.6en221.4秒未評価
native-englishen2-未評価
deepseek-v4-flashzh29.5秒未評価

サンプリング比較評価

評価1:『未来の真相』著者がAI使用について問われ、気まずい場面に

モデル正確性流暢性用語可読性総合点
claude-sonnet-4.687877
deepseek-v4-pro98988
gpt-o389899

claude-sonnet-4.6

✓ 「AI生成の引用を大量に使用したとして批判の的となった」などの表現は原文の批判的なトーンに即している

✗ 段落末尾に明らかな切れが発生し、内容が不完全で可読性に影響

deepseek-v4-pro

✓ 「組織的な偽造が存在するとき」などの表現は論理が明確で、用語「生成型AI」の使用も一貫している

✗ 一部の長文がやや硬く、「技術応用の不安にさらされている」などにわずかに翻訳調が残る

gpt-o3

✓ 「インタビュー中に自ら露呈した問題」という小見出しの処理が自然で、段落の繋がりも流暢

✗ 少数の表現が原文から若干逸脱、「急速に普及して以降」など時間表現にわずかな調整が見られる

結論:3バージョンの全体的な品質は近いが、C版が流暢性と可読性で最も優れ、B版は正確性と用語の一貫性で優位、A版は切れ問題により最も弱い

評価2:YouTubeがAI生成動画を自動的にラベル付け、ただし抜け穴も

モデル正確性流暢性用語可読性総合点
claude-sonnet-4.687988
deepseek-v4-pro98888
gpt-o399999

claude-sonnet-4.6

✓ 「生成型動画モデルのSora、Runwayなど」といった用語の翻訳が正確かつ専門的で、原文の技術的詳細を保持している。

✗ 一部の文が長すぎてやや読みづらい、特に第1段落末尾の従属節の重なりなど。

deepseek-v4-pro

✓ タイトル翻訳「YouTubeはAI生成動画を自動的にラベル付けするが、依然として抜け穴が存在する」が原文の意味に直接対応し、簡潔で正確。

✗ 一部の表現がやや硬く、「能動的な申告」は「自主申告」ほど自然ではない。

gpt-o3

✓ 引用部の翻訳「私たちは、AI動画の境界線が曖昧になりつつあることを認識しています」が流暢で自然、論理的繋がりも明確。

✗ 一部の用語がやや堅め、「プロダクトマネジメント責任者」はさらに簡潔にできる余地がある。

結論:3バージョンの全体的な品質は近いが、gpt-o3が流暢性と可読性でやや勝り、claude版は用語が最も専門的、deepseek版はタイトルが最も原文に忠実。いずれも末尾の切れ問題が存在する。