3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

2026年6月1日 356 約4分 Translation Quality Report

翻译质量 AI模型对比 claude-sonnet-4.6 deepseek-v4-pro gpt-o3

今週は 270 件の翻訳タスクが 3 つのモデルによって完了されました。2 件をサンプリングして複数モデルのブラインド比較評価を実施。総合最優秀：gpt-o3（平均9/10）。

今週の翻訳統計

モデル	言語	翻訳量	平均所要時間	平均品質スコア
deepseek-v4-flash	en	76	11.8秒	未評価
claude-sonnet-4.6	ja	188	35.4秒	未評価
claude-sonnet-4.6	en	2	21.4秒	未評価
native-english	en	2	-	未評価
deepseek-v4-flash	zh	2	9.5秒	未評価

✓ 「AI生成の引用を大量に使用したとして批判の的となった」などの表現は原文の批判的なトーンに即している

✗ 段落末尾に明らかな切れが発生し、内容が不完全で可読性に影響

✓ 「組織的な偽造が存在するとき」などの表現は論理が明確で、用語「生成型AI」の使用も一貫している

✗ 一部の長文がやや硬く、「技術応用の不安にさらされている」などにわずかに翻訳調が残る

✓ 「インタビュー中に自ら露呈した問題」という小見出しの処理が自然で、段落の繋がりも流暢

✗ 少数の表現が原文から若干逸脱、「急速に普及して以降」など時間表現にわずかな調整が見られる

結論：3バージョンの全体的な品質は近いが、C版が流暢性と可読性で最も優れ、B版は正確性と用語の一貫性で優位、A版は切れ問題により最も弱い

✓ 「生成型動画モデルのSora、Runwayなど」といった用語の翻訳が正確かつ専門的で、原文の技術的詳細を保持している。

✗ 一部の文が長すぎてやや読みづらい、特に第1段落末尾の従属節の重なりなど。

✓ タイトル翻訳「YouTubeはAI生成動画を自動的にラベル付けするが、依然として抜け穴が存在する」が原文の意味に直接対応し、簡潔で正確。

✗ 一部の表現がやや硬く、「能動的な申告」は「自主申告」ほど自然ではない。

✓ 引用部の翻訳「私たちは、AI動画の境界線が曖昧になりつつあることを認識しています」が流暢で自然、論理的繋がりも明確。

✗ 一部の用語がやや堅め、「プロダクトマネジメント責任者」はさらに簡潔にできる余地がある。

結論：3バージョンの全体的な品質は近いが、gpt-o3が流暢性と可読性でやや勝り、claude版は用語が最も専門的、deepseek版はタイトルが最も原文に忠実。いずれも末尾の切れ問題が存在する。