5大モデル翻訳対決：第25週品質評価、passthroughが9点でトップ

2026年6月15日 42 約6分 Translation Quality Report

翻译质量 AI模型对比 claude-sonnet-4.6 deepseek-v4-pro gpt-o3 passthrough deepseek-v4-flash

今週 443 件の翻訳タスクを、5 つのモデルが担当。3 件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀：passthrough（平均点 9/10）。

今週の翻訳統計

モデル	言語	翻訳量	平均処理時間	平均品質スコア
deepseek-v4-flash	en	85	15.2s	未評価
claude-sonnet-4.6	ja	219	33.1s	未評価
passthrough	en	129	0s	未評価
native-english	en	5	-	未評価
deepseek-v4-flash	zh	5	17.1s	未評価

サンプリング比較評価

評価 1：シンクレアがXPrizeで全身若返り薬をテストへ

モデル	正確性	流暢性	術語	可読性	総合点
claude-sonnet-4.6	9	8	9	8	8
deepseek-v4-pro	8	9	8	9	9
gpt-o3	9	8	9	8	8

claude-sonnet-4.6

✓ 原文におけるシンクレアの「情報理論」に関する説明を正確に伝え、「我々は以前、マウスにおいて山中因子（Yamanaka factors）を短期間発現させることで」という引用を用いて科学的な詳細を忠実に保持している。

✗ 末尾が明らかに途切れており、「経口薬の生物学的利用能、ター」が未完成のまま終わっており、全体の可読性に影響している。

deepseek-v4-pro

✓ 言語表現が自然で流暢であり、例えば「これまでマウスで、山中因子（Yamanaka factors）を短期間発現させることで、心臓、肝臓、脳がより若くなることが確認されました」という一文は繋がりがスムーズである。

✗ 一部の術語翻訳がやや簡略化されており、例えば「エピジェネティック・リプログラミング」を「エピジェネティックリプログラミング」に統一して中点を省略しているなど、元の区切り符号が欠落している。

gpt-o3

✓ 原文タイトルの意味を正確に把握しており、「Sinclair氏、XPrizeで全身若返り薬を試験へ」というタイトルを使用し、構成が明確である。

✗ 一部の文がやや冗長であり、例えば「この方法は従来の遺伝子治療よりも安全で普及しやすい一方、より厳格な規制審査にも直面する」は論理的な接続がやや不自然である。

結論：3つのバージョンは全体的に品質が近く、いずれも原文に忠実で術語も正確だが、Bバージョンは流暢性と可読性でわずかに優り、Aバージョンは途切れの問題でやや劣る。

評価 2：無実の人を誤逮捕：米国最古の警察顔認識ツールが機能不全

モデル	正確性	流暢性	術語	可読性	総合点
passthrough	9	9	8	8	9
deepseek-v4-pro	6	7	7	7	6
gpt-o3	7	8	8	8	7

passthrough

✓ 最大の利点は原文の事件詳細を忠実に保持している点であり、例えば「Robert Dillon, a 52-year-old commercial crabber from Fort Myers」で人物の背景と逮捕経緯を完全に提示している。

✗ 最大の欠点はHTMLタグと不完全な段落が含まれている点であり、例えば末尾の「His mug shot stayed online for nearly a year,」が途切れており、全体の連続性に影響している。

deepseek-v4-pro

✓ 最大の利点は小見出し構造を追加している点であり、例えば「Case Details: A Faulty Match」により論理的な階層がより明確になっている。

✗ 最大の欠点は原文に記載のない「2025年」という時間情報を追加しており、過剰な付加であり誤解を招く可能性がある。

gpt-o3

✓ 最大の利点は引用表現が比較的自然である点であり、例えば「This tool is not a reliable method of identification」の翻訳が流暢で文脈に適している。

✗ 最大の欠点は同様に原文にない「2025」という時間的詳細を追加しており、かつ内容が途切れている点である。

結論：バージョンAが全体的に最高品質であり、原文の意味に最も近く言語も自然である。BとCはいずれも根拠のない追加と途切れの問題があり、推奨しない。

評価 3：NVIDIAとHyundaiがAI協力を深化、エンボディードインテリジェンスロボットの商業化が加速

モデル	正確性	流暢性	術語	可読性	総合点
deepseek-v4-flash	8	7	9	7	7
deepseek-v4-pro	9	8	9	8	8
gpt-o3	9	9	9	9	9

deepseek-v4-flash

✓ 「NVIDIA's Omniverse and Isaac platforms」などの術語は正確かつ専門的に使用されている。

✗ 末尾が突然「From an in」で途切れており、内容が不完全となっている。

deepseek-v4-pro

✓ タイトル翻訳「NVIDIA Deepens AI Collaboration with Hyundai」は簡潔かつ原文に忠実である。

✗ 一部の長文、例えば第二段落末尾がやや不自然で、軽微な翻訳調が見られる。

gpt-o3

✓ 「bringing embodied intelligence technology into real-world commercial deployment」という表現がより自然で流暢である。

✗ 原文と比べてわずかな拡張があり、例えば「real-world」の追加が見られるが、影響は軽微である。

結論：バージョンCが全体的に最優秀であり、流暢性と可読性が最も高く、次いでBが優れており、Aは途切れの問題により最も弱い。

5大モデル翻訳対決：第25週品質評価、passthroughが9点でトップ

今週の翻訳統計

サンプリング比較評価

評価 1：シンクレアがXPrizeで全身若返り薬をテストへ

claude-sonnet-4.6

deepseek-v4-pro

gpt-o3

評価 2：無実の人を誤逮捕：米国最古の警察顔認識ツールが機能不全

passthrough

deepseek-v4-pro

gpt-o3

評価 3：NVIDIAとHyundaiがAI協力を深化、エンボディードインテリジェンスロボットの商業化が加速

deepseek-v4-flash

deepseek-v4-pro

gpt-o3

関連記事