4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

2026年6月22日 45 約6分 Translation Quality Report

翻译质量 AI模型对比 passthrough deepseek-v4-pro gpt-o3 claude-sonnet-4.6

今週 393 件の翻訳タスクを、4 つのモデルが担当。3 件をサンプリングして複数モデルによるブラインド評価を実施し、総合最優秀は claude-sonnet-4.6（平均スコア 9/10）。

今週の翻訳統計

モデル	言語	翻訳量	平均処理時間	平均品質スコア
deepseek-v4-flash	en	72	14s	未評価
claude-sonnet-4.6	ja	196	33s	未評価
passthrough	en	123	0s	未評価
native-english	en	1	-	未評価
deepseek-v4-flash	zh	1	10.7s	未評価

サンプリング比較評価

評価 1：Siri AIを実際に試した：対話型インテリジェントアシスタントの全く新しい進化

モデル	正確性	流暢性	用語	可読性	総合点
passthrough	2	6	7	3	3
deepseek-v4-pro	8	8	8	8	8
gpt-o3	9	9	9	9	9

passthrough

✓ 原文の一部英語リンクと構造が保持されている

✗ 深刻に不完全で、大量のHTMLコードと未翻訳コンテンツが混在しており、「Since <a href=」の箇所で唐突に切断されている

deepseek-v4-pro

✓ 「"あなたが聞いて私が答える"から"あなたの気持ちを読み取る"へ」という意訳が自然で流暢

✗ 冒頭にJSON形式の痕跡が現れ、全体の一貫性を損なっている

gpt-o3

✓ 段落のつながりと引用の処理が最も明確で、「Siri AI is no longer just a tool for executing commands」の翻訳も正確かつ自然

✗ ごく一部の長文が若干堅苦しい表現になっている

結論：gpt-o3版が全体的に最優秀、deepseek-v4-pro版がそれに次ぐ、passthrough版は参考価値なし

評価 2：Claude Fable 5とMythos 5が6月12日に世界同時提供停止　本人確認要件とプライバシー論争が併存

モデル	正確性	流暢性	用語	可読性	総合点
claude-sonnet-4.6	9	8	9	9	9
deepseek-v4-pro	8	7	8	7	7
gpt-o3	9	9	9	9	9

claude-sonnet-4.6

✓ 全文の構造が完全で段落のつながりが自然、「官方アナウンスによると」が原文の公式説明に直接対応しており論理が明確。

✗ 一部の長文が若干冗長で、例えば「この要件が一部地域でのユーザー離れを直接引き起こした」はさらに簡潔にできる。

deepseek-v4-pro

✓ 「脱獄プロンプト」などの用語が統一して使用されており、「販売中止」もビジネスの文脈で原文の「下架」の意味に近い。

✗ JSON形式で本文が包まれており、結末が明らかに切断されている。「クリエイティブおよびプロトタイピングのシナリオでは」が未完成で、可読性に影響している。

gpt-o3

✓ 言語が最も自然で、「段階的リリース」と「連携経路を直接中断させた」の表現が地道かつ原文に忠実、「提供停止」が全文を通じて一貫性が高い。

✗ 同様に結末の切断問題があり、「クリエイティブ用途やプロトタイプ開発のシナリオで」が未完成。

結論：バージョンAとバージョンCは全体的な品質が近くバージョンBより優れており、流暢性と用語の一貫性でわずかに優るバージョンCを優先推奨。バージョンBはフォーマット問題と切断があるため使用を推奨しない。

評価 3：流出した財務報告書でOpenAIが年間数十億ドルの赤字を計上していることが判明

モデル	正確性	流暢性	用語	可読性	総合点
passthrough	9	10	9	9	9
deepseek-v4-pro	7	8	7	8	7
gpt-o3	8	9	8	9	8

passthrough

✓ 原文の英語報道をそのまま使用しており、言語が自然で流暢。「newly leaked financial documents show a company with quickly growing revenues」が収益成長と赤字の対比を正確に伝えている。

✗ コンテンツが深刻に切断されており、完全な段落とその後の分析が欠けているため情報が不完全。

deepseek-v4-pro

✓ 構造が明確で、「Losses exceed expectations」などの小見出しや引用が追加されており読みやすい。

✗ 数字の誤りや過剰な意訳があり、例えば原文に記載のない「40% revenue increase」が追加されている。

gpt-o3

✓ 用語が統一されており引用の翻訳も自然で、「You either choose scale or you are out」の原意が適切に保持されている。

✗ 一部の表現が若干硬く、R&D支出の割合に関する記述が原文の細部と若干の乖離がある。

結論：バージョンAは原報道に最も近いが不完全、バージョンCは全体的なバランスが良好、バージョンBには明らかな数字の誤訳と追加内容があるため、CまたはAの完全版を優先使用することを推奨。

4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週の翻訳統計

サンプリング比較評価

評価 1：Siri AIを実際に試した：対話型インテリジェントアシスタントの全く新しい進化

passthrough

deepseek-v4-pro

gpt-o3

評価 2：Claude Fable 5とMythos 5が6月12日に世界同時提供停止 本人確認要件とプライバシー論争が併存

claude-sonnet-4.6

deepseek-v4-pro

gpt-o3

評価 3：流出した財務報告書でOpenAIが年間数十億ドルの赤字を計上していることが判明

passthrough

deepseek-v4-pro

gpt-o3

関連記事

評価 2：Claude Fable 5とMythos 5が6月12日に世界同時提供停止　本人確認要件とプライバシー論争が併存